|
MIT のスタートアップが、Transformer に挑戦するLFM ( Liquid Foundation Model ) と呼ばれる新しいアーキテクチャ モデルを立ち上げ、話題になっています。 サイズの異なる 2 つのモデルLFM 1.3BとLFM 3Bは、Llama 3.2 などの同様のサイズの Transformer モデルよりも優れています。 LFMアーキテクチャは優れたスケーラビリティも備えており、チームはMoEをベースにしたLFM 40B(12Bの活性化パラメータ付き)もリリースしており、これはより大規模な高密度モデルやMoEモデルに匹敵します。 LFM は、第一原理から構築された液体ニューラル ネットワーク(LNN) を使用し、その計算ユニットは動的システム理論、信号処理、数値線形代数に基づいています。 このアーキテクチャには、メモリ効率の点で特に優れているという別の特徴もあります。 Transformer ベースの LLM のキー値キャッシュは長いコンテキストで大幅に増加しますが、LFM は 100 万のトークンを処理する場合でもメモリ使用量を最小限に抑えます。 小型で持ち運び可能なため、携帯電話に直接導入して文書や書籍を分析できます。 LFM モデルの背後には、MIT のコンピューター科学および人工知能研究所から発足したLiquid AIという小規模なチームがいます。 その後、トレーニング リーダーの Maxime Labonne が、X で自身のモデルを熱心に宣伝しました。 最先端(SOTA)のパフォーマンスを備えたこれら 3 つのモデルは、私のキャリアの中で最も誇りに思うバージョンです。 ベストセラーのAI関連書籍『Artificial Intuition』の著者も楽観的な見方を示した。 これはまさに、物理学やニューロンの「第一原理」に基づいた、私たちが待ち望んでいたモデルです。 LFM シリーズ モデルは現在プレビュー テスト中であり、Liquid 公式プラットフォーム、Lambda Chat、Perplexity AI からアクセスできます。 液体ニューラルネットワーク上に構築これら3つのモデルの性能と特徴を詳しく見てみましょう。 LFM 1.3B は、MMLU、MMLU-Pro、ARC-C、および GSM8K ベンチマークにおいて、以下の表の他のモデルと比較して最先端 (SOTA) のパフォーマンスを実現します。 LFM 3B は、Mistral 7B や Llama 3.1 8B の 2 倍の大きさのモデルにも匹敵します。 LFM 40B のパフォーマンスは、それよりも大きいモデルに匹敵し、MoE アーキテクチャにより、より高いスループットが可能になり、よりコスト効率の高いハードウェアに導入できます。 Transformer アーキテクチャと比較すると、LFM の大きな利点はメモリ フットプリントが低いことです。 この効果は長い入力に対してより顕著であり、TransformerベースのLLMではキーバリューバッファがシーケンス長に比例して増加します。入力を効果的に圧縮することで、LFMは同じハードウェアでさらに長いシーケンスを処理できます。 以下は、LFM 3Bと他の3Bレベルモデルとの比較です。LFM 3Bは常に小さなメモリフットプリントを維持できます。 100 万トークンを処理するには、 LFM 3B では 16 GB のメモリのみが必要ですが、Llama-3.2-3B モデルでは 48 GB 以上が必要です。 LFM コンテキストの有効長は32kです。 対応するスコアが 85.6 より高い場合、長さは「有効」であると見なされます (Hsieh et al.、2024 RULER)。 LFM 3B は、コンテキスト長 32k で依然として89.5という高いスコアを維持しています。 実験結果では、Llama 3.2 は 128k のコンテキスト ウィンドウを生成しましたが、効果があったのは 4k のみであり、これも注目を集めました。 さらに、LFM は構造化された演算子で構成されており、基本モデルに新しい設計空間が開かれます。 これは言語に限定されず、音声、時系列、画像などの他のモダリティにも適用できます。 また、適応性も高く、特定のプラットフォーム (Apple、Qualcomm、Cerebras、AMD など) 向けのアーキテクチャの最適化や、指定されたパラメータ要件と推論キャッシュ サイズの一致が可能になります。 Liquid AI チームは、現在の LFM モデルの長所と短所を直接リストアップしました。 LFM 言語モデルは現在、一般および専門的な知識タスク、数学的および論理的推論、および長いコンテキストのタスクに適しています。 主な言語は英語ですが、スペイン語、フランス語、ドイツ語、中国語、アラビア語、日本語、韓国語もサポートされています。 しかし、LFM 言語モデルは、ゼロショット コード タスク、正確な数値計算、タイムリーな情報には適しておらず、人間の好みの最適化技術はまだ広く使用されていません。 興味深いことに、Liquid AI チームは、LFMでは「Strawberry」の「r」の数をカウントしないことも明確に述べています。 ネットユーザーのテストによると、実際には機能しないようです😂。 LFM アーキテクチャに関するより技術的な詳細については、公式声明では技術ブログ投稿を引き続き公開する予定であると示されています。 その背後にいるチームはMIT CSAILの出身である。以下は、LFM モデルを支えるチームである Liquid AI の簡単な紹介です。 Liquid AI は、MIT のコンピューター科学および人工知能研究所からスピンオフした企業です。 目標は、あらゆる規模で強力かつ効率的な汎用人工知能システムを構築することです。 共同設立者は4人います。 CEO ラミン・ハサニ、MIT CSAIL AI 科学者、元ヴァンガード グループの主任 AI および機械学習科学者。 私の博士論文は液体ニューラルネットワークに焦点を当てており、ウィーン工科大学の Radu Grosu 教授と MIT の Daniela Rus 教授の共同指導を受けました。 CTO Mathias Lechner 、MIT CSAIL 研究員。 彼はウィーン工科大学でコンピュータサイエンスの学士号と修士号を取得し、オーストリア科学技術研究所 (ISTA) で博士号を取得しています。 私たちは、堅牢で信頼性の高い機械学習モデルの開発に重点を置いています。 最高科学責任者のアレクサンダー・アミニは、MIT でコンピューターサイエンスの学士号、修士号、博士号を取得し、数学を副専攻しました。 研究分野には、自律システムのエンドツーエンドの制御学習、ニューラルネットワークの信頼性定式化、人間の移動性の数学的モデリング、複雑な慣性改良システムの構築などが含まれます。 もう一人の共同設立者は、MIT CSAIL のディレクターであり、MIT 電気工学およびコンピューターサイエンス学部の Andrew & Erna Viterbi 教授でもある Daniela Rus 氏です。 Liquid AIは、第一原理に基づいた新世代の基礎モデルを構築するという使命を掲げて設立されました。深層信号処理と状態空間レイヤーに基づいて言語モデルを拡張するチームです。 事前にやるべき研究はたくさんあります。 興味のあるご家族はご自身でご確認いただけます: https://www.liquid.ai/blog/li... 新しいモデルに興味のある方は、こちらでテストできます: https://playground.liquid.ai/... 参考リンク: [1] https://x.com/LiquidAI_/status/1840768722665189596 [2] https://venturebeat.com/ai/mi... |
MIT CSAIL のスピンオフ チームによって第一原理に基づいて開発された、Transformer 以外の新しいアーキテクチャ モデルがヒットしました。
関連するおすすめ記事
-
2025 年の AI 携帯電話インタラクション エクスペリエンス: 話す、見る、考えることが可能。よりスマートで理解力の高い AI パートナーです。
-
将来を見据えると、openEuler はハブとなります。
-
deepseek が私にもたらした啓示: ゆっくり考えることとオープンソース。
-
SynthIDの目に見えない透かし機能をぜひお試しください!AI生成コンテンツをより細かく制御できます。600万件の音声ファイルを含む大規模な音声キャプションデータセットが利用可能になりました。
-
ロボタクシーは1日平均1万件の注文を受けており、第6世代の車両がまもなく導入されます!ロビン・リー:ロボタクシーは通勤手段として人気が高まっています。
-
成功!26年前の旧式の携帯電話で大規模モデルを実行!