618ZXW

MiniMaxが4MBの超長コンテキストモデルをオープンソース化!DeepSeek-v3やGPT-400に匹敵するパフォーマンスを実現。

オープンソース モデル コンテキスト ウィンドウは巨大なサイズにまで拡大し、 400 万トークンに達しました。

ちょうど今、 「Big Six Little Strong Models」の1つであるMiniMaxが、最新のオープンソースモデルをリリースしました。

MiniMax-01 シリーズには、基本言語モデル MiniMax-Text-01 と視覚マルチモーダル モデル MiniMax-VL-01 の 2 つのモデルが含まれています。

MiniMax-01 は、従来の Transformer アーキテクチャに代わる新しいLightning Attention アーキテクチャの大規模な拡張を特徴とする最初のモデルであり、モデルが 400 万トークンのコンテキストを効率的に処理できるようにします。

ベンチマーク テストでは、MiniMax-01 はトップレベルのクローズド ソース モデルと同等のパフォーマンスを発揮します。

MiniMax-Text-01 のパフォーマンスは、最近人気の DeepSeek-V3 や GPT-4o に匹敵します。

下の図(c)に示すように、コンテキストが200,000トークンを超えると、MiniMax-Text-01の利点がますます明らかになります。

また、非常に長いコンテキストを処理する際に、事前パディングのレイテンシ、効率性の向上、レイテンシの低減という点でも大きな利点があります。

ネットユーザーたちは「信じられない!」と叫んだ。

オープンウェイト、コンテキストウィンドウは400万トークン!当初は、これはあと5年は実現できないかもしれないと思っていました。

公式声明によれば、MiniMax-01 は将来のエージェント関連のアプリケーションをサポートすることを目的としているとのことです。

これは、エージェントが拡張されたコンテキスト処理機能と永続メモリをますます必要とするようになったためです。

MiniMax-01の公式ドキュメントと68ページの技術論文が公開されました。MiniMax-01はHailuo AIにも導入されており、無料トライアルをご利用いただけます。

さらに、新しいモデル API の価格も引き下げられました。

100 万トークンあたり 0.20 ドルを入力し、100 万トークンあたり 1.10 ドルを出力します。

以下にモデルの詳細を記載します。

4Mの超ロングコンテキスト

ミニマックステキスト01

MiniMax-Text-01、パラメータ 456B、推論ごとに 45.9B がアクティブ化されます。

Lightning Attention、Softmax Attention、Mixture-of-Experts (MoE) を組み合わせたハイブリッド アーキテクチャを革新的に採用しています。

さらに、LASP+、varlen ring attention、ETP などの最適化された並列戦略と効率的な計算通信オーバーラップ方式により、MiniMax-Text-01 は最大 100 万トークンのコンテキストをトレーニングでき、推論中に最大 400 万トークンのコンテキストに拡張できます。

モデルアーキテクチャの詳細は次のとおりです。

Core Academic Benchmark では、MiniMax-Text-01 は GPQA Diamond で 54.4 のスコアを獲得し、GPT-4o を上回りました。

4M の針と干し草の山の長いベンチマーク テストでは、MiniMax-Text-01 はすべて緑色を示しました。

言い換えれば、MiniMax-Text-01 は、これら 400 万のコンテキスト内の詳細を 100% キャプチャできることになります。

さらに、長いコンテキスト入力に基づく論理的推論を含む、長いコンテキストを理解するモデルの能力をテストする LongBench v2 および Ruler ベンチマーク テストもあります。

MiniMax-Text-01 モデルは、Ruler の長いコンテキストの推論タスクの処理において大きな利点を示します。

64K入力レベルでのパフォーマンスは、GPT-4oやClaude-3.5-Sonnetなどの上位モデルとほぼ同等で、変動は最小限です。しかし、128Kから始まる段階では明確な優位性を示し、すべてのベンチマークモデルを上回ります。

LongBench-V2には、難易度の異なる質問応答タスクが含まれており、単一文書および複数文書、マルチターン対話、コードリポジトリ、長大な構造化データなど、複数のコンテキストタイプをカバーしています。チームは、CoTを使用しない場合(CoTなし)とCoTを使用する場合の2つのテストモードを検討しました。

MiniMax-Text-01 は、CoT ありの設定ですべての評価システムの中で最高の結果を達成し、CoT なしの設定でも非常に優れたパフォーマンスを発揮しました。

研究チームはまた、MTOB (1冊の本からの機械翻訳)データセットを使用して、コンテキストから学習するモデルの能力を評価しました。

このタスクでは、モデルが英語とカラマン語(公開データでの利用が非常に限られている言語)を翻訳する必要があったため、トレーニング コーパスでは、LLM は文法書の一部と 375 の翻訳例のみから言語を学習しました。

テスト結果によると、MiniMax-Text-01は文脈自由シナリオにおいてeng→kalam(ChrF)スコアが最も低いことが示されました。研究チームは、他のモデルが学習前または学習後のデータセットにkalam関連データを追加した可能性があると考えています。差分半冊および全冊データセットでは、MiniMax-Text-01は他のすべてのモデルを上回りました。

MiniMax-Text-01 は、kalam→eng(BLEURT) スコアでも他のモデルと同等のパフォーマンスを発揮します。

ミニマックス-VL-01

MiniMax-VL-01 は、マルチモーダル大規模言語モデルで一般的に使用される「ViT-MLP-LLM」フレームワークを採用しています。

  • 視覚エンコーディングには、3億300万個のパラメータを持つ ViT が使用されます。
  • 画像適応には、ランダムに初期化された 2 層 MLP プロジェクターが使用されます。
  • そして、ベースLLMとしてMiniMax-Text-01

MiniMax-VL-01 はダイナミック解像度機能を備えており、サムネイルは 336×336 のまま、336×336 から 2016×2016 まで、事前に設定されたグリッドに従って入力画像のサイズを調整できます。

調整された画像は、同じサイズの重複しないブロックに分割されます。これらのブロックとサムネイルは個別にエンコードされ、その後結合されて完全な画像表現が形成されます。

MiniMax-VL-01の学習データには、タイトル、説明、説明文が含まれています。ViTは、6億9,400万件の画像とタイトルのペアを用いてゼロから学習されました。学習プロセスの4つのフェーズで、合計5,120億トークンが処理されました。

最終的に、MiniMax-VL-01 はマルチモーダル リーダーボードで非常に優れたパフォーマンスを発揮し、複雑なマルチモーダル タスクの処理における利点と信頼性を実証しました。

ネットユーザーたちはすでに現実世界でのテストの第一波を開始している。

新しいモデルがHailuo AIに導入されたことを知ると、ネットユーザーたちは急いでそれをテストした。

一部のネットユーザーは同じプロンプトを使用してGeminiとO1と比較し、MiniMax-01のパフォーマンスが印象的だと称賛しました。

次のテストも失敗しました:

英語の綴りに文字「e」を含まない奇数を 5 つ教えてください。

興味のある方は今すぐプレイを始めてください。

技術論文: https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

参考リンク:[1]https://x.com/MiniMax_AI/status/1879226391352549451 [2]https://huggingface.co/MiniMa... [3]https://huggingface.co/MiniMa...