|
国内の大型モデルが初めて公開ランキングでGPT-4oを上回りました! ちょうど今、「六大強モデル」の1つである0150が、新しいフラッグシップモデルであるYi- Lightningを正式にリリースしました。 チャットボットアリーナでは、Yi-Lightning のパフォーマンスが総合リーダーボードで6 位タイ、数学リーダーボードで 3 位タイに急上昇し、コードなどの他のリーダーボードでも上位にランクされました。 その全体的なパフォーマンスは、マスク氏の最新のxAI大型モデルGrok-2-08-13とほぼ同等であり、GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnetなどのトップクラスモデルを上回っています。 一方、中国の清華大学傘下の大型模型会社Zhipu AIのGLM-4-Plusも総合ランキング9位にランクインした。 ランキング結果は、世界中のユーザーによって実施された 1,000 万回以上のブラインド テストに基づいています。 Big Model Arena は最近ルールを更新し、新しいリーダーボードでは AI 応答の長さやスタイルなどの機能の重み付けが削減され、スコアがモデルの実際の問題解決能力をより適切に反映できるようになりました。 Lmsys チームは、Yi-Lightning の躍進について特に投稿し、これをこの分野の大きなニュースと呼びました。 大型モデル部門総合6位、国内モデル部門1位。大型モデルアリーナ部門のランキングで「競技状況」を詳しく見てみると、Yi-Lightning があらゆる面で高い評価を得ていることがわかります。 中国語の能力では、国産大型モデルであるYi-LightningとGLM-4-Plusがともにトップクラスである。 Yi-Lightningはo1-miniとほぼ同等の2位に躍り出ました。 数学的能力の点では、Yi-Lightning と Gemini-1.5-Pro-002 は、o1-preview と o1-mini に次いで 3 位タイです。 Yi-Lightningはコーディング能力で4位にランクされています。 さらに、Yi-Lightning は、ハード プロンプトと長いクエリのサブチャートの両方で 4 位にランクされました。 最後に、新しいアリーナ機能であるスタイル コントロール フィルタリングも注目に値します。この機能により、派手な形式を使用したり、回答の長さを増やしたりするのではなく、モデルの真の問題解決能力がスコアに反映されます。 長さやスタイルなどの特徴量の重み付けを減らした後、すべてのモデルのスコアは低下しました。Yi-Lightningのランキングは大きな変化はなく、GPT-4oやGrok-2と同等の水準を維持しています。 記者会見では、Yi-Lightningの創設者兼CEOである李開復博士が、さまざまなシナリオにおけるYi-Lightningの機能を実演しました。 Yi-Lightning の主なセールスポイントは、「推論速度の高速化と生成品質の向上」です。 今年上半期のYi-Largeと比較すると、Yi-Lightningの初弾速度は2倍になり、推論速度も40%向上しました。 下記のような文学作品を翻訳する場合、Yi-Lightning は高速なだけでなく、 さらに、表現がより正確で、より文学的な感じがします。 それで、Yi-Lightning はどうやってこれを実現するのでしょうか? 使いやすく、非常に高速である必要があります。Yi-Lightning はMoEハイブリッド エキスパート モデル アーキテクチャを採用しています。 基盤技術レベルでは、Yi-Lightning は以下の点で改善を実現しました。 最初のステップは、モデルの一部のレイヤーのみで従来の完全なアテンションをスライディング ウィンドウ アテンションに置き換えることにより、ハイブリッド アテンション メカニズムを最適化することです。 その結果、このモデルは長いシーケンスデータの処理において高いパフォーマンスを保証するだけでなく、推論コストを大幅に削減することもできます。 Yi-Lightning では、Cross-Layer Attention (CLA) も導入されており、これによりモデルは異なるレイヤー間でキーと値のヘッダーを共有できるようになり、ストレージ要件が削減されます。 これにより、Yi-Lightning はさまざまなレベル間で情報をより効果的に共有できるようになります。 要約すると、KV キャッシュは 2 ~ 4 倍小さくなり、計算の複雑さは O(L²) から O(L) に削減されます。 第二に、Yi-Lightning は動的 Top-P ルーティング メカニズムも採用しています。 つまり、Yi-Lightning は、タスクの難易度に基づいて、最適なエキスパート ネットワークの組み合わせを動的かつ自動的に選択できます。 トレーニング中は、すべてのエキスパート ネットワークがアクティブ化され、モデルがすべての専門知識を学習できるようになります。一方、推論フェーズでは、モデルはタスクの難易度に基づいて、より適切なエキスパート ネットワークを選択的にアクティブ化します。 さらに、中国の大規模データモデルの「新星6人」の一部は、もはや事前学習を行っていないという噂が以前からありました。李開復博士は記者会見で、これらの噂を真っ向から否定しました。 ゼロワンシングスは事前トレーニングを決して諦めません。 さらに、モデルの事前学習段階では、チームは豊富な多段階学習手法を蓄積し、学習全体を2つの部分に分割しました。1つの部分が完了すると、その部分が固定され、その後の学習はこの固定モデル上で実行されました。 トレーニングの初期段階では、データの多様性に重点が置かれ、Yi-Lightning が可能な限り多くの異なる知識を学習できるようにします。トレーニングの後期段階では、より豊富なコンテンツと強力な知識コンテンツを持つデータに重点が置かれます。 一方で、チームはトレーニングの速度と安定性を確保するために、さまざまな段階で異なるバッチ サイズと LR スケジュールを使用しました。 李開復博士はまた、ゼロワンエブリシング開発モデルは「モデルベースの共同構築」、つまりモデルとインフラストラクチャの共同構築を重視していると述べました。 モデルのトレーニング、サービス、および推論設計は、基盤となる AIInfra アーキテクチャおよびモデル構造と高い互換性が必要です。 このアプローチの目的は、モデルを改善するだけでなく、推論の実行コストを削減することです。 前述の「コスト効率」を高めるすべてのテクノロジーを追加することで、Yi-Lightning は信じられないほど低価格になりました。 100万トークンあたり0.99元中国語などの分野では、Yi-Lightning は OpenAI の o1-mini に匹敵します。OpenAI の o1-mini の価格は、入力 100 万件あたり 3 ドル、出力 100 万件あたり 12 ドルです。 Yi-Lightning のオファーは、100 万トークンあたりわずか 0.99 人民元で、信じられないほど低いです。 しかし、李開復博士は、それでも損失は出ないだろうと語った。 01World は、新しいモデルのリリースに加えて、 AI 2.0 デジタル ヒューマンソリューションも発表しました。 このデジタルヒューマンは現在、Yi-Lightning と統合されており、リアルタイムのインタラクティブ効果が以前よりも強力かつ自然になっています。 https://www.toutiao.com/artic... 最後に、国際的なトップモデルとの差について議論した際、Kai-Fu Lee博士は、Yi-Lightningのランキングは、国内で生産された大規模モデルとシリコンバレーのトップモデルとの差が5か月に縮まったことを証明していると述べました。 アメリカのトップモデルに追いつき、タイムギャップを縮めることは極めて困難であり、多大な努力と独自の戦略が必要です。中国では多くの企業がこれに取り組んでいますが、「モデルベースの協働建設」は01500が独自に開拓してきた独自の道です。 参考リンク: [1]https://x.com/lmarena_ai/status/1846245604890116457 [2]https://x.com/01AI_Yi/status/1845776529185476613 |
国産大型模型アリーナが初めてGPT-4oを上回る!ゼロイチエブリシングGLMがトップ10入り。
関連するおすすめ記事
-
ウルトラマン:O1より賢いと思う人は手を挙げてください🤚 O2になってもまだそう思ってる?🤨 | OpenAI Developer Day
-
ジェンセン・フアン:私は市場シェアを気にしていません。Nvidia の唯一の目標は新しい市場を創造することです。
-
[Tritonチュートリアル] ベクトルの加算
-
殿下、文勝図の時代がまた変わりました!SDコアメンバーが起業し、最初のモデルであるFLUX.1がSD3やMidjourneyと熾烈な戦いを繰り広げています。
-
Baidu Search × DeepSeek!統合が正式に発表され、わずか24時間以内にフルバージョンがリリースされました。実際のテストはここから開始されます。
-
オープンソースと学術評価の相乗効果に関する短い議論 | CCCFハイライト