618ZXW

Doubao 1.5 Pro がメジャーアップデート!他のモデルデータを使用せずに、MoE パフォーマンスが 7 倍向上。

春節前の一連の大型モデルアップデートは、ByteDance の関与もあってのもので、最新の追加はDoubao の新しい基本モデルです。

Doubao-1.5-pro

Doubaoの「優れた演技力」と実在の人物レベルの音声対話機能が話題になったばかりで、そのわずか1日後には基盤となるByteDanceも公開された。

基本モデルが利用可能になったことで、その開発チームは詳細な技術ブログ記事を公開しただけでなく、重要なポイントを個人的に強調しました。

  • MoE アーキテクチャは、少数のアクティベーション パラメータのみで世界クラスのモデル パフォーマンスを実現し、最大 7 倍のパフォーマンス向上を実現します。
  • データ生成システムは高度に自律的であり、他のモデルデータは使用しません。
  • マルチモーダル機能が全面的に改善されました。

さらに嬉しいことに、Doubao-1.5-proは正式発表と同時にリリースされ、Volcano Ark体験サイトも同時にオープンしました。Doubaoアプリではグレースケール版も公開されました。

何を待っているんですか?もちろん、すぐに手に入れて試してみます!

この技術ブログに続き、その背後にある技術的な詳細をさらに掘り下げていきましょう。さあ、読み進めてください!

あんまん1.5シリーズの実食結果です。

言葉は安い、商品を見せてください。

公式声明では、Doubao-1.5-proモデルは全体的な機能が大幅に強化され、知識、コード、推論、中国語言語を含む複数の権威あるベンチマークで最先端(SOTA)のパフォーマンスを達成したと述べています。

まず最初に、大規模モデル コミュニティで現在最も人気のある推論機能について見てみましょう。

推論能力テスト

まずは簡単な論理パズルから始めて、Doubao-1.5-pro がそれを処理できるかどうかを確認しましょう。

学校の食堂で深刻な食中毒が発生しました。原因としては4つの可能性が考えられます。
A: 事故の原因は期限切れの食品です。 B: 事故の原因が期限切れの食品であれば、食堂の管理者の監督が不十分だったに違いありません。 C: 事故の原因は確かに期限切れの食品でしたが、食堂の管理者の監督が不十分だったわけではありません。 D: 事故の原因は期限切れの食品ではなく、食堂の管理者の監督が不十分だったということです。

上記の 4 つのステートメントのうち 1 つでも当てはまる場合は、次のように結論付けることができます...
A. B は真実であり、食堂では監督が不十分です。
B. 記述Bが真実であれば、カフェテリアにおける監督が不十分であったことを示す証拠はない。
C. Aは正しい
D.Cは真である

Doubao-1.5-proの回答は次のとおりです。

思考プロセスは非常に明確で、答えも正確でした。

もう少し難易度を上げて、あんパンに計算を加えたらどうなるでしょうか?結果はどうなるでしょうか?

エイリアンが地球に到着した場合、初日に次の 4 つの行動のうち 1 つを選択する平等な機会が与えられます。
1. 自己破壊。
2. 2人のエイリアンに分裂する。
3. 3人のエイリアンに分裂する。
4.何もしない。
それぞれのエイリアンはその後毎日選択を行い、これらの選択は互いに独立しています。最終的に地球上にエイリアンがいなくなる確率を求めなさい。

Doubao-1.5-pro がどのように応答するかを見てみましょう。

同じプロンプトで、Claude 3.5 Sonnet は多くの出力をしますが、最終的な答えを出すときには失敗します。

Doubao-1.5-proもこの問題に問題なく合格しました。

Doubao-1.5-proモデル開発チームは、視覚や音声を含むマルチモーダル機能について「特別なトレーニング」を受けたと述べており、これは特筆すべき点です。最後に、画像ベース推論に関するもう1問試してみましょう。

Doubao と絵文字を使ってチャットするのは問題ないようです (doge)。

コーディング能力テスト

推論能力をテストした後は、プログラマーが最も重視するコーディング能力について見てみましょう。

最初の質問は、O1-Pro が即座に回答を拒否したとんでもない要求でした。

HTML コードのみを使用して古典的なゲーム Doom を再現します。

Doubao-1.5-proも次のように述べています。「これは無理だ。」

それにもかかわらず、Doubao-1.5-pro は依然として「カラフルな黒」を求める私たちのニーズを満たそうとし、積極的に解決策を提案しました。

HTML を CSS および JavaScript と組み合わせて使用​​することで、Doom スタイルの要素を含む簡略化されたミニゲームの例を作成できます。

このコードを実行すると、シンプルなシューティングゲームのインターフェースが作成されます。適切に動作させるには細かい調整が必要ですが、全体的なフレームワークは問題ありません。

エンドツーエンドの音声機能

マルチモーダル音声通信の面では、Doubao-1.5-proのサポートにより、Doubao APPはリアルタイム音声対話機能の新バージョンを全面的にリリースしました。

そこで、私たちは豆葭に華妃の口調を真似させて新年の挨拶を送りました。

ビデオアドレス

この模倣能力と理解能力をどのように評価しますか?

その他のモデル蒸留データは使用されませんでした。

一連のテストを経て、Doubao Large Model 1.5 Pro はまさに最終的なスターとしての評判に応え、全体的なパフォーマンスも期待を裏切りませんでした。

複数の公開ベンチマークテストでの印象的な結果は、より客観的な観点から Doubao-1.5-pro の現状を反映しています。

ご覧のとおり、Doubao-1.5-proは業界トップレベルに達しており、中国語機能に関してはGPT-4oやClaude 3.5 Sonnetなどの海外製大型モデルをも上回っています。

さらに、Doubao-1.5-proは、視覚や音声などのマルチモーダル機能においても顕著な成果を達成しました。

たとえば、視覚的推論タスクでは、Doubao-1.5-pro のパフォーマンスは GPT-4o よりも劣っていません。

注目すべきは、この新しいモデルのリリースに合わせて、Doubao Big Model チームが公式ブログでさらに技術的な詳細も公開したことです。

次に、重要なポイントを強調しましょう。

パフォーマンスレバレッジが7倍に増加

トークン使用量の面では、12月中旬時点でDoubaoビッグモデルの1日平均トークン使用量が4兆を超えており、Doubao APIとDoubao製品の推論需要が非常に大きいことが確認されました。

このため、Doubao チームは、モデルのパフォーマンスと推論コストのバランスをとるために、事前トレーニング段階から統合されたトレーニングと推論の設計を主張しました。

具体的には、Doubao-1.5-proはスパースMoEアーキテクチャを採用しています。チームはスパーススケーリング則の研究を通じて、性能と効率のバランスが取れたスパース比を決定し、MoEスケーリング則に基づいて、少数の活性化パラメータを持つモデルで世界クラスの性能を達成できることを突き止めました。

事前トレーニング段階では、少数のパラメータのみでアクティブ化された MoE モデルは、Llama3.1-405B などの超高密度事前トレーニング済みモデルよりも優れたパフォーマンスを発揮します。

一方、比較検証用の同じ部分トレーニング データ (9T トークン) では、MoE モデルは密なモデルの 1/7 のパラメータ数しか持たないにもかかわらず、密なモデルよりも優れたパフォーマンスを発揮し、パフォーマンス レバレッジが最大 7 倍向上しました。

これまで、この新しいパフォーマンスレバレッジの業界平均は3倍未満でした。例えば、IBMのGrantieシリーズモデルでは、800Mのアクティブ化MoEモデルの性能は、合計20億のパラメータを持つ高密度モデルの性能に近づき、パフォーマンス比は約2.5倍になります。

高効率なトレーニング後のプロセス

近年の大規模モデリングの取り組みで重点的に取り組まれているPostTrainingの領域では、Doubao大規模モデリングチームが高度に自律的なデータ生成システムを構築しました。

最も注目すべき点の 1 つは、他のモデルからの蒸留データが使用されず、データ ソースの独立性と信頼性が保証されていることです。

SFTフェーズでは、チームはアルゴリズム駆動型のトレーニングデータ最適化システムを開発しました。このシステムは、トレーニングデータの多様性最適化と人間の質問との正確なマッチングを網羅しています。自己進化モデル技術と組み合わせることで、データアノテーションの多様性と難易度を高め、モデル性能向上の好循環を生み出します。

報酬モデルについては、チームはプロンプトの配布最適化、応答フィルタリング、複数の反復、アクティブラーニングを含む完全なデータ生成パイプラインを確立しました。

この基盤を基に、数学、プログラミング、知識、対話などの複数の次元にわたるモデルの機能のバランスの取れた向上を実現するために、チームは Verlfier と報酬モデルを深く統合して、統一された報酬フレームワークを構築しました。

さらに、勾配選択と反復フィルタリング技術に基づいて、Doubao 大規模モデル チームは、わずか 25% のデータでほぼ完全なトレーニング結果を達成することができました。

強化学習(RL)フェーズでは、チームは価値関数の学習という課題を克服し、安定したトークン単位のモデリングを実現し、高難易度タスクにおけるパフォーマンスを10ポイント以上向上させました。さらに、対照学習手法を用いることで、モデルのパフォーマンスを効果的に向上させ、報酬ハッキング問題を大幅に軽減しました。スケーリングは、データ、アルゴリズム、そしてモデルの各レベルで完全に実装されました。

ByteDanceのA/Bテストに関する専門知識は、Doubaoの大規模モデルの学習後プロセス全体に組み込まれています。Doubaoの膨大なユーザーフィードバックに基づき、R&Dチームは問題発見、データマイニング、人間と機械の協働によるアノテーションから迅速な反復処理までを網羅する閉ループ最適化システムを構築し、ユーザーデータのフライホイールがモデルの実際のユーザーエクスペリエンスの向上に継続的に貢献することを保証します。

もう一つ

さらに、豆宝の公式アカウントは「深思考モード」に関する情報もさりげなく明らかにした。

R&D チームは、RL アルゴリズムとエンジニアリングの最適化におけるブレークスルーを通じて、他のモデル データを一切使用せずに、テスト時間のスケーリングによるコンピューティング能力の利点を活用して、Doubao Deep Thinking Model を実現しました。

チームは、RL が継続するにつれて、モデルの機能が継続的に向上していると述べています。

この過程で、推論能力がさまざまな分野で一般化され、知能の境界が徐々に広がっていくことも確認されました。

したがって、Doubaoの次のバージョンに期待できます。

豆宝の長期計画

Doubao 1.5 の背景にある技術的アプローチを要約すると、高効率と「近道なし」という 2 つのキーワードが浮かび上がります。

トップレベルのモデルを使用してデータを精製することは業界では公然の秘密であり、エンドユーザーでさえモデル A がモデル B であると主張するのを目にすることに慣れています。

OpenAI CEO のアルトマン氏自身も、O1 を複製することは O1 自体を達成することほど難しくないと示唆しています。

一方、技術革新の観点から見ると、0 から 1 に至ることは 1 から 100 に至ることよりもはるかに困難です。

一方、数多くの学術論文や業界の実践により、トップレベルのモデル データを精査することが、基本モデルをトレーニングするための「近道」とみなせることが実証されています。

もちろん、この近道には落とし穴がないわけではありません。

最初の問題はデータのセキュリティです。

他のモデルからデータを抽出することは、モデル開発者にとって本質的に制御不能なリスクを伴います。教師モデルに生じるバイアス、エラー、著作権の問題はすべて、生徒モデルに引き継がれる可能性があります。

さらに、この技術的アプローチにより、モデルのパフォーマンス上限が制限される可能性もあります。

最近、大規模モデリング業界を代表する起業家が同様の見解を示しました。つまり、自分のモデルを GPT の結果などの別のモデルと調整する必要がある場合、自分の能力にはある程度の制限が生じるということです。

したがって、豆宝が「他のモデルデータを一切使用しない」ことを公に強調していることは、国内の大型モデル製品をリードするための長期的な戦略計画を明らかにしている。

私たちは決して近道をせず、データソースの独立性、信頼性、そして制御可能性を確保します。より高度なインテリジェンスにおけるブレークスルーを長期的に追求する中で、プロセスの制御を強化していきます。

この独立した技術と長期主義のアプローチは、現在、市場から肯定的なフィードバックを受けています。

Volcano Engineの1日あたりのトークン消費量の平均月間複合成長率は60%を超え、2024年12月には1日あたりのトークン市場シェアが50%を超え、大規模市場におけるトップの商用トークンとなりました。

体験住所:
https://www.volcengine.com/

- 以上-