618ZXW

Shusheng·Puyuビッグデータモデルのアップグレード:思考密度の飛躍的向上、4Tのデータで学習した高性能モデル


「スケーリングの法則」の下では、大規模モデルは計算能力のボトルネックを克服する必要があるだけでなく、高品質なデータの枯渇という課題にも直面しています。 「汎用性と特化性の融合」という技術的アプローチを通じて汎用人工知能を実現する方法は、ますます業界のコンセンサスになりつつあります。

上海人工知能研究所は1月15日、Shusheng大規模モデルの大幅なアップグレードであるShusheng・Puyu 3.0(InternLM3)をリリースしました。改良されたデータフレームワークにより、データ効率が大幅に向上し、思考密度が飛躍的に向上しました。わずか4TBの学習データで、InternLM3-8B-Instructは同規模のオープンソースモデルを凌駕し、学習コストを75%以上削減します。さらに、Shusheng・Puyu 3.0は、従来の対話機能と深層思考機能を統合した初の汎用モデルであり、より幅広い実世界の使用シナリオに対応できます。

ページを体験してください:https://internlm-chat.intern-ai.org.cn(この記事の最後にある「原文を読む」をクリックすると、ページに直接移動します)
GitHub リンク: https://github.com/InternLM/InternLM
HuggingFace リンク: https://huggingface.co/internlm
ModelScope リンク: https://www.modelscope.cn/models/Shanghai_AI_Laboratory/inter...

高い認知密度が高性能な推論を促進する

データは大規模モデルの能力向上における重要な「原動力」です。現在、主流のオープンソースモデルの多くは、パフォーマンス向上の手段として事前学習データの規模拡大に依存しており、事前学習データの量は一般的に20Tトークンに近づいています。学習コストも直線的に増加するため、業界ではデータのボトルネックとスケーリング則の持続可能性について検討する必要が生じています。

上海AIラボの研究チームは、データ品質の向上によるメリットは、データ規模の拡大によるメリットを大幅に上回ると考えています。データ品質の中核は「トークンあたりのインテリジェンス品質」(IQPT)であり、これはデータ内の思考プロセスに内在する論理、複雑性、そして洞察力を指します。この目的のため、研究チームは大規模なデータ精製フレームワークを提案し、これによりトレーニングデータの品質が大幅に向上しました。実際に、Shusheng Puyu 3.0はわずか4Tバイト(18Tバイト相当)の事前学習済みデータで、主流のオープンソースモデルと同等のトレーニング効果を達成しました。「インテリジェンス品質」データを活用することで、モデル性能の向上を推進し、スケーリング則のブレークスルーに向けた新たな研究パラダイムをもたらしました。


データの「思考密度」の影響をより適切に評価するため、研究者たちはこの指標を定量化し、平均モデル性能とトレーニングデータ量の比率を「トークンあたりの知能品質(IQPT)」と定義しました。これは、大規模モデルのトレーニングデータの「入出力比」を測定できる指標です。国内外の同規模の主要なオープンソースモデルと比較すると、Llama 3.1をベンチマークとして、Shusheng·Puyu 3.0のデータ思考密度は4倍以上高くなっています。

研究チームはデータ精緻化フレームワークを通じて、Shusheng·Puyu 3.0のデータ効率を大幅に向上させ、思考プロセスの密度を飛躍的に向上させました。このフレームワークは、以下の2つのコア要素で構成されています。

  • インテリジェントデータ処理:洗練されたデータ処理を実現するために、研究チームはデータを数千万のドメインに分割しました。人力では対応が困難な規模において、インテリジェントエージェントの自己進化技術を活用し、大規模な自動品質検査、エラー反映、そして各ドメインに合わせたカスタマイズ処理を実現しました。
  • 高価値データの合成:汎用的なアプローチと専門的アプローチを統合し、汎用モデルを用いて合成アルゴリズムを迅速に反復処理した後、厳選されたデータを用いて専門モデルを学習します。膨大な自然データからのマテリアルマイニング、改良されたツリー構造検索戦略、そして多次元品質検証を通じて、豊富で信頼性の高い高価値データを大量に合成します。

研究チームは、Sinan OpenCompassオープンソース評価フレームワークに基づき、統一された再現性の高い手法を用いてShusheng·Puyu 3.0などのモデルを評価しました。評価には、CMMLUやGPQAを含む10以上の権威ある評価セットが使用され、推論、数学的推論、プログラミング、指示追従、長文処理、対話、全体的なパフォーマンスといった側面が網羅されています。評価結果によると、Shusheng·Puyu 3.0は、同規模のオープンソースモデルと比較して、ほとんどの評価セットで優れた性能を示し、全体的なパフォーマンスはGPT-4o-miniに非常に近いことが示されました。

深い思考と定期的な対話の統合により、雄弁さと独創性が生まれます。

「汎用性と専門性の統合」アプローチを通して汎用人工知能を探求する中で、鍵となる技術の一つは、深い推論能力と専門性を持った一般化能力を同時に強化することにあります。新たにリリースされたShusheng・Puyu 3.0は、汎用モデル内で深い思考と従来の対話を統合した初めてのモデルであり、単一のモデルでより幅広い実世界の利用シナリオに対応できるようになりました。

ディープシンキングと通常の対話ではデータのスタイルが大きく異なるため、業界では現在、強力な推論機能に特化した専用モデルの構築が一般的です。上海AIラボも以前、長期的な思考能力を持ち、推論中に自己反省・修正できる強力な推論モデル「InternThinker」をリリースしており、数学コンテストの評価セットでO1-Previewを上回りました。研究チームは、一般データと専門データを統合する技術的アプローチに基づき、異なる種類のデータに対する融合トレーニングスキームを模索し、InternThinker 3.0が通常の対話とディープシンキング機能を同時に備えられるようにしました。システムプロンプトを通じて、1つのモデルでワンクリックで2つのモードを切り替えることができ、汎用モデルでディープシンキング機能を備えることができます。

学習後の段階では、研究チームはタスクシナリオと知識システムに基づく合成データ探索スキームも構築しました。世界知識ツリー(World Knowledge Tree)に基づくコマンド注釈および合成スキームを探索し、マルチエージェントアプローチを用いて高品質な応答を生成しました。実際のユーザーコマンドと合成コマンドの潜在能力を徹底的に探求することで、マルチタスクシナリオの精緻な分類を行い、数十万のコマンドからなる高品質な微調整コマンドデータセットを作成しました。これにより、モデルの対話体験が大幅に向上しました。

下の画像に示すように、推論タスクを実行するときに、ユーザーは 1 回のクリックで Shusheng Puyu 3.0 を通常の対話モードから深い思考モードに切り替えることができます。

Shusheng·Puyu はオープンソース コミュニティと国内のエコシステムを採用しており、すぐに使用できます。

上海AIラボは、研究パラダイムの革新とモデル能力の向上を基盤として、高品質なオープンソースを通じてイノベーションを推進し続けています。オープンソース基盤モデル、フルスタックオープンソースツールチェーン、各種オープンソースフレームワークの提供により、業界や開発者がShushengシリーズモデルを容易にトレーニング、展開、適用できるようにしています。同時に、DeepLinkオープンコンピューティングシステムを基盤として、Ascend、Cambricon、Muxiなどのコンピューティングハードウェアメーカーと連携し、新興コンピューティングハードウェア上でShusheng・Puyu 3.0の微調整トレーニングと効率的な推論を実現し、ソフトウェアとハ​​ードウェアの多角的な観点からAIエコシステムの繁栄を共同で推進しています。

体験事例ショーケース

Shusheng·Puyu 3.0は、興味深い推論パズルを解くために使用できます。矢印迷路問題では、モデルはチェス盤上の開始点から終了点までの実行可能な経路を見つけることが求められます。この問題は空間理解と包括的なアルゴリズム適用能力を必要とし、OpenAI o1モデルにとっても非常に難しい課題です。

Shusheng·Puyu 3.0 は、綿密な推論を経て、実現可能なパスを無事に見つけました。

Scholar Puyu 3.0 は、古典的な数字推測問題も簡単に処理できます。

Shusheng·Puyu 3.0は、「高いIQ」に加えて、「高いEQ」と優れた創造力も備えています。

Shusheng Puyu 3.0 は、ディープシンキング機能をインテリジェントエージェントタスクにも拡張し、オープンソースコミュニティでブラウザの使用をサポートする最初のユニバーサルダイアログモデルとなり、20 を超える Web ページジャンプをサポートしてディープ情報マイニングを完了します。

以下の動画でご覧いただけるように、このモデルは中古住宅販売サイトを人間のように操作・閲覧し、住宅購入に関する推奨事項を綿密に分析・計画し、最適な物件を見つけ出します。再生時間:1分(元の動画を見るにはリンクをクリックしてください:https://mp.weixin.qq.com/s/HErSiJYan2_aTMbRMj1H1A)