|
Deepseek-R1/OpenAI o1 とはまったく異なるアプローチを採用した、オープンソースの推論大規模モデル向けの新しいアーキテクチャが登場しました。 長い思考の連鎖と人間の言語を放棄し、隠れ状態を直接使用して連続した高次元潜在空間で推論し、適応的に多くの計算を費やしてより長い時間考えることが可能になります。 例えば、クレアは毎朝朝食に卵3個を使ったオムレツを作ります。彼女は4週間で卵を何個食べるでしょうか? 新しいモデルでフギンの思考プロセスを可視化すると、彼が3などの重要なトークンの周りを継続的に回転し、最終的に正解に対応する位置に収束することがわかります。しかし、この現象は重要でないキャラクター名「クレア」では観察されません。 回転に加えて、より多様な幾何学的パターンが観察されており、これはモデルが潜在空間の高次元特性を利用して新しい方法で推論することを独自に学習していることを示していると研究チームは考えています。 この新しい方法は長い思考連鎖推論パラダイムを使用しないため、次のようないくつかの追加の利点があります。
この研究は、マックス・プランク研究所、メリーランド大学などのチームによるものです。彼らは、米国オークリッジ国立研究所のFrontierスーパーコンピュータを使用し、NVIDIAシステムの代わりに8つのAMD GPUノード(4096基のGPU)を使用してトレーニング実験を行いました。 新しいアーキテクチャでは、Transformer にループ モジュールが追加されます。新しいアーキテクチャは依然としてデコーダーのみのトランスフォーマー ブロックを中心に構築されていますが、次の 3 つの部分に分かれています。
学習中、各入力シーケンスにはランダムな反復回数が割り当てられます。学習中の計算量とメモリ使用量を低く抑えるため、リカレントユニットの最後のk回の反復のみがバックプロパゲーションされます。 この研究では、潜在空間におけるモデルの推論軌跡を視覚化し、次のような興味深い現象を発見しました。
論文の第一著者であるジョナス・ガイピング氏は、彼らの計算能力は、最終的にリリースされた35億のパラメータを持つ、8000億トークンのデータで事前トレーニングされた1つの大規模トレーニングにしか十分ではなかったと明らかにした。 トレーニング後/中間のプロセスはありませんが、70 億のパラメータの 2〜3T トークンでトレーニングされたオープンソース モデルの機能に匹敵します。 さらに、ループ モジュールでの計算を含めると、3.5B パラメータ モデルのトレーニングにかかる計算コストは、従来の 32B モデルの計算コストと同等になります。 OpenAI o3 も同様のアプローチを使用し、ループを通じてほぼ無限のコンテキストを実現し、高、中、低の 3 つの推論時間設定を制御したと推測する人もいます。 OpenAIの研究者たちはすでにこの研究に注目しており、論文を読んだり、オンラインでバグを見つけたりしている。 潜在空間思考の推論能力とCoT思考の可読性を維持しながら、DeepSeek-R1オープンソースメソッドに基づく新しいアプローチを試す準備をしている人もいます。 紙: 参考リンク: |
推論モデルへの新しいアプローチがオープンソース化されました!DeepSeekとは全く異なり、思考プロセスを放棄し、思考に人間の言語に依存しません。
関連するおすすめ記事
-
7118億ドル!マスク氏がOpenAI買収を申し出るが、ウルトラマンは皮肉を込めてこう言う。「711億ドルでTwitterを買ったほうがいい」
-
マスク氏は自らの手法を「世界を救う」ために使っている。
-
崑崙科技は、金融投資と科学研究のための最も知識豊富なAI検索エンジンとなることを目指し、天宮AI高度検索機能を正式にリリースしました。
-
iPhone 16シリーズ全機種に、最強の3nmチップを搭載!初のAIネイティブスマホで、物理ボタンが最大の魅力。
-
イリヤの視点が検証されました!次期トークンの統合画像、テキスト、動画を予測することのみに基づいて、AIZはネイティブマルチモーダルワールドモデル「Emu3」をリリースしました。
-
AIを活用した大規模コードベースの管理:開発者にとってのメリット | Alibaba/シンガポール国立大学/西安交通大学