618ZXW

推論モデルへの新しいアプローチがオープンソース化されました!DeepSeekとは全く異なり、思考プロセスを放棄し、思考に人間の言語に依存しません。

Deepseek-R1/OpenAI o1 とはまったく異なるアプローチを採用した、オープンソースの推論大規模モデル向けの新しいアーキテクチャが登場しました。

長い思考の連鎖と人間の言語を放棄し、隠れ状態を直接使用して連続した高次元潜在空間で推論し、適応的に多くの計算を費やしてより長い時間考えることが可能になります。

例えば、クレアは毎朝朝食に卵3個を使ったオムレツを作ります。彼女は4週間で卵を何個食べるでしょうか?

新しいモデルでフギンの思考プロセスを可視化すると、彼が3などの重要なトークンの周りを継続的に回転し、最終的に正解に対応する位置に収束することがわかります。しかし、この現象は重要でないキャラクター名「クレア」では観察されません。

回転に加えて、より多様な幾何学的パターンが観察されており、これはモデルが潜在空間の高次元特性を利用して新しい方法で推論することを独自に学習していることを示していると研究チームは考えています。

この新しい方法は長い思考連鎖推論パラダイムを使用しないため、次のようないくつかの追加の利点があります。

  • 特別なトレーニング データは必要ありません。
  • 非常に小さなコンテキスト ウィンドウでも動作できます。
  • 言語で表現することが難しい推論の種類を捉えることができる

この研究は、マックス・プランク研究所、メリーランド大学などのチームによるものです。彼らは、米国オークリッジ国立研究所のFrontierスーパーコンピュータを使用し、NVIDIAシステムの代わりに8つのAMD GPUノード(4096基のGPU)を使用してトレーニング実験を行いました。

新しいアーキテクチャでは、Transformer にループ モジュールが追加されます。

新しいアーキテクチャは依然としてデコーダーのみのトランスフォーマー ブロックを中心に構築されていますが、次の 3 つの部分に分かれています。

  • Prelude:複数のトランスフォーマー レイヤーを使用して、入力データを潜在空間に埋め込みます。
  • リカレント ブロック:潜在空間内の状態を変更する循環計算ユニット。
  • コーダ (エピローグ):潜在空間からデコードし、モデルの予測ヘッドを含めます。

学習中、各入力シーケンスにはランダムな反復回数が割り当てられます。学習中の計算量とメモリ使用量を低く抑えるため、リカレントユニットの最後のk回の反復のみがバックプロパゲーションされます。

この研究では、潜在空間におけるモデルの推論軌跡を視覚化し、次のような興味深い現象を発見しました。

  • いくつかの単純なトークンの場合、モデルの隠し状態はすぐに安定したポイントに収束します。
  • ただし、数学の問題の数字「3」など、一部のキートークンの場合、隠れ状態は複雑な円軌道を形成します。
  • 一部のトークンには、特定の方向に「スライド」する隠し状態もあり、ループの反復をカウントするために使用される可能性があります。

論文の第一著者であるジョナス・ガイピング氏は、彼らの計算能力は、最終的にリリースされた35億のパラメータを持つ、8000億トークンのデータで事前トレーニングされた1つの大規模トレーニングにしか十分ではなかったと明らかにした。

トレーニング後/中間のプロセスはありませんが、70 億のパラメータの 2〜3T トークンでトレーニングされたオープンソース モデルの機能に匹敵します。

さらに、ループ モジュールでの計算を含めると、3.5B パラメータ モデルのトレーニングにかかる​​計算コストは​​、従来の 32B モデルの計算コストと同等になります。

OpenAI o3 も同様のアプローチを使用し、ループを通じてほぼ無限のコンテキストを実現し、高、中、低の 3 つの推論時間設定を制御したと推測する人もいます。

OpenAIの研究者たちはすでにこの研究に注目しており、論文を読んだり、オンラインでバグを見つけたりしている。

潜在空間思考の推論能力とCoT思考の可読性を維持しながら、DeepSeek-R1オープンソースメソッドに基づく新しいアプローチを試す準備をしている人もいます。

紙:
モデル: https://arxiv.org/abs/2502.05171
https://huggingface.co/tomg-g... コード:
https://github.com/seal-rg/re...

参考リンク:
[1]https://x.com/togoldsteincs/... [2]https://x.com/jonasgeiping/st...