推論モデルへの新しいアプローチがオープンソース化されました！DeepSeekとは全く異なり、思考プロセスを放棄し、思考に人間の言語に依存しません。

Deepseek-R1/OpenAI o1 とはまったく異なるアプローチを採用した、オープンソースの推論大規模モデル向けの新しいアーキテクチャが登場しました。

長い思考の連鎖と人間の言語を放棄し、隠れ状態を直接使用して連続した高次元潜在空間で推論し、適応的に多くの計算を費やしてより長い時間考えることが可能になります。

例えば、クレアは毎朝朝食に卵3個を使ったオムレツを作ります。彼女は4週間で卵を何個食べるでしょうか？

新しいモデルでフギンの思考プロセスを可視化すると、彼が3などの重要なトークンの周りを継続的に回転し、最終的に正解に対応する位置に収束することがわかります。しかし、この現象は重要でないキャラクター名「クレア」では観察されません。

回転に加えて、より多様な幾何学的パターンが観察されており、これはモデルが潜在空間の高次元特性を利用して新しい方法で推論することを独自に学習していることを示していると研究チームは考えています。

この新しい方法は長い思考連鎖推論パラダイムを使用しないため、次のようないくつかの追加の利点があります。

この研究は、マックス・プランク研究所、メリーランド大学などのチームによるものです。彼らは、米国オークリッジ国立研究所のFrontierスーパーコンピュータを使用し、NVIDIAシステムの代わりに8つのAMD GPUノード（4096基のGPU）を使用してトレーニング実験を行いました。

新しいアーキテクチャでは、Transformer にループモジュールが追加されます。

新しいアーキテクチャは依然としてデコーダーのみのトランスフォーマーブロックを中心に構築されていますが、次の 3 つの部分に分かれています。

学習中、各入力シーケンスにはランダムな反復回数が割り当てられます。学習中の計算量とメモリ使用量を低く抑えるため、リカレントユニットの最後のk回の反復のみがバックプロパゲーションされます。

この研究では、潜在空間におけるモデルの推論軌跡を視覚化し、次のような興味深い現象を発見しました。

論文の第一著者であるジョナス・ガイピング氏は、彼らの計算能力は、最終的にリリースされた35億のパラメータを持つ、8000億トークンのデータで事前トレーニングされた1つの大規模トレーニングにしか十分ではなかったと明らかにした。

トレーニング後/中間のプロセスはありませんが、70 億のパラメータの 2〜3T トークンでトレーニングされたオープンソースモデルの機能に匹敵します。

さらに、ループモジュールでの計算を含めると、3.5B パラメータモデルのトレーニングにかかる計算コストは、従来の 32B モデルの計算コストと同等になります。

OpenAI o3 も同様のアプローチを使用し、ループを通じてほぼ無限のコンテキストを実現し、高、中、低の 3 つの推論時間設定を制御したと推測する人もいます。

OpenAIの研究者たちはすでにこの研究に注目しており、論文を読んだり、オンラインでバグを見つけたりしている。

潜在空間思考の推論能力とCoT思考の可読性を維持しながら、DeepSeek-R1オープンソースメソッドに基づく新しいアプローチを試す準備をしている人もいます。

紙：
モデル: https://arxiv.org/abs/2502.05171
https://huggingface.co/tomg-g... コード:
https://github.com/seal-rg/re...

参考リンク:
[1]https://x.com/togoldsteincs/... [2]https://x.com/jonasgeiping/st...