618ZXW

上海AIラボからO1のLlamaバージョンが公開されました。強化学習コードはオープンソースで、AlphaGo Zeroパラダイムに基づいています。

OpenAI o1推論モデルの複製: オープンソース コミュニティからの最新の進捗状況。

o1 プロジェクトの LLaMA バージョンが上海 AI ラボチームからリリースされました。

序文では、モンテカルロ木探索、セルフプレイ強化学習、PPO、および AlphaGo Zero のデュアルポリシーパラダイム (事前ポリシー + 価値評価) が使用されたことが明記されています。

2024年6月のo1のリリース前に、チームは大規模モデルの数学的機能を向上させるためにモンテカルロ木探索の調査を開始し、注目を集めていました。

この最新のオープンソースコードは、開発者コミュニティでも白熱した議論を巻き起こしました。

OpenAI o1 シリーズのリリース後、チームは OpenAI Strawberry プロジェクトのオープンソース バージョンとして、数学オリンピックの問題に焦点を当ててアルゴリズムのアップグレードを開始しました。

10 月初旬、チームは、ペアワイズ最適化 (絶対スコアを与える代わりに、2 つの回答の相対的なメリットを比較する) を使用して、Llama モデルの数学オリンピックのパフォーマンスを改善した新しい論文をアップロードしました。

最も難しい 30 問の AIME2024 ベンチマーク テストでは、オリジナルの LLaMA-3.1-8B-Instruct が 2 問正解し、最適化バージョンが 8 問正解し、o1-preview と o1-mini を除く他の商用クローズド ソース ソリューションを上回りました。

10月下旬、チームはAlphaGo Zeroアーキテクチャに基づいてOpenAI o1を複製する取り組みで大きな進歩があったと発表しました。

このモデルは、手動で注釈を付ける必要がなく、学習プロセス中に検索ツリーと対話することで高度な思考能力を獲得することに成功しました。

このプロジェクトは1週間も経たないうちにオープンソースになりました。

LLaMA バージョン 1 の最新の開発

現在オープンソースのコンテンツには、事前トレーニング済みのデータセット、事前トレーニング済みのモデル、強化学習トレーニング コードが含まれます。

OpenLongCoT-Pretrain データセットには、100,000 を超える長い思考連鎖が含まれています。

各データ ポイントには、思考プロセスと採点結果を含む、完全な数学の問題の推論プロセスが含まれています。

たとえば、幾何学の問題には、問題の説明、グラフィカルな座標、計算プロセス、結論の導出、および各推論ステップの批判と検証を含む完全な推論チェーンが含まれ、推論プロセスを評価およびガイドします。

このデータセットでさらに事前トレーニングを行うと、モデルは O1 に類似した長い思考チェーンを読み取って出力できるようになります。

事前トレーニング済みのコードはまだリリースされていません。代わりに LLaMaFactory を使用することをお勧めします。

興味深いことに、プロジェクト名は LLaMA-O1 ですが、公式の事前トレーニング済みモデルは Google Gemma 2 に基づいています。

現在、強化学習のトレーニングは事前学習済みモデルで実行できます。トレーニングプロセスは、以下のコードから確認できます。

  • モンテカルロ木探索を使用して自己プレイで経験を生成します。
  • 優先エクスペリエンス再生バッファにエクスペリエンスを保存します。
  • バッファ内のサンプリングされたデータのバッチからのトレーニング。
  • モデルパラメータと経験的優先順位を更新する

この論文では、トレーニング プロセスの図も示されています。

トレーニング コードでは次の主要なテクノロジが使用されました。

  • LoRAを使用した効率的なパラメータ微調整
  • ポリシー最適化手法として PPO アルゴリズムが使用されます。
  • 優位関数を計算するために、GAE (一般化優位推定) アルゴリズムが実装されました。
  • 優先体験リプレイを使用してトレーニングの効率を向上します。

最終的に、LLaMA-O1 コードは、特別な紹介もなく、 SimpleBerryという GitHub アカウントでリリースされ、謎に包まれたままになりました。

SimpleBerry に関連する他のアカウントや Web サイトでは、研究室であることのみが明らかにされており、研究の方向性に関する詳しい情報は開示されていません。

他のO1レプリカプロジェクトの進捗状況

LLaMA-O1 の他に、公開されている別の O1 レプリ​​カ プロジェクトであるO1-Journey が上海交通大学のチームから生まれました。

10 月初旬、チームは最初の進捗レポートを発表し、革新的な Journey Learning パラダイムと、検索と学習を数学的推論にうまく統合した最初のモデルを紹介しました。

O1-Journey の中核開発チームは、主に上海交通大学の学部 3 年生と 4 年生、および上海交通大学の GAIR ラボ (生成人工知能研究ラボ) の博士課程 1 年生で構成されています。

講師には、上海交通大学の准教授である劉鵬飛氏や、ヤオクラスの卒業生でスローン賞受賞者の李元志氏などが含まれます。

LLaMA-O1:
関連論文: https://github.com/SimpleBerr...
https://arxiv.org/abs/2406.07394 https://arxiv.org/abs/2410.02884

O1-旅:
https://github.com/GAIR-NLP/O...