|
OpenAI o1推論モデルの複製: オープンソース コミュニティからの最新の進捗状況。 o1 プロジェクトの LLaMA バージョンが、上海 AI ラボチームからリリースされました。 序文では、モンテカルロ木探索、セルフプレイ強化学習、PPO、および AlphaGo Zero のデュアルポリシーパラダイム (事前ポリシー + 価値評価) が使用されたことが明記されています。 2024年6月のo1のリリース前に、チームは大規模モデルの数学的機能を向上させるためにモンテカルロ木探索の調査を開始し、注目を集めていました。 この最新のオープンソースコードは、開発者コミュニティでも白熱した議論を巻き起こしました。 OpenAI o1 シリーズのリリース後、チームは OpenAI Strawberry プロジェクトのオープンソース バージョンとして、数学オリンピックの問題に焦点を当ててアルゴリズムのアップグレードを開始しました。 10 月初旬、チームは、ペアワイズ最適化 (絶対スコアを与える代わりに、2 つの回答の相対的なメリットを比較する) を使用して、Llama モデルの数学オリンピックのパフォーマンスを改善した新しい論文をアップロードしました。 最も難しい 30 問の AIME2024 ベンチマーク テストでは、オリジナルの LLaMA-3.1-8B-Instruct が 2 問正解し、最適化バージョンが 8 問正解し、o1-preview と o1-mini を除く他の商用クローズド ソース ソリューションを上回りました。 10月下旬、チームはAlphaGo Zeroアーキテクチャに基づいてOpenAI o1を複製する取り組みで大きな進歩があったと発表しました。 このモデルは、手動で注釈を付ける必要がなく、学習プロセス中に検索ツリーと対話することで高度な思考能力を獲得することに成功しました。 このプロジェクトは1週間も経たないうちにオープンソースになりました。 LLaMA バージョン 1 の最新の開発現在オープンソースのコンテンツには、事前トレーニング済みのデータセット、事前トレーニング済みのモデル、強化学習トレーニング コードが含まれます。 OpenLongCoT-Pretrain データセットには、100,000 を超える長い思考連鎖が含まれています。 各データ ポイントには、思考プロセスと採点結果を含む、完全な数学の問題の推論プロセスが含まれています。 たとえば、幾何学の問題には、問題の説明、グラフィカルな座標、計算プロセス、結論の導出、および各推論ステップの批判と検証を含む完全な推論チェーンが含まれ、推論プロセスを評価およびガイドします。 このデータセットでさらに事前トレーニングを行うと、モデルは O1 に類似した長い思考チェーンを読み取って出力できるようになります。 事前トレーニング済みのコードはまだリリースされていません。代わりに LLaMaFactory を使用することをお勧めします。 興味深いことに、プロジェクト名は LLaMA-O1 ですが、公式の事前トレーニング済みモデルは Google Gemma 2 に基づいています。 現在、強化学習のトレーニングは事前学習済みモデルで実行できます。トレーニングプロセスは、以下のコードから確認できます。
この論文では、トレーニング プロセスの図も示されています。 トレーニング コードでは次の主要なテクノロジが使用されました。
最終的に、LLaMA-O1 コードは、特別な紹介もなく、 SimpleBerryという GitHub アカウントでリリースされ、謎に包まれたままになりました。 SimpleBerry に関連する他のアカウントや Web サイトでは、研究室であることのみが明らかにされており、研究の方向性に関する詳しい情報は開示されていません。 他のO1レプリカプロジェクトの進捗状況LLaMA-O1 の他に、公開されている別の O1 レプリカ プロジェクトであるO1-Journey が上海交通大学のチームから生まれました。 10 月初旬、チームは最初の進捗レポートを発表し、革新的な Journey Learning パラダイムと、検索と学習を数学的推論にうまく統合した最初のモデルを紹介しました。 O1-Journey の中核開発チームは、主に上海交通大学の学部 3 年生と 4 年生、および上海交通大学の GAIR ラボ (生成人工知能研究ラボ) の博士課程 1 年生で構成されています。 講師には、上海交通大学の准教授である劉鵬飛氏や、ヤオクラスの卒業生でスローン賞受賞者の李元志氏などが含まれます。 LLaMA-O1: O1-旅: |
上海AIラボからO1のLlamaバージョンが公開されました。強化学習コードはオープンソースで、AlphaGo Zeroパラダイムに基づいています。
関連するおすすめ記事
-
ポルシェ、従業員1,900人を解雇!中国での売上は3ヶ月連続で減少、「Xiaomiのせいでブランド価値だけが減った」
-
Apple の AI 搭載 iOS は初日から大ヒットを記録しました。チャットは瞬く間に高度な感情知能を備え、大規模なモデルは究極の音声代替となり、Siri は驚くべき変貌を遂げました。
-
Caiyun Xiaomeng V3.5がオンラインになりました!DCFormerアーキテクチャに基づく初の汎用大型モデルがリリースされました。
-
NeurIPS 2024への投稿体験談を共有します!浙江大学のチームがDePLMモデルを用いてタンパク質の最適化を支援し、筆頭著者がオンラインでデモを発表しました。
-
意見の相違が上司との平手打ち合戦にまでエスカレートし、若者たちが恐怖に怯えるAIの世界は完全に狂っている。
-
ジェンセン・フアン:私は市場シェアを気にしていません。Nvidia の唯一の目標は新しい市場を創造することです。