AMD は O1 を研究アシスタントに変え、研究資金を自動的に 84% 節約しました。

チップ大手の AMD が研究ベースの AI を発表したばかりだが、その O1 プレビューは労働者階級の人々をターゲットにしているようだ。

研究のアイデアや関連メモを AI に入力するだけで、研究レポートやコードもすぐに生成できることに注目してください。

「エージェントラボ」というコードネームが付けられたこの AI システムは、LLM (大規模言語モデル) によって完全に駆動され、文献レビュー、実験、レポートを完了し、科学研究のためのワンストップソリューションを提供します。

ちなみに、研究アシスタントGPT-4o、o1-mini、o1-previewの中で、 o1-previewが最も優れた研究結果を生み出したと著者らは発見しました。

さらに、全体的に見て、AI によって生成されたコードは、既存の方法と比較して最先端のパフォーマンスを実現できます。

同時に、各段階で人間がフィードバックを提供すれば、研究全体の質が大幅に向上します。

全体として、Agent Laboratory は、以前の自律的な調査方法と比較して、調査コストを84%削減しました。

さて、これは、人間と AI の連携により、より費用対効果の高い方法で科学研究を加速できるという人々の期待を改めて裏付けるものです。

最後に、論文の著者についても調べたところ、驚いたことに9人中7人が中国系であることが分かりました。

文献からレポートまで、AMD の科学 AI がすべてを 1 か所で処理します。

まず、Agent Laboratory がどのように機能するかを見てみましょう。

図に示すように、文献レビュー → 実験 → レポート作成という3つの主要な段階があります。各段階には異なるタスク、ツール、AIエージェントの役割（博士号取得者、ポスドク研究員など）があります。

博士課程の学生が文献レビューを担当しました。

詳しく説明すると、文献レビューの段階では、博士課程の学生が主に実行の責任を負います。彼らはarXiv APIを利用して関連論文を取得し、以下の3つのアクションを実行します。

まず、最初のクエリに最も関連性の高い上位 20 件の論文の要約を取得します。
次に、1 つの論文の全文を抽出します。重要な参考価値のある特定の論文については、その完全な内容を抽出します。
追加論文 3 件: 選択した論文の要約または全文を文献レビューに組み込む。

最後のプロセスは一度に完了するのではなく、反復的に完了することに注意することが重要です。

つまり、文献レビューは、「論文を追加」コマンドを通じて指定された数 (N = 最大) の関連テキストに達した場合にのみ完了します。

次は実験段階に移ります。

図に示すように、計画→データ準備→実験実行→結果解釈という4つの主要なプロセスがあります。

博士課程の学生とポスドクは対話を通じて実験計画を作成します。

つまり、レビュー結果と確立された研究目的に基づいて、博士課程の学生とポスドクは対話を通じて詳細かつ実行可能な実験計画を作成します。

計画には通常、具体的な実験手順、機械学習モデルの選択、適切なデータセットの選択、実験を計画するための高レベルのワークフローフレームワークなどの重要な要素が含まれます。

合意に達すると、ポスドクの役割は計画コマンドを使用して計画を提出します。この計画は、その後のすべての実験関連サブタスクの重要なアクションガイドとして機能します。

MLエンジニアはPythonを使ってデータを準備する

次の段階では、 ML エンジニアがPython を使用して、実験に必要なデータを処理および準備します。

プロセス中に、このロールは search HF コマンドを使用して HuggingFace データセットを検索し、適切なデータリソースを取得できます。

コードが記述された後、MLエンジニアはまずPythonコンパイラを用いてコンパイルエラーがないことを確認します。問題が見つかった場合は、コードがスムーズにエラーなく実行されるまで、繰り返し修正が行われます。最後に、検証済みのデータ準備コードは「submit code」コマンドを使用して送信され、後続の実験のための信頼性の高いデータ基盤となります。

MLエンジニアは専用モジュールを使用して実験を実行します

さあ、手を合わせて、実験運用フェーズを正式に始めましょう。

要約すると、ML エンジニアは特別に設計されたモジュールmle-solverを使用して、事前に計画された実験を実装および実行します。

mle-solver のワークフローは次のとおりです。

コマンド実行

図 (A) では、事前にメンテナンスされた一連の高性能プログラムから初期プログラムがサンプリングされ、その後の反復で EDIT と REPLACE の 2 つの操作を通じてプログラムが継続的に最適化されます。

EDIT を使用すると、指定した範囲のコード行内で既存のコードを新しく生成されたコードに置き換えることができるため、プログラム機能のローカルな調整が可能になります。一方、REPLACE はより根本的なもので、プログラム構造や全体的なロジックに大幅な変更が必要な場合に使用するために完全に新しい Python ファイルを生成します。

コード実行

図 (B) では、コードコマンドが実行されると、新しいプログラムはコンパイラによって直ちにチェックされ、実行時エラーの可能性を識別して処理します。

プログラムが正常にコンパイルされた場合、事前に定義された評価基準に従ってスコアが付けられ、既存のプログラムと比較されます。新しいプログラムがより高いスコアを獲得した場合、ベストプログラムのリストが更新されます。

コードがコンパイルに失敗した場合、MLエンジニアは最大Nrep回の修復操作（実験では3回に設定）を試みます。それでも問題が解決しない場合は、現在のプログラムを破棄し、新しいコードを選択または生成して置き換えます。

プログラムスコアリング

図 (C) では、LLM 報酬モデルを使用して、正常にコンパイルされたコードのスコアが付けられています。

このモデルは、研究計画の目的、生成されたコードロジック、実際の実験出力結果など、さまざまな要素を総合的に考慮し、プログラムを0～1の範囲で定量的に評価します。スコアが高いほど、プログラムが当初の研究目的とより一致しており、意図した機能を効果的に実現できることを示します。

自己反省

図 (D) では、コード実行結果が成功したかどうかに関係なく、MLE ソルバーは実験結果や発生したエラー信号に基づいて自分自身を反映します。

プログラムがコンパイルに失敗した場合、以降の反復処理で同様の問題を回避または解決する方法を検討します。プログラムがコンパイルに成功し、スコアが付与された場合は、プログラムのパフォーマンスとスコアをさらに向上させる方法を分析します。この継続的な学習と改善のメカニズムにより、システムは生成されたコードの品質と安定性を継続的に向上させることができます。

パフォーマンスの安定化

図（E）では、パフォーマンスの変動を防ぐために、MLE-Solver は2 つの主要なメカニズムを採用しています。

まず、トップレベルのプログラムサンプリング：高品質なプログラムセットを維持することで、コマンド実行前にセットからランダムにプログラムをサンプリングします。これにより、プログラムの多様性と、選択されたプログラムが高品質のベンチマークを持つことが保証されます。

次に、バッチ並列化が使用されます。各ソリューションステップでは、複数のコード変更操作が同時に実行され、最もパフォーマンスの高い変更結果が選択され、現在の最適プログラムセットの中で最もスコアが低いプログラムが置き換えられます。

博士課程の学生とポスドクが共同で実験結果について議論し、分析しました。

プロセスが完了すると、博士課程の学生とポスドクは、MLE-Solver によって生成された実験結果を詳しく調べ、専門知識とこれまでの研究背景を組み合わせて結果の包括的な解釈を提供します。

両者が結果が妥当であり学術的価値があると同意したら、ポスドクは解釈コマンドを使用して解釈を提出し、その後のレポート作成段階のための重要なコンテンツの基礎を提供します。

博士課程の学生と教授が書いた完全なレポート

最終レポート作成段階では、博士課程の学生と教授は「paper-solver」と呼ばれる専用モジュールを通じてタスクを完了します。

Paper Solver は、学術論文の執筆プロセスを完全に置き換えるものではないことに留意してください。Paper Solver は、完了した研究を人間が読める形式で要約し、Agent Laboratory を使用する研究者が成果を理解できるようにするためのツールです。

一般的に言えば、そのワークフローには次のステップが含まれます。

初期レポートフレームワークの生成: 学術標準構造に準拠し、プレースホルダーを含み、LaTeX コンパイルおよび学術規則を満たす初期レポートフレームワークを生成します。
arXiv リサーチ: arXiv にアクセスして文献レビューを拡張し、文献レビューインターフェースを介してレポートを改善することができます (必須ではありませんが、非常に役立ちます)。
レポートの編集: EDIT コマンドを使用して、複数の要素に基づいて論文の LaTeX コード行を正確に反復的に編集およびコンパイルし、レポートの品質を向上させます。
論文レビュー: LLM エージェントを使用して NeurIPS プロセスをシミュレートし、多次元の論文評価を行うと、テストの精度は人間のレビュー担当者の精度に近くなります。
論文の改良: 3 人の査読エージェントがコメントを生成し、博士課程の学生はそれを使用して修正が必要かどうかを判断し、必要に応じて前の段階に戻って論文が基準を満たすまで変更を加えます。

o1-previewは最も強力な調査能力を持っています

これら 3 つの主な段階を通じて、Agent Laboratory は研究プロセス全体を完了します。

次に、研究者らはGPT-4o、o1-mini、o1-previewを使用して、人間の介入なしに15件の論文を完成させた3つのAIの実験品質、レポート品質、有用性を評価しました。

そして、一般人（人間のレビュアー）に以下の5つの質問に基づいて1～5のスケールで評価してもらい、その結果を図に示します。

全体的に、o1-preview が研究に最も役立ち、o1-mini は最高の実験品質スコアを獲得しましたが、GPT-4o は全体的に最下位でした。

1. 言語モデルは確証バイアスやアンカリングバイアスなどの認知バイアスを示すか?

2. 畳み込みネットワークと比較して、画像トランスフォーマーはピクセルノイズに対してより敏感ですか、それともより敏感でありませんか?

3. 鑑別診断を求められた場合、MedQA の言語モデルの精度は向上しますか?

4. 多肢選択ベンチマークテストでは、言語モデルは語順に敏感ですか?

5. 性別の役割は、数学的な質問に答える言語モデルの精度に影響しますか?

次に著者らは、人間によるピアレビューと自動ピアレビューの違いを調査しました。

2 つの方法は大きく異なり、自動化されたピアレビューでは論文のスコアを過大評価する傾向があります。

具体的には、NeurIPS 論文の平均スコアと比較すると、自動ピアレビューの平均は 6.1/10 であったのに対し、人間によるピアレビューの平均は 3.8/10 でした。

著者らはGitHub上で、研究の有効性を高めるテクニックも公開した。

詳細なメモを書きます。
より強力なモデルを使用します。

さらに、ユーザーが進行状況を失ったり、インターネットから切断されたり、サブタスクが失敗したりした場合は、「進行状況を復元するためのチェックポイント」機能を使用できます。

中国語モードへの切り替えもサポートしています。

彼の後ろにいるチームの半分以上は中国人だ。

最後に、Agent Laboratory の作者たちを紹介したいと思います。彼らはほぼ全員が昨年 AMD に入社しました。

サミュエル・シュミットガルは現在、ジョンズ・ホプキンス大学で電気およびコンピュータ工学の博士課程に在籍しており、DeepMind で学生研究員として働いています。

彼は昨年 10 月に AMD でのインターンシップを開始し、言語エージェントの開発に取り組みました。

彼は以前、米国海軍研究所でロボットの強化学習を研究し、スタンフォード大学で心臓血管手術のための言語と視覚の大規模モデルを研究していました。

昨年 8 月に AMD GenAI チームに加わった研究科学者Yusheng Su氏は、モデルデータ、モデルアーキテクチャ、トレーニング効率の最適化に重点を置いています。

彼は2019年に国立政治大学（台北市）を卒業し、その後国立清華大学でコンピュータサイエンスの博士号を取得しました（その間、大規模モデルの事前トレーニングを研究しました）。

彼は以前、マイクロソフトのクラウドコンピューティング部門でインターンシップを経験しました。

昨年 5 月に AMD GenAI チームに加わった応用研究科学者のZe Wang 氏。

彼は2017年に北京航空航天大学を卒業し、電気電子工学の学士号を取得、その後米国のデューク大学とパデュー大学で電気・コンピュータ工学の博士号を取得しました。

彼は以前、Facebook AI と Microsoft でもインターンをしていました。

Ximeng Sun は昨年 6 月にアプリケーションサイエンティストとして AMD に入社しました。

彼女は2018年にミシガン大学ラックハム大学院コンピュータサイエンス科を卒業し、その後ボストン大学でコンピュータサイエンスの博士号を取得しました。

AMD に入社する前は、IBM、Google、Meta でインターンをしていました。

Jialian Wu (吴嘉濂)は、昨年 4 月に AMD GenAI チームに加わった研究者です。

彼は2019年に天津大学で電子工学の学士号と修士号を取得し、その後ニューヨーク州立大学バッファロー校でコンピューターサイエンスの博士号を取得しました。

AMD入社前は、Qualcommでフルタイム勤務を1度だけ経験しました。それ以前は、AmazonとMicrosoftでインターンシップを経験しました。

昨年 8 月に AMD GenAI チームに加わった研究科学者のXiaodong Yu氏は、知識の検索/忠実度、長いテキストの理解、数学的推論、LLM/VLM トレーニングに重点を置いています。

彼は2015年に上海交通大学で電子電気工学の学位を取得し、その後イリノイ大学アーバナ・シャンペーン校とペンシルベニア大学に進学して修士号と博士号を取得しました。

彼は学生時代に、AmazonやMicrosoftなどの組織でインターンシップも行いました。

昨年4月にAMD GenAIチームに加わった研究者のJiang Liu氏は、汎用AIモデルの開発に注力している。

2019年に清華大学でオートメーション工学の学士号を取得し、PBCファイナンス学院でも学びました。その後、ジョンズ・ホプキンス大学で電気・コンピュータ工学の博士号を取得しました。

AMD に入社する前は、AWS と Microsoft で大規模言語モデルに関するインターンシップを経験しました。

Zicheng Liuは昨年初めにAMDのシニアエンジニアリングディレクターに就任しました。彼の研究分野は、視覚言語学習、3D人間および手の再構成、動的畳み込み、人間の行動認識などです。

それ以前は、マイクロソフトで 27 年間勤務し、主にコンピュータービジョンサイエンスグループを管理していました。

彼はいくつかの国際会議の技術委員会のメンバーであり、雑誌「Visual Communication and Image Representation」の編集長でもあります。

AMD の Generative AI 担当副社長であるEmad Barsoum氏は、AMD に 1 年以上在籍しています。

以前はMicrosoftでチームエンジニアリングマネージャー／アーキテクトとして勤務し、 ONNX標準の共同開発に携わりました。ONNXは、MicrosoftとFacebookが2017年に立ち上げたオープンなニューラルネットワークフォーマット交換イニシアチブであり、データサイエンティストや開発者が、さまざまなディープニューラルネットワークフレームワークを使用して開発されたモデルを数億台のWindowsデバイスに直接展開することを可能にします。

AMDに入社する前は、チップ製造会社CerebrasでAIチームを率い、主に大規模な言語およびビジョンモデルのトレーニングを担当していました。

618ZXW