618ZXW

検索バージョンo1:推論プロセスが能動的に情報を検索し、その総合的なパフォーマンスは人間の専門家よりも優れています。清華大学が開発しました。

新しいフレームワークにより、Qwen の O1 スコアが急上昇しました

博士レベルの科学的質問応答、数学、コーディングスキルの11の評価において、彼の能力は著しく向上し、そのうち10で1位を獲得しました。

これが、中国人民大学と清華大学が共同で立ち上げた最新の「エージェント検索強化推論モデルフレームワーク」である Search-o1 が特別な理由です。

プロジェクトチームは、O1 および O1 型モデルは推論において非常に優れたパフォーマンスを発揮する一方で、「知識不足」という重大な欠陥を示していることを発見しました。

推論ステップが長すぎる場合、またはモデルの知識が不十分な場合、推論プロセスは停滞しやすくなり、推論チェーン内でエラーが伝播しやすくなります。知識エラーは推論チェーン全体を混乱させ、最終的には答えの正確性に影響を与える可能性があります。

とても不安なので、オンラインで助けが必要です。どうすればいいですか?

Search-o1 の解決方法は、推論を一時停止し、不足している知識/情報を検索してから戻って推論を続行することです。

私たち人間も、何か分からないことがあれば調べて理解するのと同じです。

研究者らは予備実験で、複雑な問題を扱う際、O1型推論モデルは各推論プロセスで平均して「~のようである」や「たぶん」といった不確実な単語を30個以上使用するだろうと発見した。

これは推論の複雑さを増すだけでなく、推論プロセスの手動検証を困難にします。したがって、推論プロセス中に必要な知識をどのように自動的に補完するかが、大規模推論モデルの信頼性を向上させる鍵となります。

この問題に対する Search-o1 の解決策は次のとおりです。

検索されたドキュメントを精緻化する Reason-in-Documents モジュールと RAG を組み合わせることで、Agentic 検索ワークフローが推論プロセスに統合され、自律的な知識検索を通じて大規模推論モデルの信頼性と適用性を向上させることを目指します。

このように、推論モデルは不確実な知識ポイントに遭遇した場合、プロセス全体の一貫性を維持しながら、積極的に外部知識を取得できるため、推論能力がさらに向上します。

研究チームは広範囲にわたるテストを実施した結果、Search-o1が科学、数学、コーディングなどの複雑な推論タスクや、6 つのオープンドメイン QA ベンチマーク テストで非常に優れたパフォーマンスを発揮することを発見しました。

このプロジェクトはオープンソース化されており、HugFaceとGitHubからダウンロードできます。いつものように、リンクへのリンクはこの記事の最後に記載しています。

(特記事項: Search-o1 フレームワークは、オープンソースの QwQ-32B-Preview を基本モデルとして使用します。)

Search-o1 新しいフレームワーク

実際、O1 の登場以来、ネイティブの推論は「知識のギャップに遭遇するとエラーを起こしやすい」という問題が前面に押し出されています。

多くのチームがこれらの問題に対処しようと試みてきました。たとえば、ポリシー モデルと報酬モデルをモンテ カルロ ツリー検索と組み合わせる (ただし、これでは推論がモデルに内部化されません)、またはトレーニング中に意図的なエラーを推論パスに組み込んでこれらの機能を部分的に内部化します。また、一部の研究者はトレーニング データを蒸留することを選択しました。

しかし、これらの方法は静的にパラメータ化されたモデルに依存しているため、内部知識が不十分な場合は外部世界からの知識を利用することができません。

その後、別の研究チームが、RAG を使用して推論モデルに検索メカニズムを導入し、生成モデルの静的パラメータの制限を克服し、外部の知識にアクセスしてより複雑な問題を解決できるようにすることを提案しました。

不確実性が生じる場合(化合物の構造など)、この方法では対象を絞った検索クエリ(「トランスシナマルデヒドの構造」など)が生成されますが、取得された文書には長くて無関係な情報が含まれることが多く、推論プロセスが妨げられ、一貫性が損なわれる可能性があります。

したがって、チームが Search-o1 を提案する主な動機は、自律的な検索を通じて o1 のような特性を持つ推論モデルを強化することです。

Search-o1 は、推論モデルの推論プロセスを 2 つのコア コンポーネントと統合します。

  • Reason-in-Documentsモジュール
  • エージェントRAGメカニズム

Reason-in-Documentsモジュール

まず、 Reason-in-Documents モジュールについてお話ししましょう。

Search-o1 フレームワークでは、エージェント RAG メカニズムによって取得された外部知識ドキュメントが長く、冗長な情報が含まれている場合、このコンテンツを直接推論モデルに入力すると、後続の推論に支障をきたす可能性があります。

その後、チームは、メインの推論チェーンから独立したモジュールである Reason-in-Documents を提案しました。

その機能は、まずドキュメントを分析して、現在の検索クエリ、以前の推論ステップ、および取得されたドキュメントに基づいて中間推論シーケンスを生成し、次に現在の推論ステップに関連性の高い洗練された知識を生成して、それを推論チェーンに統合することです。

規定の出力形式に従い、文書が有用な情報を提供する場合、精製された知識は「最終情報[役立つ情報]」の形式で出力されます。

役に立つ情報が見つからない場合、出力は「最終情報: 役に立つ情報は見つかりませんでした。」になります。

これにより、推論プロセスが簡潔かつ焦点が絞られ、一貫性と論理的な一貫性が確保されます。

エージェントRAGメカニズム

次に、 Agentic RAG メカニズムについて説明します。

Search-o1 により、モデルは推論プロセス中に外部知識をいつ取得するかを自律的に決定できるようになります。

単一の質問について推論する場合、Search-o1 はまず各質問の推論シーケンス q を初期化します。

推論モデル M は推論チェーン R を生成するため、このプロセスでは特殊記号 <|begin\_search\_query|> と <|end\_search\_query|> でカプセル化された検索クエリが生成される場合があります。

シンボル <|end\_search\_query|> が検出されると、対応する検索クエリ qsearch が抽出され、検索機能 Search がトリガーされて関連する外部ドキュメント D が取得されます。

次に、外部ドキュメントは Reason-in-Documents モジュールによって処理され、その結果が推論チェーンに再び統合されます。

バッチ推論中に、Search-o1 は一連の質問の推論シーケンス セットを作成し、トークンを並列に生成し、ドキュメントを取得して絞り込み、推論チェーンを更新して、複数の入力を処理するシステムのスループットを向上させます。

上記のすべてのプロセスを繰り返すことで、モデルが推論プロセス全体を通じて必要な外部知識のサポートを確実に受けられるようにすることができます。

実験の設定と結果

Search-o1 の有効性を検証するために、研究者らは広範な実験を実施し、次の 2 つのカテゴリでタスクを評価しました。

最初のタイプは複雑な推論タスクです。

これには、博士レベルの科学的な Q&A (GPQA)、数学(MATH500、AMC2023、AIME2024)、およびコード(LiveCodeBench) が含まれます。

表 1 は、複雑な推論タスクにおいて、 Search-o1 が全 11 個のテスト セットのうち 10 個でネイティブ推論および従来の RAG 方式よりも優れていることを示しています。

LiveCodeBench の簡単バージョンで 57.7 点を獲得した項目は 1 つだけです。

このパフォーマンスは、Qwen2.5-Coder-32B および QwQ-32B でのネイティブ推論よりも低く、特定の凹面度は RAG-Qwen2.5-32B および RAgent-QwQ-32B での従来の RAG 方式よりも低くなります。

余談ですが、研究チームはプロジェクト論文の中で、Search-o1と人間の専門家との比較も発表しました。

研究者たちは、GPQA拡張データセット内の様々な分野において、Search-o1のパフォーマンスを人間の専門家のパフォーマンスと比較しました。下の表2は、物理学、化学、生物学など、様々な分野における人間の専門家のパフォーマンスを示しています。

結果は、 Search-o1 が総合的なパフォーマンス (57.9)、物理学(68.7) 、生物学(69.5) で人間の専門家を上回ったことを示しました。

しかし、化学の分野では、Search-o1 スコアが 40.7 であるのに対し、人間の専門家のスコアは 72.6 と、化学者には遅れをとっています。

2 番目のタイプは、オープンドメインの質問応答ベンチマークであり、これには次のものが含まれます。

  • ナチュラル クエスチョン (NQ) やトリビア QA などのシングル ホップ QA
  • HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle などのマルチホップ QA

表 3 は、Search-o1 がマルチホップ QA タスクで特に優れたパフォーマンスを発揮し、平均精度が約 30% 向上し、すべてのベースライン モデルを上回っていることを示しています。

しかし、他のテストと比較すると、Search-o1 はシングルジャンプのパフォーマンスに大きな改善は見られませんでした。

研究者たちは次のように結論づけた。

Reason-in-Documents モジュールは、Agentic RAG メカニズムと組み合わせることで、モデル自体の知識不足の問題に効果的に対処し、推論モデルの信頼性と実用性を高めます。

複雑な問題解決シナリオにおいて、Search-o1 はより信頼性が高く効率的なインテリジェント システムへの道を開きます。

ネットで調べてみたところ、ネットユーザーはこの仕事に対して非常に好意的な見方をしているようです。

特に、「人間の認知プロセスをシミュレートする」能力と「推論モデルの推論能力を強化する」能力の点で。

著者チーム

Search-o1 の責任著者は、中国人民大学人工知能学院の Dou Zhicheng 教授です

南開大学で博士号を取得後、まずMSRAに研究員として入社し、その後2014年9月に中国人民大学に着任し、2018年8月に教授に昇進した。

他の著者には、Xiaoxi Li、Guanting Dong、Jiajie Jin、Yuyao Zhang、Yujia Zhou、Yutao Zhu、および Peitian Zhang が含まれます。

周宇佳さんはチームの中で唯一の清華大学の学生です(残りは人民大学の学生です)。

周氏は現在、清華大学の博士研究員として、清華大学研究所長兼コンピュータサイエンス学科教授の劉一群氏と共同研究を行っています。

この学生は人民大学で博士号を取得し、指導教員は竇志成氏であった。

arXiv: https://arxiv.org/abs/2501.05366 GitHub: https://github.com/sunnynexus... Hugging Face: https://huggingface.co/papers...

参考リンク:
[1]https://x.com/rohanpaul\_ai/status/1880173989143921058 [2]https://www.cs.tsinghua.edu.c... [3]https://www.zhouyujia.cn/