618ZXW

E Weinan と Li Hang は、高度な学術論文検索エージェントの作成を主導し、Google Scholar を上回る再現率と精度を達成して、学術愛好家を大いに喜ばせました。

中国科学院院士のE Weinan氏とByteDance AI LabのLi Hang所長の主導により、高度な論文検索エージェントが発表された。

PaSaと名付けられた 2 つのエージェントは、人間の複雑な学術的検索動作を模倣し、複数ラウンドの検索を実行して論文がクエリ要件を満たしているかどうかを判断します。

今すぐにデモをプレイできます。

研究テーマや説明的なアイデアを入力するだけで、すぐに検索が開始され、関連性に応じて情報が自動的に並べ替えられます。

タイトルカードをクリックすると、別のページにリダイレクトされることなく、論文の著者名と抄録が表示されます。リンク付きのタイトルカードをクリックすると、論文全文を閲覧できます。

各タイトル カードの横にある小さな四角いボックスをクリックして、JSON および BIB 形式のファイルをパッケージでダウンロードすることもできます。

さらに重要なのは、再現率と精度が高いことです。

実験では、PaSa は再現率と精度の点で、Google、Google Scholar、Google with GPT-4o、ChatGPT などのベースライン モデルを大幅に上回りました。

AutoScholarQuery テスト セットでは、PaSa-7b は、最良のベースライン PaSa-GPT-4o と比較してリコールを 9.64% 向上しました。チームが作成した RealScholarQuery データセットでは、PaSa-7b は、最良の Google ベースのベースライン Google with GPT-4o と比較して、それぞれリコール@20、リコール@50、リコール@100 でリコールを 37.78%、39.90%、39.83% 向上しました。

塩好きにはたまりません!

2つのエージェントで構成

Google Scholar などの現在の学術検索システムは、複雑なクエリを効果的に処理することが困難な場合が多く、研究者は手動で文献を検索するのにかなりの時間を費やすことになります。

たとえば、「価値ベースの方法、具体的には UCB ベースのアルゴリズムを使用した非定常強化学習に焦点を当てた研究はどれですか?」と質問します。

(非定常強化学習における価値ベースの手法、特に UCB アルゴリズムに基づく手法に焦点を当てた研究はどれですか?)

情報検索を強化するために LLM を使用する研究は増えていますが、学術的な検索には単なる検索以上のものが求められます。包括的な文献レビューを完了するには、論文を詳細に読み、引用をチェックすることも必要です。

この目的のために、研究チームは、主に 2 つの大きなモデル エージェント (クローラーセレクター)で構成される PaSa システムを開発しました。

クローラーは、ユーザークエリの処理、複数の検索コマンドの生成、関連する論文の取得を担当します。

具体的には、トークンベースのマルコフ決定過程(MDP)を実行します。行動空間AはLLM語彙に対応し、各トークンは行動を表します。LLMはポリシーモデルとして機能し、エージェントの状態は現在のLLMコンテキストとペーパーキューによって定義されます。

クローラーは、次の 3 つの登録機能を使用して動作します。

  • [検索]は、検索クエリを生成し、検索ツールを呼び出すために使用されます。
  • [展開]は、論文の特定のセクションを展開し、その引用を抽出するために使用されます。
  • [停止]は、ユーザー クエリとキュー内の次の論文にコンテキストをリセットするために使用されます。

アクションが関数名と一致すると、対応する関数が実行され、エージェントの状態がさらに変更されます。

例えば、下の図に示すように、エージェントはまずユーザークエリを受け取り、それをコンテキストに組み込み、アクションの実行を開始します。生成されたトークンが[Search]の場合、LLMは検索クエリの生成を継続し、エージェントは検索ツールを呼び出して論文を取得し、それらの論文を論文リストに追加します。

トークンが[Expand]の場合、LLMはコンテキスト内の現在の論文からセクション名を抽出し続けます。その後、エージェントは解析ツールを使用して、そのセクションで参照されているすべての論文を抽出し、論文リストに追加します。

トークンが [Stop] の場合、エージェントはコンテキストをユーザークエリと論文キュー内の次の論文に関する情報 (タイトル、概要、すべてのセクションの概要など) にリセットします。

セレクターは、各論文を注意深く読み、ユーザーのクエリ要件を満たしているかどうかを評価する責任があります。

学術的な質問と研究論文(タイトルと概要を含む)の 2 つの入力が受け入れられます。

2 つの出力を生成します。

単一の決定トークン(「真」または「偽」)は、論文がクエリを満たしているかどうかを示し、その決定を裏付けるm個のトークンを含む理由も示します。理由には2つの目的があります。1つは、モデルを共同でトレーニングし、決定と説明を生成することで決定の精度を向上させること、もう1つは、PaSaアプリケーション内で推論を提供することでユーザーの信頼を高めることです。

実験のすべてのベースラインを上回った

チームは、トップ AI カンファレンスからの 35,000 件のきめ細かな学術クエリとそれに対応する論文を含む合成データセット AutoScholarQuery を使用して、強化学習を通じて PaSa を最適化しました。

さらに、より現実的なシナリオで PaSa のパフォーマンスを評価するために、現実世界の学術クエリを収集する RealScholarQuery と呼ばれるベンチマーク データセットが開発されました。

実験では、クローラーとセレクターは両方とも Qwen2.5-7b をベースにしており、最終的なエージェントは PaSa-7b と呼ばれていました。

以下の表 5 に示すように、PaSa-7b は AutoScholarQuery テスト セットのすべてのベースラインを上回っています。

最も強力なベースラインであるPaSa-GPT-4oと比較すると、PaSa-7bは同等の精度で再現率が9.64%向上しました。さらに、PaSa-7bはPaSa-GPT-4oと比較して、クローラーの再現率が3.66%向上しました。

GPT-4o を使用した Google ベースの最良のベースライン Google と比較すると、PaSa-7b は、20、50、100 での再現率がそれぞれ 33.80%、38.83%、42.64% 向上しました。

チームはまた、推論中に複数のクローラー統合を使用することでパフォーマンスが向上することを観察しました。具体的には、推論中にクローラーを2回実行することで、AutoScholarQueryにおけるクローラーの再現率が3.34%向上し、最終的にはPaSaシステム全体の再現率が1.51%向上しました。ただし、精度は同程度に維持されました。

より現実的なシナリオでPaSaを評価するため、研究チームはRealScholarQueryを用いてその有効性を評価しました。表6に示すように、PaSa-7bは現実世界の学術検索シナリオにおいて大きな優位性を示しました。PaSa-GPT-4oと比較して、PaSa-7bは再現率を30.36%、適合率を4.25%向上させました。

RealScholarQuery の GPT-4o を使用した Google ベースの最良のベースライン Google と比較すると、PaSa-7b は、再現率 @20、再現率 @50、再現率 @100 でそれぞれ 37.78%、39.90%、39.83% Google を上回ります。

さらに、PaSa-7b-ensemble は Crawler のリコール率を 4.32% 向上させ、システム全体のリコール率を 3.52% 向上させました。

E WeinanとLi Hangが率いる

PaSaは、中国科学院の学者E・ウェイナン氏と北京大学教授、バイトダンスAIラボ所長のリー・ハン氏によって提案された。

E ウェイナン氏は中国科学院の院士であり、「科学のための AI」という概念の創始者です。

彼は15歳で中国科学技術大学に入学した。「英才クラス」に入ることもできたが、数学科で純粋数学を学ぶことを選んだ。

大学4年生の時、「自分が学ぶことは、ただ深いだけではなく、本当に役に立つこと」を願って、突然方向転換し、応用数学を学ぶことを決意した。

心の底では、私は世間知らずで、社会やテクノロジーと繋がりたいと思っています。象牙の塔に永遠に閉じこもっていられるような人間ではありません。

最終的に、彼は中国科学院と UCLA で修士号と博士号を取得しました (博士課程の指導教官は、著名な応用数学者であるビョルン・エングクイスト教授でした)。

E・ウェイナンは博士号取得後数年、プリンストン高等研究所とニューヨーク大学クーラント研究所にそれぞれ研究員と教授として勤務した。1999年、36歳でプリンストン大学数学科および応用計算数学研究所の教授に就任し、翌年には北京大学に着任した。

2011年、E ウェイナン氏は48歳で中国科学院の院士に選出された。

彼の貢献は次のとおりです。

  • 彼らは協力者とともに、偏微分方程式、確率解析、および力学システムの理論を巧みに組み合わせて、確率バーガース方程式、確率受動スカラー方程式、確率ナビエ・ストークス方程式、およびギンツブルグ・ランダウ方程式を研究し、不変測度の存在と一意性を証明し、安定解の特性を分析し、バーガース乱流モデルにおけるいくつかの論争の的となっている問題を解決しました。
  • 私たちは協力者とともに、非常に効果的な数値手法であるストリング法を開発し、これを物理学、生物学、化学における稀な事象の研究に重要なツールにしました。
  • マルチフィジックスモデルのためのマルチスケール法を設計および解析するための一般的なフレームワークなどが提案されています。

2014年から、E院士のキャリアは新たな転機を迎え、2018年に機械学習の分野に正式に参入し、「科学のためのAI」というコンセプトを提唱しました。

Li Hang 氏は ByteDance の AI ラボのディレクターの一人であり、3 つのトップ国際学術団体 (ACL、IEEE、ACM) のフェローにも選出されています。

彼の主な研究分野には、情報検索、NLP、統計的機械学習、データマイニングが含まれます。

京都大学で電気工学の修士号、東京大学でコンピュータサイエンスの博士号を取得。NEC中央研究所研究員、マイクロソフトリサーチアジアでシニア研究員および主席研究員、ファーウェイテクノロジーズ株式会社ノアズアークラボでチーフサイエンティストを務めた経験を持つ。

論文リンク: https://arxiv.org/abs/2501.10120 デモ: https://pasa-agent.ai/