618ZXW

AI が論文が受理されるかどうかを予測、8B モデルが 70B モデルを上回る、HKU がグラフとテキストを融合するマルチエージェント モデル GraphAgent をリリース。

私の論文は受理されるだろうか?AIが事前に予測できる!

香港大学の黄超教授のチームは、知識グラフ内の複雑なセマンティックネットワークを自動的に構築および解析し、さまざまな予測および生成タスクを処理できるマルチエージェント自動化フレームワークであるGraphAgent を提案しました。

GraphAgent は、グラフ生成タスク計画タスク実行という 3 つのコアインテリジェントエージェントの連携動作を通じて、大規模言語モデルとグラフ言語モデルの利点を統合し、構造化グラフデータと非構造化テキストデータをうまく接続し、テキスト要約と関係モデリングの大幅な改善を実現します。

実験では、GraphAgent は予測タスク (ノード分類など) と生成タスク (テキスト生成など) の両方で優れた結果を達成し、わずか 80 億のパラメータでGPT-4 や Gemini などの大規模なクローズドソース モデルに匹敵するパフォーマンス レベルを達成しました。

GraphAgent は、特にゼロショット学習やクロスドメイン一般化などのシナリオで大きな利点を発揮します。

興味深いことに、チームは GraphAgent を学術論文のレビューシナリオに適用しました。

実際の投稿プロセスでは、著者は査読者のコメントに基づいて反論を準備する必要があることがよくありますが、GraphAgent を使用すると、著者は査読者のコメントのみに基づいて論文が受理される可能性をより適切に評価できるようになります。

GraphAgent はどのようなものですか?

現実世界のデータは二重の性質を示します。一方では、構造化されたグラフ接続データで構成され、他方では、非構造化テキストおよび視覚情報で構成されます。

これらのデータに含まれる関係ネットワークは、明示的な接続 (ソーシャル ネットワークの相互作用など) と暗黙的な意味的依存関係 (ナレッジ グラフで一般的) の 2 つのカテゴリに分類できます。

この複雑さにより、次の 3 つの主要な課題が生じます。

  • 異種データの融合:システムは様々な形態の情報を統合する必要があります。学術ネットワークを例に挙げると、論文間の引用はグラフ構造を形成し、タイトル、抄録、その他のテキストは豊富な意味情報を含んでいます。こうした異種情報を効果的に統合することで、知識要約や科学的な質問応答といったアプリケーションをサポートできます。
  • 多層的な関係性の理解:現実世界のシナリオでは、多次元的なつながりがしばしば存在します。例えば、eコマースプラットフォームでは、ユーザーと製品のインタラクションは行動グラフを形成し、製品レビューはセマンティックネットワークを構築します。こうした多層的な関係性を深く理解することで、ユーザーと製品のインタラクション予測の精度を向上させることができます。
  • 多様なタスク:アプリケーションシナリオでは、システムに幅広い処理能力が求められます。予測タスクには、ノード分類やリンク推論といったグラフ分析が含まれ、生成タスクには、グラフを活用したテキスト生成やナレッジグラフによる質問応答が含まれます。そのため、システムは様々なタスクの特性に柔軟に適応し、データに含まれる構造化情報と意味情報を最大限に活用できる必要があります。

これらの課題に対処するために、研究チームはマルチエージェント自動化フレームワークである GraphAgent を提案しました。

このフレームワークは、3 つのコア インテリジェント エージェントの共同作業を通じてグラフ構造と意味情報の深い統合を実現し、予測 (グラフ分析、ノード分類) や生成 (テキスト作成) などのさまざまなタスクを同時にサポートできます。

コアアーキテクチャには以下が含まれます。

  • グラフジェネレータエージェント
  • タスク計画エージェント
  • タスク実行エージェント

3 つのインテリジェント エージェントは、大規模言語モデルとグラフ言語モデルの利点を組み合わせた共同メカニズムを通じて緊密に連携し、データ内のリレーショナル ネットワークと意味的依存関係を効果的にマイニングします。

各インテリジェント エージェントのコア機能については、以下で詳しく説明します。

グラフ生成エージェント

グラフ生成エージェントは、セマンティック ナレッジ グラフ (SKG) を構築し、革新的な 2 段階の反復メカニズムを通じて深いセマンティック情報を抽出して統合する役割を担います。

エージェントのワークフローは、次の 2 つのコアフェーズで構成されます。

1) 知識ノード抽出段階

この段階では、適応型階層戦略を採用して、非構造化テキストから多次元の知識エンティティを識別します。

  • システムはカスタマイズされたプロンプトを使用して大規模言語モデル (LLM) を呼び出し、入力テキストを処理します。
  • 反復認識技術を採用することで、マクロレベルのドメイン概念(「機械学習」など)とマイクロレベルの技術的詳細(「自己教師学習」など)を同時にキャプチャします。
  • 複数の反復を通じて階層的な知識構造を構築することにより、知識システムの整合性と一貫性を確保できます。

2) 知識記述強化段階

この段階では、知識表現の豊かさと正確さの向上に重点が置かれます。

  • 識別された各ノードの詳細な意味説明を生成します。
  • 関連するコンテキスト情報を統合して、完全な知識のつながりを構築します。
  • 動的な反復更新メカニズムが採用されています: i) 各ラウンドの記述は、次のラウンドの最適化の基礎として機能します。ii) 知識コンテンツは継続的に深化および拡張されます。iii) 複数ラウンドの反復融合を通じて、意味的に完全な知識グラフが最終的に形成されます。

タスク計画インテリジェントエージェント

タスク計画エージェントはフレームワークの意思決定プロセスの中核として機能し、高度な 3 段階の処理メカニズムを使用して複雑なタスクを計画および分解します。

ワークフローには以下が含まれます。

1) 意図認識とタスク定式化

このフェーズでは、ユーザーのニーズを正確に理解し、処理戦略を決定することに重点が置かれます。

  • ユーザーのクエリを深く分析し、コアな意図を抽出する
  • タスクは、既知の構造を持つグラフ分析を扱う予測グラフ予測、未知の構造を持つグラフ推論を扱う予測グラフ予測、および柔軟な創造的ニーズを満たすオープン生成タスクの 3 つの主なタイプに分類されます。

2) グラフ構造標準化処理

この段階では、さまざまな種類のグラフ データの統一された表現が実現されます。

  • 構造変換は、専門的なダイアグラム構築ツール (GBW_Tool) を使用して実行されました。
  • 明示的関係グラフ(G_exp)と意味知識グラフ(G_skg)の同時処理
  • 一貫した処理を保証するために、標準化された異種グラフ表現システムを確立します。

3) 画像とテキストの特徴の融合

この段階では、情報の深い統合を実現することに重点が置かれます。

  • 事前トレーニング済みのテキスト エンコーダーとグラフ ニューラル ネットワークを組み合わせて、2 層コーディング システムが構築されます。
  • テキストの意味とグラフ構造の結合表現を生成する
  • 下流のタスクに豊富な機能サポートを提供し、実行の基盤を築きます。

画像アクションインテリジェントエージェント

グラフアクションエージェントは、フレームワークの中核となる実行ユニットです。革新的な3次元処理アーキテクチャにより、正確なタスク実行とパフォーマンスの最適化を実現します。

その動作メカニズムは次のとおりです。

1) インテリジェントなタスク処理メカニズム

異なるタイプのタスクには、異なる処理戦略が採用されています。

  • 予測タスク: モデルが正確な予測を行えるようにガイドするカスタム システム プロンプトを設計します。
  • 生成タスク: 意味知識グラフを統合して、生成されるテキストの品質と関連性を向上させます。
  • 適応型最適化: タスクの特性に基づいて処理フローを動的に調整し、実行効率を確保します。

2) 深度マップコマンドアライメント技術

革新的なマルチレベルのモード調整を実現します。

  • 類似したグラフ構造の配置: 特定のグラフ パターンを理解するモデルの能力を強化します。
  • 異種グラフ関係の処理精度向上のためのクロスタイプ知識融合
  • 双方向強化メカニズム: さまざまなシナリオでモデルの一般化パフォーマンスを大幅に向上します。

3) 漸進的な学習戦略

高度な学習方法の採用:

  • 難易度の段階に基づいたタスクのオーケストレーション: 基本レベルから上級レベルへのスムーズな移行。
  • 洗練されたトレーニング シーケンスの設計: 知識蓄積の継続性を保証します。
  • 包括的なパフォーマンス最適化: さまざまなタスクにわたって安定した高レベルのパフォーマンスを維持します。

実験

データセット設定

実験評価では、さまざまなシナリオとタスク タイプをカバーする 6 つの異なるベンチマーク データセットが使用されました。

表 1 に示すように、これらの慎重に選択されたデータセットは、サイズ、構造、およびアプリケーション ドメインに大きな違いがあり、フレームワークのパフォーマンスを包括的に検証するための理想的なテスト ベースを提供します。

GraphAgentの全体的なパフォーマンスを包括的に評価するため、本研究ではシステム実験用に6つの代表的なベンチマークデータセットを選択しました。これらのデータセットは、タスク特性に基づいて3つの主要なカテゴリに分類できます。

構造化グラフデータセット: 2つの典型的なノード分類データセット、IMDBとACMを使用しました。IMDBデータセットには11,616個のノードが含まれ、ACMデータセットには10​​,942個のノードが含まれます。どちらのデータセットも明確なグラフ構造の特徴を備えており、モデルの構造化データ処理能力を評価するための信頼性の高いベンチマークを提供します。

テキスト処理データセット: Arxiv-PapersとICLR-Peer Reviewsという2つの代表的なデータセットが選択されました。Arxiv-Papersは、文書分類の性能を評価するために153,555個のSKGノードを含むセマンティックナレッジグラフを構築します。ICLR-Peer Reviewsは161,592個のSKGノードを含み、論文採択予測タスクに特化して使用されます。これらのデータセットは、複雑なテキストと意味関係を処理できるモデルの能力を実証しています。

インテリジェントな生成データセット: Related Work GenerationとGovReportという2つの難解なデータセットを紹介します。Related Work Generationは複数の論文に基づいて構築され、875,921個のSKGノードで構成され、モデルの関連文書生成能力を検証するために使用されます。GovReportは15,621個のSKGノードで構成され、長文文書の要約タスク向けに設計されています。どちらのデータセットも、モデルの生成能力に高い要求を課します。

実験結果の分析

構造化データ予測パフォーマンス分析

構造化グラフタスクにおける GraphAgent のゼロショット学習機能を徹底的に評価するために、研究チームは一連の比較実験を設計しました。

この実験では、モデルのトレーニングに IMDB データセットを使用し、1 ショットと 40 ショットの 2 つの低リソース シナリオでモデルのパフォーマンスを検証し、ACM データセット内の 1,000 個の未表示ノードに対して転送テストを実施して、モデルの一般化能力を評価しました。

実験結果によると、GraphAgentは最先端のグラフ言語モデルHiGPTを全ての主要指標において大幅に上回り、平均で28%以上のパフォーマンス向上を達成しました。40ショット設定では、Micro-F1スコアとMacro-F1スコアは共に74.98%(それぞれ48.5%と63.5%の向上)、AUCは80.90%(27.2%の向上)に達しました。

GraphAgent の優れたパフォーマンスは、主に次の 3 つのコア技術革新から生まれています。

まず、インテリジェント グラフ生成メカニズムは、セマンティック ナレッジ グラフ (SKG) を自動的に構築することにより、モデルに豊富な補足情報を注入します。これにより、複雑なセマンティック関係を理解する能力が大幅に向上します。

第二に、正確なタスク計画メカニズムにより、モデルはユーザーの意図を正確に理解して分解し、さまざまなアプリケーションシナリオに最適な実行戦略を策定できます。

最後に、革新的なデュアル最適化戦略は、画像とテキストの配置とタスクの微調整メカニズムを組み合わせ、モデルの基本パフォーマンスを向上させるだけでなく、転移学習機能も強化し、1 ショットなどのリソースが少ないシナリオでもモデルが安定した高いパフォーマンスを維持できるようにします。

意味理解能力分析

複雑な意味関係を処理する GraphAgent のパフォーマンスを徹底的に評価するために、研究チームは、論文分類の検証に Arxiv-Papers データセットを使用し、論文受理予測能力をテストするために ICLR-Peer Reviews データセットを使用するという、2 つの典型的なデータセットに基づく体系的な実験を実施しました。

厳密な実験評価を通じて、GraphAgent は暗黙的な意味的依存関係の処理において次のような優れた利点があることが実証されています。

実験結果では、GraphAgent の 3 つの主な利点が明らかになりました。

パラメータスケールの最適化という点では、GraphAgentはわずか80億個のパラメータで、独自のセマンティック知識グラフアーキテクチャにより複雑なセマンティック依存関係を把握することに成功しました。多層セマンティック情報のローカルおよびグローバル統合により、様々な評価指標においてLlama3-70bやQwen2-72bなどの大規模モデルを大幅に上回り、平均31.9%の性能向上を達成しました。

一般化能力の面では、GraphAgentは優れたクロスタスク学習能力を示しています。マルチタスク版であるGraphAgent-Generalは、Arxiv-Papersデータセットにおいて、特別に最適化されたシングルタスク版よりも優れたパフォーマンスを発揮します。

特に注目すべきは、8B スケールの GraphAgent が、ゼロショットのシナリオでも Deepseek-Chat-V2 などの大規模なクローズドソース モデルと同等のパフォーマンス レベルを達成できることです。

アーキテクチャの効率性という点では、GraphAgent は、意味的知識グラフと構造化知識表現を革新的に統合することにより、従来の教師あり微調整法や GraphRAG システムと比較してモデルのパフォーマンスを大幅に向上させるだけでなく、入力オーバーヘッドを効果的に削減し、大規模言語モデルに共通する錯覚問題をうまく軽減します。

テキスト生成タスク

GraphAgentは、グラフ強化テキスト生成タスクにおいて卓越したパフォーマンスを発揮します。パフォーマンス評価、モデル比較、アーキテクチャ分析という3つの側面にわたるシステム実験を通じて、その大きな利点が完全に検証されました。

Llama3-70bとQwen2-72bに基づく二重比較検証により、GraphAgentはパープレキシティレベル(PPL)などの主要指標においてベースラインモデルを大幅に上回る性能を発揮することが実証されました。従来の教師ありファインチューニング(SFT)やGraphRAG手法とは異なり、GraphAgentはセマンティックナレッジグラフをインテリジェントに構築することでモデルの推論および理解能力を根本的に強化し、複雑な推論パターンの処理における従来のファインチューニングや知識注入手法の固有の限界を効果的に解消します。

GraphAgent は、アーキテクチャの革新とパフォーマンスのベンチマークにおいて優れた利点を発揮します。

GPT-4をベンチマークとして用いた実験では、GraphAgentはLlama3-8bおよびLlama3-70bと比較して、それぞれ114%および45%のパフォーマンス向上を達成しました。テストケースの67%で同規模のモデルを上回り、58%のケースで主流のオープンソースソリューションを上回りました。

特に注目すべきは、GraphAgent がわずか 8 バイトのパラメータと極めて低い計算オーバーヘッドでこれらの驚くべき結果を達成し、テキスト生成機能の強化におけるセマンティック知識グラフベースのアーキテクチャ設計の大きな効果を完全に実証していることです。

アブレーション実験

研究チームは体系的なアブレーション研究を通じて、GraphAgent アーキテクチャの 3 つのコア コンポーネントのパフォーマンスへの貢献を詳細に評価し、その結果、次の重要な知見が明らかになりました。

セマンティック・ナレッジ・グラフ(SKG)の根本的なサポート役 SKGコンポーネントを削除すると、モデルのパフォーマンスが15.2%も大幅に低下しました。これは、自動構築されたセマンティック・ナレッジ・グラフが、重要な補足情報を提供する上でいかに重要な役割を果たしているかを如実に示しています。この結果は、構造化された知識表現がモデル全体のパフォーマンスに決定的な影響を与えることを浮き彫りにしています。

画像とテキストの対応付けメカニズムの重要性:実験の結果、画像とテキストの対応付けメカニズムがない場合、パフォーマンスの低下が最も顕著になり、パープレキシティ(PPL)が11.282増加することがわかりました。これは、複雑な推論を必要とする生成タスクにおいて、画像とテキストの深い理解が極めて重要な役割を果たすことを浮き彫りにしており、高品質なモデル出力を保証するための重要な要素です。

カリキュラム学習戦略の最適化効果:カリキュラム学習戦略の影響は他の要素と比較して比較的小さいものの(予測タスクでは4.0%の減少、生成タスクではPPLが0.503増加)、カリキュラム学習戦略の欠如は両タスクのパフォーマンスに依然として大きなマイナスの影響を与えています。これは、漸進的学習パスがモデルトレーニングのパフォーマンスを最適化する上でプラスの役割を果たしていることを裏付けています。

最後に、研究チームは今後の研究の方向性を明らかにしました。

マルチモーダル機能拡張:現在のフレームワークの処理能力を視覚情報分野に拡張し、リレーショナルデータ、テキストコンテンツ、視覚要素をサポートする包括的な処理メカニズムを確立する計画です。この拡張は、マルチモーダル情報の理解と融合だけでなく、クロスモーダルな知識表現・生成機能の開発にも重点を置き、より豊かな知的インタラクションシナリオを実現します。特に、視覚、テキスト、そして関係性の協調モデリングに重点を置き、マルチモーダル知能システムの新たな研究方向を切り開きます。

モデル性能最適化:この分野では、複雑な実世界シナリオにおけるモデルの汎化性能の向上に焦点を当て、特に性能を維持または向上させながらモデル圧縮を実現する方法に重点を置きます。これには、革新的なモデルアーキテクチャ設計、効率的なパラメータ共有メカニズム、高度な知識抽出技術が含まれます。同時に、実世界の展開環境におけるモデル効率を向上させるための計算リソース最適化戦略を探求し、大規模アプリケーションの基盤を構築します。

適用シナリオの拡大:本フレームワークの実用化を複数の分野に積極的に展開し、特に科学研究支援やビジネスインテリジェンス分析といった高価値シナリオに注力します。科学研究​​分野では、文献分析や知識発見のための専用ツールの開発に取り組みます。ビジネス分野では、意思決定支援のためのインテリジェント分析システムの構築に注力します。同時に、新たな技術動向を注視し、ヘルスケアやフィンテックといった分野における適用シナリオを模索していきます。

プロジェクトアドレス: https://github.com/HKUDS/Grap... 論文リンク: https://arxiv.org/abs/2412.17029 ラボホームページ: https://sites.google.com/view...