|
私の論文は受理されるだろうか?AIが事前に予測できる! 香港大学の黄超教授のチームは、知識グラフ内の複雑なセマンティックネットワークを自動的に構築および解析し、さまざまな予測および生成タスクを処理できるマルチエージェント自動化フレームワークであるGraphAgent を提案しました。 GraphAgent は、グラフ生成、タスク計画、タスク実行という 3 つのコアインテリジェントエージェントの連携動作を通じて、大規模言語モデルとグラフ言語モデルの利点を統合し、構造化グラフデータと非構造化テキストデータをうまく接続し、テキスト要約と関係モデリングの大幅な改善を実現します。 実験では、GraphAgent は予測タスク (ノード分類など) と生成タスク (テキスト生成など) の両方で優れた結果を達成し、わずか 80 億のパラメータでGPT-4 や Gemini などの大規模なクローズドソース モデルに匹敵するパフォーマンス レベルを達成しました。 GraphAgent は、特にゼロショット学習やクロスドメイン一般化などのシナリオで大きな利点を発揮します。 興味深いことに、チームは GraphAgent を学術論文のレビューシナリオに適用しました。 実際の投稿プロセスでは、著者は査読者のコメントに基づいて反論を準備する必要があることがよくありますが、GraphAgent を使用すると、著者は査読者のコメントのみに基づいて論文が受理される可能性をより適切に評価できるようになります。 GraphAgent はどのようなものですか?現実世界のデータは二重の性質を示します。一方では、構造化されたグラフ接続データで構成され、他方では、非構造化テキストおよび視覚情報で構成されます。 これらのデータに含まれる関係ネットワークは、明示的な接続 (ソーシャル ネットワークの相互作用など) と暗黙的な意味的依存関係 (ナレッジ グラフで一般的) の 2 つのカテゴリに分類できます。 この複雑さにより、次の 3 つの主要な課題が生じます。
これらの課題に対処するために、研究チームはマルチエージェント自動化フレームワークである GraphAgent を提案しました。 このフレームワークは、3 つのコア インテリジェント エージェントの共同作業を通じてグラフ構造と意味情報の深い統合を実現し、予測 (グラフ分析、ノード分類) や生成 (テキスト作成) などのさまざまなタスクを同時にサポートできます。 コアアーキテクチャには以下が含まれます。
3 つのインテリジェント エージェントは、大規模言語モデルとグラフ言語モデルの利点を組み合わせた共同メカニズムを通じて緊密に連携し、データ内のリレーショナル ネットワークと意味的依存関係を効果的にマイニングします。 各インテリジェント エージェントのコア機能については、以下で詳しく説明します。 グラフ生成エージェントグラフ生成エージェントは、セマンティック ナレッジ グラフ (SKG) を構築し、革新的な 2 段階の反復メカニズムを通じて深いセマンティック情報を抽出して統合する役割を担います。 エージェントのワークフローは、次の 2 つのコアフェーズで構成されます。 1) 知識ノード抽出段階 この段階では、適応型階層戦略を採用して、非構造化テキストから多次元の知識エンティティを識別します。
2) 知識記述強化段階 この段階では、知識表現の豊かさと正確さの向上に重点が置かれます。
タスク計画インテリジェントエージェントタスク計画エージェントはフレームワークの意思決定プロセスの中核として機能し、高度な 3 段階の処理メカニズムを使用して複雑なタスクを計画および分解します。 ワークフローには以下が含まれます。 1) 意図認識とタスク定式化 このフェーズでは、ユーザーのニーズを正確に理解し、処理戦略を決定することに重点が置かれます。
2) グラフ構造標準化処理 この段階では、さまざまな種類のグラフ データの統一された表現が実現されます。
3) 画像とテキストの特徴の融合 この段階では、情報の深い統合を実現することに重点が置かれます。
画像アクションインテリジェントエージェントグラフアクションエージェントは、フレームワークの中核となる実行ユニットです。革新的な3次元処理アーキテクチャにより、正確なタスク実行とパフォーマンスの最適化を実現します。 その動作メカニズムは次のとおりです。 1) インテリジェントなタスク処理メカニズム 異なるタイプのタスクには、異なる処理戦略が採用されています。
2) 深度マップコマンドアライメント技術 革新的なマルチレベルのモード調整を実現します。
3) 漸進的な学習戦略 高度な学習方法の採用:
実験データセット設定実験評価では、さまざまなシナリオとタスク タイプをカバーする 6 つの異なるベンチマーク データセットが使用されました。 表 1 に示すように、これらの慎重に選択されたデータセットは、サイズ、構造、およびアプリケーション ドメインに大きな違いがあり、フレームワークのパフォーマンスを包括的に検証するための理想的なテスト ベースを提供します。 GraphAgentの全体的なパフォーマンスを包括的に評価するため、本研究ではシステム実験用に6つの代表的なベンチマークデータセットを選択しました。これらのデータセットは、タスク特性に基づいて3つの主要なカテゴリに分類できます。 構造化グラフデータセット: 2つの典型的なノード分類データセット、IMDBとACMを使用しました。IMDBデータセットには11,616個のノードが含まれ、ACMデータセットには10,942個のノードが含まれます。どちらのデータセットも明確なグラフ構造の特徴を備えており、モデルの構造化データ処理能力を評価するための信頼性の高いベンチマークを提供します。 テキスト処理データセット: Arxiv-PapersとICLR-Peer Reviewsという2つの代表的なデータセットが選択されました。Arxiv-Papersは、文書分類の性能を評価するために153,555個のSKGノードを含むセマンティックナレッジグラフを構築します。ICLR-Peer Reviewsは161,592個のSKGノードを含み、論文採択予測タスクに特化して使用されます。これらのデータセットは、複雑なテキストと意味関係を処理できるモデルの能力を実証しています。 インテリジェントな生成データセット: Related Work GenerationとGovReportという2つの難解なデータセットを紹介します。Related Work Generationは複数の論文に基づいて構築され、875,921個のSKGノードで構成され、モデルの関連文書生成能力を検証するために使用されます。GovReportは15,621個のSKGノードで構成され、長文文書の要約タスク向けに設計されています。どちらのデータセットも、モデルの生成能力に高い要求を課します。 実験結果の分析構造化データ予測パフォーマンス分析 構造化グラフタスクにおける GraphAgent のゼロショット学習機能を徹底的に評価するために、研究チームは一連の比較実験を設計しました。 この実験では、モデルのトレーニングに IMDB データセットを使用し、1 ショットと 40 ショットの 2 つの低リソース シナリオでモデルのパフォーマンスを検証し、ACM データセット内の 1,000 個の未表示ノードに対して転送テストを実施して、モデルの一般化能力を評価しました。 実験結果によると、GraphAgentは最先端のグラフ言語モデルHiGPTを全ての主要指標において大幅に上回り、平均で28%以上のパフォーマンス向上を達成しました。40ショット設定では、Micro-F1スコアとMacro-F1スコアは共に74.98%(それぞれ48.5%と63.5%の向上)、AUCは80.90%(27.2%の向上)に達しました。 GraphAgent の優れたパフォーマンスは、主に次の 3 つのコア技術革新から生まれています。 まず、インテリジェント グラフ生成メカニズムは、セマンティック ナレッジ グラフ (SKG) を自動的に構築することにより、モデルに豊富な補足情報を注入します。これにより、複雑なセマンティック関係を理解する能力が大幅に向上します。 第二に、正確なタスク計画メカニズムにより、モデルはユーザーの意図を正確に理解して分解し、さまざまなアプリケーションシナリオに最適な実行戦略を策定できます。 最後に、革新的なデュアル最適化戦略は、画像とテキストの配置とタスクの微調整メカニズムを組み合わせ、モデルの基本パフォーマンスを向上させるだけでなく、転移学習機能も強化し、1 ショットなどのリソースが少ないシナリオでもモデルが安定した高いパフォーマンスを維持できるようにします。 意味理解能力分析 複雑な意味関係を処理する GraphAgent のパフォーマンスを徹底的に評価するために、研究チームは、論文分類の検証に Arxiv-Papers データセットを使用し、論文受理予測能力をテストするために ICLR-Peer Reviews データセットを使用するという、2 つの典型的なデータセットに基づく体系的な実験を実施しました。 厳密な実験評価を通じて、GraphAgent は暗黙的な意味的依存関係の処理において次のような優れた利点があることが実証されています。 実験結果では、GraphAgent の 3 つの主な利点が明らかになりました。 パラメータスケールの最適化という点では、GraphAgentはわずか80億個のパラメータで、独自のセマンティック知識グラフアーキテクチャにより複雑なセマンティック依存関係を把握することに成功しました。多層セマンティック情報のローカルおよびグローバル統合により、様々な評価指標においてLlama3-70bやQwen2-72bなどの大規模モデルを大幅に上回り、平均31.9%の性能向上を達成しました。 一般化能力の面では、GraphAgentは優れたクロスタスク学習能力を示しています。マルチタスク版であるGraphAgent-Generalは、Arxiv-Papersデータセットにおいて、特別に最適化されたシングルタスク版よりも優れたパフォーマンスを発揮します。 特に注目すべきは、8B スケールの GraphAgent が、ゼロショットのシナリオでも Deepseek-Chat-V2 などの大規模なクローズドソース モデルと同等のパフォーマンス レベルを達成できることです。 アーキテクチャの効率性という点では、GraphAgent は、意味的知識グラフと構造化知識表現を革新的に統合することにより、従来の教師あり微調整法や GraphRAG システムと比較してモデルのパフォーマンスを大幅に向上させるだけでなく、入力オーバーヘッドを効果的に削減し、大規模言語モデルに共通する錯覚問題をうまく軽減します。 テキスト生成タスク GraphAgentは、グラフ強化テキスト生成タスクにおいて卓越したパフォーマンスを発揮します。パフォーマンス評価、モデル比較、アーキテクチャ分析という3つの側面にわたるシステム実験を通じて、その大きな利点が完全に検証されました。 Llama3-70bとQwen2-72bに基づく二重比較検証により、GraphAgentはパープレキシティレベル(PPL)などの主要指標においてベースラインモデルを大幅に上回る性能を発揮することが実証されました。従来の教師ありファインチューニング(SFT)やGraphRAG手法とは異なり、GraphAgentはセマンティックナレッジグラフをインテリジェントに構築することでモデルの推論および理解能力を根本的に強化し、複雑な推論パターンの処理における従来のファインチューニングや知識注入手法の固有の限界を効果的に解消します。 GraphAgent は、アーキテクチャの革新とパフォーマンスのベンチマークにおいて優れた利点を発揮します。 GPT-4をベンチマークとして用いた実験では、GraphAgentはLlama3-8bおよびLlama3-70bと比較して、それぞれ114%および45%のパフォーマンス向上を達成しました。テストケースの67%で同規模のモデルを上回り、58%のケースで主流のオープンソースソリューションを上回りました。 特に注目すべきは、GraphAgent がわずか 8 バイトのパラメータと極めて低い計算オーバーヘッドでこれらの驚くべき結果を達成し、テキスト生成機能の強化におけるセマンティック知識グラフベースのアーキテクチャ設計の大きな効果を完全に実証していることです。 アブレーション実験研究チームは体系的なアブレーション研究を通じて、GraphAgent アーキテクチャの 3 つのコア コンポーネントのパフォーマンスへの貢献を詳細に評価し、その結果、次の重要な知見が明らかになりました。 セマンティック・ナレッジ・グラフ(SKG)の根本的なサポート役: SKGコンポーネントを削除すると、モデルのパフォーマンスが15.2%も大幅に低下しました。これは、自動構築されたセマンティック・ナレッジ・グラフが、重要な補足情報を提供する上でいかに重要な役割を果たしているかを如実に示しています。この結果は、構造化された知識表現がモデル全体のパフォーマンスに決定的な影響を与えることを浮き彫りにしています。 画像とテキストの対応付けメカニズムの重要性:実験の結果、画像とテキストの対応付けメカニズムがない場合、パフォーマンスの低下が最も顕著になり、パープレキシティ(PPL)が11.282増加することがわかりました。これは、複雑な推論を必要とする生成タスクにおいて、画像とテキストの深い理解が極めて重要な役割を果たすことを浮き彫りにしており、高品質なモデル出力を保証するための重要な要素です。 カリキュラム学習戦略の最適化効果:カリキュラム学習戦略の影響は他の要素と比較して比較的小さいものの(予測タスクでは4.0%の減少、生成タスクではPPLが0.503増加)、カリキュラム学習戦略の欠如は両タスクのパフォーマンスに依然として大きなマイナスの影響を与えています。これは、漸進的学習パスがモデルトレーニングのパフォーマンスを最適化する上でプラスの役割を果たしていることを裏付けています。 最後に、研究チームは今後の研究の方向性を明らかにしました。 マルチモーダル機能拡張:現在のフレームワークの処理能力を視覚情報分野に拡張し、リレーショナルデータ、テキストコンテンツ、視覚要素をサポートする包括的な処理メカニズムを確立する計画です。この拡張は、マルチモーダル情報の理解と融合だけでなく、クロスモーダルな知識表現・生成機能の開発にも重点を置き、より豊かな知的インタラクションシナリオを実現します。特に、視覚、テキスト、そして関係性の協調モデリングに重点を置き、マルチモーダル知能システムの新たな研究方向を切り開きます。 モデル性能最適化:この分野では、複雑な実世界シナリオにおけるモデルの汎化性能の向上に焦点を当て、特に性能を維持または向上させながらモデル圧縮を実現する方法に重点を置きます。これには、革新的なモデルアーキテクチャ設計、効率的なパラメータ共有メカニズム、高度な知識抽出技術が含まれます。同時に、実世界の展開環境におけるモデル効率を向上させるための計算リソース最適化戦略を探求し、大規模アプリケーションの基盤を構築します。 適用シナリオの拡大:本フレームワークの実用化を複数の分野に積極的に展開し、特に科学研究支援やビジネスインテリジェンス分析といった高価値シナリオに注力します。科学研究分野では、文献分析や知識発見のための専用ツールの開発に取り組みます。ビジネス分野では、意思決定支援のためのインテリジェント分析システムの構築に注力します。同時に、新たな技術動向を注視し、ヘルスケアやフィンテックといった分野における適用シナリオを模索していきます。 プロジェクトアドレス: https://github.com/HKUDS/Grap... 論文リンク: https://arxiv.org/abs/2412.17029 ラボホームページ: https://sites.google.com/view... |
AI が論文が受理されるかどうかを予測、8B モデルが 70B モデルを上回る、HKU がグラフとテキストを融合するマルチエージェント モデル GraphAgent をリリース。
関連するおすすめ記事
-
WeRideの時価総額は1日で18億ドル急騰!自動運転関連企業が次々とIPOに臨む中、株価は40%も上昇しました。
-
ビル・ゲイツは、いたずらっ子だった頃の過去を語ります。16歳のとき、彼は何百マイルも歩きながら、頭の中で BASIC コードを書きました。
-
CATL(Contemporary Amperex Technology Co., Limited)が上半期の財務報告を発表、1日あたり1億元の純利益を獲得!
-
[TVMチュートリアル] タプル入力を用いた計算と縮約
-
数千億個のCPUを搭載した大規模なモデルを実行したいですか?コンピューティングパワーベンダーは全力を尽くしています!汎用CPUサーバーが新たな選択肢になりつつあります。
-
GitHubはOpenAIをバックアッププランとして活用し、CopilotはClaudeとGeminiとの統合を進めている。ネットユーザーの間では「Cursorのビジネスモデルは終わった」という声が上がっている。