618ZXW

最も包括的な概要: 1 つの記事で RAG テクノロジーの 5 つのパラダイムを理解しましょう。

張龍飛(Datawhale)によるオリジナル

Datawhaleのヒント

著者: Zhang Longfei、Datawhaleのティーチングアシスタント

本稿では主にRAG技術の発展について概説します。前半では文献レビューと主要論文を要約し、後半ではエンジニアリング実践ツールの概要を示します。

RAG検索強化生成技術は、その誕生以来、複数回のパラダイムイテレーションを経てきました。特に近年のLLMの普及に伴い、RAG技術は2024年に爆発的な成長を遂げ、年間を通じて1,000件を超える関連論文が発表されました。

複数回のパラダイム反復と技術の進歩を経て、RAGシステムは当初のシンプルな形態から、ますます複雑で洗練されたものへと進化してきました。パラダイムはNaiveRAGからAdvancedRAG、ModularRAG、そしてGraphRAGへと進化してきました。最新のAgenticRAGパラダイムは、データベース、モデルの微調整、論理的推論、インテリジェントエージェントといった複数の技術を統合し、複雑かつ柔軟な様々なタスクシナリオに適応可能です。

本稿では、RAG分野における主要な進歩と5つのパラダイムを概説し、エンジニアリングアプリケーションで一般的に使用されているRAGシステム構築ツールをまとめます。読者がRAGの基本概念を迅速に理解し、その発展を辿るのに役立つことを目的としています。

I. レビューと主要論文

1.1 3つの重要なレビュー

[1] ZHAO P, ZHANG H, YU Q, et al. AI生成コンテンツの検索拡張生成:サーベイ[A/OL]. arXiv, 2024[2024-06-21]. http://arxiv.org/abs/2402.19473.

[2] ガオ・イー、シオン・イー、ガオ

[3] FAN W, DING Y, NING L, et al. RAGミーティングLLMに関する調査:検索強化型大規模言語モデルに向けて[A/OL]. arXiv, 2024[2024-06-17]. http://arxiv.org/abs/2405.06211.

これら 3 つのレビューでは、RAG の 3 つの基本パラダイム (Naive RAG、Advanced RAG、Modular RAG) を明確に説明しています。

1.2 開発の歴史

2021年にRAG技術が登場して以来、RAGは言語モデルの強化を目的としたLLMの事前学習段階で初めて使用され、その後、微調整や推論タスクにも利用されるようになりました。ChatGPTのリリース以降、推論段階におけるRAG手法は数多く登場し、NaiveRAG、AdvancedRAG、ModularRAGという3つのパラダイムへと急速に進化しました。2024年には、MicrosoftのオープンソースであるGraphRAGが、知識グラフを統合するRAGの4番目のパラダイムの先駆けとなりました。2024年後半には、最初の4つのパラダイムを集大成し、適応特性を持つAgenticRAGが登場しました。


図1:検索強化生成(RAG)と検索強化大規模言語モデル(RA-LLM)の手法を、主な設計焦点、提案時期、および影響力(引用数で表す)に基づいてまとめた。図に示されている第一著者、年、モデル名から、対応する参考文献を検索できる。[3]

図2:RAG研究技術ツリー。RAGには主に事前学習、微調整、推論の段階が含まれる。LLMの登場に伴い、RAG研究は当初、LLMの強力なコンテキスト学習能力の活用に重点が置かれ、主に推論段階に集中していた。その後の研究は深化され、徐々にLLMの微調整と融合するようになった。研究者たちはまた、検索強化技術を用いて事前学習段階で言語モデルを強化する方法も模索している。[3]

1.3 RAGの基本概念

1.3.1 RAG はなぜ必要なのか?

大規模言語モデル(LLM)は目覚ましい成功を収めてきましたが、依然として大きな限界に直面しています。特に、ドメイン特化型または知識集約型のタスクにおいては、トレーニングデータを超えるクエリや最新の情報を必要とするクエリを扱う際に「錯覚」が生じる可能性があります。これらの課題を克服するために、検索強化型生成(RAG)は、意味的類似性計算を通じて外部知識ベースから関連するドキュメントチャンクを取得することでLLMを拡張します。外部知識を参照することで、RAGは不正確なコンテンツの生成を効果的に削減します。RAGのLLMへの統合は広く採用されており、RAGはチャットボット開発を推進し、LLMの実世界アプリケーションへの適用性を高める重要な技術となっています。

1.3.2 RAGの起源

[4]LEWIS P, PEREZ E, PIKTUS A, et al. 知識集約型NLPタスクのための検索拡張生成[A/OL]. arXiv, 2021[2025-01-27]. http://arxiv.org/abs/2005.11401. DOI:10.48550/arXiv.2005.11401.

概要:大規模な事前学習済み言語モデルは、パラメータに事実知識を格納し、下流のNLPタスクで微調整することで最先端の結果を達成することが示されています。しかし、知識にアクセスして正確に操作する能力は依然として限られており、知識集約型タスクにおけるタスク固有のアーキテクチャに遅れをとっています。さらに、決定のソースを提供して世界知識を更新することは、未解決の研究課題のままです。現在まで、明示的なノンパラメトリックメモリ変数アクセスメカニズムを備えた事前学習済みモデルは、下流の検索タスクについてのみ研究されてきました。本研究では、言語生成モデルで事前学習済みのパラメトリックメモリとノンパラメトリックメモリを組み合わせた、検索拡張生成(RAG)の一般的な微調整アプローチを検討します。導入したRAGモデルでは、パラメトリックメモリは事前学習済みのseq2seqモデルであり、ノンパラメトリックメモリは事前学習済みのニューラル検索エンジンを介してアクセスされるWikipediaの稠密ベクトルインデックスです。 2つのRAG方式を比較しました。1つは生成されたシーケンス全体で同じ検索段落を使用する方式、もう1つはトークンごとに異なる段落を使用する方式です。幅広い知識集約型NLPタスクでモデルを微調整・評価し、3つのオープンドメイン品質保証タスクにおいて最先端の性能を確立しました。これは、パラメトリックseq2seqモデルやタスク固有の検索・抽出アーキテクチャを凌駕するものでした。言語生成タスクでは、RAGモデルは最先端の純粋なパラメトリックseq2seqベースラインモデルよりも、より具体的で多様性に富み、かつ現実的な言語を生成することがわかりました。

イノベーション:本論文は、事前学習済み言語モデル(パラメトリックメモリ付き)とノンパラメトリックメモリ(検索メカニズムを介してアクセス)を効果的に組み合わせることで、知識集約型自然言語処理(NLP)タスクにおけるモデル性能を向上させるという課題に取り組むことを目的としています。具体的には、本論文では、検索拡張生成(RAG)と呼ばれるモデルを提案し、以下の方法で既存モデルの限界を解決します。

  1. 1. 知識へのアクセスと操作の精度:大規模な事前学習済み言語モデルは膨大な量の事実知識を記憶できますが、その知識にアクセスし、正確に操作する能力には限界があります。そのため、これらのモデルは、知識集約型タスクにおいて、タスク固有のアーキテクチャよりもパフォーマンスが低下する傾向があります。
  2. 2. 意思決定の解釈可能性: 事前トレーニング済みのモデルでは意思決定プロセスの説明が難しく、透明性が求められるアプリケーションでは課題となります。
  3. 3. 世界知識の更新: 事前トレーニング済みのモデルでは知識ベースの更新が難しく、新しい情報に適応する能力が制限されます。

これらの問題に対処するため、本論文ではRAGモデルを提案します。このモデルは、事前学習済みのシーケンスツーシーケンス(seq2seq)モデル(パラメトリックメモリ)と、事前学習済みのニューラル検索システムを介してアクセスされるWikipediaの稠密ベクトルインデックス(ノンパラメトリックメモリ)を組み合わせたものです。エンドツーエンドで学習されたRAGモデルは、より具体的で多様性に富み、事実に基づいた言語を生成しながら、様々な知識集約型タスクにおいて最先端のパフォーマンスを実現します。

1.3.3 RAG のシンプルなプロセスと概要

図3:質問応答に適用されたRAGプロセスの代表的な例。主に3つのステップで構成される。1)インデックス作成。文書はブロックに分割され、ベクトルにエンコードされ、ベクトルデータベースに保存される。2)検索。質問に最も関連性の高い上位k個のブロックが、意味的類似性に基づいて検索される。3)生成。元の質問と検索されたブロックがLLMに入力され、最終的な回答が生成される。[2]

図4:3つのRAGパラダイムの比較。(左)ナイーブRAGは、インデックス作成、検索、生成の3つの主要部分から構成されています。(中央)アドバンスドRAGは、事前検索と事後検索を中心とした様々な最適化戦略を提案しており、そのプロセスはナイーブRAGと類似しており、依然としてチェーン構造を辿っています。(右)モジュラーRAGは、従来のパラダイムを継承・発展させ、全体的に高い柔軟性を示しています。これは、複数の特定の機能モジュールの導入と既存モジュールの置き換えに顕著に表れています。プロセス全体は、順次的な検索と生成に限定されず、反復検索や適応検索などの手法も含まれています。[2]

図5: RAG技術エコシステムの概要[2]

1.4 高度なRAG

意味:

Advanced RAGは、Naive RAGの限界を克服するための具体的な改良を導入しています。検索品質を向上させるために、検索前と検索後の戦略を採用しています。インデックス作成の問題に対処するために、Advanced RAGはスライディングウィンドウ法、細粒度パーティション分割、メタデータ統合といった手法を用いてインデックス作成技術を改善しています。さらに、様々な最適化手法を用いて検索プロセスを簡素化しています。

主要論文:

[5] JIN J, ZHU Y, YANG X, et al. FlashRAG: 効率的な検索・拡張生成研究のためのモジュラーツールキット[A/OL]. arXiv, 2024[2024-11-03]. http://arxiv.org/abs/2405.13576. DOI:10.48550/arXiv.2405.13576.

要約: 大規模言語モデル (LLM) の出現により、検索強化生成 (RAG) 手法の潜在性が研究の注目を集めています。RAG システムのさまざまな側面を強化するために、多くの新しいアルゴリズムとモデルが導入されてきました。しかし、標準化された実装フレームワークが欠如していることと、RAG プロセスに固有の複雑さが相まって、一貫した環境でこれらの手法を比較および評価することは、研究者にとって困難で時間のかかる作業です。既存の RAG ツールキット (LangChain や LlamaIndex など) は利用可能ですが、扱いにくい場合が多く、研究者の個別のニーズを満たすことができません。この課題に対処するため、我々は FlashRAG を提案します。これは、研究者が既存の RAG 手法を複製し、統一されたフレームワーク内で独自の RAG アルゴリズムを開発できるように設計された、効率的でモジュール式のオープンソース ツールキットです。このツールキットは、12 の最先端の RAG 手法を実装し、32 のベンチマーク データセットを収集して整理します。私たちのツールキットは、カスタマイズ可能なモジュールフレームワーク、豊富な実装済みRAGワークのコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範かつ標準化された評価指標など、多様な機能を備えています。ツールキットとリソースはhttps://github.com/RUC-NLPIR/...で入手できます。

革新:

A: この論文では、RAG研究で遭遇する問題に対処するために、モジュール式のオープンソースツールキットであるFlashRAGを提案しています。これらの問題を解決するためのFlashRAGの主な機能と手法は以下のとおりです。

  1. 1. モジュール型RAGフレームワーク:FlashRAGは、容易に拡張可能なRAGプロセスを実装し、判定、取得、精緻化、生成という4つの主要カテゴリをカバーする13個のコンポーネントを提供します。これらのコンポーネントは個別に使用することも、組み合わせて一貫したプロセスとして使用することもできます。
  2. 2. 実装済みの高度なRAGアルゴリズム:FlashRAGは、Self-RAGやFLAREなど、シーケンシャルRAG、条件付きRAG、分岐RAG、巡回RAGといった12種類の高度なRAGアルゴリズムを実装しています。これらの手法は統一された設定で評価されており、ベンチマークレポートも提供されています。
  3. 3. 包括的なベンチマーク データセット: RAG 研究におけるデータセットの一貫性と再利用性を向上させるために、著者らは一般的に使用される 32 個の RAG ベンチマーク データセットをコンパイルし、統一された形式に前処理しました。
  4. 4. 効率的な補助スクリプト: RAG 実験のセットアップ時間を最小限に抑えるために、FlashRAG は、Wikipedia のダウンロードとスライスによるコーパスの作成、検索インデックスの構築、検索結果の事前準備などを含む包括的な補助スクリプト セットを提供します。
  5. 5. 複数の評価メトリックをサポート: FlashRAG は、検索メトリック (recall@k、precision@k、F1@k、MAP など) や生成メトリック (トークン レベルの F1 スコア、完全一致、精度、BLEU、ROUGE-L など) を含む、RAG プロセスの品質を測定するための複数の評価メトリックをサポートしています。
  6. 6. 実験結果と考察:本稿では、再現可能なベンチマークや探索的研究を含む一連の実験を通じて、FlashRAGの機能を実証します。これらの実験では、様々なデータセットと評価指標を用いて、様々な設定におけるFlashRAGのパフォーマンスを示します。
  7. 7. ツールキット構造:FlashRAGの構造は、環境モジュール、コンポーネントモジュール、パイプラインモジュールで構成されています。この階層的なモジュール設計により、研究者はRAGプロセス全体を簡単に組み立てて実行できます。

FlashRAG はこれらの機能を通じて、研究者が既存の RAG メソッドをより簡単に複製し、新しいアルゴリズムを開発し、研究の最適化に集中できるようにすることを目指しています。

図6: FlashRAGツールボックスの概要

図 7: 高度な RAG チェーン 出典: https://github.com/gomate-com...


[6] SARMAH B, HALL B, RAO R, et al. HybridRAG: 知識グラフとベクトル検索拡張生成の統合による効率的な情報抽出[A/OL]. arXiv, 2024[2024-08-24]. http://arxiv.org/abs/2408.04948. DOI:10.48550/arXiv.2408.04948.

概要: 金融アプリケーションで生成される非構造化テキストデータ (収益報告の記録など) から複雑な情報を抽出して解釈することは、大規模言語モデル (LLM) にとって依然として大きな課題です。これは、検索拡張 (RAG、つまり VectorRAG、情報検索にベクターデータベースを使用する) を採用した現在のベストプラクティスをもってしても変わりません。これは、ドメイン固有の用語と文書形式の複雑さによるものです。本研究では、知識グラフ (KG) ベースの RAG 技術 (GraphRAG) と VectorRAG を統合した新しい複合アプローチである HybridRAG を導入し、金融文書から情報を抽出して正確で文脈に関連した回答を生成する質疑応答 (Q&A) システムを強化します。本研究では、一連の本物の質疑応答のペアを自然に提供する質疑応答形式で提示される収益報告の記録セットを使用して実験を行います。実験の結果、ベクターデータベースとナレッジグラフの両方から同時にコンテキストを取得するHybridRAGは、従来のVectorRAGとGraphRAGをそれぞれ単独で使用した場合よりも、取得フェーズと生成フェーズの両方で優れた性能を発揮することが示されました。この提案手法は、金融分野以外にも応用可能です。

革新:

関連する研究は主に情報検索 (IR) の分野に焦点を当てており、次のような側面が含まれます。

  1. 1. BM25 アルゴリズム: Robertson と Zaragoza (2009) は、類似性検索に基づく BM25 アルゴリズムを調査しました。このアルゴリズムは、用語頻度 (TF)、逆ドキュメント頻度 (IDF)、およびドキュメントの長さに基づいてドキュメントの関連性スコアを計算します。
  2. 2. 稠密ベクトルモデル:Johnsonら(2019)は、データ内の深い意味的関係を捉えることができるk近傍法(KNN)アルゴリズムを用いた稠密ベクトルモデルを研究しました。ベクトル間の類似度(コサイン類似度など)を計算することで、このモデルはクエリベクトルに最も類似するk個のベクトルに対応するデータエンティティを返すことができます。
  3. 3. スパースエンコーダモデル:Zahariaら (2010) は、スパースエンコーダに基づくベクトルモデルを研究しました。このモデルは、高次元データを扱う際に解釈可能性を維持するという、稠密ベクトル表現における一般的な課題を克服します。これらのモデルは、文書やユーザークエリを、大量のトレーニングデータから得られた広範な関連用語の配列にマッピングすることで、文書やクエリの拡張用語をエンコードします。
  4. 4. RAGシステムの限界:現在RAGシステムで使用されている検索手法のほとんどは、キーワードと類似性に基づく検索に依存しており、RAGシステム全体の精度が制限される可能性があります。論文では、これまでの取り組みは主にLLMヒントの調整や微調整などを通じてG部分の精度向上に焦点を当ててきましたが、R部分によって提供されるコンテキストが適切でない場合、回答も不正確になるため、これらの手法はRAGシステム全体の精度に限られた影響しか与えないと指摘されています。
  5. 5. 検索強化生成(RAG)モデル:Siriwardhanaら(2023)は、オープンドメインの質問応答におけるRAGモデルのドメイン適応性を向上させる方法を調査した。
  6. 6. Mixture-of-Experts(MoE):Duら(2022)は、専門家モデルの混合を使用して言語モデルを効率的に拡張する方法であるGLaMモデルを提案しました。
  7. 7. パスウェイ言語モデル(PaLM):Chowdheryら(2023)は、パススケーリングを通じて言語モデルを拡張する方法であるPaLMモデルを提案した。

これらの関連研究は、特にセマンティック検索とハイブリッドクエリ戦略の観点から、本論文で提案されている「Blended RAG」方式の理論的および技術的基礎を提供します。

1.3 モジュラーRAG

意味:

モジュラーRAGアーキテクチャは、これまでの2つのRAGパラダイムを凌駕し、より高い適応性と汎用性を提供します。類似検索用の検索モジュールの追加や、微調整による検索システムの改良など、様々な戦略を用いてコンポーネントを改善しています。また、RAGモジュールの再編成やRAGパイプラインの並べ替えといった革新的な手法も導入され、特定の課題に対処しています。モジュラーRAGアプローチへの移行はますます一般的になりつつあり、コンポーネント間のシーケンシャル処理と統合されたエンドツーエンドのトレーニングの両方をサポートしています。独自の特性を持つにもかかわらず、モジュラーRAGは高度なRAGと単純なRAGの基本原理に基づいて構築されており、RAGファミリーの進歩と改良を示しています。

主要論文:

[7] GAO Y, XIONG Y, WANG M, et al. モジュラーRAG: RAGシステムをレゴのような再構成可能なフレームワークに変換する[A/OL]. arXiv, 2024[2024-08-24]. http://arxiv.org/abs/2407.21059. DOI:10.48550/arXiv.2407.21059.

概要:検索強化型生成(RAG)は、大規模言語モデル(LLM)の知識集約型タスク処理能力を大幅に向上させます。アプリケーションシナリオの需要の高まりがRAGの開発を牽引し、高度なリトリーバー、大規模言語モデル、その他の補完的技術の統合が進み、RAGシステムの複雑さが増しています。しかし、急速な進歩は基本的なRAGパラダイムを超えて進んでおり、多くの手法が「検索してから生成する」プロセスの統合に苦労しています。こうした背景を踏まえ、本稿では既存のRAGパラダイムの限界を探り、モジュール型RAGフレームワークを紹介します。複雑なRAGシステムを独立したモジュールと専用の演算子に分解することで、高度に再構成可能なフレームワークを実現します。モジュール型RAGは従来の線形アーキテクチャを超え、ルーティング、スケジューリング、および融合メカニズムを統合した、より高度な設計を採用しています。本稿では、広範な調査に基づき、一般的なRAGパターン(線形、条件付き、分岐、ループ)をさらに特定し、それぞれの実装上のニュアンスを包括的に分析します。モジュール型RAGは、RAGシステムの概念化と展開に革新的な機会を提供します。最後に、本稿では新たな演算子とパラダイムの出現の可能性を探り、RAG技術の継続的な開発と実用展開のための確固たる理論的基礎と実用的なロードマップを構築します。イノベーション:

本稿では、モジュール型RAGフレームワークを提案することで、既存のRAGシステムの限界と課題を解決します。具体的な解決策は以下のとおりです。

  1. 1. モジュラー アーキテクチャ: 複雑な RAG システムは、独立したモジュールと特殊なオペレーターに分解され、高度に再構成可能なフレームワークを形成します。
  2. 2. 3層アーキテクチャ設計:
  • L1 モジュール: RAG システムのコア プロセスに焦点を当て、各ステージを独立したモジュールとして扱います。
  • L2 サブモジュール: 各モジュール内の機能をさらに改良し、最適化します。
  • L3 演算子: モジュールまたはサブモジュール内の特定の機能実装。
  1. 3. RAG フロー: モジュールと演算子の組み合わせにより RAG フローが形成され、現在の RAG メソッドを柔軟に表現できます。
  2. 4. インデックス作成: ドキュメントのチャンク化とメタデータの追加、および構造化された構成を最適化して、検索効率を向上させます。
  3. 5. 事前取得: クエリ拡張、クエリ変換、およびクエリ構築を通じて、元のユーザー クエリに基づいて取得パフォーマンスを向上させます。
  4. 6. 検索: 適切な検索エンジンを選択し、微調整して検索の品質と効率を向上させます。
  5. 7. 検索後: 取得したテキスト ブロックを並べ替え、圧縮し、選択して、コンテキスト情報の使用を最適化します。
  6. 8. 生成: LLM を使用して回答を生成し、ジェネレータの微調整、検証、その他の方法を通じて回答の信頼性を向上させます。
  7. 9. オーケストレーション: ルーティング、スケジューリング、および融合メカニズムを通じて RAG プロセスを制御し、システムがさまざまなクエリやシナリオに適応できるようにします。
  8. 10. 柔軟性と拡張性: モジュラー RAG は、さまざまなアプリケーション シナリオに新しいメソッドを適応および拡張する柔軟性を提供します。
  9. 11. 理論的および実践的ガイダンス: この論文では、理論的枠組みを提案するだけでなく、実際の展開におけるモジュール式 RAG の可能性を探り、将来の研究方向と実践的探究のためのガイダンスを提供します。

これらの戦略を通じて、モジュール型 RAG フレームワークは、増大する多様化するアプリケーションのニーズと期待に応えながら、RAG システムの柔軟性、スケーラビリティ、保守性を向上させることを目指しています。

図 8: 3 つの RAG パラダイムの比較。

1.4 グラフRAG

意味:

検索強化型生成(RAG)は、知識、スキル、ツールなどの追加情報を外部ソースから取得することで、下流タスクのパフォーマンスを向上させる強力な手法です。グラフ自体は「エッジで接続されたノード」という特性を持ち、膨大な量の異種情報や関係情報をエンコードできるため、多くの実用的なアプリケーションにおいてRAGの貴重なリソースとなります。

概要:

[8] PENG B, ZHU Y, LIU Y, et al. グラフ検索-拡張生成:サーベイ[A/OL]. arXiv, 2024[2024-08-21]. http://arxiv.org/abs/2408.08921.

要約:近年、検索拡張(RAG)技術は、大規模言語モデル(LLM)の課題を再学習なしで解決することに大きな成功を収めています。RAGは外部知識ベースを参照することでLLMの出力を強化し、「錯覚」、ドメイン固有の知識の欠如、情報の陳腐化といった問題を効果的に軽減します。しかしながら、データベース内の異なるエンティティ間の複雑な関係構造は、RAGシステムにとって課題となります。この問題に対処するため、GraphRAGはエンティティ間の構造情報を活用することで、より正確で包括的な検索を実現し、関係知識を捕捉し、より正確で文脈を考慮した応答を促進します。GraphRAGの斬新さと可能性を考えると、既存の技術の体系的なレビューが不可欠です。本稿では、GraphRAG手法の包括的な概要を初めて提供します。グラフベースのインデックス作成、グラフ誘導型検索、グラフ拡張型生成を含むGraphRAGワークフローを正規化します。さらに、GraphRAGの下流タスク、適用分野、評価方法、産業用途についても調査します。最後に、さらなる探究を促し、分野を前進させるために、将来の研究の方向性を探ります。

貢献する:

本論文は、グラフ検索拡張生成(GraphRAG)手法の包括的な概要を提供します。本論文の要点を以下にまとめます。

  1. 1. 背景:本稿では、まず大規模言語モデル(LLM)の開発と自然言語処理(NLP)におけるその重要性について紹介する。また、ドメイン固有の知識、リアルタイムで更新される情報、そして独自の知識が欠如している場合にLLMが直面する可能性のある潜在的な問題についても指摘する。
  2. 2. GraphRAG コンセプト: GraphRAG は、上記の問題を解決するためのフレームワークとして提案されており、グラフ データベースからの構造化情報を組み合わせることで LLM の出力を強化します。
  3. 3. ワークフロー: GraphRAG の 3 つの主な段階、つまりグラフ基本インデックス作成 (G-Indexing)、グラフ ガイド検索 (G-Retrieval)、およびグラフ拡張生成 (G-Generation) について詳しく説明します。
  4. 4. コアテクノロジー: このセクションでは、グラフ ニューラル ネットワーク (GNN) や言語モデル (LM) など、GraphRAG システムで使用されるコアテクノロジーについて説明します。
  5. 5. トレーニング方法: 検索とジェネレータの独立したトレーニング方法と、それらの共同トレーニング戦略について説明します。
  6. 6. ダウンストリーム タスクとアプリケーション領域: 質問応答や情報抽出などのさまざまなダウンストリーム タスクにおける GraphRAG のアプリケーションを分析し、さまざまなアプリケーション領域 (医療、金融、教育など) への潜在的な影響を調査します。
  7. 7. 評価方法と産業用ユースケース: このセクションでは、ベンチマーク テストや産業用アプリケーション ケースなど、GraphRAG システムのパフォーマンスを評価する方法について説明します。
  8. 8. 将来の研究方向: 本論文は、動的および適応型グラフ、マルチモーダル情報統合、スケーラブルで効率的な検索メカニズムなど、GraphRAG 分野における将来の研究方向を提案して締めくくっています。
  9. 9. 貢献の概要: この論文では、既存の GraphRAG 方法論を体系的にレビューし、GraphRAG のテクノロジー、アプリケーション、および将来の研究方向に関する包括的な理解を提供します。

全体として、この論文は GraphRAG を理解して適用するための包括的な視点を提供し、将来の研究と応用への道を示しています。

主要論文:

[9] EDGE D, TRINH H, CHENG N, et al. ローカルからグローバルへ: クエリ重視の要約へのグラフRAGアプローチ[A/OL]. arXiv, 2024[2024-08-03]. http://arxiv.org/abs/2404.16130. DOI:10.48550/arXiv.2404.16130.

概要:大規模言語モデル(LLM)は、検索拡張(RAG)を通じて外部知識源から情報を取得し、非公開文書や未公開文書に関する質問に答えることができます。しかし、RAGは「データセットの主要テーマは何ですか?」といったグローバルな質問を処理する際には性能が劣ります。これらの質問は、本質的に直接的な検索ではなく、クエリに重点を置いた要約タスクだからです。既存のQFS手法も大規模テキストの処理に課題を抱えています。この問題に対処するため、本研究では、両手法の利点を組み合わせ、質問の頻度とテキスト量の増加に対応できるGraph RAGアプローチを提案します。Graph RAGは、LLMを用いてグラフインデックスを構築し、まず文書からエンティティグラフを抽出し、次に関連エンティティの要約を事前に生成します。質問に答える際、各要約は部分的な回答を生成し、それを集約して完全な回答を生成します。実験では、Graph RAGが大規模データセットにおけるグローバルな質問を処理する際に、回答の包括性と多様性を大幅に向上させることが示されています。グローバルおよびローカルGraph RAGのオープンソースPython実装は近日中に公開予定です。

革新:

この論文では、以下の問題に対処するために Graph RAG (Graph Retrieval-Augmented Generation) と呼ばれる手法を提案しています。

  1. 1. 検索拡張 (RAG) の限界: 従来の RAG 手法は、「データセットの主なトピックは何ですか?」などのテキスト コーパス全体を対象とするグローバルな質問を処理するには不十分です。これは、これらの質問が、従来の明示的な検索タスクではなく、本質的にクエリに重点を置いた要約 (QFS) タスクであるためです。
  2. 2. 大規模テキスト要約:既存のQFS手法は、RAGシステムによって索引付けされた大規模テキストへの拡張が困難です。大規模言語モデル(LLM)のコンテキストウィンドウの制限により、テキストブロックを直接取得するだけでは、グローバル要約の要件を満たせない可能性があります。
  3. 3. 情報損失の問題: 大量のテキストを処理する場合、長いコンテキストで情報が失われる可能性があるため、要約方法を設計する際には情報の整合性と一貫性を考慮する必要があります。
  4. 4. 全体的な質問への回答: テキスト コーパス全体に対する人間の全体的な理解をサポートするには、質問を通じてユーザーのデータに対するメンタル モデルを適用および改良できる方法が必要です。

Graph RAG メソッドは、次の手順でこれらの問題に対処します。

  • LLM を使用して、ソース ドキュメントから派生したエンティティ ナレッジ グラフを含むグラフベースのテキスト インデックスを構築します。
  • 密接に関連するすべてのエンティティ グループのコミュニティ サマリーを事前に生成します。
  • 問題が与えられた場合、各コミュニティの概要を使用して部分的な応答を生成し、すべての部分的な応答を再度集約して最終的な応答を生成します。

この手法の目標は、ユーザーの質問の一般性とインデックス対象となるソーステキストの量を拡大し、生成される回答の包括性と多様性を向上させることです。本論文では、グローバルおよびローカルのGraph RAG手法のオープンソースPython実装も提供しています。

図9:GraphRAGプロセス。上図に示すように、GraphRAGはインデックス作成段階とクエリ段階の2つの処理段階で構成されています。インデックス作成段階では、LLMを用いてナレッジグラフを自動的に構築し、対応するノード(エンティティなど)、エッジ(関係性など)、共変量(クレームなど)を抽出します。次に、コミュニティ検出技術(ライデンアルゴリズムなど)を用いてナレッジグラフ全体を細分化し、LLMを用いてサブグラフをボトムアップで要約・結論付けます。特定のクエリに対して、「グローバル検索」は関連するすべてのコミュニティサマリーを集約し、最終的に回答を生成します。従来のRAGと同様に、GraphRAGでもソースドキュメントをテキスト単位に変換する必要があります。これらの単位はグラフ抽出に使用され、元のテキストコンテンツに遡るための知識参照ソースとしても機能します。

図10: GraphRAGデータフロー


[9] GUO Z, XIA L, YU Y, et al. LightRAG: シンプルで高速な検索拡張生成[A/OL]. arXiv, 2024[2025-01-27]. http://arxiv.org/abs/2410.05779. DOI:10.48550/arXiv.2410.05779.

摘要:检索增强生成(RAG)系统通过整合外部知识源来增强大型语言模型(LLM),从而根据用户需求提供更准确、更贴近语境的回答。然而,现有的RAG 系统有很大的局限性,包括依赖于平面数据表示和对上下文的认识不足,这可能导致无法捕捉复杂的相互依存关系的零散答案。为了应对这些挑战,我们提出了LightRAG,将图结构纳入文本索引和检索过程。这一创新框架采用了双层检索系统,从低层次和高层次知识发现两方面加强了综合信息检索。此外,图结构与矢量表示法的整合有助于高效检索相关实体及其关系,从而在保持上下文相关性的同时显著缩短响应时间。增量更新算法进一步增强了这一能力,确保了新数据的及时整合,使系统能够在快速变化的数据环境中保持有效性和响应速度。广泛的实验验证表明,与现有方法相比,LightRAG 在检索准确性和效率方面都有显著提高。我们已将LightRAG 开源,可通过以下链接获取:https://github.com/HKUDS/Ligh...。

革新:

论文提出了一个名为LightRAG的检索增强型生成(RAG)系统,旨在通过整合图结构改善大型语言模型(LLMs)的信息检索和生成能力。以下是论文的主要内容总结:

  1. 1. 问题陈述:
  • 现有RAG系统在处理需要复杂实体关系理解的查询时存在限制,如依赖于平面数据表示和缺乏上下文感知能力。
  1. 2. LightRAG框架:
  • 提出了一个图结构化文本索引和双级检索系统的框架,以增强从文档中检索全面信息的能力。
  • 引入了增量更新算法,使系统能够快速适应新数据,保持在动态数据环境中的有效性。
  1. 3. 方法论:
  • 使用LLMs提取实体和关系,构建知识图谱,并通过图结构优化信息检索过程。
  • 实现了双级检索策略,分别关注于低层次的具体信息和高层次的广泛话题检索。
  • 结合图结构和向量表示,提高检索效率和结果的全面性。
  1. 4. 实验评估:
  • 通过大量实验,验证了LightRAG在检索准确性、模型消融、响应效率和新信息适应性方面相较现有方法的显著改进。
  • 使用了四个不同领域的数据集进行评估,并与多个基线方法进行了比较。
  1. 5. 主要贡献:
  • 提出了一个图增强的RAG系统,通过图结构化索引有效地表示实体间的复杂相互依赖关系。
  • 开发了LightRAG模型,该模型结合了双级检索和图增强文本索引,以实现全面且成本效益的检索。
  • 进行了广泛的实验,证明了LightRAG相比基线方法在多个评估维度上的有效性。
  1. 6. 开源实现:

  • 作者提供了LightRAG的开源实现,可通过GitHub访问。

总体而言,论文的创新之处在于将图结构应用于文本索引和检索过程,提出了一个能够处理复杂查询并快速适应新数据的高效RAG系统。通过这种方法,LightRAG能够生成更准确、更具上下文相关性的回答,极大地提高了RAG系统在实际应用中的有效性和实用性。


[6] LIANG L, SUN M, GUI Z, 等. KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation[A/OL]. arXiv, 2024[2024-11-12]. https://arxiv.org/abs/2409.13... DOI:10.48550/ARXIV.2409.13731.

摘要:最近发展起来的检索增强生成(RAG)技术能够高效地构建特定领域的应用程序。然而,它也有局限性,包括向量相似性与知识推理相关性之间的差距,以及对数值、时间关系、专家规则等知识逻辑的不敏感性,这些都阻碍了专业领域知识服务的有效性。在这项工作中,我们引入了一个专业领域知识服务框架,称为知识增强生成(KAG)。KAG的设计初衷是为了应对上述挑战,充分发挥知识图谱(KG)和向量检索的优势,通过五个关键方面双向增强大型语言模型(LLM)和知识图谱(KG),从而提高生成和推理性能:(1)LLM友好的知识表示;(2)知识图谱和原始块之间的相互索引;(3)逻辑形式引导的混合推理引擎;(4)知识与语义推理的对齐;(5)KAG的模型能力增强。我们将KAG 与多跳问题解答中现有的RAG 方法进行了比较,发现它的性能明显优于最先进的方法,在F1 分数方面,KAG 在hotpotQA 上取得了19.6% 的相对改进,在2wiki 上取得了33.5% 的相对改进。我们已将KAG 成功应用于蚂蚁金服集团的两个专业知识问答任务,包括电子政务问答和电子健康问答,与RAG 方法相比,在专业性方面取得了显著提高。此外,我们即将在开源KG引擎OpenSPG上原生支持KAG,让开发者可以更轻松地构建严谨的知识决策或便捷的信息检索服务。这将促进KAG 的本地化开发,使开发人员能够以更高的准确性和效率构建领域知识服务。

革新:

这篇论文提出了一个名为知识增强生成(KAG)的专业领域知识服务框架,旨在解决以下问题:

  1. 1. 检索过程中的模糊性:传统的检索增强生成(RAG)技术在检索过程中存在模糊性,这影响了知识服务的专业性和准确性。
  2. 2. 通用语言模型的“幻觉”问题:通用语言模型在理解和推理方面存在局限性,这可能导致生成的答案不准确或不完整。
  3. 3. 复杂系统中的级联损失:在复杂的知识服务系统中,不同组件之间的错误传递可能导致整体性能下降。
  4. 4. 专业知识的准确性、信息的完整性和逻辑的严格性:在科学计算、医学和法律等专业领域中,对知识的准确性、信息的完整性以及规则、时间和价值的逻辑严格性有特别高的要求。
  5. 5. 知识图谱(KG)的整合不足:尽管一些现有工作尝试将知识图谱整合到RAG框架中,但它们并没有充分利用知识图谱在专业领域知识管理方面的能力。

为了解决这些问题,KAG框架通过双向增强大型语言模型(LLM)和知识图谱(KG),提出了五个关键改进:

  1. 1. LLM友好的知识语义表示:提出了一种适合LLM的知识表示框架,以支持与LLM的兼容。
  2. 2. 知识图谱和原始文本块之间的相互索引:通过建立图结构和原始文本块之间的索引,提高了检索的准确性。
  3. 3. 基于逻辑形式的混合推理和求解:提出了一种结合了语言和符号的问题解决过程。
  4. 4. 基于语义推理的知识对齐:通过定义领域知识的各种语义关系,提高了知识表示和检索的准确性。
  5. 5. KAG模型:针对KAG框架所需的能力,如索引构建、检索、问题理解、语义推理和摘要生成,增强了通用LLM的特定能力。

通过这些改进,KAG框架在多跳问答任务上的表现显著优于现有的RAG方法,并在蚂蚁集团的电子政务和电子健康问答任务中实现了专业水平的显著提升。

图11:KAG 框架。左侧显示的是KAG-Builder,右侧显示的是KAG-Solver。图片底部的灰色区域代表KAG-模型。

图12:一个专为大型语言模型(LLM)设计的友好型知识表示框架。LLMFriSPG将实例与概念区分开来,通过概念实现与LLMs 的对接。SPG 的属性被划分为知识区和信息区,也就是静态区和动态区,分别与具有严格模式约束的决策专业知识以及具有开放信息表示的文档检索索引知识相兼容。图中的红色虚线描绘了从信息提炼为知识的融合与挖掘过程。增强的文档块表示方法为LLMs 提供了可追溯且易于解读的文本上下文。

1.5 AgenticRAG

概念辨析:agent与agentic

在AI领域中,AI Agent(智能体)与Agentic AI(能动AI)虽密切相关却各有侧重。AI Agent是具体的智能实体,能在特定环境中感知、决策并执行动作以完成任务,通常基于机器学习和人工智能技术,具备一定的自主性和自适应性,主要关注单一功能或任务,如AI客服系统。而Agentic AI是一个更广泛的术语,强调AI系统在更高层面上的自主决策和问题解决能力,不仅能够感知和执行任务,还能主动思考、规划和适应环境的变化,涵盖设计和改进AI Agent的方法和框架,探索其更广泛和通用的潜力,目标是实现更广泛、更复杂的任务,能够在动态环境中自主地进行学习和优化,应用范围更广,可在不同领域和场景发挥作用,智能程度更高,不仅能处理数据、决策,还能从互动中学习并优化自身行为,使用更复杂的算法,如强化学习、元学习、大模型结合自监督学习,适用于复杂系统,如自动驾驶系统、智能金融分析、火星探测机器人等,由于其高度自主性和广泛的应用范围,伦理和风险问题更为复杂,需要更多的关注和研究。

意味:

Agentic RAG 将ReACT 的推理能力与Agent 的任务执行能力相结合,创建一个动态和自适应的系统。与遵循固定管道的传统RAG 不同,Agentic RAG 通过使用ReACT 根据用户查询的上下文动态协调Agent,引入了灵活性。这使得系统不仅能够检索和生成信息,还能够根据上下文、不断变化的目标和与之互动的数据采取明智的行动。这些进步使Agentic RAG 成为一个更强大和灵活的框架。模型不再仅限于被动响应用户查询;相反,它可以主动规划、执行并调整其方法以独立解决问题。这使得系统能够处理更复杂的任务,动态适应新挑战,并提供更具上下文相关性的响应。

综述:

[10] SINGH A, EHTESHAM A, KUMAR S, 等. Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG[A/OL]. arXiv, 2025[2025-01-26]. http://arxiv.org/abs/2501.09136. DOI:10.48550/arXiv.2501.09136.

摘要:大型语言模型(LLM)通过实现类似人类的文本生成和自然语言理解,给人工智能(AI)带来了革命性的变化。然而,对静态训练数据的依赖限制了它们响应动态实时查询的能力,导致输出结果过时或不准确。检索增强生成(RAG)作为一种解决方案应运而生,它通过整合实时数据检索来增强LLM,从而提供与上下文相关的最新响应。尽管前景看好,但传统的RAG 系统受到静态工作流程的限制,缺乏多步骤推理和复杂任务管理所需的适应性。Agentic Retrieval-Augmented Generation(Agentic RAG)通过将自主人工智能代理嵌入RAG 管道,超越了这些限制。这些代理利用代理设计模式--反射、规划、工具使用和多代理协作--动态管理检索策略,迭代完善上下文理解,并调整工作流程以满足复杂的任务要求。这种集成使Agentic RAG 系统能够在各种应用中提供无与伦比的灵活性、可扩展性和上下文感知能力。本调查报告从代理式RAG 的基本原理和RAG 范例的演变开始,对代理式RAG 进行了全面探讨。它对代理RAG 架构进行了详细分类,重点介绍了在医疗保健、金融和教育等行业中的关键应用,并探讨了实用的实施策略。此外,该书还探讨了在扩展这些系统、确保道德决策和优化实际应用性能方面的挑战,同时详细介绍了实施Agentic RAG 的框架和工具。

貢献する:

这篇论文提供了对Agentic Retrieval-Augmented Generation(Agentic RAG)的全面探索,主要内容可以总结如下:

  1. 1. 问题阐述:
  • 大型语言模型(LLMs)在依赖静态训练数据时存在局限性,特别是在动态、实时查询响应方面的挑战。
  1. 2. Agentic RAG介绍:
  • 介绍了Agentic RAG的概念,它通过将自主AI代理集成到RAG流程中来克服LLMs的局限性,利用代理设计模式实现动态管理检索策略、迭代细化上下文理解,并适应性地调整工作流程。
  1. 3. RAG的演变:
  • 论文概述了从Naïve RAG到Advanced RAG、Modular RAG、Graph RAG,最终到Agentic RAG的演变过程,并讨论了每种范式的关键特征、优势和局限。
  1. 4. Agentic RAG架构分类:
  • 提供了一个详细的Agentic RAG架构分类,包括单代理、多代理和基于图的框架,并探讨了每种架构的特点和适用场景。
  1. 5. Agentic RAG的应用案例:
  • 论文探讨了Agentic RAG在医疗保健、金融、教育等多个行业中的关键应用,并提供了具体的用例分析。
  1. 6. 工具和框架:

  • 讨论了支持Agentic RAG系统开发的工具和框架,如LangChain、LlamaIndex、Hugging Face Transformers和Qdrant等。
  1. 7. 基准测试和数据集:

  • 论文讨论了评估RAG系统性能的基准测试和数据集,强调了标准化评估的重要性。
  1. 8. 挑战和未来方向:

  • 论文总结了Agentic RAG系统面临的挑战,包括多代理架构的协调复杂性、可扩展性和延迟问题,以及伦理考虑,并提出了未来研究的方向。
  1. 9. 结论:

  • 强调Agentic RAG在动态和复杂环境中的潜力,呼吁进一步的研究和创新以解决现有挑战,并探索Agentic RAG的未来方向。

整体而言,这篇论文为理解和应用Agentic RAG提供了一个全面的框架,并强调了其在解决传统LLMs局限性和推动AI技术发展中的重要性。

关键论文:

[11] ASAI A, WU Z, WANG Y, 等. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection[A/OL]. arXiv, 2023[2025-01-27]. http://arxiv.org/abs/2310.11511. DOI:10.48550/arXiv.2310.11511.

摘要:尽管大型语言模型(LLM)具有卓越的能力,但由于它们仅依赖于它们封装的参数知识,因此它们经常产生包含事实不准确性的响应。检索增强生成(RAG),一个特设的方法,增强与检索相关的知识LM,减少这样的问题。然而,不加区别地检索和纳入固定数量的检索通道,无论检索是否必要,或者通道是否相关,都会减少LM的多功能性,或者可能导致无用的响应生成。我们引入了一个新的框架,称为自反射检索增强生成(SELF-RAG),提高LM的质量和真实性,通过检索和自我反思。我们的框架训练了一个任意的LM,它可以根据需要自适应地检索段落,并使用特殊的令牌(称为反射令牌)生成和反射检索到的段落及其自己的世代。生成反射令牌使LM在推理阶段可控,使其能够根据不同的任务需求调整其行为。实验表明,SELFRAG(7 B和13 B参数)显着优于国家的最先进的LLM和检索增强模型在一组不同的任务。具体来说,SELF-RAG在开放域QA、推理和事实验证任务上优于ChatGPT和检索增强的Llama 2-chat,并且相对于这些模型,它在提高长格式生成的真实性和引用准确性方面表现出显着的收益。

革新:

这篇论文提到了多个与SELF-RAG相关的研究领域和具体工作,主要包括以下几个方面:

  1. 1. 检索增强生成(Retrieval-Augmented Generation, RAG):RAG方法通过在LLMs的输入中加入检索到的相关文本段落来减少知识密集型任务中的事实错误。SELF-RAG在RAG的基础上进行了改进,通过自我反思机制来更智能地决定何时进行检索以及如何利用检索到的信息。
  2. 2. 并行RAG工作(Concurrent RAG work):一些并行工作提出了新的训练或提示策略来改进RAG方法。例如,Lin等人(2023)通过两步微调策略来改进RAG,而Yoran等人(2023)和Xu等人(2023)则使用自然语言推理模型和摘要模型来过滤或压缩检索到的段落。
  3. 3. 训练和生成与批评者(Training and generating with critics):一些研究使用强化学习(如PPO)从人类反馈中训练LLMs,以使模型与人类偏好对齐。SELF-RAG则通过在训练阶段使用批评者模型来生成反思标记,从而在推理阶段实现可控生成。
  4. 4. LLM精炼(LLM refinement):一些工作通过迭代提示模型生成任务输出、自然语言反馈和精炼任务输出来提高模型性能,但这种方法可能会牺牲推理效率。
  5. 5. 检索增强的LLMs:论文还比较了SELF-RAG与使用检索增强的LLMs(如ChatGPT和Llama2-chat)的性能,展示了SELF-RAG在多个任务上的优势。
  6. 6. 自我评估引导的解码框架(Self-evaluation-guided decoding framework):Xie等人(2023)提出了一个自我评估引导的解码框架,但主要集中在推理任务上,而SELF-RAG则在更广泛的任务上应用了自我反思机制。

这些相关工作为SELF-RAG提供了理论基础和实践背景,SELF-RAG在此基础上通过引入自我反思和按需检索的概念,提出了一种新的提高LLMs生成质量的方法。

AgenticRAG工作流程

Agentic RAG 的关键创新在于其能够自主使用工具、做出决策并规划下一步,并且具有推理的能力。管道遵循以下核心阶段:

图13:AgenticRAG工作流程,用户查询提交,之后一个Agent 在向量数据库中搜索,文档以嵌入的形式存储,确保高效快速地检索相关信息,如果检索到的数据不足,Agentic会细化查询并进行额外的检索尝试,以提取更好的结果。使用功能工具进行外部数据获取:如果向量数据库缺乏必要的信息,Agent 使用功能工具从外部来源(如API、网络搜索引擎或专有数据流)收集实时数据。这确保系统提供最新和上下文相关的信息。大型语言模型(LLM) 响应生成:检索到的数据传递给LLM,它综合这些数据生成针对查询的详细、上下文感知的响应。Agent 驱动的改进:在LLM 生成响应后,Agentic进一步细化以确保准确性、相关性和连贯性,然后将其交付给用户。

各RAG范式比较

1.7 相关的重要论文

多模态RAG

[12] YU S, TANG C, XU B, 等. VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents[A/OL]. arXiv, 2024[2024-10-30]. http://arxiv.org/abs/2410.10594.

这篇论文介绍了一个名为VisRAG(Vision-based Retrieval-augmented Generation)的系统,旨在解决现有检索增强生成(RAG)系统在处理多模态文档时面临的问题。具体来说,VisRAG试图解决以下几个关键问题:

  1. 1. 利用视觉信息:传统的RAG系统仅基于文本,无法利用布局和图像等视觉信息,而这些信息在现实世界中的多模态文档中起着至关重要的作用。
  2. 2. 消除信息丢失:在从多模态文档中获取文本信息的过程中,通常需要一个解析阶段,包括版面识别、光学字符识别(OCR)和文本合并等步骤。这个解析过程不可避免地引入了错误和信息丢失,从而可能对检索和生成阶段产生负面影响。
  3. 3. 直接处理文档图像:VisRAG通过直接将文档作为图像嵌入到视觉-语言模型(VLM)中,而不是首先解析文档以获取文本,从而绕过了解析阶段,保留了文档中的所有信息。
  4. 4. 提高保留和利用原始文档数据信息的能力:与基于文本的传统RAG相比,VisRAG最大化了原始文档中数据信息的保留和利用,消除了解析过程中引入的信息丢失。
  5. 5. 多模态文档的RAG处理:在现实世界的应用中,知识通常以多模态文档的形式呈现,如教科书和手册,这些文档可能包含交错的文本和图形。VisRAG旨在通过直接处理这些文档的图像,而不是依赖于提取的文本内容,来改进RAG在多模态文档上的应用。

总的来说,VisRAG试图通过建立一个基于VLM的RAG流程,来解决传统RAG系统在处理包含文本和图像的多模态文档时的信息丢失和利用不足的问题。


[13] FAYSSE M, SIBILLE H, WU T, 等. ColPali: Efficient Document Retrieval with Vision Language Models[A/OL]. arXiv, 2024[2024-10-27]. http://arxiv.org/abs/2407.01449. DOI:10.48550/arXiv.2407.01449.

这篇论文主要解决的问题是如何提高文档检索系统在处理视觉丰富文档时的效率和性能。具体来说,论文指出现代文档检索系统虽然在文本匹配方面表现出色,但在有效利用视觉线索(如表格、图形、页面布局或字体等)方面存在不足,这限制了它们在实际文档检索应用中的性能,例如增强型检索(Retrieval Augmented Generation, RAG)。

为了解决这个问题,论文提出了两个主要贡献:

  1. 1. ViDoRe(Visual Document Retrieval Benchmark):这是一个新的基准测试,用于评估文档检索系统在页面级别检索视觉丰富文档的能力。它涵盖了多个领域、语言和设置。
  2. 2. ColPali:这是一个新的检索模型架构,它利用最新的视觉-语言模型(Vision Language Models, VLMs)来从文档页面的图像中生成高质量的上下文嵌入,并通过后期交互匹配机制(late interaction matching mechanism)实现快速的查询匹配。ColPali在性能上大幅超越了现有的文档检索管道,同时具有更快的处理速度和端到端可训练性。
逻辑推理RAG

[14] FENG W, HAO C, ZHANG Y, 等. AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation via Tree-based Search[A/OL]. arXiv, 2025[2025-01-27]. http://arxiv.org/abs/2501.10053. DOI:10.48550/arXiv.2501.10053.

这篇论文提出了一个名为AirRAG(Activating Intrinsic Reasoning for Retrieval Augmented Generation via Tree-based Search)的新方法,旨在解决以下问题:

  1. 1. 复杂任务中的推理能力:传统的检索增强生成(RAG)模型在处理复杂任务时,往往难以有效地检索到足够的知识,并且难以理解问题的复杂推理逻辑。
  2. 2. 单一解空间的限制:现有的迭代或递归RAG方法在面对复杂问题时,常常陷入单一解空间,无法充分激活大型语言模型(LLMs)的决策能力。
  3. 3. 推理过程中的解决方案空间探索:现有的方法在推理过程中难以有效探索解决方案空间,导致生成的推理步骤质量低下,无法有效指导自我探索。

为了解决这些问题,AirRAG通过以下方式进行改进:

  • 设计了五种基本推理动作(系统分析、直接回答、检索回答、查询转换和摘要回答),并通过蒙特卡洛树搜索(MCTS)扩展到广泛的树基推理空间。
  • 引入自一致性验证来探索潜在的推理路径,并实现推理扩展。
  • 使用计算最优策略将更多的推理计算应用于关键动作,以实现性能提升。

总的来说,AirRAG旨在通过结合系统分析和有效的推理动作,显著激活LLMs的内在推理能力,并扩展特定任务的解决方案空间。

个性化记忆扩展

https://github.com/mem0ai/mem...

Mem0是一个为AI助手和代理提供智能记忆层的开源项目,旨在通过智能记忆层增强AI助手和代理的能力,实现个性化的AI交互。Mem0的核心功能包括:

  1. 1. 多层次记忆:支持用户级、会话级和AI代理级的记忆保留,确保不同层次的交互信息都能被有效处理。
  2. 2. 自适应个性化:根据用户交互不断改进,提供精准的个性化记忆,通过分析用户的使用模式,自动调整其行为以更好地满足用户需求。
  3. 3. 开发者友好API:提供简单易用的API接口,方便开发者集成到现有的应用程序中。
  4. 4. 跨平台一致性:确保在不同平台和设备上保持统一的行为和数据一致。
  5. 5. 托管服务:提供无忧的托管解决方案,便于部署和维护。

Mem0的工作流程主要包括以下几个步骤:

  1. 1. 记忆提取:处理新数据,如用户的聊天历史或最近的交互,提取相关的事实和偏好,并将其存储在数据存储中。
  2. 2. 记忆搜索:将提取的记忆转换为嵌入向量,并在向量数据库中搜索类似的现有记忆。
  3. 3. 记忆更新:根据新记忆和现有记忆的相似度,决定如何将新信息与现有知识库整合,包括添加新记忆、修改现有记忆、合并相关记忆或删除过时信息。
  4. 4. 基于记忆的响应:当用户提出问题或请求信息时,Mem0首先在其向量数据库中搜索相关记忆,并使用这些记忆生成个性化的响应。
RAG系统性能优化

[15] FAN T, WANG J, REN X, 等. MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation[A/OL]. arXiv, 2025[2025-01-26]. http://arxiv.org/abs/2501.06713. DOI:10.48550/arXiv.2501.06713.

这篇论文试图解决的主要问题是在资源受限的环境中部署高效的检索增强型生成(Retrieval-Augmented Generation, RAG)系统时面临的挑战。具体来说,论文指出了以下几个关键问题:

  1. 1. 小语言模型(Small Language Models, SLMs)在现有RAG框架中的性能退化问题:当在资源受限场景(如边缘设备、隐私敏感应用和实时处理系统)中部署小语言模型时,现有的RAG系统由于SLMs的语义理解和文本处理能力有限,导致性能严重下降。
  2. 2. 对大型语言模型(Large Language Models, LLMs)的过度依赖:目前的RAG系统在构建索引、知识检索和最终回答生成的整个流程中,主要依赖于LLMs,这导致了巨大的计算开销和资源需求,限制了它们在资源受限场景中的部署。
  3. 3. 现有RAG系统与SLMs的架构不匹配:原本为利用LLMs高级能力而设计的RAG架构,在多个关键功能上无法适应SLMs的固有限制,如复杂的查询解释、多步推理、查询与文档之间的语义匹配和细微信息合成。

为了解决这些问题,论文提出了一个名为MiniRAG的新型RAG系统,该系统通过两个关键技术创新来实现极端简单和高效的设计:语义感知的异构图索引机制和轻量级拓扑增强检索方法。这些创新使得MiniRAG即使在使用SLMs时也能实现与基于LLMs的方法相当的性能,并且只需要25%的存储空间。此外,论文还提供了一个全面的基准数据集,用于在实际的设备上评估轻量级RAG系统在处理复杂查询时的表现。


其他相关综述

[16] HAN H, WANG Y, SHOMER H, 等. Retrieval-Augmented Generation with Graphs (GraphRAG)[A/OL]. arXiv, 2025[2025-01-26]. http://arxiv.org/abs/2501.00309. DOI:10.48550/arXiv.2501.00309.

检索增强生成(RAG)是一种强大的技术,它通过从外部来源检索诸如知识、技能和工具等额外信息,来提升下游任务的执行效果。图因其内在的“由边连接节点” 的特性,编码了大量异构且具有关联性的信息,这使其在众多实际应用中成为RAG的宝贵资源。因此,我们最近看到越来越多的关注聚焦于为RAG配备图结构,即图检索增强生成(GraphRAG)。然而,与传统RAG不同,在传统RAG中检索器、生成器和外部数据源可以在神经嵌入空间中统一设计,而图结构数据的独特性,例如格式多样和特定领域的关系知识,在为不同领域设计GraphRAG时带来了独特且重大的挑战。鉴于GraphRAG广泛的适用性、相关的设计挑战以及其近期的迅速发展,迫切需要对其关键概念和技术进行系统且最新的综述。基于这一动机,我们对GraphRAG进行了全面且最新的综述。

我们的综述首先通过定义其关键组件,包括查询处理器、检索器、组织者、生成器和数据源,提出了一个整体的GraphRAG框架。此外,认识到不同领域的图呈现出不同的关系模式且需要专门的设计,我们回顾了为每个领域量身定制的GraphRAG技术。最后,我们讨论了研究挑战并集思广益提出方向,以激发跨学科的机遇。我们的综述资源库在https://github.com/Graph - RAG/GraphRAG/ 上公开维护。


[17] GUPTA S, RANJAN R, SINGH S N. A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions[A/OL]. arXiv, 2024[2024-11-08]. http://arxiv.org/abs/2410.12837. DOI:10.48550/arXiv.2410.12837.

本文对检索增强生成(RAG)进行了全面研究,追溯其从基础概念到当前前沿水平的发展历程。RAG 将检索机制与生成式语言模型相结合,以提高输出的准确性,解决大语言模型(LLMs)的关键局限性。该研究探索了RAG 的基本架构,重点关注检索与生成如何整合,以处理知识密集型任务。

文中详细回顾了RAG 的重大技术进展,包括检索增强语言模型中的关键创新,以及在问答、摘要和基于知识的任务等各个领域的应用。讨论了近期的研究突破,提出了提高检索效率的新方法。此外,本文还审视了诸如可扩展性、偏差以及部署中的伦理问题等当前面临的挑战。提出了未来的研究方向,重点在于提升RAG 模型的稳健性、扩大RAG 模型的应用范围,以及解决其社会影响问题。

本综述旨在为研究人员和从业者提供基础资源,帮助他们理解RAG 在自然语言处理中的潜力及其发展轨迹。


1.6 总结:

RAG发展的越来越不像“RAG”了,倒是很像工程实践的框架而且与agent连接越来越紧密,但主要还是依据以下几条思路的研究和创新:

  1. 1. 数据库层面,从最开始的简单词嵌入,到向量数据库,到知识图谱,再到混合的多种类型数据库。
  2. 2. 数据方面,从单纯的文本扩展到多模态数据,包括文本、音频、图片、视频。获取结构化良好,高质量,干净,冗余小的数据。
  3. 3. 数据处理方面,从需要大量的预处理步骤到一些端到端的RAG方案,例如用VLM直接处理非结构化文档。
  4. 4. 知识层面,由于本质还是要让模型在短时间内理解领域知识,所以用各种手段(常见的有微调)优化各种环节中的各种模块,chunk,rerank,embedding,router,检索器,生成器,索引构建,查询优化。以及各个模块之间的超参数要匹配,例如embedding模型的窗口和chunk的大小匹配。
  5. 5. workflow方面,设计编排一个高效准确的RAG pipeline。
  6. 6. 推理运行层面,加速RAG响应时间,降低延迟和开销。
  7. 7. 动态自动化层面,由于RAG涉及的流程和组件越来越复杂,让RAG系统作为一个agentic主动去自适应不同的复杂查询,并自我完善。

实践中如何选择合适的工具来构建RAG系统

[18] WANG X, WANG Z, GAO X, 等. Searching for Best Practices in Retrieval-Augmented Generation[A/OL]. arXiv, 2024[2025-01-26]. http://arxiv.org/abs/2407.01219. DOI:10.48550/arXiv.2407.01219.

这篇论文探讨了检索增强型生成(Retrieval-Augmented Generation, RAG)技术在提升大型语言模型(Large Language Models, LLMs)性能方面的应用。RAG技术通过结合预训练模型和基于检索的模型的优势,提供了一个增强模型性能的稳健框架。然而,尽管RAG技术在整合最新信息、减少幻觉(hallucinations)和提高响应质量方面已被证明是有效的,特别是在专业领域,但现有的RAG方法仍然存在实施复杂和响应时间过长的问题。

论文的主要目标是通过广泛的实验来识别RAG的最佳实践,以平衡性能和效率。具体来说,论文试图解决的问题包括:

  1. 1. RAG方法的复杂性:RAG工作流程涉及多个处理步骤,每个步骤都可以以不同的方式执行,这增加了实施的复杂性。
  2. 2. 响应时间的延长:在执行RAG时,需要在多个步骤中进行选择,这可能影响系统的效率和响应时间。
  3. 3. 系统性能的优化:如何系统地优化RAG流程中的每个组件,以实现整体性能的提升。
  4. 4. 多模态检索技术的整合:探索如何将多模态检索技术整合到RAG中,以增强对视觉输入的问题回答能力,并加速多模态内容的生成。

论文通过实验研究了现有的RAG方法及其潜在的组合,并提出了一些策略,以便于在不同的应用场景中部署RAG,同时平衡性能和效率。此外,论文还展示了如何通过“检索即生成”策略,利用多模态检索技术显著提升对视觉输入的问题回答能力,并加速多模态内容的生成。


工程实践

RAG框架(强推RAGFlow)

这里langchain,llama\_index等python包当然也是可以的,但是开发难度比较高。

文档解析(强推MinerU)

另一种是用多模态大模型方案构建端到端的RAG流程

RAG的12个痛点

检索增强生成(RAG)技术虽然在提升内容准确性和相关性方面具有显著优势,但在实际应用中也存在一些痛点。根据参考资料,我们可以大致总结下存在的共性痛点以及解决方案:

  1. 1. 内容缺失:当知识库中缺少上下文时,RAG系统可能会提供一个看似合理但不正确的答案,而不是表示不知道。解决方案包括清理数据和精心设计提示词。
  2. 2. 错过排名靠前的文档:重要文档可能未出现在系统检索组件返回的顶部结果中,导致系统无法提供准确的响应。解决方案包括调整检索策略和嵌入模型调优。
  3. 3. 不在上下文中— 整合策略限制:文档整合长度限制超过LLM窗口大小,导致整合策略受限。解决方案是调整检索策略和嵌入模型调优。
  4. 4. 文件信息未提取:文档中的关键信息未被提取出来。解决方案包括数据清洗、提示词压缩和长内容优先排序。
  5. 5. 格式错误:输出格式与预期不符。解决方案是改进提示词、格式化输出和使用大模型的Json模式。
  6. 6. 答案不正确:缺乏具体细节,导致特需求的答案不正确。解决方案是采用先进的检索策略。
  7. 7. 回答不完整:回答不全面。解决方案包括查询转换和细分问题。
  8. 8. 数据提取可扩展性:数据摄取的可扩展性问题。解决方案是并行处理和提升处理速度。
  9. 9. 结构化数据QA:结构化数据问答问题。解决方案是链式思维表格包和混合自洽查询引擎包。
  10. 10. 从复杂PDF中提取数据:从复杂PDF中提取数据困难。解决方案是嵌入式表格检索技术。
  11. 11. 后备模型:需要一个后备模型策略。解决方案是Neutrino路由器或OpenRouter。
  12. 12. LLM安全性:大语言模型的安全性问题。这是一个需要持续关注和解决的问题。

RAG落地时需要考虑的若干问题

  • 检索效率低下:
  • 痛点描述: 在庞大的数据集中进行有效检索是一个挑战,尤其是当需要实时响应时。
  • 相关问题: 如何优化检索算法以减少查询延迟?
  • 信息融合困难:
  • 痛点描述: 将检索到的信息与生成的内容无缝融合是一项复杂任务,需要精确的算法来确保信息的准确性和连贯性。
  • 相关问题: 如何设计有效的信息融合策略?
  • 上下文理解的局限性:
  • 痛点描述: 模型可能难以准确理解查询的上下文,特别是在复杂或模糊的情境中。
  • 相关问题: 如何提高模型对上下文的理解能力?
  • 数据偏差和噪声:
  • 痛点描述: 检索到的数据可能包含偏差和噪声,这会影响模型的输出质量。
  • 相关问题: 如何识别并减少数据中的偏差和噪声?
  • 答案准确性和可靠性问题:
  • 痛点描述: 生成的答案可能不够准确或可靠,尤其是在需要精确事实性回答的情况下。
  • 相关问题: 如何验证和提高生成答案的准确性?
  • 可扩展性问题:
  • 痛点描述: 随着数据量的增加,模型可能难以保持高性能和可扩展性。
  • 相关问题: 如何确保模型能够处理大规模数据?
  • 资源消耗:
  • 痛点描述: RAG技术通常需要大量的计算资源,这在资源受限的环境中是一个挑战。
  • 相关问题: 如何优化模型以减少资源消耗?
  • 隐私和安全问题:
  • 痛点描述: 处理敏感数据时,需要确保用户隐私和数据安全。
  • 相关问题: 如何实现隐私保护的数据处理?

参考文献

[1] ZHAO P, ZHANG H, YU Q, 等. Retrieval-Augmented Generation for AI-Generated Content: A Survey[A/OL]. arXiv, 2024[2024-06-21]. http://arxiv.org/abs/2402.19473.

[2] GAO Y, XIONG Y, GAO X, 等. Retrieval-Augmented Generation for Large Language Models: A Survey[A/OL]. arXiv, 2024[2024-03-27]. http://arxiv.org/abs/2312.10997.(best)

[3] FAN W, DING Y, NING L, 等. A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models[A/OL]. arXiv, 2024[2024-06-17]. http://arxiv.org/abs/2405.06211.

[4]LEWIS P, PEREZ E, PIKTUS A, 等. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks[A/OL]. arXiv, 2021[2025-01-27]. http://arxiv.org/abs/2005.11401. DOI:10.48550/arXiv.2005.11401.

[5] JIN J, ZHU Y, YANG X, 等. FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research[A/OL]. arXiv, 2024[2024-11-03]. http://arxiv.org/abs/2405.13576. DOI:10.48550/arXiv.2405.13576.

[6] SARMAH B, HALL B, RAO R, 等. HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction[A/OL]. arXiv, 2024[2024-08-24]. http://arxiv.org/abs/2408.04948. DOI:10.48550/arXiv.2408.04948.

[7] GAO Y, XIONG Y, WANG M, 等. Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks[A/OL]. arXiv, 2024[2024-08-24]. http://arxiv.org/abs/2407.21059. DOI:10.48550/arXiv.2407.21059.

[8] PENG B, ZHU Y, LIU Y, 等. Graph Retrieval-Augmented Generation: A Survey[A/OL]. arXiv, 2024[2024-08-21]. http://arxiv.org/abs/2408.08921.

[9] EDGE D, TRINH H, CHENG N, 等. From Local to Global: A Graph RAG Approach to Query-Focused Summarization[A/OL]. arXiv, 2024[2024-08-03]. http://arxiv.org/abs/2404.16130. DOI:10.48550/arXiv.2404.16130.

[10] SINGH A, EHTESHAM A, KUMAR S, 等. Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG[A/OL]. arXiv, 2025[2025-01-26]. http://arxiv.org/abs/2501.09136. DOI:10.48550/arXiv.2501.09136.

[11] ASAI A, WU Z, WANG Y, 等. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection[A/OL]. arXiv, 2023[2025-01-27]. http://arxiv.org/abs/2310.11511. DOI:10.48550/arXiv.2310.11511.

[12] YU S, TANG C, XU B, 等. VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents[A/OL]. arXiv, 2024[2024-10-30]. http://arxiv.org/abs/2410.10594.

[13] FAYSSE M, SIBILLE H, WU T, 等. ColPali: Efficient Document Retrieval with Vision Language Models[A/OL]. arXiv, 2024[2024-10-27]. http://arxiv.org/abs/2407.01449. DOI:10.48550/arXiv.2407.01449.

[14] FENG W, HAO C, ZHANG Y, 等. AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation via Tree-based Search[A/OL]. arXiv, 2025[2025-01-27]. http://arxiv.org/abs/2501.10053. DOI:10.48550/arXiv.2501.10053.

[15] FAN T, WANG J, REN X, 等. MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation[A/OL]. arXiv, 2025[2025-01-26]. http://arxiv.org/abs/2501.06713. DOI:10.48550/arXiv.2501.06713.

[16] HAN H, WANG Y, SHOMER H, 等. Retrieval-Augmented Generation with Graphs (GraphRAG)[A/OL]. arXiv, 2025[2025-01-26]. http://arxiv.org/abs/2501.00309. DOI:10.48550/arXiv.2501.00309.

[17] GUPTA S, RANJAN R, SINGH S N. A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions[A/OL]. arXiv, 2024[2024-11-08]. http://arxiv.org/abs/2410.12837. DOI:10.48550/arXiv.2410.12837.

[18] WANG X, WANG Z, GAO X, 等. Searching for Best Practices in Retrieval-Augmented Generation[A/OL]. arXiv, 2024[2025-01-26]. http://arxiv.org/abs/2407.01219. DOI:10.48550/arXiv.2407.01219.

[19] Papers with Code - RAG[EB/OL]. [2025-01-28]. https://paperswithcode.com/ta...

[20] Graph Memory[EB/OL]. [2025-01-28]. https://docs.mem0.ai/open-sou...

[21] OROZ T. Comparative Analysis of Retrieval Augmented Generator and Traditional Large Language Models[J]. Data Science.

[22] INFINIFLOW. 万字长文梳理2024 年的RAG[EB/OL]. [2025-01-28]. http://mp.weixin.qq.com/s?\_\_biz=MzkyMTU5MDM2MQ==&mid=2247484133&idx=1&sn=196c5c05baa8896555c8f2cab895c681&chksm=c039ee778047e58bc96c44caafb88d17168076736c090a08da93a6f44704a67634c09063da15#rd.

いいね (3件のいいね!)↓