LLMで100万レベルのドメイン知識グラフをワンクリックで生成！USTCの新しいフレームワークがACL 2024に選出

LLM を使用すると、たった 1 回のクリックで 100 万レベルのドメイン知識グラフを生成できるようになります。

中国科学技術大学のMIRAラボの研究者らは、パフォーマンスを向上させる自動知識グラフ構築のための新しい汎用フレームワーク、SAC-KGを提案した。

ChatGPT をベースモデルとして使用した場合、SAC-KG は 89.32% の精度と 81.25% のドメイン特異性を達成し、最先端の方法に比べて 20% の改善を示しました。

ナレッジグラフ構築技術は常に研究のホットスポットとなっています。

しかし、ドメイン知識グラフの構築は、広範な専門知識と人間の介入が必要となるため、実用化は大きく制限されています。

これに対応して、大規模言語モデル（LLM）に基づく構築手法が近年新たなトレンドとなっています。しかし、構築されたドメイン知識グラフの信頼性に深刻な影響を与えるいくつかの問題が依然として存在しています。

上記の問題点を解決するため、研究チームはSAC-KGをさらに提案し、関連論文はAIカンファレンスの最高峰（CCF-Aカテゴリー）であるACL 2024 Mainで発表されました。また、大規模なドメインコーパスを入力し、ワンクリックで高品質なドメイン知識グラフを生成する自動ドメイン知識グラフ構築プラットフォームであるSAC-KGを開発・展開しました。

SAC-KG はどのように機能しますか?

大規模言語モデルの優れた意味理解・生成能力により、LLMベースの手法が新たなトレンドとなっています。これらの手法は、LLMに格納された事前知識を活用して、元のコーパスからトリプルを抽出します。

しかし、LLMベースの手法には依然としていくつかの課題が存在します。入力における文脈的ノイズや出力における知識錯覚により、不正確または無関係なトリプルが生成され、構築されたドメイン知識グラフの信頼性に深刻な影響を与える可能性があります。

上記の問題に対処するため、本研究では、自動知識グラフ構築のための新たな汎用フレームワークであるSAC-KGを提案する。SAC-KGは、大規模言語モデルをドメイン知識グラフの自動構築のエキスパートとして活用し、ドメインコーパスを与えられた場合に、自動化、正確性、制御性という目標を掲げてトリプルを抽出します。

フレームワークは、ジェネレーター、バリデーター、プルーナーの 3 つのコンポーネントで構成されています。

ジェネレータ

まず、ジェネレータにはドメインコーパス検索ユニットとオープンナレッジグラフ検索ユニットが含まれており、それぞれ指定されたエンティティのドメインコーパスとオープンナレッジグラフから最も関連性の高い情報を取得します。

その中で、ドメインコーパス検索マシンは、LLM への入力として最も関連性の高いテキストコーパスを提供し、コンテキストノイズの導入を減らします。オープンナレッジグラフ検索マシンは、エンティティに最も関連性の高いトリプルを例として提供し、モデルの出力形式を制御するのに役立ちます。

LLMへの入力には、エンティティに関連付けられたコンテキスト、トリプルの例、および対応するヒントが含まれます。出力は、指定されたエンティティをヘッドエンティティとする生成されたトリプルです。

バリデーター

LLMは知識錯覚を生み出す可能性があるため、誤ったトリプルを生成する可能性があります。したがって、バリデーターはLLMによって生成された誤ったトリプルを検出し、除外する責任を負います。

このプロセスは、エラー検出とエラー訂正の2 つのステップで構成されます。

エラー検出フェーズでは、バリデーターは次の 3 つのチェックを実行し、エラーをマークします。

数量チェック: 生成されたトリプルの数がしきい値 (デフォルトは 3) 未満の場合、「数量不足」としてマークされます。
フォーマットチェック: トリプルが定義済みのフォーマットに準拠していない場合は、「フォーマットエラー」としてマークされます。ヘッダーエンティティが定義済みのエンティティと一致しない場合は、「ヘッダーエンティティエラー」としてマークされます。ヘッダーエンティティと末尾のエンティティが同じ場合は、「ヘッダーと末尾の矛盾」としてマークされます。
矛盾チェック：バリデータはトリプル内の論理的な矛盾を検出します。例えば、ある人物の出生時刻が死亡時刻よりも前であること、また年齢が負でないことを確認します。

エラー修正フェーズでは、検出されたエラーの種類に基づいて適切なプロンプトが表示され、LLMは正しい出力を再生成するように指示されます。例えば、エラーが「フォーマットエラー」の場合、モデルは「トリプルのフォーマットに注意しながら、フォーマット要件に厳密に従って再生成する」ように指示されます。

剪定ばさみ

ナレッジグラフの成長プロセスは、ドメイン知識を浅いものから深いものへと獲得するツリーの段階的な成長として考えることができます。つまり、次のレイヤートリプルのヘッドエンティティは、前のレイヤートリプルのテールエンティティになります。

バリデーターによる検証後、正しいトリプルが生成された新しいレイヤーマップに統合され、次のレイヤートリプルが生成されます。

ただし、すべてのトリプルを次のレイヤーの生成に使用する必要はありません。例えば、「(米、最適生育温度、20～25℃)」は正しいトリプルですが、末尾のエンティティ「20～25℃」を次のレイヤーの生成における先頭エンティティとして使用する必要はありません。

ナレッジグラフの制御性を向上させるため、本研究では、オープンソースのナレッジグラフDBpediaに基づいて微調整されたT5二値分類モデルであるプルーニング機構を導入します。入力は各正解トリプルの末尾エンティティであり、出力はグラフの次の層の生成を継続するかどうかを示す「grow」または「prune」です。

プルーナーの学習では、DBpediaから学習データを収集します。このデータには、「成長」クラスを表す先頭エンティティと「剪定」クラスを表す末尾エンティティが含まれます。その後、これらのエンティティテキストと対応するラベルを用いて微調整が行われます。

実験と結果

主な実験

同分野におけるナレッジグラフの自動構築において、研究チームはGPT-4を用いて自動的かつ効率的な評価を行った。

表 1 に示すように、SAC-KG のパフォーマンスは非常に優れており、いくつかのベースラインモデルを上回りました。

4つのベースラインモデルには、OpenIE6、StanfordOIE、DeepEx、PIVEが含まれます。最初の2つはルールベースのトリプル抽出手法ですが、DeepExはBERTモデルとルールテクノロジーを組み合わせ、PIVEはChatGPTを直接使用してナレッジグラフを構築します。

SAC-KG は、特に精度とドメイン特異性の点で、知識グラフの構築においてこれらの方法よりも一貫して優れています。

ChatGPT をベースモデルとして使用した場合、SAC-KG は 89.32% の精度と 81.25% のドメイン特異性を達成し、ルールベースの方法を大幅に上回り、最先端の方法に比べて 20% の改善を示しました。

アブレーション実験

アブレーション実験では、研究チームは各反復でこれらの指標を計算し、より詳細な結果を得ました。

彼らは、オープンナレッジグラフ検索ツールのない SAC-KG を SAC-KGw/oprompt、ドメインコーパス検索ツールのない SAC-KGw/otext、バリデーターのない SAC-KGw/overifier、プルーナーのない SAC-KGw/opruner と呼んでいます。

表 2 に示すように、SAC-KG にいずれかのコンポーネントが存在しないと、フレームワーク全体のパフォーマンスが低下します。

特に、プルーナーとオープンナレッジグラフ検索ユニットは、SAC-KGのパフォーマンスに大きな影響を与えます。これらの2つのコンポーネントは、それぞれ生成方向と例の追加を制御しており、ナレッジグラフ構築プロセスにおける制御性の向上の重要性を示しています。

研究チームはさらに、SAC-KGの各アブレーションバージョンによって生成された知識グラフの最初の3層を視覚化しました。図に示すように、完全なSAC-KGバージョンは全体的に最も良い結果を示しており、各層の誤ったトリプルの数に大きな差はありません。この現象は、ドメイン知識グラフの反復生成中にエラーの伝播が重要ではないことを示しています。逆に、テキスト処理モジュール（SAC-KG w/o text）とプルーニングモジュール（SAC-KG w/o pruner）を削除したバージョンでは、エラーの伝播が顕著で、第3層で生成される誤ったトリプルの数が大幅に増加しています。プロンプトモジュール（SAC-KG w/o prompt）と検証モジュール（SAC-KG w/o verifier）を削除したバージョンでは、少数のトリプルしか抽出されません。これは、言語モデルが例とエラー訂正プロセスなしでドメインコーパスから知識を要約するのに苦労していることを意味します。これらの結果は、フレームワーク内の各コンポーネントが建設プロセスに大きく貢献していることをさらに裏付けています。

OIEベンチマーク

従来のオープン情報抽出タスクにおける SAC-KG の有効性と幅広い適用性は、複数のオープンソースベンチマークデータセットでの実験を通じて検証されています。

実験結果では、SAC-KG がこれらの従来の OIE ベンチマークデータセットにおいて既存の最先端の方法よりも大幅に優れていることが示されています。

特に、SAC-KG は、ルールベースの方法 (OpenIE6 や StanfordOIE など) や大規模言語モデルに基づく方法 (DeepEx や PIVE など) との比較において一貫して最高の結果を達成しており、従来の OIE タスクにおける有効性と堅牢性を実証しています。

まとめ

大規模なドメイン知識グラフの構築における高コストと低精度という複雑な実際的問題に対処するために、本研究では、大規模モデルに基づくドメイン/センス知識グラフの反復構築のための一般的なフレームワークを提案する。

このフレームワークは、マルチソースのドメインコーパスからの正確な知識検索を可能にし、オープンソースのグラフを組み合わせて適応的な提案メカニズムを実装します。木の成長プロセスをシミュレートすることで、数百万エントリの高品質なドメイングラフの構築に成功しました。

この論文は、CCF（クラスA）カテゴリーのトップクラスのAIカンファレンスである計算言語学会年次総会（ACL 2024 Main）で発表されました。

本論文の筆頭著者である陳漢珠氏は、 2021年に中国科学技術大学で王潔教授の指導を受ける修士・博士課程の学生です。彼の主な研究分野は、知識グラフと大規模言語モデル、データ合成などです。彼はKDDCupグローバル大学チームコンペティションで優勝しています。

618ZXW