CaLM 因果推論評価システム: 大規模モデルを人間の認知レベルに近づけるにはどうすればよいでしょうか?

CaLMとは何ですか?

CaLM（Causal Evaluation of Language Models：言語モデルの因果評価）は、上海人工知能研究所、同済大学、上海交通大学、北京大学、SenseTimeが共同でリリースした、大規模モデルの因果推論のための初のオープン評価システムおよびプラットフォームです。CaLMは、因果推論の観点からの評価フレームワークを初めて提案し、AI研究者にとって信頼性の高い評価ツールを構築するとともに、大規模モデルの認知能力を人間のレベルにまで高めるための指標を提供します。

因果推論は人間の認知能力における最も重要な特性の一つであり、因果推論能力の向上は機械知能から人間知能への重要なステップと考えられています。大規模モデルの因果推論能力を科学的かつ効果的に評価するため、上海人工知能研究所の共同チームは、因果評価対象、評価方法、評価指標、エラー分析を含むCaLMの評価フレームワークを提案しました。また、中国語と英語で12万件以上の質問からなるデータセットを構築しました。

共同チームはCaLMに基づき、現在主流となっている28の大規模モデルの因果推論能力について初の評価を行い、50の実証的知見を得ました。本論文では、これらの結論のうち6つを抜粋しています。関連論文（全315ページ）は、本記事末尾のリンクから閲覧するか、ウェブサイトからダウンロードできます。

CaLM評価フレームワーク

CaLMは、柔軟かつ容易に拡張可能な評価フレームワークを採用し、事前に定義された実装シーケンス（因果ターゲット → 適応 → メトリクス → エラー分析）に従って評価を実施します。CaLM評価フレームワークの設計と実装プロセスは、数学的推論、専門知識、長文テキスト処理などのモデルの評価システムの構築にも適用できます。

ボトムアップ因果評価の目的

CaLMは、広く受け入れられているジュディア・パールの因果ラダー理論に基づき、因果発見、連想、介入、反事実という4つのレベルの因果タスクをさらに発展させ、明確化します。各レベルのタスクは、複雑さの観点から基礎から上級へと整理され、ボトムアップのフレームワークを形成しています。

因果発見は、データまたはセマンティクスから潜在的な因果構造を推論し、データ間の統計的依存関係を探索し、介入を通じて環境内の変数を意図的に変更した場合の影響を予測し、反事実的手法を用いて仮説の代替シナリオについて推論することを目的としています。CaLMは、4つのタスクレベルに対して、因果帰属、除去効果の説明、衝突バイアス、反事実的推論を含む21の因果シナリオを設計し、COPA、CLADDER、CaLM-IVなどの様々なデータセットと質問タイプをカバーしています。

多様な評価方法

CaLMは評価方法の選択にあたり、ベンチマークプロンプト、敵対的プロンプト、思考連鎖、文脈学習など9つのアプローチを採用しました。評価プロセスでは、実験の広範な範囲、使いやすさ、制御可能性を総合的に考慮しました。

総合評価基準

CaLMは、モデル、手がかり語、因果シナリオそれぞれについて、精度、堅牢性、理解度など7つの側面を網羅した異なる評価基準を設定し、モデルの因果推論能力と堅牢性、そして手がかり語の有効性を総合的に反映しています。因果シナリオが複雑になるほど、モデルによる解決が困難になり、シナリオの成熟度は低下します。そのため、CaLMには因果シナリオの成熟度を評価するための評価基準も含まれています。

システムエラー結果分析

CaLM因果関係評価データセット

因果推論能力を構造的に評価するため、共同研究チームは新たな評価データセットを構築しました。4段階の因果タスクに基づき、このデータセットは豊富な因果概念を網羅し、中国語と英語の両方で12万点以上のデータポイントが含まれています。さらに、研究者たちはテキストのモダリティを自然、記号、数学の3つのサブモダリティに綿密に分類し、異なるモダリティにおけるモデルの理解能力を検証しました。

このデータセットのデータの約90%は新たに構築され、10%は既存の公開データセットから取得されています。これにより、既存の公開結果との比較が可能になり、評価の有効性が反映されるとともに、トレーニングセットデータの混入の問題も回避されます。

一方、評価を容易にするために、チームは中国語と英語で9200個のデータポイントを含むCaLM Lite版もリリースしました。このデータセットは現在、Sinan OpenCompass大規模モデル能力評価システムでも公開されており、Sinan OpenCompassの評価スイートを用いた迅速なモデルテストが可能です。

（CaLMデータセットにおける問題の種類の統計概要）

CaLMデータセットの問題

以下の例は、CaLMの平均治療効果タスクを示しています。CaLMは、研究者がさらに活用できるよう、オリジナルの因果グラフ、条件付き確率、そして推論プロセスを提供します。

（CaLMデータセット問題のデモンストレーション）

CaLMレビュー結果

共同チームは、現在主流となっている 28 の大規模モデルについて、CaLM を使用して因果推論能力を評価し、合計 50 件の実証的知見を生成しました。

評価データと可視化結果は、CaLMプロジェクトのホームページ（https://opencausalab.github.io/CaLM）で公開されています。さらに、CaLMデータセット、評価プロセス、エラー分析ワークフローはすべてオープンソース化されており、産業界や学術機関による独立した研究を促進しています。（https://github.com/OpenCausaLab/CaLM）

（CaLM評価結果）

代表的な結論の簡単な概要

因果推論能力は一般的に不足しています。現在、大規模言語モデルは複雑な因果推論を必要とするタスクを効果的に実行するのに苦労しています。因果推論の複雑さが増すにつれて、各大規模言語モデルの精度は徐々に低下し、最終的にはほぼゼロに達します。
人間フィードバックに基づく強化学習（RLHF）には諸刃の剣があります。RLHFは、モデルの出力を人間の推論プロセスにより近づけることを可能にします。一方で、RLHFを用いて微調整されたモデルは、誤ったユーザーコマンドの影響を受けやすくなります。
OpenAIのモデルは、反復を通じて大幅な改善を遂げてきました。アップデートのたびに、因果推論タスクを実行する能力が大幅に向上し、精度と堅牢性のバランスも大幅に向上しています。
モデルパラメータサイズが因果推論能力に与える影響。因果推論タスクにおいて、モデルパラメータサイズと精度の関係は単調増加傾向を示さず、他の要因（学習データや戦略など）が、異なる開発者によるモデルの精度に大きく影響する可能性があります。しかし、同じ開発者によるモデルにおいては、モデルパラメータサイズは、精度を予測するための一貫性と信頼性のある指標となります。
手がかり語を変更しても、複雑な因果シナリオにおけるモデルのパフォーマンスは大幅に向上しません。これは、モデルの学習コーパスに複雑な因果推論タスクに関する事前知識が不足していることが多いためです。したがって、手がかり語を変更しても、複雑な因果シナリオにおけるモデルのパフォーマンスは大幅に向上しません。
異なる質問に対して同じ回答をしてしまうという誤りは広く蔓延しています。テストされた28のモデルのうち、26のモデルは異なる質問に対して同じ回答をする傾向を示し、因果関係のあるタスクの処理には効果的ではないことが示されました。

CaLMは、Sinan OpenCompass大規模モデル能力評価システムに組み込まれました。コミュニティメンバーの皆様は、ぜひ開発にご参加ください。
データセットの詳細リンク: https://hub.opencompass.org.cn/dataset-detail/CaLM
CompassKit を使用した評価: https://github.com/open-compass/opencompass

Sinan OpenCompass大規模モデル能力評価システムは、引き続き業界と連携し、因果推論分野における大規模モデルの評価を推進し、大規模言語モデルのオープンで公平かつ透明な評価システムを共同で構築し、大規模言語モデル技術の健全な発展と継続的な革新を促進していきます。

「Sinan Evaluation System」WeChat公式アカウントをフォローして、大型モデル評価の最新情報を入手してください。

OpenCompass ベンチマークシステムには、主に次の 3 つのモジュールが含まれており、自由にご利用いただけます。

CompassKit 評価ツールチェーンシステムは、完全なオープンソースの再現可能な評価コードを提供するだけでなく、豊富なモデルサポートと効率的な分散評価戦略も提供します。

オープンソースアドレス: https://github.com/open-compass

CompassHubは、大規模モデルの機能を評価するためのオープンソースベンチマークを提供する高品質なベンチマークコミュニティです。様々な機能の次元と業界シナリオに対応した膨大な数のベンチマークを提供しています。

コミュニティアドレス: https://hub.opencompass.org.cn/home

権威あるベンチマークプラットフォームであるCompassRankは、OpenCompass内の様々なベンチマークのプラットフォームとして機能しています。CompassRankは中立的な立場を維持し、商業的な利益に左右されることはありません。

ランキングリストアドレス: https://rank.opencompass.org.cn/home

618ZXW

CaLM 因果推論評価システム: 大規模モデルを人間の認知レベルに近づけるにはどうすればよいでしょうか?

CaLMとは何ですか?

CaLM評価フレームワーク

代表的な結論の簡単な概要

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ