CaLMとは何ですか?CaLM(Causal Evaluation of Language Models:言語モデルの因果評価)は、上海人工知能研究所、同済大学、上海交通大学、北京大学、SenseTimeが共同でリリースした、大規模モデルの因果推論のための初のオープン評価システムおよびプラットフォームです。CaLMは、因果推論の観点からの評価フレームワークを初めて提案し、AI研究者にとって信頼性の高い評価ツールを構築するとともに、大規模モデルの認知能力を人間のレベルにまで高めるための指標を提供します。 因果推論は人間の認知能力における最も重要な特性の一つであり、因果推論能力の向上は機械知能から人間知能への重要なステップと考えられています。大規模モデルの因果推論能力を科学的かつ効果的に評価するため、上海人工知能研究所の共同チームは、因果評価対象、評価方法、評価指標、エラー分析を含むCaLMの評価フレームワークを提案しました。また、中国語と英語で12万件以上の質問からなるデータセットを構築しました。 共同チームはCaLMに基づき、現在主流となっている28の大規模モデルの因果推論能力について初の評価を行い、50の実証的知見を得ました。本論文では、これらの結論のうち6つを抜粋しています。関連論文(全315ページ)は、本記事末尾のリンクから閲覧するか、ウェブサイトからダウンロードできます。 CaLM評価フレームワークCaLMは、柔軟かつ容易に拡張可能な評価フレームワークを採用し、事前に定義された実装シーケンス(因果ターゲット → 適応 → メトリクス → エラー分析)に従って評価を実施します。CaLM評価フレームワークの設計と実装プロセスは、数学的推論、専門知識、長文テキスト処理などのモデルの評価システムの構築にも適用できます。 ボトムアップ因果評価の目的 CaLMは、広く受け入れられているジュディア・パールの因果ラダー理論に基づき、因果発見、連想、介入、反事実という4つのレベルの因果タスクをさらに発展させ、明確化します。各レベルのタスクは、複雑さの観点から基礎から上級へと整理され、ボトムアップのフレームワークを形成しています。 因果発見は、データまたはセマンティクスから潜在的な因果構造を推論し、データ間の統計的依存関係を探索し、介入を通じて環境内の変数を意図的に変更した場合の影響を予測し、反事実的手法を用いて仮説の代替シナリオについて推論することを目的としています。CaLMは、4つのタスクレベルに対して、因果帰属、除去効果の説明、衝突バイアス、反事実的推論を含む21の因果シナリオを設計し、COPA、CLADDER、CaLM-IVなどの様々なデータセットと質問タイプをカバーしています。 多様な評価方法 CaLMは評価方法の選択にあたり、ベンチマークプロンプト、敵対的プロンプト、思考連鎖、文脈学習など9つのアプローチを採用しました。評価プロセスでは、実験の広範な範囲、使いやすさ、制御可能性を総合的に考慮しました。 総合評価基準 CaLMは、モデル、手がかり語、因果シナリオそれぞれについて、精度、堅牢性、理解度など7つの側面を網羅した異なる評価基準を設定し、モデルの因果推論能力と堅牢性、そして手がかり語の有効性を総合的に反映しています。因果シナリオが複雑になるほど、モデルによる解決が困難になり、シナリオの成熟度は低下します。そのため、CaLMには因果シナリオの成熟度を評価するための評価基準も含まれています。 システムエラー結果分析 CaLM因果関係評価データセット 因果推論能力を構造的に評価するため、共同研究チームは新たな評価データセットを構築しました。4段階の因果タスクに基づき、このデータセットは豊富な因果概念を網羅し、中国語と英語の両方で12万点以上のデータポイントが含まれています。さらに、研究者たちはテキストのモダリティを自然、記号、数学の3つのサブモダリティに綿密に分類し、異なるモダリティにおけるモデルの理解能力を検証しました。 このデータセットのデータの約90%は新たに構築され、10%は既存の公開データセットから取得されています。これにより、既存の公開結果との比較が可能になり、評価の有効性が反映されるとともに、トレーニングセットデータの混入の問題も回避されます。 一方、評価を容易にするために、チームは中国語と英語で9200個のデータポイントを含むCaLM Lite版もリリースしました。このデータセットは現在、Sinan OpenCompass大規模モデル能力評価システムでも公開されており、Sinan OpenCompassの評価スイートを用いた迅速なモデルテストが可能です。
CaLMデータセットの問題 以下の例は、CaLMの平均治療効果タスクを示しています。CaLMは、研究者がさらに活用できるよう、オリジナルの因果グラフ、条件付き確率、そして推論プロセスを提供します。 (CaLMデータセット問題のデモンストレーション) CaLMレビュー結果 共同チームは、現在主流となっている 28 の大規模モデルについて、CaLM を使用して因果推論能力を評価し、合計 50 件の実証的知見を生成しました。 評価データと可視化結果は、CaLMプロジェクトのホームページ(https://opencausalab.github.io/CaLM)で公開されています。さらに、CaLMデータセット、評価プロセス、エラー分析ワークフローはすべてオープンソース化されており、産業界や学術機関による独立した研究を促進しています。(https://github.com/OpenCausaLab/CaLM)
代表的な結論の簡単な概要
CaLMは、Sinan OpenCompass大規模モデル能力評価システムに組み込まれました。コミュニティメンバーの皆様は、ぜひ開発にご参加ください。 Sinan OpenCompass大規模モデル能力評価システムは、引き続き業界と連携し、因果推論分野における大規模モデルの評価を推進し、大規模言語モデルのオープンで公平かつ透明な評価システムを共同で構築し、大規模言語モデル技術の健全な発展と継続的な革新を促進していきます。 「Sinan Evaluation System」WeChat公式アカウントをフォローして、大型モデル評価の最新情報を入手してください。 OpenCompass ベンチマーク システムには、主に次の 3 つのモジュールが含まれており、自由にご利用いただけます。
オープンソースアドレス: https://github.com/open-compass
コミュニティアドレス: https://hub.opencompass.org.cn/home
ランキングリストアドレス: https://rank.opencompass.org.cn/home |
CaLM 因果推論評価システム: 大規模モデルを人間の認知レベルに近づけるにはどうすればよいでしょうか?
関連するおすすめ記事
-
小さな模型が立ち上がり、ブラウザにSOTA(State of Data)の結果が表示されました。(顔面を手で覆う)逃げろ!合成データに未来はない!
-
テレンス・タオ:ナビエ・ストークス方程式はもはや流体の良いモデルではないかもしれません。
-
マルチドメイン地球科学アプリケーション: 浙江大学のチームは、地理学、海洋学、地質学、大気の分野における時空間モデリングと予測を支援する GeoAI シリーズの手法を提案しました。
-
最も強力な OpenAI モデルである O1 がテストされました。大学レベルの数学と科学の問題を解くことができますが、IQ の低い人でも難しいと感じるでしょう。
-
上海を拠点とするAIチップユニコーンがIPO準備を開始。ハーバード大学卒業生が国産GPUを開発、すでに50億元超を調達。
-
フラクタル生成モデルの新たなパラダイムを切り開きました!計算効率が4000倍向上し、初めて高解像度のピクセル単位の生成を実現しました。