DeepSeek-R1とO1はどちらも合格に苦戦中！ByteDanceが全く新しいオープンソースの知識推論評価スイートをリリースしました。

大規模なモデルで MMLU チャートと GPQA チャートを支配するゲームプレイは一夜にして変わったのでしょうか?

ここ数年、様々な一般的なベンチマークが均質化が進み、モデルの真の能力を評価することが困難になっていることを理解することが重要です。GPQA、MMLU-pro、MMLUといった一般的なベンチマークは、リリースされているすべてのモデルで利用可能ですが、その限界が表面化し始めています。例えば、カバレッジが狭く（通常50人未満）、ロングテールの知識が含まれず、十分なチャレンジングと識別能力が欠けています。例えば、GPT-4oはMMLU-Proで92.3%の精度を達成しました。

でも、慌てないでください。大型モデルの評価における「皇岡秘試問題」とも言える、大型モデル向けの一般知識推論評価の「強化版」がここにあります。

最近、ByteDance の Doubao Big Model チームは、MAP オープンソースコミュニティと協力して、新しいベンチマーク SuperGPQA を立ち上げました。

私たちは論文を精査し、詳細に検討しました。論文は実に256ページにも及びました。評価システムの開発には6ヶ月かかり、100人近くの学者、一流大学卒業生、そして産業界のエンジニアがアノテーション作業に参加したと承知しています。

研究チームは、大学院レベルの285の分野を網羅し、26,529の専門的な質問を含む、これまでで最も包括的な評価システムを開発しました。

実験では、最も強力な DeepSeek-R1 でも SuperGPQA で 61.82% の精度しか達成できず、かろうじて合格した程度で、従来の評価基準でのパフォーマンスよりも大幅に低いことが示されました。

SuperGPQA は、大規模モデルの評価における 3 つの主要な問題点を正確に解決します。

不完全な科目カバー率: 従来のベンチマークではロングテール科目の 5% しかカバーされておらず、図書館学、植物学、歴史地理学などの多くの分野が長い間欠落しています。
質問の品質に関する質問: 公開されている質問バンクはデータ汚染のリスクがあり、単純な改変では真の学術レベルを反映できません。
評価の範囲があまりにも限られています。ほとんどのテストは知識の暗記レベルに留まっており、高次の推論能力の評価が欠けています。

さらに、SuperGPQAは、その厳格なデータ構築プロセスも公開しています。システム全体は、大規模な人間と機械の協働システムと、専門家によるアノテーション、クラウドソーシングによるアノテーション、大規模モデルによる共同検証という3つのプロセスを組み合わせることで、選択されたトピックが十分に高い品質と識別力を備えていることを保証しています。

現在、SuperGPQA は HuggingFace と GitHub でオープンソース化されており、すぐにトレンドリストに上がりました。

これは、業界の空白を埋める「すべての分野がカバーされた」初めてのケースとなります。

研究者らは、現在の大規模言語モデル評価システムが、主題カバレッジの深刻な不均衡と、挑戦的な評価ベンチマークの失敗という 2 つの大きな「ジレンマ」に直面していることを明らかにしました。

MMLU や GPQA などの従来のベンチマークは、数学や物理学などの主流の分野で標準化されたテストフレームワークを確立していますが、通常は 50 未満の分野しかカバーしておらず、人類が蓄積した多様でロングテールな知識を網羅することはできません。

さらに、GPT-4o と DeepSeek-R1 はどちらも従来のベンチマークで 90% を超える精度率を達成しており、評価システムは識別力を失い、現実世界の複雑なシナリオにおけるモデルの推論の上限を効果的に測定することができなくなりました。

根本的な原因は、従来のベンチマーク構築における過度に単純化されたパラダイムにあり、その結果、比較的粗雑なデータソースと品質スクリーニングが生み出されています。従来のベンチマークは、教科書の例文やオンラインの質問バンクにのみ依存しています。例えば、GPQAの問題の42%はWikipediaから引用されており、専門的な深みが欠けており、暗記メカニズムによってモデルによって簡単に「解読」されてしまいます。

データによれば、GPT-4o はオンライン練習ウェブサイトからの回答で 67.3% の繰り返し率を示しており、パフォーマンスの向上は、真の推論能力ではなく、漏洩した質問データに起因する可能性があることを示唆しています。

さらに、クラウドソーシングによる注釈の専門知識のレベルがさまざまであることと主観的な性質により、ベンチマークの信頼性がさらに低下しました。初期の試験では、クラウドソーシングによる注釈のうち専門家のレビューに合格したのはわずか 37% で、注釈リソースの 60% 以上が無駄になりました。

前述の課題に対処するため、 Doubao Big ModelチームはMAPオープンソースコミュニティと協力し、LLMの可能性を深く探求することを目指してSuperGPQAを立ち上げました。その機能は以下のとおりです。

包括的かつ差別化された出題：STEM（科学、工学、医学）分野の設問が77.2%を占め、複雑な推論課題における効率的な評価を可能にしています。哲学、文学、歴史など、STEM分野以外の分野の設問は少ないものの、それでも法学修士（LLM）の成績を効果的に差別化しています。
多様な難易度の分布: 問題の難易度は分野全体で均等に分布していますが、エンジニアリングと科学の分野では、より多くの問題が挑戦的です。問題の 42.33% では、非常に難しいタスクでモデルのパフォーマンスを保証するために、数学的計算または厳密な推論が必要です。
豊富な意味構造：t-SNE可視化は、学際的なクラスタリングパターンを示します。工学と理学の問題は類似した意味を持ちますが、人文科学の知識センターはそれぞれ独自のものであり、分野ごとに異なる言語特性を持っています。
質問は一貫して設計されており、平均的な質問の長さは 58.42 文字、回答の選択肢の長さは均一で、質問は非常に欺瞞的で挑戦的であるため、公正で信頼性の高い評価が保証されます。

ベンチマークテストとして、 SuperGPQAは非常に包括的で、13のカテゴリー、72の一次レベル分野、285の二次レベル分野を網羅し、合計26,529問が出題されます。これは、既存のGPQA（448問）やMMLU-Pro（12,032問）をはるかに上回っています。同時に、各問題は平均9.67個の選択肢で構成されており、従来の4択形式よりもはるかに難易度が高くなっています。

人間と機械が協力して行う 3 段階の品質検査により、「テスト熱心者」を排除します。

SuperGPQA コアアーキテクチャは、ソーススクリーニング、転写、品質テストの 3 つのステップで構成されます。

設計プロセスにおいて、チームは高度に複雑な問題に対するクラウドソーシングによるアノテーション手法の限界を十分に認識していました。そのため、問題ソースの信頼性と適切な難易度を確保するために、専門のアノテーターを導入しました。最先端のLLMを活用した品質チェックと組み合わせることで、効率が最大化され、マルチモデル連携による問題データ漏洩のリスクが軽減されました。

さらに、チームは厳格なプロセス管理と継続的な品質フィードバックを重視し、各段階での出力が基準を満たすようにしています。この体系的かつ専門的なプロセスのおかげで、SuperGPQA問題バンクの品質は飛躍的に向上し、後続の改訂にかかるコストと時間を大幅に削減できました。

ソースフィルタリング

質の高い質問を保証するために、チームはリソースを収集するためにコメンテーターをクラウドソーシングする従来のアプローチを放棄し、代わりに専門のコメンテーターに信頼できるソース (教科書、権威ある実践ウェブサイト) からオリジナルの質問を選択して収集してもらいました。

このアプローチにより、初期段階で多数の無効な問題が発生するのを回避でき、ソースのスクリーンショットを要求することで品質テストの効率と精度が大幅に向上しました。

転写

転写段階では、専門の注釈者が収集した元の質問の言語と形式を標準化し、すべての質問で統一された学術言語と標準的な複数選択の質問形式が使用されるようにします。

研究チームは、最先端の言語モデル（LLM）でさえ、誤答を生成する際に欠陥があることを発見した。そのため、専門家は誤答の精度と有効性を向上させ、質問の難しさと識別性を保証するために、LLMを書き直す必要がある。

品質検査

品質検査フェーズでは、次の多層検査メカニズムを採用しています。1)ルールベースの予備フィルタリング: 明らかに準拠していない形式の質問を識別してフィルタリングします。2) LLM ベースの品質検査: 複数の高度な LLM (GPT-4、Gemini-flash など) を同時に使用して、妥当性、否定的および極端なクエリの検出、マルチモーダル除外、ドメイン関連性評価、識別ラベル付けをカバーします。3)専門家によるレビュー: 専門の注釈者が疑わしい質問の 2 回目のレビューを実施して、質問バンクの高い信頼性と高い識別性を確保します。

推論モデルがランキングを支配していますが、そのパフォーマンスは依然として人間のレベルに遅れをとっています。

△ 異なる分割レベルでのLLMのパフォーマンス

△ 異なる分野における法学修士課程の成績

SuperGPQAは、業界で主流のLLMの性能をテストするための包括的な実験も実施しました。評価対象は、6つの推論モデル、28のチャットモデル、17の基本モデルで、クローズドソース、オープンソース、そして完全オープンソースのモデルを網羅しています。

研究チームは、51のモデルを対象とした横断的評価で、 DeepSeek-R1が61.82%の精度でトップになったものの、そのパフォーマンスは人間の大学院生（平均85%以上）のそれよりも依然として大幅に低いことを発見した。

この論文からは、注目すべき 3 つの結論も得られました。

1. 推論能力によって上限が決まります。

推論モデル (DeepSeek-R1、O1-2024-12-17) がチャットモデルを 10 パーセントポイント以上上回り、上位 3 位を獲得しました。
DeepSeek-V3 と Qwen2.5-72B-Instruct のスコア (47.40 と 40.75) は、ベースバージョン (32.14 と 34.33) を大幅に上回っており、命令の微調整によってパフォーマンスが大幅に向上したことがわかります。

2. 国産モデルの躍進

Doubao-1.5-proはチャットモデルの中で55.09%の精度で1位となり、GPT-4o-2024-11-20（44.40%）を上回りました。
Qwen シリーズは強力な汎用性を発揮し、Qwen 2.5-72B はベースモデルの中で 4 位にランクされ、Llama-3.1-405B を上回りました。

3. 学際的なパフォーマンスの不均衡* STEM 分野での大きな利点:「理論流体力学」や「オペレーションズリサーチとサイバネティクス」などのサブフィールドでは、トップモデルの精度が 75% を超えています。

人文科学と社会科学は依然として弱点であり、「ダンス研究」や「デザインアート」などの分野では、最良モデルの精度は 50% 未満です。

もう一つ

評価データセットは常に重要であり、おそらく大規模モデルのパフォーマンス上限を向上させる上で最も重要な部分です。

しかし、評価データセットの構築には多大な人手が必要であり、オープンソースへの貢献に大きく依存しています。ByteDanceは昨年早くもオープンソースの評価データセットへの取り組みを開始し、11以上の実世界シナリオと16以上のプログラミング言語を網羅した大規模なコードモデル評価ベンチマークであるFullstack Benchは、開発者から好意的なフィードバックを得ています。

バイトダンスが6ヶ月かけて開発したSuperGPQAの発表は、「バイトダンスは基礎的な作業に十分な投資をしていない」という外部の認識をさらに払拭するものである。一方で、バイトダンスがモデル性能に対して極めて高い目標を掲げていることを間接的に示している。

最近、DeepMind のトップエキスパートである Wu Yonghui 氏がチームに加わったことを受けて、チーム全体が「知能の最高限界を追求する」という目標を設定しました。

2025年に豆宝モデルはどのようなレベルに到達するのでしょうか？楽しみに待ちましょう。

618ZXW