|
大規模言語モデル (LLM) の新しい評価ベンチマークは、大規模言語モデルの急速な発展に対応するために不可欠です。 最近、タオバオと天猫グループの研究者は、中国語SimpleQAを提案しました。これは、「中国語、多様性、高品質、静的、評価の容易さ」という5つの特徴を備えた、中国語初の包括的なベンチマークです。これは、言語モデルが短い質問に答える真の能力を評価するために使用されます。 研究者らは、短い中国語のQ&Aは、開発者がモデルの中国語の信頼性をよりよく理解し、基礎となるモデルの開発を促進するのに役立つ可能性があると述べています。 論文リンク: https://arxiv.org/abs/2411.07140 導入人工知能開発における大きな課題の一つは、言語モデルによって生成される回答が事実に基づいて正確であることを保証することです。現在の最先端モデルは、誤った出力や裏付けとなる証拠を欠いた回答(いわゆる「錯覚問題」)を生成することがあり、これが大規模言語モデルなどの汎用AI技術の普及を著しく阻害しています。さらに、既存の大規模言語モデルのリアリティ(現実性)を評価することも非常に困難です。例えば、大規模言語モデルは、多くの事実に基づく記述を含む長い応答を生成することがよくあります。こうした評価課題に対処するため、OpenAIは最近、4,326の簡潔な事実探求型の質問を含むSimpleQAベンチマークをリリースしました。これにより、リアリティの測定が簡便かつ信頼性のあるものとなっています。 しかし、短い質疑応答ベンチマークは主に英語向けに設計されているため、他の言語における大規模言語モデルの機能を十分に理解することができません。さらに、Taotian Groupの研究者は、最近の中国語大規模言語モデルベンチマーク(C-EvalやCMMLUなど)に着想を得て、中国語の文脈における大規模言語モデルの現実性を評価するための、中国語の短い質疑応答ベンチマークを提案しました。このベンチマークは、人文科学から理工学まで、6つの主要テーマをカバーする3,000の高品質な質問で構成されています。具体的には、中国語の短い質疑応答ベンチマークの主な特徴は次のとおりです。
研究者たちは、中国語の短い質疑応答形式に関する既存の大規模言語モデルの包括的な評価と分析を実施し、次のような洞察に満ちた発見を得ました。
短い中国語Q&A概要中国語短問答(STO)の分類は6つの主要テーマで構成され、それぞれに複数の二次的サブテーマが含まれています。表1は、STOといくつかの主要な大規模言語モデル評価ベンチマークを比較したもので、STOが大規模言語モデルにおける中国語知識の限界を評価することに焦点を当てた最初のベンチマークであることを示しています。 データ収集図2に示すように、中国語の短い質疑応答のデータ収集プロセスは、自動構築と手動検証で構成されています。自動フェーズには、(1)関連する知識コンテンツの抽出とフィルタリング、(2)質問と回答のペアの自動生成、(3)事前定義された基準に従って大規模言語モデルを用いたこれらのペアの検証、(4)検索拡張生成(RAG)検証、(5)難易度スクリーニングが含まれます。 具体的には、まず著者らはさまざまな知識領域(Wikipediaなど)から大量の知識豊富なテキストコンテンツを収集し、品質評価モデルを使用して低品質のデータを除外しました。次に、著者らは大規模言語モデルに、この高品質の知識コンテンツを使用して質問と回答のペアを生成するように促しました。次に、中国語の短い質疑応答セッションの品質を保証するために、著者らは大規模言語モデルを使用して、事前定義された基準を満たさないサンプルを除外しました。このようにして、事前に選別された知識ベースの大量の質問と回答のペアが得られました。同時に、回答の品質を向上させるために、外部検索ツール(つまり、検索エンジン)を展開してより多様な情報を収集し、大規模言語モデルがRAGシステムに基づいて回答の事実の正確性を評価するように導きました。具体的には、検索方法としてLlamaIndexを使用し、GoogleとBingの検索結果をデータソースとして使用しました。生成と検証に関する詳細は付録Aに記載されています。さらに、著者らは、大規模言語モデルの知識限界を明らかにし、中国語の短い質疑応答セッションの難易度を高めるために、いくつかの単純なサンプルをフィルタリングしました。具体的には、4つの大規模モデルで正しく回答できる質問は単純な質問とみなされ、破棄されました。 質問と回答のペアの構築は、次の基準に基づいていることに注意してください。
2.3 品質管理自動データ収集の後、データセットの品質向上のため、人間による検証が行われました。具体的には、各質問は 2 人の注釈者によって独立して評価されました。まず、注釈者は質問が事前定義された基準を満たしているかどうかを判断しました。どちらかの注釈者が質問を不適切と判断した場合、サンプルは破棄されました。その後、両方の注釈者は検索エンジンを使用して関連情報を取得し、回答を作成しました。この段階で、注釈者は信頼できる情報源 (Wikipedia や Baidu Baike など) のコンテンツを使用する必要があり、各注釈者は少なくとも 2 つの裏付けとなる URL を提供する必要がありました。注釈者の回答に矛盾があった場合、3 人目の注釈者がサンプルをレビューしました。最終的な注釈は、最初の 2 つの評価に基づいて 3 人目の注釈者によって決定されました。最後に、人間による注釈の結果が、大規模言語モデルによって生成された応答と比較され、完全に同一の質問と回答のペアのみが保持されました。この厳格な人間による検証プロセスにより、データセットは高い精度を維持し、確立された基準を満たすことが保証されました。 中国語の短い質疑応答データセットの構築とアノテーションの過程で、多くの低品質な質疑応答ペアが破棄されました。具体的には、当初10,000ペアが生成されました。様々なモデルを用いた難易度評価の結果、約6,310ペアが保持され、より単純なデータの約37%が破棄されました。ルールベースの検証とモデルベースのRAG検証の後、さらに2,840サンプルが削除され、元の生成データの約35%のみが残りました。最終的に、徹底的かつ厳密な人によるレビューを経て、約3,000サンプルのみが保持され、元のデータセットの約30%を占めました。 2.4 データセットの統計表2は、中国語の短い質疑応答データセットの統計を示しています。合計3000サンプルのデータ分布は、6つの主要トピック間で比較的バランスが取れており、様々な分野における大規模言語モデルの知識境界を効果的に評価しています。さらに、このデータセットでは、質問と参照回答の両方の長さが非常に短く、知識クエリの特性を反映しています。特に、中国語の短い質疑応答データセットを用いたモデルの評価には、最小限の入力ラベルと出力ラベルしか必要としないため、評価にかかる計算コストと時間コストが非常に低くなります。 2.5 評価指標SimpleQA と同様に、中国語の短い質問と回答でも次の 5 つの評価指標が使用されます。
3. 実験3.1 ベースラインモデル著者らは、17 のクローズドソースの大規模言語モデル (o1-preview、Doubao-pro-32k、GLM-4-Plus、GPT-4o、Qwen-Max、Gemini-1.5-pro、DeepSeek-V2.5、Claude-3.5-Sonnet、Yi-Large、moonshot-v1-8k、GPT-4-turbo、GPT-4、Baichuan3-turbo、o1-mini、Doubao-lite-4k、GPT-4o-mini、GPT-3.5) と 24 のオープンソースの大規模言語モデル (Qwen2.5 シリーズ、InternLM2.5 シリーズ、Yi-1.5 シリーズ、LLaMA3 シリーズ、DeepSeek シリーズ、Baichuan2 シリーズ、Mistral シリーズ、ChatGLM3、および GLM-4) を評価しました。 3.2 主な結果表3に示すように、本論文では、中国語の短い質問応答における様々な大規模言語モデルの性能結果を示しています。具体的には、SimpleQAと同様に、著者らは5つの評価指標について全体的な結果を示しています。 さらに、本論文では、これらの大規模言語モデルの細粒度リアリズム能力を分析するために、6つのトピックのFスコアを報告しています。表3には、以下の洞察に満ちた興味深い観察結果が示されています。
さらに、この論文では、図 3 に 6 つのトピック (CO および CGA インデックス) の詳細な結果を示しています。 3.3 さらなる分析3.3.1 キャリブレーション分析 SimpleQAと同様に、さまざまな大規模言語モデルのキャリブレーションでは、モデルの回答に対する信頼度を測定するために、質問に答える際に対応する信頼度レベル(0~100)を提供するようにモデルに指示しました(付録Bのヒントを参照)。完全にキャリブレーションされたモデルの信頼度(%)は、その回答の実際の精度と一致するはずであることがわかっています。図4の左のグラフはキャリブレーションのパフォーマンスを示しており、GPT-4oはGPT-4o-miniよりも、o1-previewはo1-miniよりもキャリブレーションが優れていることを示しています。Qwen2.5シリーズの場合、キャリブレーションの順序はQwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3Bであり、モデルサイズが大きいほどキャリブレーションが向上することを示しています。さらに、評価されたすべてのモデルにおいて、信頼範囲 >50 の信頼レベルは完全な較正線を下回っており、すべてのモデルが応答の精度を過大評価し、過信を示していることを意味します。 3.3.2 テスト時間の計算と分析 本論文では、テスト時間の計算時間を増加させた場合の、異なるモデルと応答精度の関係についても評価しています。具体的には、中国語の短答式質疑応答データベースからランダムに50個のサンプルを選択し、各サンプルに対してモデルに100回独立して回答させました。その後、最適N法を用いて、推論回数の増加に伴うモデルの応答精度を算出しました。結果は図4の右側のグラフに示されています。著者らは、すべてのモデルの応答精度が推論回数の増加とともに向上し、最終的に上限に達することを観察しました。これは、中国語の短答式質疑応答データベースがモデルの知識の限界を探るために特別に設計されているため、妥当な結果です。 3.3.3 検索強化生成(RAG)の効果の分析 本研究では、中国語の短い質疑応答データセットにおける大規模言語モデルの事実の精度を向上させるための検索拡張(RAG)戦略の有効性を調査しました。具体的には、著者らはLlamaIndexに基づくRAGシステムを再現し、Google Search APIを統合しました。図5に示すように、すべてのモデルはRAGの使用後に大幅な精度向上を示しました。たとえば、Qwen2.5-3Bのパフォーマンスは3倍以上向上しました。特に、RAGを使用したほぼすべてのモデルがネイティブGPT-4oモデルよりも優れたパフォーマンスを発揮しました。さらに、RAGの適用により、モデル間のパフォーマンスギャップが大幅に縮小しました。たとえば、RAGを使用したQwen2.5-3BとRAGを使用したQwen2.5-72BのFスコアの差はわずか6.9%でした。これは、RAGがモデル間のパフォーマンスギャップを大幅に縮小し、RAGで拡張しても小さなモデルで高いパフォーマンスを実現できることを示しています。全体として、これはRAGが大規模言語モデルのリアリティを向上させるための効果的な近道であることを示しています。 3.3.4 アライメントコスト分析 最近の研究(OpenAI, 2023; Song et al., 2023)では、アライメントが言語モデルの能力低下につながる可能性があることが明らかになっています。この現象は「アライメントコスト」と呼ばれています。アライメントがリアリティに与える影響を明らかにするため、著者らは、事前学習済みモデルと、教師あり微調整(SFT)または人間からのフィードバックによる強化学習(RLHF)によって学習されたアライメント済みモデルの性能比較分析を実施しました。図6に示すように、学習後の傾向はモデルによって異なりましたが、ほとんどのモデルで顕著な低下が見られました。中でも、Baichuan2シリーズのモデルは最も顕著な低下を示し、Baichuan2-7BとBaichuan2-13BのFスコアはそれぞれ47%と28%減少しました。これは、現在の大規模言語モデルのアライメント学習のほとんどが、知識錯覚の生成において依然として大きな欠陥を抱えていることを反映しており、このデータセットの必要性をさらに強調しています。 3.3.5 サブトピック結果分析 セクション 2.2 で説明したように、このベンチマークは合計 99 のサブトピックをカバーし、さまざまなドメインにわたるモデルの知識レベルを包括的にテストします。図 7 は、いくつかの一般的なドメインにおける o1 モデルと 7 つのよく知られた中国のコミュニティ モデルのパフォーマンス比較を示しています。まず、全体的に見ると、o1-preview モデルはこれらのドメインで最も包括的なパフォーマンスを示し、Doubao モデルがそれに続いています。対照的に、Moonshot モデルは全体的なパフォーマンスが最も低いです。次に、特定のドメインでは、コンピューター サイエンスや医学などの分野で中国のコミュニティ モデルと o1 モデルの間に大きなギャップがあります。ただし、教育や経済などの分野では、このギャップは最小限です。特に、教育ドメインでは、一部の中国のコミュニティ モデルが o1-preview よりも優れており、特定の垂直分野で成功する可能性を浮き彫りにしています。最後に、特定のモデルに関しては、Moonshot モデルは数学、法律、エンターテイメントなどの分野で著しく弱く、Baichuan モデルもエンターテイメント ドメインでのパフォーマンスが低いです。 Yi-Largeモデルは教育分野で非常に優れたパフォーマンスを発揮し、o1モデルは他の分野で最も優れたパフォーマンスを維持しています。ベンチマークデータセット内の様々な分野におけるモデルのパフォーマンスを評価することで、ユーザーは特定のニーズに最適なモデルを決定できます。 3.3.6 SimpleQAによる中国語の短い質問と回答の比較 この論文では、SimpleQAと中国語の短い質問への回答における様々なモデルのランキングの違いも比較しています。図8に示すように、これら2つのベンチマークにおけるモデルのパフォーマンスには大きな違いがあります。例えば、Doubao-pro-32kは中国語の短い質問への回答でランキングを大幅に向上させ、12位から2位(+10)に上昇しました。逆に、GPT-4の中国語の短い質問への回答におけるパフォーマンスは低下し、3位から9位(-6)に低下しました。これらの違いは、異なる言語のデータセットでモデルを評価することの重要性と、異なる言語的コンテキストでモデルのパフォーマンスを最適化する方法の研究の必要性を浮き彫りにしています。特に、o1-previewは両方のデータセットで一貫してトップの地位を維持し、異なる言語的コンテキストへの堅牢性と適応性を実証しました。さらに、中国のコミュニティによって開発されたほとんどのモデル (Qwen-Max、GLM-4-Plus、Yi-Large、Doubao-pro-32k など) は、中国語の短い質問への回答において SimpleQA よりも優れた成績を収め、中国語のタスクにおける競争力を示しました。 4. 関連研究–大規模言語モデルの信頼性:大規模言語モデルの信頼性とは、大規模言語モデルが常識、世界知識、ドメイン事実などを含む事実コンテンツを生成する能力を指し、Wikipediaや教科書などの権威ある情報源によって検証可能です。近年の研究では、事実に基づく知識ベースとしての大規模言語モデルの可能性が探究されています(Yu et al., 2023; Pan et al., 2023)。具体的には、既存の研究は主に、大規模言語モデルの信頼性の定性評価(Lin et al., 2022; Chern et al., 2023)、知識保存メカニズムの研究(Meng et al., 2022; Chen et al., 2023)、知識関連問題の分析(Gou et al., 2023)に焦点を当てています。 –真正性ベンチマーク:数多くの真正性ベンチマークが提案されています(Hendrycks et al., 2021; Zhong et al., 2023; Huang et al., 2023; Li… et al., 2023b; Srivastava et al., 2023; Yang et al., 2018)。例えば、MMLU(Hendrycks et al., 2021)は、様々なタスクにおけるマルチタスク精度の測定に用いられます。TruthfulQA(Lin et al., 2022)は、言語モデルによって生成された回答の真正性を評価することに重点を置いています。さらに、HaluEval(Li et al., 2023c)は、大規模言語モデルが錯覚を生み出す傾向を調べるために使用されます。最近、大規模言語モデルにおける短答式問題の真正性を測定するためにSimpleQA(Wei et al., 2024)が提案されました。しかし、SimpleQAは英語領域のみに焦点を当てています。一方、中国語の短答式問題は、中国語の文脈における真正性を包括的に評価することを目的としています。 結論は既存の大規模言語モデルのリアリズム性能を評価するため、Taotian Groupの研究者らは、6つのメイントピックと99のサブトピックを含む初の中国語短文リアリズムベンチマーク(中国語短文質問応答)を提案しました。さらに、中国語短文質問応答は、中国語であること、多様性があること、高品質であること、静的であること、評価が容易であることという5つの重要な特徴を備えています。研究者らは、中国語短文質問応答に基づいて、40を超える既存の大規模言語モデルのリアリズム性能を包括的に評価し、中国語短文質問応答の利点と必要性を示す詳細な分析を提供しました。今後の研究では、大規模言語モデルのリアリズムの向上と、中国語短文質問応答の多言語およびマルチモーダル環境への拡張に焦点を当てます。 論文リンク: https://arxiv.org/abs/2411.07140 |
史上最も厳しい中国の真正性評価:OpenAIはO1で1位、Doubaoで2位にランクイン、他はすべて不合格。
関連するおすすめ記事
-
ホンダと日産が合併を計画中!日本の大手自動車メーカー3社が2大勢力に統合され、三菱も参加に興味を示している。
-
唯一のオープンソース70B Llama 3.3モデルをオンラインで実行できます。405Bモデルに匹敵するパフォーマンスを実現!数式認識に役立つLaTeX OCRデータセットもオンラインで利用可能になりました。
-
Baidu Search × DeepSeek!統合が正式に発表され、わずか24時間以内にフルバージョンがリリースされました。実際のテストはここから開始されます。
-
Tmall Genieは、大型のTongyiモデルを搭載した4999人民元からの「bestie phone」など、ハイエンドのAIハードウェアを提供している。
-
AppleとHuaweiの新携帯電話が同日発売。信頼できるネタバレがすべてここに。
-
WeChat 友達の中に「秘密の AI」を発見したことがない人はいませんか。赤い封筒のカバーを作るだけだと思っていましたか?