618ZXW

評価にまだ GPT-4o を使用していますか?オープンソースの評価モデル CompassJudger をお試しください。

最近、Sinan OpenCompass研究チームは、コミュニティ初の真にオープンソースのオールインワン審査モデルであるCompassJudgerシリーズをリリースしました。このシリーズには、 1.5B、7B、14B32Bの4つのサイズのモデルが含まれています。32BバージョンはGPT-4o-0806の95%以上の審査能力を備え、ペアワイズやポイントワイズなどの複数の評価方法をサポートし、詳細な評価理由を出力することができます。

技術レポートのアドレス

https://arxiv.org/abs/2410.16256

HuggingFaceモデルの重量アドレス

https://huggingface.co/opencompass

GitHubアドレス

https://github.com/open-compass/コンパスジャッジャー

JudgerBenchリーダーボードアドレス

https://huggingface.co/spaces/opencompass/judgerbench_leaderb...

オールインワンジャッジモデルとは何ですか?

主観評価では、通常、テスト対象モデルの回答を採点または比較するための審査モデルが必要になります。これにより、評価プロセスにおける人間の役割が代替され、様々な主観的な質問に対するテスト対象モデルのスコアが得られます。かつては、GPT4などの強力なクローズドソースモデルが用いられることが多かったのですが、GPT4はAlignBench、AlpacaEval、ArenaHardなどのデータセットにおける標準的な評価モデルとなっています。しかし、科学的研究やモデルの反復的な評価には大規模な評価が必要となることが多く、クローズドソースモデルの使用には多大なコストがかかります。

オールインワン評価モデルの目標は、複数回答選択、単一回答採点、複雑な指示の追従、回答内容の評価修正など、さまざまな評価タスクで優れたパフォーマンスを発揮することです。現在、コミュニティではCritiqueLLMやAuto-Jなどのいくつかの審査員モデルが開発されていますが、これらのモデルは特定のデータセットのみに焦点を当てています。さらに、評価モデルは国内外の大手テクノロジー企業から広く注目を集めています。たとえば、Googleは評価モデルFLAMeをリリースしましたが、モデルとそのデータセットはまだ公開されていません。MetaもSelf-taught Modelをリリースしていますが、現在は主にペアワイズ評価に焦点を当てています。

SiNanの研究チームは、モデル評価とデータ分析における豊富な専門知識を活かし、 CompassJudgerを開発しました。これらの分野における探究と研究をさらに促進するため、様々な規模の複数のモデルをオープンソース化し、研究開発を支援するとともに、ユーザーがモデルのトレーニング、テスト、最適化をより容易に行えるようにしました。

データ収集プロセス

モデルトレーニングにおいて最も重要なステップは、データの収集と処理です。そのため、CompassJudgerのトレーニングでは、3つの異なるソースからのデータに対して以下の処理を実行しました。


オープンソース評価データ:収集したオープンソース審査データについては、データセットの期間に基づいて、まず古いデータを除外しました。これらのデータは、例えばChatGPTの以前のバージョンで審査されており、評価品質の改善が急務です。そのため、再審査用のプロセッサとして、現在より強力なオープンソースモデル(Qwen2.5-72B-Instruct)を使用しました。また、このプロセッサを使用して各データポイントにクラスラベルを割り当て、クラス数とデータセット数に応じて再サンプリングを行い、最終的なデータバランスを確保しました。

報酬データ:コミュニティは、報酬モデルの学習に用いる大量の学習データをオープンソース化しています。私たちの実験では、大量の報酬データはモデルの判定能力を向上させる可能性がある一方で、出力形式が画一的すぎるためにモデルが破綻し、固定された形式しか出力できなくなり、汎用的な判定モデルとしての価値を失う可能性があることも分かりました。そこで、報酬データの一部をサンプリングしてモデル学習に使用し、数学などの問題種別の評価理由を追加しました。

一般的なSFTデータ:モデルの汎化能力をより適切に維持するため、トレーニングには一般的なSFTデータを追加しました。実験を通して、最終的なデータ比率は、審査データ:報酬データ:SFTデータ=1:3:1に調整され、CompassJudgerのトレーニングには、現在オープンソースとなっているQwen2.5シリーズモデルを選択しました。

ジャッガーベンチ

モデル開発の過程で、CompassJudger のパフォーマンスを追跡するために、モデルの機能を分析する JudgerBench を開発しました。

JudgerBenchはモデルの評価能力を測定することを目的としており、主にArena PartBenchmark Partの2つの部分で構成されています。Arena PartはRewardBenchと同様に、モデルの直接的な判定能力を検証します。Arena Partは、モデルが[[A]]または[[B]]の判定結果を出力することのみを要求します。中国語版と英語版が用意されており、厳格な人間によるレビューとカテゴリバランス調整が行われています。マルチターンおよびシングルターンの対話と10のカテゴリが含まれており、非常にバランスの取れた包括的なベンチマークとなっています。

Benchbarkは、一般的に使用されている主観データセット(AlignBench、ArenaHard、FoFo、WildBemch)で同様のパフォーマンスを示した10個のモデルからの回答を収集し、GPT-4oを用いて評価を行います。これらの回答をベンチマークとして、ベンチマーク結果と他のモデルの結果との差異を統計的に分析します。ベンチマークパートでは、モデルのパフォーマンスをより包括的かつバランスよく表現するために、精度とピアソン相関という2つの指標を使用します。

CompassJudgerのパフォーマンス

CompassJudgerシリーズモデルをRewardBenchとJudgerBenchで分析・評価しました。表からわかるように、CompassJudgerシリーズは総合的な評価性能において優れたパフォーマンスを発揮しています。最終評価スコアはオープンソースモデルの中でもトップクラスであり、GPT-4oの95%以上に達しています。これは、マルチタスク機能を備えたオールインワンのジャッジモデルです。


見通し

さらに、優れたオールインワン審査員モデルは、複数のタスクに対応できる能力を備えている必要があります。例えば、その臨界性を活用して、主観的な質問への回答におけるモデルの弱点を特定し、的を絞った改善を可能にし、モデルがより質の高い回答を生成するよう導き、モデルの反復処理を促進できる必要があります。現在、JudgerBenchとCompassJudgerはどちらもオープンソースであり、コミュニティユーザーは自由に試用・調査できます。