|
オンラインショッピング分野で最も強力なモデルはどれでしょうか?それを評価するベンチマークが存在します。 実際のオンラインショッピングデータに基づいて、電子商取引大手のアマゾンはついに「剣を抜いた」。 私たちは香港科技大学およびノートルダム大学と共同で、オンラインショッピング分野における大規模言語モデルの機能と可能性を評価するために、 Shopping MMLUと呼ばれる大規模なマルチタスク評価ベンチマークを開発しました。 完全なオンライン ショッピング エクスペリエンスをモデル化することは常に非常に複雑であり、主な問題点は次のとおりです。
これらのエンティティ、関係、および動作を一緒にモデル化して理解することは、複雑なマルチタスク学習問題を構成します。
しかし、GPT、T5、LLaMA などの大規模言語モデル (LLM) は、強力なマルチタスクおよび少数ショットの学習機能を実証しているため、オンライン ショッピングの分野で広く使用される可能性があります。 最も強力かつ最も有望な LLM をさらに特定するために、テスト ベンチマークである Shopping MMLU が開発されました。 既存のデータセットと比較して、ショッピング MMLU はより多くの機能 (4 つ) とタスク (57) をカバーしています。 一方、AmazonはショッピングMMLUを拠点に、KDDカップ2024データマイニングコンテストを主催し、世界中から500以上のチームが参加しました。 広範な機能とミッションカバレッジオンラインショッピング分野における大規模言語モデルの機能を包括的かつ十分に評価するために、本研究ではまずオンラインショッピング分野の固有の特性を分析します。
上記の分析に基づいて、本研究では、 4つのオンラインショッピング機能と合計57のタスクをカバーするショッピングMMLUを構築しました。
下の表に示すように、ショッピング MMLU は既存のデータセットと比較して、より多くの機能とタスクをカバーしています。 機能とタスクは、次の図に示すように構成されています。 ショッピング MMLU は主に実際のAmazon オンラインショッピング データから構築されており、ラベルが誤っているデータや必要な情報が欠落しているデータなど、低品質のデータを除外するために手動でレビューされます。 問題の例をいくつか以下に示します。 主流の大規模言語モデルスコアレポートこの研究では、実験分析のために、以下を含む27 個の主流の大規模言語モデルを選択しました。
実験結果を以下の表に示します。 研究により、クローズドソース モデルが依然としてリードしているものの (例: Claude-3 Sonnet は総合 1 位)、オープンソース モデルがクローズドソース モデルのパフォーマンスに追いつくことができたことがわかりました (例: QWen および LLaMA3)。 さらに、ドメイン固有モデルの eCeLLM は同じ数のパラメータで最高のパフォーマンスを達成しなかったことから、ショッピング MMLU は単純な微調整では簡単に改善できない難しいベンチマークであることが示されました。 オンラインショッピング分野で大規模モデルを構築する方法この研究では、ショッピング MMLU に基づいて、一般的に使用されている大規模モデル拡張手法を分析し、オンライン ショッピング分野で強力な大規模モデルを構築する方法をさらに検討します。 まず、下図に示すように、様々な能力とタスクにわたるモデルのスコアは高い正の相関を示しています。これは、オンラインショッピング分野における様々なタスク間に共通の知識が存在することを示しており、大規模言語モデルを用いた包括的なモデリングと能力強化を可能にします。 次に、下の図に示すように、モデルのショッピング MMLU スコアは、一般的な大規模モデル ベンチマーク (Open LLM Leaderboard) におけるモデルのスコアとも高い相関関係にあります。 さらに、同じモデル ファミリー内のモデルのサイズが大きくなるにつれて、そのショッピング MMLU スコアも増加します。 これは、大規模言語モデルの一般的な機能がオンライン ショッピング ドメインにうまく転送できること、そして強力な一般的な機能がドメイン固有の大規模モデルを構築するための基盤となることを示しています。 続いて、この研究では、微調整がモデルのショッピング MMLU スコアに与える影響を分析しました。 一般的な領域でのファインチューニングは、通常、ショッピングMMLUスケールにおけるモデルのパフォーマンスを向上させます。ただし、この結論は、ベースモデルの機能やファインチューニングに使用したデータの品質などの要因にも関連しています。 例えば、LLaMA2-70B では、微調整された LLaMA2-70B-chat スコアが LLaMA2-70B のスコアよりも低いことが研究で観察されましたが、この現象は LLaMA3-70B では観察されませんでした。 考えられる理由としては、微調整データの量が比較的少なかったため、LLaMA2-70B が過剰適合し、一般的な機能が部分的に失われ、ショッピング MMLU のスコアが低下したことが挙げられます。 逆に、LLaMA3 はより高品質の微調整データを使用するため、一般的な機能を維持しながらモデルの質問に答える能力が強化され、スコアが高くなります。 ドメイン固有の調整 (eCeLLM など) では、ショッピング MMLU で最高スコアは達成されませんでした。 この理由を探るため、本研究ではeCeLLMの一般的な能力をベースモデルと比較しました。その結果、ドメイン特化型eCeLLMの一般的な能力は、ベースモデルよりも概ね低いことが示されました。 これは、eCeLLM が最高スコアを達成できなかった理由である可能性があり、特定のドメインに対する一般的な機能の重要性も強調しています。 要約ショッピングMMLUは、大規模言語モデルとオンラインショッピング分野向けに設計された評価指標です。広範なタスクと機能(4つの主要機能、合計57タスク)を網羅しており、オンラインショッピング分野における大規模言語モデルの機能と可能性を包括的に評価できます。 ショッピングMMLUは、Amazonの実際のショッピングデータに基づいて構築されており、データ品質を確保するために手動スクリーニングが行われています。ショッピングMMLUに基づいて広範な実験分析が行われ、この分野におけるその後の研究と実用化のための貴重な結論が得られています。 現在、ショッピング MMLU とそれに対応するリソースはすべてオープンソースであり、今後もメンテナンスが続けられ、研究者や開発者による詳細な調査と応用が容易になります。 Shopping MMLU のデータと対応する評価コードは GitHub で公開されています。 一方、オープンかつオープンソースな評価システムを構築するため、ショッピングMMLUをベースにしたリーダーボードが設立されました。 公式声明によれば、Shopping MMLU はリーダーボードに参加する新しいモデルを歓迎しており、興味のある人は GitHub で Shopping MMLU のメンテナーに問い合わせることができるとのことです。 |
多様なタスクから得られる実世界データ:大規模オンラインショッピングベンチマーク「Shopping MMLU」がオープンソースに | NeurIPS & KDD Cup 2024
関連するおすすめ記事
-
ByteDanceと清華大学AIRが共同研究センターを設立し、大規模モデリングにおける産学研究協力を推進。
-
AIは新たな戦場を見つけつつあり、クラウドベンダーはMaaS(Large Models as a Service、サービスとしての大規模モデル)を展開しており、Huaweiはすべての人にチケットを発行しています。
-
DeepSeekは本日、3つの新しいリポジトリソースをリリースしました。最適化された並列戦略の開発には、Liang Wenfeng氏自身が参加しました。
-
OpenAI に対抗するため、この大手モデリング会社は主力モデルを次々とリリースしました。
-
上海AIラボとその他は、18の臨床タスクをカバーする284のデータセットを含む、マルチモーダル医療ベンチマークGMAI-MMBenchをリリースしました。
-
国産電気自動車は勢いを増しており、BMWとメルセデス・ベンツが提携し、わずか2年で1,000ヶ所のスーパーチャージステーションが開設された。