618ZXW

多様なタスクから得られる実世界データ:大規模オンラインショッピングベンチマーク「Shopping MMLU」がオープンソースに | NeurIPS & KDD Cup 2024

オンラインショッピング分野で最も強力なモデルはどれでしょうか?それを評価するベンチマークが存在します。

実際のオンラインショッピングデータに基づいて、電子商取引大手のアマゾンはついに「剣を抜いた」。

私たちは香港科技大学およびノー​​トルダム大学と共同で、オンラインショッピング分野における大規模言語モデルの機能と可能性を評価するために、 Shopping MMLUと呼ばれる大規模なマルチタスク評価ベンチマークを開発しました。

完全なオンライン ショッピング エクスペリエンスをモデル化することは常に非常に複雑であり、主な問題点は次のとおりです。

  • マルチタスク:オンライン ショッピングには、さまざまなエンティティ (製品、属性、レビュー、検索キーワードなど)、関係性 (キーワードと製品の一致度、製品間の互換性と補完性など)、ユーザーの行動 (閲覧、検索、購入) が関係します。

これらのエンティティ、関係、および動作を一緒にモデル化して理解することは、複雑なマルチタスク学習問題を構成します。

  • 少数ショット問題:オンラインショッピングプラットフォームは、新規ユーザー、新製品、新製品カテゴリによって生じるコールドスタートシナリオに常に直面します。コールドスタートシナリオでは、オンラインショッピングプラットフォームは少数ショット学習問題を解決する必要があります。

しかし、GPT、T5、LLaMA などの大規模言語モデル (LLM) は、強力なマルチタスクおよび少数ショットの学習機能を実証しているため、オンライン ショッピングの分野で広く使用される可能性があります。

最も強力かつ最も有望な LLM をさらに特定するために、テスト ベンチマークである Shopping MMLU が開発されました。

既存のデータセットと比較して、ショッピング MMLU はより多くの機能 (4 つ) とタスク (57) をカバーしています。

一方、AmazonはショッピングMMLUを拠点に、KDDカップ2024データマイニングコンテストを主催し、世界中から500以上のチームが参加しました。

広範な機能とミッションカバレッジ

オンラインショッピング分野における大規模言語モデルの機能を包括的かつ十分に評価するために、本研究ではまずオンラインショッピング分野の固有の特性を分析します。

  • ドメイン固有の短いテキスト:オンラインショッピングには、ブランド名、製品名、製品ラインなど、ドメイン固有の用語が多数含まれています。さらに、これらのドメイン固有の用語は、検索キーワードや属性名と値のペアといった短いテキストに頻繁に出現します。そのため、文脈が欠如した短いテキスト内のドメイン固有の用語を理解することは、オンラインショッピング業界特有の課題です。
  • 製品に関する暗黙知:ほとんどの製品には、特定の暗黙知が含まれています。例えば、AirPodsはBluetoothを使用しており、アダプターは不要です。また、カーボンファイバー製品は一般的に非常に軽量です。様々な製品に関する暗黙知を正確に理解し、推論することは、オンラインショッピング分野におけるもう一つの特有の課題です。
  • 多様で暗黙的なユーザー行動:オンラインショッピングプラットフォームでは、閲覧、検索、カートへの商品追加、購入など、多種多様なユーザー行動が見られます。これらの行動のほとんどは言葉で表現されません。そのため、これらの多様で多様なユーザー行動を包括的に理解することは、オンラインショッピングが取り組むべき重要な課題です。
  • 多言語タスク:オンライン ショッピング プラットフォームは複数の地域で運営されることが多いため、モデルは複数の言語で記述された製品やユーザーの質問を同時に理解できる必要があります。

上記の分析に基づいて、本研究では、 4つのオンラインショッピング機能と合計57のタスクをカバーするショッピングMMLUを構築しました。

  • オンラインショッピングの概念を理解する
  • オンラインショッピングの知識推論
  • ユーザー行動の理解
  • 多言語能力

下の表に示すように、ショッピング MMLU は既存のデータセットと比較して、より多くの機能とタスクをカバーしています。

機能とタスクは、次の図に示すように構成されています。

ショッピング MMLU は主に実際のAmazon オンラインショッピング データから構築されており、ラベルが誤っているデータや必要な情報が欠落しているデータなど、低品質のデータを除外するために手動でレビューされます。

問題の例をいくつか以下に示します。

主流の大規模言語モデルスコアレポート

この研究では、実験分析のために、以下を含む27 個の主流の大規模言語モデルを選択しました。

  • クローズドソースモデル(Claude-3、Claude-2、GPT)
  • オープンソースの一般ドメインモデル(LLaMA2、LLaMA3、QWen、Mistral)
  • オープンソースのドメイン固有モデル (eCeLLM、オンラインショッピング ドメインのデータを使用して細かく調整されています)。

実験結果を以下の表に示します。

研究により、クローズドソース モデルが依然としてリードしているものの (例: Claude-3 Sonnet は総合 1 位)、オープンソース モデルがクローズドソース モデルのパフォーマンスに追いつくことができたことがわかりました (例: QWen および LLaMA3)。

さらに、ドメイン固有モデルの eCeLLM は同じ数のパラメータで最高のパフォーマンスを達成しなかったことから、ショッピング MMLU は単純な微調整では簡単に改善できない難しいベンチマークであることが示されました。

オンラインショッピング分野で大規模モデルを構築する方法

この研究では、ショッピング MMLU に基づいて、一般的に使用されている大規模モデル拡張手法を分析し、オンライン ショッピング分野で強力な大規模モデルを構築する方法をさらに検討します。

まず、下図に示すように、様々な能力とタスクにわたるモデルのスコアは高い正の相関を示しています。これは、オンラインショッピング分野における様々なタスク間に共通の知識が存在することを示しており、大規模言語モデルを用いた包括的なモデリングと能力強化を可能にします。

次に、下の図に示すように、モデルのショッピング MMLU スコアは、一般的な大規模モデル ベンチマーク (Open LLM Leaderboard) におけるモデルのスコアとも高い相関関係にあります。

さらに、同じモデル ファミリー内のモデルのサイズが大きくなるにつれて、そのショッピング MMLU スコアも増加します。

これは、大規模言語モデルの一般的な機能がオンライン ショッピング ドメインにうまく転送できること、そして強力な一般的な機能がドメイン固有の大規模モデルを構築するための基盤となることを示しています。

続いて、この研究では、微調整がモデルのショッピング MMLU スコアに与える影響を分析しました。

一般的な領域でのファインチューニングは、通常、ショッピングMMLUスケールにおけるモデルのパフォーマンスを向上させます。ただし、この結論は、ベースモデルの機能やファインチューニングに使用したデータの品質などの要因にも関連しています。

例えば、LLaMA2-70B では、微調整された LLaMA2-70B-chat スコアが LLaMA2-70B のスコアよりも低いことが研究で観察されましたが、この現象は LLaMA3-70B では観察されませんでした。

考えられる理由としては、微調整データの量が比較的少なかったため、LLaMA2-70B が過剰適合し、一般的な機能が部分的に失われ、ショッピング MMLU のスコアが低下したことが挙げられます。

逆に、LLaMA3 はより高品質の微調整データを使用するため、一般的な機能を維持しながらモデルの質問に答える能力が強化され、スコアが高くなります。

ドメイン固有の調整 (eCeLLM など) では、ショッピング MMLU で最高スコアは達成されませんでした。

この理由を探るため、本研究ではeCeLLMの一般的な能力をベースモデルと比較しました。その結果、ドメイン特化型eCeLLMの一般的な能力は、ベースモデルよりも概ね低いことが示されました。

これは、eCeLLM が最高スコアを達成できなかった理由である可能性があり、特定のドメインに対する一般的な機能の重要性も強調しています。

要約

ショッピングMMLUは、大規模言語モデルとオンラインショッピング分野向けに設計された評価指標です。広範なタスクと機能(4つの主要機能、合計57タスク)を網羅しており、オンラインショッピング分野における大規模言語モデルの機能と可能性を包括的に評価できます。

ショッピングMMLUは、Amazonの実際のショッピングデータに基づいて構築されており、データ品質を確保するために手動スクリーニングが行われています。ショッピングMMLUに基づいて広範な実験分析が行われ、この分野におけるその後の研究と実用化のための貴重な結論が得られています。

現在、ショッピング MMLU とそれに対応するリソースはすべてオープンソースであり、今後もメンテナンスが続けられ、研究者や開発者による詳細な調査と応用が容易になります。

Shopping MMLU のデータと対応する評価コードは GitHub で公開されています。

一方、オープンかつオープンソースな評価システムを構築するため、ショッピングMMLUをベースにしたリーダーボードが設立されました。

公式声明によれば、Shopping MMLU はリーダーボードに参加する新しいモデルを歓迎しており、興味のある人は GitHub で Shopping MMLU のメンテナーに問い合わせることができるとのことです。