|
オリジナル記事:Wen Xin、An Dong、Yu Chen(Datawhale) データホエールアカデミック 著者: Zhu Wenxin、Chen Andong、Song Yuchen、ハルビン工業大学 DeepSeek-R1は最近非常に人気があります。o1のようなモデルが登場する以前から、従来の大規模モデルの多言語対応能力はすでに非常に優れていたことは周知の事実です。 では、DeepSeek-R1のようなo1ライクな大規模モデルの多言語機能は、従来の大規模モデルと比べてどうなのでしょうか?実際のアプリケーションでは、多言語タスク(翻訳や国際的な顧客サービスなど)にどのモデルを使用するかを選択することは、検討する価値のある問題です。 ハルビン工科大学の最近の研究では、o1-Like大規模モデルがいくつかの多言語翻訳タスクにおいて従来の大規模モデルよりも優れた性能を示したものの、新たな課題も明らかになりました。まず、o1-Like大規模モデルの推論コストが大幅に増加し、一部の複雑な多言語タスクではパフォーマンスが急激に低下しました。さらに深刻なことに、o1-Likeモデルは翻訳などのタスクにおいて出力前に「考える」必要があるため、「まとまりのない」現象を引き起こしました。 この発見は、大規模モデルの分野の研究者に新たな探究の方向性とアイデアを提供し、より深い最適化の可能性と応用の課題を明らかにします。
1. 背景紹介 O1型モデル(OpenAIのO1モデル、AlibabaのQwQ、WeChatのMarco-O1、そして最近話題のDeepSeek-R1など)は、その強力な推論能力で知られています。拡張テストでは、人間と同様の深い思考を示し、複数の推論戦略を探索し、意思決定の反映と反復的な改善を通じて答えを洗練させます。これにより、人間が問題解決に用いる認知プロセスをシミュレートすることが可能になります。 多言語機械翻訳(MMT)は非常に困難なタスクであり、モデルは言語間の意味的一貫性を実現するだけでなく、常識的推論、歴史的・文化的文脈、専門用語といった分野における翻訳精度の確保も求められます。大規模言語モデルはこれまで機械翻訳において大きな可能性を示してきましたが、 O1型モデルの多言語機械翻訳における能力については、まだ体系的に研究されていません。 この研究は、多言語機械翻訳タスクにおける O1 のようなモデルのパフォーマンスに焦点を当て、2 つの主要な研究課題に取り組んでいます。 1) さまざまな MMT タスクにおいて、o1 のようなモデルの翻訳パフォーマンスは他の LLM と比べてどうですか? 2) o1 のようなモデルの翻訳品質に影響を与える要因は何でしょうか? 2. 多言語翻訳タスクにおけるO1型モデルの性能研究 さまざまな多言語機械翻訳タスクにおける o1 のようなモデルのパフォーマンスを調査するために、いくつかの o1 のようなモデル (クローズドソースおよびオープンソース モデルを含む) を選択し、ChatGPT や GPT-4o などの従来の LLM と比較しました。 2.1. 多言語翻訳機能 o1類似モデルの多言語翻訳能力を評価するために、Flores-200データセットでテストしました。結果を表1に示します。多言語翻訳タスクでは、クローズドソースのo1類似モデルが最も優れたパフォーマンスを発揮し、特にOpenAI o1はBLEUスコアが最大34.5向上しました。平均して、o1類似モデルのBLEUスコアは他の種類のモデルよりも11.14ポイント高くなりました。オープンソースモデルの中では、DeepSeek-R1が他のオープンソースLLMと比較して平均約16.92のBLEUスコア向上を達成し、最高のパフォーマンスを発揮しました。7Bと14Bのパラメータを持つMarco-o1やDRT-o1などの比較的パラメータサイズの小さいオープンソースのo1類似モデルの場合、複数の翻訳方向にわたるCOMETおよびBLEURTのパフォーマンスは、クローズドソースモデルのそれに近いものでした。小さなパラメータを持つオープンソースのo1類似モデルを多言語翻訳に利用することは、将来の有望な研究方向です。 さらに、実験では、o1-likeモデルは、BLEUスコアよりもCOMETスコアとBLEURTスコアで有意に大きな改善を示したことがわかりました。一部のデータセットでは、o1-likeモデルのCOMETスコアとBLEURTスコアはLLMスコアと同等、あるいはそれを上回ったのに対し、BLEUスコアは有意に低かったのです。この現象は特にQwQで顕著でした。o1 -likeモデルは深い思考ができるため、表現の多様性が高く、参照翻訳とは異なる語彙や文構造を使用しても、翻訳の意味は保持されます。COMETとBLEURTはこの多様性の影響を受けず、より客観的な評価を提供するため、BLEUよりもo1-likeモデルの翻訳能力を評価するのに適しています。 2.2. 常識に基づく推論翻訳能力 常識的推論翻訳タスクにおけるo1類似モデルのパフォーマンスを評価するために、CommonsenseMTデータセットを使用してテストしました。テスト結果を表2に示します。語彙タスクでは、OpenAI-o1は引き続き優れたパフォーマンスを示し、COMETとBLEURTの両方のメトリックでGPT-4oを上回り、COMETで2.00、BLEURTで3.89の改善が見られました。ただし、文脈なしタスクと文脈タスクでは、従来のLLMがo1類似モデルよりも優れています。ケース分析により、ソーステキストに文脈情報が不足しているため、o1類似モデルは推論プロセス中に明らかな錯覚を含む翻訳を生成するのに対し、従来のLLMはこの内部推論の影響を受けず、より信頼性の高い結果を生成することがわかりました。常識的推論翻訳タスクでは、モデル推論中に生成される錯覚を減らすための効果的な外部モジュールを設計することが重要です。 2.3. 特定の文化に関連した翻訳スキル 文化的に特有のコンテンツの翻訳におけるo1類似モデルの性能を評価するために、Culture MTデータセットを使用してテストしました。テスト結果を表3に示します。結果によると、英語をソース言語とする翻訳タスクでは、GPT-4oと比較して、o1類似モデルはBLEU、COMET、BLEURTでそれぞれ平均最大4.71、6.88、7.23の改善を達成しました。英語をターゲット言語とするタスクでは、3種類のモデルのパフォーマンスは異なりました。オープンソースモデルMarco-o1は、パラメータが7つしかないにもかかわらず、BLEURTメトリックで非常に優れたパフォーマンスを発揮し、OpenAI-o1と比較して最大1.80の改善を達成しました。ケーススタディを通じて、o1類似モデルは翻訳プロセス中に特定の用語の適切なローカリゼーションを自然と取り入れ、特定の用語や本物の文化的表現のより正確な翻訳を実現することがわかりました。 2.4. 適切な用語翻訳能力 o1-likeモデルの固有名詞翻訳能力を評価するため、RTTデータセットを用いた実験を行った。実験結果を表4に示す。このデータセットでは、従来のLLMが優れた性能を示し、ChatGPTはCOMETタスクとBLEURTタスクでそれぞれ約7.67ポイントと8.49ポイント、o1-likeモデルを上回った。o1 -likeモデルは推論中に頻繁に誤った情報を生成し、それが最終的な翻訳結果に悪影響を与えることが観察された。o1-likeモデルの固有名詞翻訳性能を向上させるための外部知識構造の設計は、有望な研究方向である。 3. o1類似モデルの翻訳性能に影響を与える要因の探究 o1 のようなモデルの翻訳パフォーマンスに影響を与える可能性のある要因を調査するために、いくつかの分析実験を設計しました。 3.1. モデル推論コスト分析 従来のLLMと比較して、O1類似モデルの推論プロセスは大幅に長く、モデルの推論効率に必然的に影響を及ぼします。O1類似モデルの翻訳効率をさらに評価するために、O1類似モデルと従来のLLMの推論コストを比較しました。実験では、CommonsenseMTデータセットの語彙タスクを使用しました。各モデルの推論コストを表すために、各モデルによって生成されたトークンの平均数とそれぞれの生成速度を測定しました。詳細な結果は表5に示されています。 O1類似モデルは一般的な推論タスクにおいて優れた性能を示す一方で、推論コストが大幅に高いことが観察されました。従来のLLMと比較して、O1類似モデルは約10倍の出力トークンを必要とし、8~40倍の時間コストがかかるため、翻訳コストが大幅に増加します。さらに、思考プロセスにはより多くの出力を生成する必要があり、推論速度が大幅に低下します。したがって、このトレードオフにより、翻訳品質とリアルタイム性能の最適なバランスを実現することは非常に困難です。 3.2. モデル指示のコンプライアンス分析 o1類似モデルの顕著な特徴は、推論プロセスの長さです。しかし、モデルが指示に効果的に従えない場合、推論プロセスは無意味になります。各モデルの指示従能力を評価するために、CommonsenseMTデータセットのContextlessタスクを用いて実験を行いました。評価結果を図1に示します。 複雑な思考連鎖の例を用いて学習したにもかかわらず、O1型モデルは依然として指示に効果的に従うという課題に直面していることがわかりました。指示に従わない確率は約3%から10%です。これは、LLMの指示従能力を維持するために設計されたモジュールが依然として重要であることを意味します。これらのモジュールは、O1型モデルの指示従能力をさらに向上させるために使用でき、将来の性能向上に向けた重要な研究方向性を示しています。 さらに、 QwQモデルは指示追従能力が低く、原文を直接翻訳するのではなく、原文に関連する一連の文を生成して翻訳することがよくあります。私たちはこの現象を「ランブリング問題」と呼んでおり、これは計算オーバーヘッドを増加させるだけでなく、翻訳品質を低下させます。図2はランブリングの例を示し、本論文末尾の図5は完全な例を示しています。ある程度、推論速度と翻訳精度のバランスをとることが、今後の研究の重要な焦点となる可能性があります。 3.3. パラメータスケールの影響の分析 従来のLLMでは、モデルサイズが大きいほど、モデル関連のパフォーマンスが向上する傾向があります。o1クラスモデルのパラメータ数と翻訳パフォーマンスの関係を調査するため、CommonsenseMTデータセットのEn🡪De/Zh/Roタスクを用いて実験を行いました。その結果を図3に示します。 パラメータ数が多いモデルは、一般的にパフォーマンスが向上することがわかりました。しかし、パラメータ数が100億から200億に達すると、パラメータ数をさらに増やしてもパフォーマンスの向上はわずかになります。さらに、パラメータ数の増加が翻訳パフォーマンスの低下につながるケースもあることがわかりました。 3.4. 温度パラメータの影響の分析 温度パラメータがo1類似モデルの翻訳性能に与える影響を調査するため、DeepSeek-R1-671BモデルとFlores-200データセットを用いて、温度設定を0.0、0.2、0.4、0.6、0.8、1.0とした実験を実施しました。結果を図4に示します。 結果は、温度設定が低いほど、モデルがより安定して正確な翻訳を生成するのに役立つことを示しています。さらに、最高のパフォーマンスを達成するための最適な温度は、タスクによって異なります。評価指標について考えると、BLEU、COMET、BLEURTはすべて温度変化に対して同様の傾向を示しており、これらの指標がモデルの翻訳パフォーマンスを効果的に反映していることを示しています。しかし、温度変化に対する感度はそれぞれ異なります。BLEUとCOMETのスコアはより大きく変動するのに対し、BLEURTはそれほど影響を受けません。この違いは、各指標の独自性に起因しており、BLEURTは多様性と創造性のある翻訳により適しています。 付録: 完全なモデリング(ランブリング)問題の例 いいね! (3件のいいね!)↓ |
ハルビン工業大学チーム: DeepSeek R1 の多言語機能の初めての総合分析!
関連するおすすめ記事
-
イーロン・マスクがテスラのリソースを犠牲にしてOpenAIに挑戦する新しい大規模モデルを発表。直接テストがここにあります。
-
21歳の天才が立ち上げたAIハードウェアのスタートアップが一夜にして話題に。首にかけるAIの友達が710元で手に入る。
-
量子コンピューティングが新たな資金調達を獲得!Bose QuantumがシリーズA資金調達で数億人民元を調達したことを発表。
-
Xiaomiのモーターサプライヤーは485億元のIPOを目指している。チームはHuawei出身で、同社の製品はポルシェに使用されている。
-
「私たちには堀がない」:オープンソースAIの急速なイノベーション
-
AppleとHuaweiの新携帯電話が同日発売。信頼できるネタバレがすべてここに。