618ZXW

Qwen は、数百万のトークンを処理する上で GPT-4o-mini を上回るパフォーマンスを誇る、初の新しい長文テキスト モデルをオープンソース化しました。

大規模モデルにおける「国家の誇り」といえば、DeepSeek以外にも、アリババクラウドのQwenにもいくつかの新しい開発があります。

オープンソースの Qwen モデルのコンテキストが1M の長さに拡張されたのは今回が初めてです。

具体的には、新しいモデルには 2 つの「カップ形状」があります。

  • Qwen2.5-7B-インストラクト-1M
  • Qwen2.5-14B-インストラクト-1M

これらはすべて、長いテキストタスクの処理において GPT-4o-mini よりも一貫して優れたパフォーマンスを発揮し、何百万もの長いテキスト入力を処理する際に約 7 倍の高速化を実現できます。

(数百万のトークンを含むテキストを変換すると、小説 10 冊、スピーチ 150 時間、またはコード 30,000 行に相当する可能性があります。)

現在、新しいQwenモデルに関連する推論フレームワークと技術レポートが公開されています。

次に、このトピックについてさらに詳しく見ていきましょう。

モデルのパフォーマンス

まず、Qwen2.5-1M シリーズ モデルの長いコンテキスト タスクと短いテキスト タスクでのパフォーマンスを見てみましょう。

コンテキスト長が最大 100 万トークンのタスクであるパスキー取得において、Qwen2.5-1M シリーズ モデルは、最大 1M の長さのドキュメントから隠された情報を正確に取得する優れたパフォーマンスを発揮します。

注目すべきは、全シリーズモデルの中で、エラーが少数だったのは 7B モデルのみであるということです。

より複雑な長期コンテキスト理解タスクのために、研究チームは RULER、LV-Eval、LongbenchChat などのテスト セットを選択しました。

これらの結果に基づいて、次のような重要な結論を導き出すことができます。

一方、Qwen2.5-1Mシリーズのモデルは、以前の128Kバージョンと比較して大幅な進歩を遂げています。

ほとんどの長いコンテキストのタスク シナリオでパフォーマンスが向上し、特に 64K を超えるタスクを処理する場合は、128K バージョンと比較して、情報をより効率的に処理でき、より強力な適応性と処理能力を発揮します。

一方、Qwen2.5-14B-Instruct-1M モデルにはいくつかの利点があります。

Qwen2.5-Turbo および GPT-4o-mini と比較すると、このモデルは複数のデータセットで他のモデルよりも優れています。

これは、既存のロングコンテキストモデルの範囲内で、オープンソースモデルとして、他の製品に比べて比較的信頼性の高い代替手段をユーザーに提供できることを意味します。ただし、モデルごとに特性や適用シナリオが異なるため、具体的なニーズに基づいて判断する必要があります。

長いシーケンスのタスクでのパフォーマンスに加えて、短いシーケンスでのこれらのモデルのパフォーマンスにも注目します。

チームは、広く使用されている学術ベンチマークで Qwen2.5-1M シリーズ モデルを以前の 128K バージョンと比較し、比較のために GPT-4o-mini も含めました。

このことから、次のことがわかります。

  • Qwen2.5-7B-Instruct-1M と Qwen2.5-14B-Instruct-1M は、短いテキスト タスクでは 128K バージョンと同等のパフォーマンスを発揮し、長いシーケンス処理機能の追加によって基本機能が損なわれることはありません。
  • GPT-4o-miniと比較して、Qwen2.5-14B-Instruct-1MとQwen2.5-Turboは、コンテキストの長さがGPT-4o-miniの8倍でありながら、短いテキストタスクで同様のパフォーマンスを実現します。

どうやって作られたんですか?

パフォーマンスを紹介した後は、Qwen の新モデルを支える主要テクノロジーを見てみましょう。

主に、ロングコンテキストトレーニング長さ外挿スパースアテンションメカニズムの3つのステップに分けられます。

長いシーケンスのトレーニングには膨大な計算リソースが必要となるため、チームはコンテキストの長さを拡張するための段階的なアプローチを採用し、複数のステージにわたって Qwen2.5-1M のコンテキストの長さを 4K から 256K に拡張しました。

  • チームは、コンテキストの長さが 4K である、事前トレーニング済みの Qwen2.5 の中間チェックポイントから開始しました。
  • 事前トレーニング段階では、チームはコンテキストの長さを 4K から 256K に徐々に増やしながら、調整ベース周波数スキームを使用して RoPE ベース周波数を 10,000 から 10,000,000 に増やしました。

教師ありファインチューニングフェーズでは、短いシーケンスにおけるパフォーマンスを維持するために、チームは2つのフェーズに分かれて作業を進めました。* フェーズ1:短い命令(最大32KB)のみをファインチューニングしました。ここでは、Qwen2.5の128KBバージョンと同じデータとステップ数を使用して、同様の短いタスクパフォ​​ーマンスを達成しました。

  • フェーズ 2: 短い命令 (最大 32K) と長い命令 (最大 256K) を組み合わせてトレーニングし、短いタスクの精度を維持しながら長いタスクのパフォーマンスを向上させます。

強化学習フェーズでは、研究チームはモデルを短いテキスト(最大8K)で学習させました。その結果、短いテキストで学習した場合でも、モデルは人間の嗜好アライメント能力を長いコンテキストのタスクに効果的に一般化できることが分かりました。

上記のトレーニングにより、最終的にコンテキスト長 256K の微調整モデルが得られました。

前述のトレーニングプロセス中、モデルのコンテキスト長はわずか256Kトークンでした。これを100万トークンまで拡張するために、チームは長さ外挿技術を採用しました。

現在、回転位置エンコーディングに基づく大規模言語モデルは、主にアテンション重みを計算する際のクエリとキー間の相対的な位置距離が過度に大きいために、長いコンテキストタスクでパフォーマンスの低下を示しますが、この現象はトレーニング中には観察されません。

この問題に対処するために、チームは Dual Chunk Attention (DCA) を導入しました。これは、過度に大きい相対位置をより小さな値に再マッピングすることで問題を解決します。

結果は、わずか 32K の長さでトレーニングされた Qwen2.5-7B-Instruct でも、1M のコンテキストでのパスキー取得タスクでほぼ完璧な精度を達成することを示しています。

これは、追加のトレーニングなしでサポートされるコンテキストの長さを大幅に拡張できる DCA の強力な能力を完全に実証しています。

最後に、スパースアテンションメカニズムがあります。

長いコンテキストを持つ言語モデルでは、推論速度がユーザーエクスペリエンスに大きく影響します。この問題に対処するため、研究チームはMinferenceに基づくスパースアテンション最適化を導入しました。

これを基に研究者らは、ブロックの事前充填、統合長さ外挿スキーム、スパース最適化などの一連の改良を提案した。

これらの改善により、チームの推論フレームワークでは、1M 長の入力シーケンスを処理する際に、さまざまなモデル サイズと GPU デバイスにわたってプレパディング速度が 3.2 倍から 6.7 倍向上しました。

最後に、プロジェクトではオンライントライアルのリンクを提供していますので、興味のある方はぜひチェックしてみてください!

HuggingFaceトライアルアドレス:
https://huggingface.co/spaces...

マジックタワーコミュニティエクスペリエンス住所:
https://www.modelscope.cn/stu...

技術レポート:
https://qianwen-res.oss-cn-be...\_5\_1M\_技術レポート.pdf

参考リンク:
https://qwenlm.github.io/zh/b...