|
大規模モデルにおける「国家の誇り」といえば、DeepSeek以外にも、アリババクラウドのQwenにもいくつかの新しい開発があります。 オープンソースの Qwen モデルのコンテキストが1M の長さに拡張されたのは今回が初めてです。 具体的には、新しいモデルには 2 つの「カップ形状」があります。
これらはすべて、長いテキストタスクの処理において GPT-4o-mini よりも一貫して優れたパフォーマンスを発揮し、何百万もの長いテキスト入力を処理する際に約 7 倍の高速化を実現できます。 (数百万のトークンを含むテキストを変換すると、小説 10 冊、スピーチ 150 時間、またはコード 30,000 行に相当する可能性があります。) 現在、新しいQwenモデルに関連する推論フレームワークと技術レポートが公開されています。 次に、このトピックについてさらに詳しく見ていきましょう。 モデルのパフォーマンスまず、Qwen2.5-1M シリーズ モデルの長いコンテキスト タスクと短いテキスト タスクでのパフォーマンスを見てみましょう。 コンテキスト長が最大 100 万トークンのタスクであるパスキー取得において、Qwen2.5-1M シリーズ モデルは、最大 1M の長さのドキュメントから隠された情報を正確に取得する優れたパフォーマンスを発揮します。 注目すべきは、全シリーズモデルの中で、エラーが少数だったのは 7B モデルのみであるということです。 より複雑な長期コンテキスト理解タスクのために、研究チームは RULER、LV-Eval、LongbenchChat などのテスト セットを選択しました。 これらの結果に基づいて、次のような重要な結論を導き出すことができます。 一方、Qwen2.5-1Mシリーズのモデルは、以前の128Kバージョンと比較して大幅な進歩を遂げています。 ほとんどの長いコンテキストのタスク シナリオでパフォーマンスが向上し、特に 64K を超えるタスクを処理する場合は、128K バージョンと比較して、情報をより効率的に処理でき、より強力な適応性と処理能力を発揮します。 一方、Qwen2.5-14B-Instruct-1M モデルにはいくつかの利点があります。 Qwen2.5-Turbo および GPT-4o-mini と比較すると、このモデルは複数のデータセットで他のモデルよりも優れています。 これは、既存のロングコンテキストモデルの範囲内で、オープンソースモデルとして、他の製品に比べて比較的信頼性の高い代替手段をユーザーに提供できることを意味します。ただし、モデルごとに特性や適用シナリオが異なるため、具体的なニーズに基づいて判断する必要があります。 長いシーケンスのタスクでのパフォーマンスに加えて、短いシーケンスでのこれらのモデルのパフォーマンスにも注目します。 チームは、広く使用されている学術ベンチマークで Qwen2.5-1M シリーズ モデルを以前の 128K バージョンと比較し、比較のために GPT-4o-mini も含めました。 このことから、次のことがわかります。
どうやって作られたんですか?パフォーマンスを紹介した後は、Qwen の新モデルを支える主要テクノロジーを見てみましょう。 主に、ロングコンテキストトレーニング、長さ外挿、スパースアテンションメカニズムの3つのステップに分けられます。 長いシーケンスのトレーニングには膨大な計算リソースが必要となるため、チームはコンテキストの長さを拡張するための段階的なアプローチを採用し、複数のステージにわたって Qwen2.5-1M のコンテキストの長さを 4K から 256K に拡張しました。
教師ありファインチューニングフェーズでは、短いシーケンスにおけるパフォーマンスを維持するために、チームは2つのフェーズに分かれて作業を進めました。* フェーズ1:短い命令(最大32KB)のみをファインチューニングしました。ここでは、Qwen2.5の128KBバージョンと同じデータとステップ数を使用して、同様の短いタスクパフォーマンスを達成しました。
強化学習フェーズでは、研究チームはモデルを短いテキスト(最大8K)で学習させました。その結果、短いテキストで学習した場合でも、モデルは人間の嗜好アライメント能力を長いコンテキストのタスクに効果的に一般化できることが分かりました。 上記のトレーニングにより、最終的にコンテキスト長 256K の微調整モデルが得られました。 前述のトレーニングプロセス中、モデルのコンテキスト長はわずか256Kトークンでした。これを100万トークンまで拡張するために、チームは長さ外挿技術を採用しました。 現在、回転位置エンコーディングに基づく大規模言語モデルは、主にアテンション重みを計算する際のクエリとキー間の相対的な位置距離が過度に大きいために、長いコンテキストタスクでパフォーマンスの低下を示しますが、この現象はトレーニング中には観察されません。 この問題に対処するために、チームは Dual Chunk Attention (DCA) を導入しました。これは、過度に大きい相対位置をより小さな値に再マッピングすることで問題を解決します。 結果は、わずか 32K の長さでトレーニングされた Qwen2.5-7B-Instruct でも、1M のコンテキストでのパスキー取得タスクでほぼ完璧な精度を達成することを示しています。 これは、追加のトレーニングなしでサポートされるコンテキストの長さを大幅に拡張できる DCA の強力な能力を完全に実証しています。 最後に、スパースアテンションメカニズムがあります。 長いコンテキストを持つ言語モデルでは、推論速度がユーザーエクスペリエンスに大きく影響します。この問題に対処するため、研究チームはMinferenceに基づくスパースアテンション最適化を導入しました。 これを基に研究者らは、ブロックの事前充填、統合長さ外挿スキーム、スパース最適化などの一連の改良を提案した。 これらの改善により、チームの推論フレームワークでは、1M 長の入力シーケンスを処理する際に、さまざまなモデル サイズと GPU デバイスにわたってプレパディング速度が 3.2 倍から 6.7 倍向上しました。 最後に、プロジェクトではオンライントライアルのリンクを提供していますので、興味のある方はぜひチェックしてみてください! HuggingFaceトライアルアドレス: マジックタワーコミュニティエクスペリエンス住所: 技術レポート: 参考リンク: |
Qwen は、数百万のトークンを処理する上で GPT-4o-mini を上回るパフォーマンスを誇る、初の新しい長文テキスト モデルをオープンソース化しました。
関連するおすすめ記事
-
先ほど、アルトマン氏は AGI に関して 3 つの判断を示しました。スケーリングの法則は変わっておらず、投資を減速させる理由はない、というものです。
-
ICLR 2025に選出されました!浙江大学のShen Chunhua氏らは、ボルツマンアライメント手法を提案し、タンパク質結合自由エネルギーの最先端(SOTA)予測を実現しました。
-
清華大学関連企業が協力し、セキュリティビッグデータモデルを1兆ドル時代へ推進 | 長廷 x 曲靖
-
XPengは純電気自動車の開発も放棄しました!初登場となるレンジエクステンダー付き電気自動車は1400kmの航続距離を誇り、自社開発のインテリジェントドライビングチップを披露。さらに既存ユーザー向けにハードウェアのアップグレードも提供しています。
-
大型モデルの経験はありませんが、チャンスをいただけますか?
-
オンラインチュートリアル | 宿題を急いで終わらせたい小学生にとって、DeepSeekは必須アイテムでしょうか?「サーバーがビジー状態」にさよならする方法をステップバイステップで学びましょう。