Qwen 2.5は100万もの超長コンテキストに対応し、推論速度が4.3倍に向上しました。ネットユーザーの皆様へ：RAGは時代遅れになりそうです。

国産の大型プラモデルキットが最近ちょっと錆びてきました。

コーディングの新たな最先端を確立したちょうどその時、Qwen 2.5シリーズがまたアップデートされました。

『三体』全3巻を一気に読むことは難しくなく、この69万字の主要な内容は45秒ほどで要約できます。

これは冗談ではありません。「干し草の山の中の針を探す」実験では、この最新のQwen2.5-Turboが100万トークンのコンテキストで完璧に動作することが示されています。

言い換えれば、Qwen2.5-Turbo は、これら 100 万のコンテキスト内の詳細を 100% キャプチャできることになります。

そうです、Qwen2.5 シリーズの最新メンバーであるQwen2.5-Turbo は、非常に長いコンテキストをサポートすることに重点が置かれており、信じられないほど競争力のある価格性能比を誇ります。

コンテキストの長さは 128k から1Mに拡張されました。これは、英語 100 万語または中国語 150 万文字、または小説 10 冊、音声録音 150 時間、またはコード 30,000 行に相当します。

推論速度の高速化：スパースアテンションメカニズムに基づいて、数百万のコンテキストを処理するときに、最初の単語を返す時間が 4.9 分から 68 秒に短縮され、 4.3 倍の高速化が達成されました。

重要なのは、価格が0.3元/100万トークンと非常に安価であることです。つまり、同じコストでQwen2.5-TurboはGPT-4o-miniの3.6倍のトークンを処理できることになります。

このアップデートを見て、多くのネットユーザーがすぐに***を明らかにしました:

これほど長い文脈とこれほど速いペースでは、RAG はすでに時代遅れだと率直に言う人もいます。

一部の人々はそれを高く評価し始めています。オープンソース分野では、Qwen は現在 Llama よりも将来性が期待されています。

コンテキスト機能拡張はパフォーマンスに影響を与えない

3 冊の長編小説を一気に読みきるだけでなく、Qwen では Qwen2.5-Turbo の拡張コンテキストのより実用的な機能も紹介しました。

たとえば、コードベース全体に関する情報を素早く把握するなどです。

デモで示されているように、Qwen-Agent リポジトリ内のすべてのコードファイル (133,000 トークン) を含むテキストファイルをアップロードすると、大規模なモデルはすべてのコードを読み取り、わずか数秒でさまざまな詳細を正確に出力できます。

ユーザー: このリポジトリにはどのようなエージェントのサブクラスがありますか? ファイルパスを入力してください。
Qwen2.5ターボ:

一度に7つの論文を読み、論文の分類と要約を完成させるのは全く問題ありません。

実際にテストしてみました。ご覧の通り、Qwen2.5-Turboはプロンプトなしでも、様々な論文の詳細情報を正確に把握し、比較分析を完了できます。

Qwen チームは、干し草の山の中の針を探す実験に加えて、より複雑な長いテキストタスクで Qwen2.5-Turbo の機能もテストしました。

含む：

RULER ：干し草の山から針を探すという概念に基づいた拡張ベンチマークです。タスクには、無関係な文脈から複数の「針」を見つける、複数の質問に答える、文脈内で最も頻出する単語または最も頻出しない単語を見つけるなどが含まれます。データの最大コンテキスト長は128KBです。
LV-Eval ：多数の証拠を同時に理解する必要があるベンチマークテスト。Qwenチームは、LV-Evalのオリジナル版の評価指標を調整し、過度に厳格なマッチングルールによる偽陰性の発生を回避しました。データの最大コンテキスト長は128KBです。
Longbench-Chat ：長文タスクにおける人間の嗜好アライメントを評価するためのデータセット。データのコンテキスト長は最大10万バイトです。

結果によると、RULERベンチマークテストでは、Qwen2.5-Turboが93.1ポイントを獲得し、GPT-4o-miniとGPT-4を上回りました。

LV-EvalやLongBench-Chatなど、現実世界のシナリオに近い長いテキストタスクでは、Qwen2.5-Turboはほとんどの次元でGPT-4o-miniよりも優れており、128トークンを超えるコンテキストの問題にさらに拡張できます。

既存のコンテキスト長拡張スキームでは、モデルが短いテキストを処理するときにパフォーマンスが大幅に低下することが多いことに注意する必要があります。

Qwen チームは、短いテキストタスクでも Qwen2.5-Turbo をテストしました。

結果は、Qwen2.5-Turbo が、ほとんどのタスクで 100 万トークンのコンテキスト長を持つ他のオープンソースモデルを大幅に上回っていることを示しています。

GPT-4o-mini や Qwen2.5-14B-Instruct と比較すると、Qwen2.5-Turbo は短いテキストタスクでは劣りませんが、前の 2 つのモデルの 8 倍のコンテキストを処理できます。

さらに推論速度の面でも、Qwen2.5-Turboはスパースアテンション機構を活用することでアテンション部分の計算負荷を従来の2/25に削減し、異なるハードウェア構成下で3.2～4.3倍の高速化を実現しています。

現在、Qwen2.5-Turbo は、HuggingFace および Moda コミュニティのユーザー向けにオンラインデモを提供しています。

API サービスは Alibaba Cloud Big Model Service Platform でも開始されており、OpenAI API と互換性があります。

モデルの重みはいつオープンソース化されるのでしょうか?

アリババのTongyiオープンソースチームの責任者であるLin Junyang氏によると、現在オープンソース化の計画はないが、取り組んでいるとのことだ。

とにかく、HuggingFace の共同設立者である Thomas Wolf が、これを完成させるのに協力してくれました (冗談です)。

デモリンク:
https://huggingface.co/spaces... https://www.modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo

参考リンク:
https://qwenlm.github.io/zh/b...

- 以上-