|
大規模モデル、特にオープンソースの大規模モデルの継続的な進化により、複雑な推論能力を備えたモデルが様々な業界で応用され、人間の専門家を凌駕する可能性を示しています。その結果、将来のコンピューティングパワーの活用は、単なるコンピューティングパワーのトレーニングではなく、推論シナリオに重点を置くようになるでしょう。 華富証券の調査によると、2027年までに推論側のAIサーバーが全体のワークロードの72.6%を占めると予想されています。一方、OpenAI o1に代表される大規模モデル推論シナリオにおけるスケーリング則は、この傾向をさらに加速させています。 しかし、モデル性能が大幅に向上したにもかかわらず、数千億のパラメータと数百万のコンテキストを持つ最前線のモデルは、実世界への導入において依然として高コストと低効率という課題に直面しています。この現象は、一見解決不可能に見える「不可能三角形」を生み出します。 この課題に対処するには、主にトレーニング シナリオ向けに設計するという従来のアプローチから脱却し、ハイエンド GPU を中心としたコンピューティング パワー アーキテクチャに重点を置いた、新しい推論アーキテクチャが緊急に必要です。 このような背景から、Qujing Technologyは、共同ストレージ、 CPU 、 GPU 、 NPUなどのデバイスを通じて異機種コンピューティングパワーをフルに発揮できる業界初のフルシステム推論アーキテクチャを備えた「大規模モデル知識推論オールインワンマシン」を発売し、推論コストを10倍以上削減しました。 このイノベーションは、企業に大規模モデルを効率的に実装するためのまったく新しい選択肢を提供し、「推論の自由」への新たな道を切り開きます。 Qujing大規模モデル知識推論オールインワンマシンは、数千億のデータポイントを持つトップクラスの大規模モデルのローカル展開をサポートするだけでなく、サードパーティとの柔軟な連携を可能にするオープンAPIインターフェースも提供しています。さらに、ユーザーはニーズに合わせてエンタープライズインテリジェントアシスタント(アシスタント/コパイロット)をカスタマイズできるため、真の「すぐに使える」ユーザビリティを実現します。 HBM/DRAM/SSD、CPU/GPU/NPU などの異種デバイスをシステム全体で調整することで、異種ストレージとコンピューティング リソースの潜在能力を最大限に引き出すことができます。業界の従来のソリューションは主に一点での GPU コンピューティング能力の利用を最適化することに重点を置いていますが、Qujin Technology の大規模モデル知識推論オールインワン マシンは業界初のフルシステム推論アーキテクチャを採用しています。 「ストレージ・トゥ・コンピューティング」技術により、ストレージ能力をコンピューティング能力の補助として解放し、コンピューティング能力の需要を削減します。同時に、「異種コラボレーション」の理念を採用し、HBM/DRAM/SSDやCPU/GPU/NPUなど、システム全体の異種デバイスを密接に連携させ、ビデオメモリ容量の制限を打破し、システム全体のストレージ能力とコンピューティング能力を十分に解放します。 この革新的なソリューションは、従来のソリューションの理論的な最適化の限界を打ち破り、マシンのすべての異種コンピューティング リソースを統合するという目標を達成し、推論スループットを 10 倍以上に増加させ、大規模モデルの展開コストを大幅に削減します。 さらに、財通証券が発表した詳細な業界分析レポートによると、国産GPUは、単精度/半精度浮動小数点演算能力、製造プロセス、メモリ容量において、NVIDIAに2~4倍もの大きな差をつけられています。そのため、GPUの単一最適化のみに頼っていては、短期的にはNVIDIAのGPUソリューションに追いつくことが困難になるでしょう。 フルシステム推論アーキテクチャを採用することで、GPU パフォーマンスのギャップの影響を大幅に軽減し、国内代替ソリューションの競争力を大幅に高め、大規模モデル推論シナリオにおける国内 GPU のボトルネックを打破することができます。 ストレージベースの計算の新しいパラダイム: 暗記から統合推論まで。初期の大規模モデル推論アーキテクチャでは、各推論を独立したリクエストとして扱い、効率的な処理に必要な「メモリ」能力が欠けていました。その後、セマンティッククエリキャッシュやプレフィックスキーバリューキャッシュが導入されましたが、依然として主に暗記に依存しています。これらのソリューションでは、キャッシュを活用して計算負荷を軽減するために、新規の問題と過去に処理された問題の間に高いレベルの一貫性が求められます。 この問題を解決するため、Qujing Technologyは革新的な「Fusion Attention」技術を設計しました。この技術は、全く新しい問題に直面した場合でも、履歴情報から再利用可能なコンテンツを抽出し、現場情報とのオンライン融合計算を実行できます。この技術により、再利用可能な履歴計算結果が大幅に改善され、計算負荷が軽減されます。 この新しいアプローチにより、Qujing Big Model Knowledge Reasoning All-in-One Machineはストレージリソースを最大限に活用します。「ストレージ・フォー・コンピュテーション」アプローチを採用し、ストレージパワーをコンピューティングパワーの補助として解放することで、応答レイテンシは20分の1に短縮され、RAGシナリオにおけるパフォーマンスは10倍向上します。 単一ポイントの GPU 最適化からシステム全体の協調最適化まで、システム全体にわたる新しい異種協調アーキテクチャ。Qujing 大規模モデル知識推論オールインワン マシンは、「計算用ストレージ」によって計算能力の要件を削減するだけでなく、異機種協調アーキテクチャ設計によってストレージ、CPU、GPU、NPU の計算能力を効率的に統合することで、大規模モデル推論のパフォーマンスをさらに向上させ、コストを削減します。 トレンドフォースは以前、清華大学KVCache.AIチームと協力し、異種推論フレームワークの一部をオープンソース化した「KTransformers」(GitHubリンク:https://github.com/kvcache-ai...)プロジェクトに取り組んでいました。このオープンソースフレームワークでは、Mixtral 8x22BやDeepSeek-Coder-V2といった数千億のデータポイントを持つ大規模モデルを、コンシューマーグレードのGPU 1基だけでローカル実行でき、Llama.cppの数倍のパフォーマンスを実現します。 最大 1M の超長期コンテキスト推論タスクでは、単一の GPU カードのみを必要とする業界初の高性能推論フレームワークとなり、ほぼ完璧な「干し草の山の中の針」機能を維持しながら、Llama.cpp よりも 10 倍以上高速な 16.91 トークン/秒を生成しました。 Qujing Technologyの大規模モデル知識推論オールインワンマシンは、「KTransformers」の商用版をさらに改良したフルシステム推論アーキテクチャを採用しています。オープンソース版をベースに、強化された連携性能を誇り、マルチGPU高並列スケジューリングやRAGサポートといった戦略を組み込んでいます。テストと顧客との連携検証を通じて、そのPrefillおよびGenerate性能は業界標準のソリューションを大幅に上回っています。
曲靖×長廷:安全保障のための1兆ドル規模の大規模モデルの時代到来国内有数のサイバーセキュリティ企業であるChangting Technologyは、既存の「ChaitinAIセキュリティビッグモデル」とMSSマネージドセキュリティサービスを、Qujing Technologyが提供する異種推論アーキテクチャ技術戦略とシームレスに統合しました。これにより、ChaitinAIセキュリティビッグモデルは数十億規模のモデルへとアップグレードされ、セキュリティ性能が全面的に向上しました。 コアパフォーマンス指標(API)の攻撃識別精度は95.8%に向上し、検出レイテンシは2レベルに短縮されました。さらに、脆弱性検出機能も強化され、発見される脆弱性の数が増加しただけでなく、より正確な修復提案を提供し、様々なシナリオに基づいてより適切なツールと戦略を選択できるようになりました。同時に、悪意のあるコンテンツを特定する能力も向上し、精度と再現率の両方が向上しました。セキュリティレポートコンテンツの生成とスコアリングの品質も大幅に向上し、全体的な出力がより堅牢で安定しました。 さらに、Changting Technology のセキュリティ ビッグモデルの導入リソース コストが 50% 削減され、より多くのビジネスにビッグモデル機能を組み込むことができるようになりました。 継続的な技術進歩と市場の需要は、大規模モデルの将来的な発展に十分な余地をもたらします。コンピューティングインフラストラクチャの継続的な改善とコンピューティングパワーの利用効率の向上により、大規模モデルはより多くの業界慣行と統合され、将来的にはより多くの業界でより大きな役割を果たすようになります。 現在、TrendForceは、本格的なインテリジェンスの到来を促進するために、より多くの大規模モデルアプリケーションメーカーとも提携しています。 アプローチAIテクノロジー 2024年に設立されたQujin Technologyは、業界初のフルシステム推論アーキテクチャに基づく「大規模モデル知識推論オールインワンマシン」を発売し、ユーザーに大規模モデルを展開するためのすぐに使用できるソリューションを提供しています。 このアーキテクチャは、ストレージ、CPU、GPU、NPUなどのデバイスを調整することで異機種コンピューティング能力を最大限に引き出し、RAG(Retrieval Enhanced Generation)などの主要な大規模モデル適用シナリオの計算コストを10倍以上大幅に削減し、金融、セキュリティ、通信、教育トレーニングなどの大規模モデル企業や業界が大規模モデルを展開する際の「ラストマイル」問題を効果的に解決します。 同社の創設チームは全員清華大学出身で、AI、建築、システムソフトウェア、その他関連する技術システムやソフトウェアの分野で長年の学術的、産業的な経験を持っています。 |
Qujing Technology は、大規模な知識推論オールインワンマシンをリリースし、企業が効率的な推論を実現できるようにするための「フルシステム推論アーキテクチャ」の先駆者となりました。
関連するおすすめ記事
-
BYDとファーウェイが協力し、従来の自動車の最後の砦を突破する
-
GPT-5 は期待に応えられなかったと報道される。OpenAI 従業員:「科学的なブレークスルーはもうなく、エンジニアリングだけです...」
-
今夜午後 7 時からのライブ ストリームを視聴して、コンピューティング パワーを獲得するチャンスを手に入れましょう。
-
CCFプログラマーカンファレンスの全スケジュールが公開されました。ぜひご登録の上、ダリでご参加ください!
-
長らく行方不明だったゲーム界の伝説、李牧がビリビリでのアップデートを再開し、ラマ 3.1 論文の朗読をリードし、ラマ 3.1 アリーナで 3 位にランクされました。
-
タオ・ジ氏が率いる長安の自社開発インテリジェント運転システムは、12か月間の成績表を提出し、重慶の難関8Dインターチェンジを無事通過し、最新のフルサイズSUVでテストされている。