618ZXW

OpenAI は推論コンピューティング能力の新しいスケーリング法を開拓し、AI PC と CPU にチャンスを創出しています。

OpenAI の新しいモデル o1は、スケーリング法則の新たな章を開いたと言えます。

強化学習(トレーニング中の計算)と思考時間(テスト中の計算)の増加により、O1 は論理的推論能力の点で現在の限界に達しました。

特に、北京大学が実施した評価では、 o1-miniモデルは o1-preview モデルよりも高いスコアを獲得しました。

これは新しいアプローチと可能性を示しています。

より小さなモデルは推論能力を強化するために特別に設計されており、大量の世界知識をパラメータに保存するという慣行を放棄しています。

OpenAIの科学者Shengjia Zhao氏による説明は次のとおりです。

o1-mini は、より深い探索のための少数の機能に重点を置いた、高度に特化されたモデルです。

しかし同時に、別の問題も浮上しました。

AIに高度な推論能力と大量の知識を同時に習得させたい場合、どうすればいいでしょうか?

その結果、大型モデルと RAG の組み合わせに再び技術上の注目が集まるようになりました。

具体的には、ベクター データベースにより、大規模なモデルで大量のベクター データを迅速かつ効率的に取得して処理できるようになり、大規模なモデルに対してより豊富で正確な情報が提供され、モデルの全体的なパフォーマンスと適用範囲が拡張されます。

大きなモデルに「良い記憶」を与え、無関係な答えを出す可能性を減らすと言えます。

さらに、小さなモデルへの特化というこの新しい傾向により、RAG のベクトル データベースに対する要求がさらに高まっています。

一方、モデルが小さいほど保存される知識が少なくなり、外部知識の保存と検索に対する品質要件が高くなります。

一方、AI アプリケーションの実装ペースは加速しており、マルチユーザー、高同時実行のシナリオに直面して、システム全体のパフォーマンスに対する要求も高まっています。

このような背景から、業界をリードする企業は、より強力な分散型ベクトル データベースに注目し始めています。

ベクターデータベースの代表であるインターステラテクノロジーはインテルと協力して、この問題に対する新しい解決策を提案しました。

高性能データセンター CPU と Core™ Ultra 搭載 AI PC、および特別に最適化された分散ベクトル データベースを組み合わせることで、より経済的で多用途なソリューションが提供され、大規模モデルの企業展開におけるボトルネックの問題に効果的に対処します。

分散ベクトル データベースは、RAG が大規模モデルの展開を加速するのに役立ちます。

先ほど述べたように、RAG の重要なコンポーネントは外部知識ベースであり、質問に正確に答えるために必要な専門知識とルールが含まれている必要があります。

この外部ナレッジ ベースを構築するための一般的な方法には、ベクター データベース、ナレッジ グラフ、さらには ElasticSearch データの直接統合などがあります。

しかし、ベクトルデータベースは高次元のベクトルを検索できるため、大規模なモデルとのマッチングが良く、良好な結果が得られるため、主流のアプローチとなっています。

ベクター データベースは、ベクター化されたデータを効率的に保存、処理、管理できます。

下の図に示すように、データのベクトル化プロセスでは、単語ベクトル モデルや畳み込みニューラル ネットワークなどの人工知能技術が活用されます。

これらのテクノロジーは、埋め込みプロセスを通じて、テキスト、画像、音声、ビデオなどのさまざまな形式のデータをベクター形式に変換し、ベクター データベースに保存できます。

ベクトルデータベースのクエリ機能は、ベクトル間の類似性を計算することによって実現されます。

StarRing Technology が提案する革新的な成果がInfinity Intelligenceです。

これは、Star Ring 大規模モデルベースに基づくエンタープライズレベルの垂直ドメイン質疑応答製品であり、個人知識ベース、企業知識ベース、法律や規制、金融などの複数の知識ソースを組み合わせて、エンタープライズレベルのインテリジェントな質疑応答を実現できます。

例えば、「国家集積回路産業投資基金(ビッグファンド)第3期はどの分野に投資するのか」といった高度に専門的な質問に直面しても、Wuyai Wenzhiは簡単に答えられるだけでなく、関連する地図や重要な情報なども提供できます。

さらに、回答を画像とテキストの両方で表示することもできます。

ローカルのビデオファイルなどをアップロードすると、Wuyai Wenzhi がすぐに要約できます。

全体として、Wuyai Wenzhi は、ユーザーが個人の知識ベースにワンクリックでドキュメント、表、画像、音声、ビデオなどのマルチモーダル データをアップロードできるようにサポートし、膨大な量のマルチモーダル ナレッジの迅速な検索とインテリジェントな質問への回答を可能にします。

エンタープライズナレッジベースについては、経営陣による構築後、従業員はエンタープライズナレッジベースに基づいてQ&Aを実施できます。社内知識共有プラットフォームとして、ナレッジベースは異なるチームや部門間のコラボレーションと情報交換を促進します。

さらに、Wuyai Wenzhiには、主要取引所の取引ルールや規制要件など、一般的な法的および規制に関する知識も含まれています。ユーザーは、具体的な法的規定、規制ルール、試行措置について質問することができ、Wuyai Wenzhiは法的リスクに関する警告と対応策を提案します。

また、上場企業の豊富な財務レポートや業界チェーンマップも内蔵しており、金融機関に包括的かつ詳細な投資調査・分析ツールを提供することができます。

金融や法律など、タイムリーさとデータプライバシーの両方が求められる業界向けにも、StarRingはクラウド接続を必要としないBoundless AI PC版を提供しています。統合型グラフィックスとNPUを搭載したIntel® Core™ Ultraプロセッサーを搭載した主流のPCでスムーズに動作します。

さまざまな形式と無制限の長さのファイルのインポートをサポートする強力なローカライズされたベクター ライブラリがあるだけでなく、ビデオ、オーディオ、画像、テキストなどのマルチモーダル データの「知識ベース」処理、および「セマンティック」クエリとアプリケーション機能もサポートしており、知識の獲得とアプリケーションのシナリオが大幅に充実します。

Wuyai·Wenzhi は、人工知能インフラストラクチャの構築からビッグデータと人工知能の研究開発アプリケーションまでの完全なチェーンにユーザーを接続するTranswarp Knowledge Hubの重要なコンポーネントであると言えます。

TKH は AI PC バージョンも提供しており、ローカルの大規模モデル テクノロジーに基づいて、ユーザーのさまざまな質問に答え、ドキュメントの要約や知識の Q&A などのまったく新しいエクスペリエンスをユーザーに提供しながら、ユーザーのプライバシー データのセキュリティを確保できることも特筆に値します。

StarRing大規模モデル知識ベースのAI PC版では、ローカルとリモートの両方の大規模モデルを選択できます。単純な問題はローカルモデルで迅速に処理し、複雑で困難な問題はクラウドベースの大規模モデルに送って詳細な分析を行うことができます。

この柔軟な拡張性により、企業はさまざまな課題に直面しても十分なコンピューティング サポートを確保できます。

この製品シリーズがクラウドとローカル環境の両方で効率的な知識管理とインテリジェント ツールを提供できる理由は、Transwarp Technology が開発したいくつかの主要なテクノロジと切り離せません。

まず、StarRingが開発したベクターデータベースであるHippoのベクターインデックス技術に基づいて、膨大なデータセットから関連情報を迅速かつ正確に取得できるため、情報検索の速度と精度が向上し、クエリを処理するモデルの効率が向上します。

第二に、グラフ コンピューティング フレームワークを活用することで、大規模なモデルでエンティティ間の多層的な関係を識別できるようになり、詳細な相関分析を実施して、より深く正確な洞察を提供できるようになります。

データ面では、公式情報、ポータルサイト、金融セルフメディアなど1,600以上の情報源を網羅し、各種マクロ経済・物価指数、市場全体のほとんどのニュースデータを網羅しています。

さまざまなチャネルを通じて通常入手可能なデータだけでなく、一次情報を持つ信頼性の高いニュースパートナーからのデータも含まれており、すべての公式政策データをリアルタイムで完全にカバーしています。

しかし、大規模モデルの開発に伴い、データの規模が劇的に増加し、データベースのパフォーマンスとインテリジェントな質問回答に対する要求が高まっています。

そのため、データ圧縮と計算能力の強化は、さまざまな大規模モデル プレーヤーにとって重要な焦点領域となっています。

この点において、Transwarp Technology は、エッジの AIPC からデータセンター、バックエンドのクラウドに至るまで Intel と緊密に連携し、ハードウェアとソフトウェアの共同最適化を通じて大規模モデルのアプリケーションを実現するソリューションを生み出してきました。

CPU により、ベクター データベース アプリケーションのパフォーマンスが大幅に向上します。

ベクター データベースと CPU の組み合わせは、現段階ではすでに業界の主流となっています。

その理由は、ベクトル類似度検索と高密度ベクトルクラスタリングはどちらもCPUを大量に消費するタスクであるためです。したがって、CPUパフォーマンスは非常に重要です。

第 5 世代インテル® Xeon® スケーラブル プロセッサーは、 AI 時代に向けた一連の重要な機能アップデートをもたらします。

まず、大容量の高帯域幅メモリを搭載しており、ベクター データベースのデータ集約型ワークロードのメモリ ウォール問題を効果的に軽減します。

さらに、Intel® AMX (Advanced Matrix Extensions) アクセラレーション エンジンも統合されており、ベクター データベース クエリに必要な行列乗算演算を効率的に処理し、大規模な行列を 1 回の操作で処理できます。

第 5 世代 Xeon® プロセッサーを搭載したクラウド展開バージョンでは、Transwarp Hippo の全体的なパフォーマンスは第 3 世代よりも最大 2.07 倍向上します

では、ローカル AI コンピューティング能力は、エンタープライズ アプリケーション用の AI PC 上で大規模なモデルをサポートするのに十分でしょうか?

テストの結果、Star Ring は「完全に適切だ」という答えを出しました。

AI PC が誕生してから約 1 年が経過し、AI の全体的なコンピューティング能力は 200% 以上向上し、エネルギー消費量は 50% 減少しました。

これは、 Intel® Core™ Ultra シリーズに行われたアップグレードと改善のおかげです。

最新のインテル® Core™ Ultra プロセッサー (第 2 世代) 200V シリーズ プロセッサーのサポートにより、AI PC プラットフォーム全体で最大 120 TOPS のコンピューティング能力を実現できます。

特に、搭載されている第 4 世代 NPU は前世代より 4 倍強力で、エネルギー効率を維持しながら AI ワークロードを継続的に実行するのに最適です。

ソフトウェア レベルでは、Intel と Transwarp が協力して、基盤となるデータベースのパフォーマンスを最適化しました。

水平スケーリング アーキテクチャ、CPU ベースのベクトル化命令の最適化、およびマルチチップ アクセラレーションにより、分散ベクトル データベースは並列検索機能を活用し、大規模な多次元ベクトル処理のための強力なコンピューティング サポートを提供できます。

最適化された Transwarp Hippo は、膨大な高次元ベクトルデータの処理を可能にし、低レイテンシ、高精度などの利点を誇ります。

同時に、Transwarp Hippo はサーバー ノードのパフォーマンス密度を向上させ、全体的なパフォーマンスを向上させながらワットあたりのパフォーマンスの向上を実現しました。これにより、パフォーマンス単位あたりのエネルギー消費を節約し、最終的には総所有コスト (TCO) を削減できます。

インメモリ コンピューティングの統合の傾向は明らかであり、CPU には大きな可能性があります。

OpenAI o1 シリーズに代表される大規模モデルがアルゴリズムの革新を続けるにつれ、大規模モデルの推論時の計算電力消費が急速に増加し、大規模モデルの動作をサポートするインフラストラクチャ プラットフォームに対する要求が高まっています。

特に、外部の知識ベースへの頻繁なアクセスを必要とする大規模なモデル アプリケーションの場合、ストレージとコンピューティングの緊密な統合が緊急の優先事項となっています。

この技術変化の波の中で、CPU は重要な役割を担うようになりました。

さらに、IntelのCPUベースのソリューションは、ユーザーにとってよりコスト効率の高い選択肢を提供します。汎用CPUは成熟した包括的なサプライチェーンとエコシステムによるサポートを備えているため、エンタープライズユーザーは安定した信頼性の高いコンピューティングパワーを供給できます。

一方、Intel® Xeon® および Core™ プロセッサーは、エッジ側とクラウド側の両方のコンピューティング能力のニーズを同時に満たし、さまざまなアプリケーション シナリオに強力なサポートを提供します。

今後、店舗内コンピューティングのトレンドはますます顕著になるでしょう。

大規模モデルの応用の観点から見ると、知識検索と AI 推論はもはや明確に区別されるものではなく、深く絡み合い、相互に補強し合うものになります。

このインテリジェントなコンバージェンスの未来ビジョンでは、ストレージ、ネットワーク、およびさまざまなアクセラレータを接続するリンクとしての CPU が重要な役割を果たします。

QuantumBit は、AI 推論の新時代に CPU がどのように活用されるかを普及させるために、技術の普及、業界の事例、実用的な最適化など、多角的な視点から総合的に解釈する「Most 'in' AI」コラムを開始しました。

このコラムを通して、CPUがAI推論の高速化、さらにはAIプラットフォーム全体やプロセス全体の高速化においてどのような実用的成果をもたらすのか、より多くの方々にご理解いただければ幸いです。本コラムでは、大規模モデルアプリケーションのパフォーマンスと効率を向上させるために、CPUをより効果的に活用する方法に焦点を当てます。

StarRing Technology の Boundless Knowledge を試すには、この記事の最後にある「原文を読む」をクリックしてください。