|
優れたパフォーマンスとオープンソースならではの強みを活かし、DeepSeekは世界中で大規模モデル・アプリケーションの主要なハブとして急速に成長しています。インテルのGPU戦略の主要コンポーネントであるインテル® Radiant™ GPUは、ゲーマーや映像制作のプロフェッショナルに広く愛用されており、DeepSeekを高速化するコンピューティングカードとしても活用できます。これにより、企業ユーザーにとって、関連AIアプリケーションをコスト効率よく導入するための新たな道が開かれます。具体的には、マルチGPU構成でインテル® Xeon® スケーラブル・プロセッサーまたはインテル® Xeon® Wプロセッサーと組み合わせることで、DeepSeek推論タスクの実行と高速化を実現します。 この記事では、DeepSeek-R1-Distill-Qwen-32B推論シナリオを例に、4ウェイIntel® Radiant™ A770グラフィックスカード+ Xeon® Wプロセッサで構成される、最低コスト50,000~60,000人民元のエンタープライズアプリケーション向けソリューションを取り上げ、ハードウェア環境のセットアップ、ドライバーとソフトウェアの構成、パラメーター設定の最適化の手順を詳しく説明し、このソリューションの展開と構成をステップバイステップでガイドします。 1. ソフトウェアとハードウェアのインストール、構成、初期化1.1 ハードウェアのインストールと構成△画像。Intel Radiant™ A770 グラフィック カード 4 枚を搭載した AI ワークステーション。 - BIOS設定で、Re-Size BAR Supportを[Enabled]に設定します。 1.2 ソフトウェアのインストールと設定- Ubuntu 22.04.1 LTS オペレーティング システムをインストールします (イメージ ファイルは https://old-releases.ubuntu.c... から取得できます)。 - ハードウェア検証を行うには、各GPUが適切な動作を保証するのに十分な消費電力を備えていることを確認する必要があります。オペレーティングシステムをインストールした後、次のコマンドを使用して、Intel A770グラフィックスカードが正しく読み込まれるかどうかを確認できます。 ~$ lspci | grep 56a0 18:00.0 VGA互換コントローラ: Intel Corporation デバイス56a0 (rev 08) 36:00.0 VGA互換コントローラ: Intel Corporation デバイス56a0 (rev 08) 54:00.0 VGA互換コントローラ: Intel Corporation デバイス56a0 (rev 08) cc:00.0 VGA互換コントローラ: Intel Corporation デバイス56a0 (rev 08) - APT ネットワークが接続されており、アカウントに sudo 権限がある場合、ドライバーをインストールするには次の手順に厳密に従う必要があります。 ~$ wget -qO – https://repositories.intel.co… | sudo gpg –yes –dearmor –output /usr/share/keyrings/intel-graphics.gpg ~$ echo "deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.co... jammy/lts/2350 unified" | sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list # sudo apt アップデート - カーネル バージョンが 6.5.0-35 でない場合は、次のコマンドを使用してバージョン 6.5.0-35 をインストールします。 ~$ sudo apt-get install -y linux-image-6.5.0-35-generic linux-headers-6.5.0-35-generic linux-modules-6.5.0-35-generic linux-modules-extra-6.5.0-35-generic ~$ sudo apt install intel-i915-dkms ~$ sudo vim /etc/default/grub ~$ sudo update-grub ~$ sudo 再起動 次に、次のコマンドを使用して、コンピューティング、メディア、およびディスプレイのランタイム ライブラリをインストールします。 ~$ sudo apt install -y intel-opencl-icd intel-level-zero-gpu level-zero intel-media-va-driver-non-free libmfx1 libmfxgen1 libvpl2 libegl-mesa0 libegl1-mesa libegl1-mesa-dev libgbm1 libgl1-mesa-dev libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all vainfo hwinfo clinfo - 次のコマンドを使用して、現在のユーザーをレンダリング グループに追加します。 ~$ sudo gpasswd -a $(USER) レンダリング ~$ sudo newgrp レンダリング - ドライバーのインストールが完了したら、次のコマンドを使用して確認することをお勧めします。 ~$ clinfo | grep "ドライバーバージョン" ドライバーバージョン 23.43.27642.67 1.3 Intel® Xeon® W プラットフォーム上の GPU 用 HDMI ディスプレイの設定- まず、AST カードを無効にします。 ~$ sudo vim /etc/modprobe.d/blacklist.conf - ファイルの末尾に「blacklist ast」を追加します。 ~$ sudo update-initramfs -u - 次に、ウィンドウ システムを Wayland モードに設定します。 ~$ sudo vim /etc/gdm3/custom/conf - WaylandEnable を true に設定します。 - 完了したら、初期RAMファイルシステム(initramfs)を更新し、システムを再起動します。次に、HDMIケーブルを最初のIntel A770グラフィックスカードに接続して、ディスプレイ端末のセットアップを完了します。 # sudo update-initramfs -u ~$ sudo 再起動 1.4 監視ツールxpu-smiのインストール- XPUデバイスのステータス情報を監視および管理するためのxpu-smiツールは、xpumanagerリポジトリからインストールできます。xpumanagerをダウンロードし、以下のコマンドを実行してください。 ~$ wget https://github.com/intel/xpum...\_1.2.27\_20240103.051106.5eeb3f13.u22.04\_amd64.deb –no-check-certificate ~$ sudo apt インストール ./xpu-smi\_1.2.27\_20240103.051106.5eeb3f13.u22.04\_amd64.deb ~$ xpu-smi 検出 - 結果は以下の通りです。 2. 大規模モデルサービスとチャットボットのデモ2.1 コンテナ(Docker)のインストールとサービスのセットアップIPEX-LLMを使用すると、Docker経由でIntel A770グラフィックスカード上でvLLMサービスを実行できます。Dockerのインストール手順については、https://docs.docker.com/engin... を参照してください。 - 次のコマンドを使用して、CPU クロック速度を最大ターボ周波数に設定し、グラフィック カードのクロック速度を 2.4GHz に固定します。 ~$ apt-get install linux-tools-6.5.0-35-generic linux-cloud-tools-6.5.0-35-generic \# 最大ターボ周波数を照会します。W3445 の場合、最大ターボ周波数は 4.8GHz です。 ~$ sudo cpupower 周波数設定 -d 4.8GHz ~$ sudo xpu-smi config -d 0 -t 0 –周波数範囲 2400,2400 ~$ sudo xpu-smi config -d 1 -t 0 –周波数範囲 2400,2400 ~$ sudo xpu-smi config -d 2 -t 0 –周波数範囲 2400,2400 ~$ sudo xpu-smi config -d 3 -t 0 –周波数範囲 2400,2400 2.2 vLLMサービスをインストールして起動する次の vllm バージョンをダウンロードしてインストールします。 ~$ docker pull intelanalytics/ipex-llm-serving-xpu:2.2.0-b11 https://hf-mirror.com から LLM モデルをローカル フォルダー (例: /home/worker/LLM) にダウンロードします。 - モデルの精製バージョンを https://hf-mirror.com/collect... からダウンロードします。 - 次のスクリプトを /home/intel/Demo-4xArc の bachkend-ipex-docker.sh ファイルに配置します (次の操作は、例として DeepSeek-R1-Distill-Qwen-32B バージョンに基づいています)。 - 次のスクリプトを vllm-deepseek-r1-distill-qwen-32b-openaikey.sh ファイルに配置します。 - 次に、コンテナと vLLM サービスを開始します。 ~$ sudo bash backend-ipex-docker.sh ~$ docker exec -it ipex-llm-b11 bash ~$ cd ワークスペース & bash vllm-deepseek-r1-distill-qwen-32b-openaikey.sh - 次のログは、DeepSeek 推論サービスが正常に開始されたことを示しています。 2.3 Ollam Web UIを使用したパフォーマンステスト開発者は、Ollam Web UI をローカルで使用して LLM 推論のパフォーマンステストを実行できます。例えば、DeepSeek 推論サービスの IP アドレスが 192.168.10.110 の場合、Windows PowerShell で次のコマンドを実行し、パスワードを入力してリモートサービスポートをローカルマシンにマッピングします。 ユーザー> ssh -L 8001:localhost:8001 [email protected] – Ollam Web UI URL (https://web.chatboxai.app/) を開きます - 「ユーザー独自の API キー / ローカル モデル」を選択し、「カスタム プロバイダーの追加」をクリックして、以下の画像のように、DeepSeek 修正モデル名とその他の情報を手動で入力して設定します。 - - したがって、ユーザーは Ollam Web UI で大規模言語モデルに質問して、その推論パフォーマンスをテストできます。 - vllmサービスログは、現在のパフォーマンスステータスを表示できます。図に示すように、複数のIntel® ROG™ A770グラフィックスカードをベースにした推論サービスは、一貫して30トークン/秒以上のパフォーマンスを達成しています。 イノベーションは止まらない: まったく新しい 24GB Sharp™ グラフィック カードとフルパワーの DeepSeek R1 ソリューションが登場します。この展開ガイドでは、4 ウェイ Intel® Radiant™ A770 グラフィックス カード ソリューションに焦点を当て、DeepSeek-R1-Distill-Qwen-32B バージョンを例として使用していますが、実際の調査はこれに限定されません。 このソリューションは、DeepSeekのすべての蒸留に対して、同じ柔軟なサポートを提供します。ユーザーは入力モデル名と並列で使用されるGPUの数(`--tensor-parallel-size`パラメータで制御)を調整できます。 一方、マルチソケット インテル® Radiant™ GPU + インテル® Xeon® スケーラブル・プロセッサー/Xeon® W プロセッサー ソリューションの主要ターゲットは、引き続きピーク性能版の DeepSeek-R1-671B であり、その構成および最適化手法はまもなく提供される予定です。その技術ロードマップでは、Xeon® プロセッサーに内蔵された AI アクセラレーション技術 AMX のポテンシャルを最大限に引き出す KTransformer ベースのソリューションと、16 基のインテル® Radiant™ GPU を搭載した単一マシンでより高密度な GPU 構成を実現するソリューションが同時にカバーされると予想されます。 もう一つのエキサイティングな開発は、生産性向上アプリケーション向けに特別に設計された次世代Intel® Core™ Aura Spectrum B580 24GBグラフィックスカードのリリースです。4枚のカードを組み合わせることで96GBのビデオメモリを搭載できるため、ユーザーは1台のマシンで、より大きなパラメータを持つDeepSeekサービス(DeepSeek-R1-671Bバージョンなど)をより容易に導入できます。これにより、実環境において、より低コストで容易に導入できるフル機能のDeepSeekサービスを実現できます。 |
60,000 円未満の 4-way Radiant™ グラフィック カード + Xeon® W プロセッサを使用して DeepSeek を実行するためのステップ バイ ステップ ガイド。
関連するおすすめ記事
-
GPT-4がまだアメーバだとしたら、未来のティラノサウルス・レックスはどんな姿になるのだろうか? | ユヴァル・ノア・ハラリ著『Above Homo』
-
OpenAI は推論コンピューティング能力の新しいスケーリング法を開拓し、AI PC と CPU にチャンスを創出しています。
-
Yao Qizhi 氏のチームは、パフォーマンスを犠牲にすることなくメモリを 90% 節約し、MHA/MQA/GQA を単一のフレームワーク内に統合する新しいアテンション メカニズムをオープンソース化しました。
-
世界初の AI 搭載ストリーミング音楽アプリが登場! 中国製。
-
マルチモーダルDeepSeek-R1:ベンチマークでGPT-4oを上回り、モーダルペネトレーションによりテキスト推論能力を強化!北京大学と香港科技大学によって開発され、オープンソース化されました。
-
LLM 推論パフォーマンスは出力形式によって影響を受けますが、JSON は最も大きな影響を受けます。