GPU を購入する必要がなく、1 時間以内に 100 個の微調整済みモデルを簡単にデプロイし、従量課金制で月額最大 100,000 を節約できます。

データホエール

Datawhaleソリューション

チーム: Wuwenxin Qiong 大規模モデルサービスプラットフォーム

複数のビジネス微調整モデルを導入すると、コストと管理の複雑さに関連する課題が生じます。

現在、 LoRAのファインチューニングは、多くの企業にとってモデルのパフォーマンスを向上させるための重要な手法となっています。実験では、特にオープンソースベースのモデルにおいて、特定のタスクに対するLoRAのファインチューニングは、 GPT-4などのクローズドソースモデルを大幅に上回るパフォーマンスを発揮することが示されています。

ますます多くの企業が、特定のタスクに合わせて効率的なAIモデルをカスタマイズするために、LoRAファインチューニング技術を採用しています。例えば、採用業界では、質問、フォローアップ、質問への回答など、面接の様々な段階に合わせて、特化したカスタムモデルをトレーニングできます。

しかし、実際のビジネスシナリオにおいてモデルが最適に機能することを保証するには、段階的な導入に加え、継続的な微調整と最適化が必要です。複数のシナリオにわたってLoRAモデルを微調整することは、複雑さとコストの増加につながります。

100のビジネス微調整モデル展開の課題：コスト、時間、労力がかかる

大規模モデルの導入に精通している人は、100 70億のLoRA微調整モデルを導入するには、膨大な計算能力、人員、そして時間が必要であることをご存知でしょう。オープンソースの推論フレームワークを用いた従来の導入方法では、通常、以下の作業が必要になります。

導入コスト: 24G グラフィックカード 100 枚。
展開方法: vLLM などの推論展開フレームワークを使用して、100 個の LoRA 微調整モデルを各グラフィックカードに順番に展開する必要があります。
導入サイクル：100個のLoRA微調整モデルを導入するには、コンピューティング能力の申請、承認、GPUリソースの調整など、複数のステップが必要です。経験上、全体のプロセスには最大1週間かかる場合があります。

コンピューティング能力、人員、時間といった明らかなコストに加えて、従来の導入ソリューションには多くの「隠れたコスト」も存在します。

リソースの無駄：100個のLoRA微調整モデルを従来のマージ手法でデプロイします。ベースモデルが同じであると仮定すると、各デプロイでベースモデルが1回ずつロードされるため、結果として99回のロードが繰り返されます。ベースモデルのロードに2分かかり、推論GPUメモリが14GBの場合、合計デプロイ時間は3時間以上増加し、1300GB以上のGPUメモリオーバーヘッドが発生します。
不均等なリソース割り当て：100個のLoRA微調整モデルのうち、通話量が多いのはわずか10%で、残りの90%は通話量が少ない。モデルごとに1枚のカードを使用する展開モデルでは、通話量が多い場合の応答速度を保証できず、30%以上のコンピューティングパワーがアイドル状態になっている。4090台あたり月額1万元とすると、毎月約4万元の無駄が生じることになる。
アルゴリズムチームは大きな作業負荷に直面しています。100 個の LoRA 微調整モデルのパフォーマンスが良好でない場合、最適化後にそれらを再展開するには 2 つのアルゴリズムと 1 営業日が必要となり、モデル反復サイクルの作業負荷の約 10% を占めます。

これらの問題を解決するのに役立つケーススタディを紹介します。

カード投資を一切行わず、企業は 1 時間以内に 100 個の 7B 微調整モデルを簡単に導入できます。

人材紹介業界の著名なインターネット企業は、Wuwenxinqiongと提携し、GPUカードを100枚も購入することなく、わずか1時間で7B LoRA微調整モデル100個を展開しました。さらに、これらの100個のモデルは、その後特別なメンテナンスや管理も必要ありませんでした。

Infini-AI Heterogeneous Cloud Platform の Large Model Service Platform は、シンプルで低コストのソリューション「Lora Self-Deployed Model Service」を提供します。

特に以下のシナリオでの使用をお勧めします。

多様なビジネスシナリオ: ビジネスシナリオは多数存在し、各シナリオでは特定のデータに基づいて独自の大規模モデルを生成するために微調整が必要です。
呼び出し量が少ない: 各ビジネスシナリオの呼び出し量は比較的少ないため、シナリオごとに大規模なモデルを個別に展開するとコストが非常に高くなります。

1. モデルのデプロイメントは API のデプロイメントと同じくらい簡単なので、デプロイメントの複雑さが軽減されます。

LoRA ファイルをアップロードしてベースモデルを選択するだけで、わずか 5 秒で 70 億の LoRA 微調整モデルをデプロイできるため、モデルのデプロイは API を呼び出すのと同じくらい簡単になります。

2. GPUを購入する必要がないため、大規模導入のコストを削減できます。

さらに、アルゴリズムエンジニアは1時間以内に100個のモデルをデプロイし、最適化されたパフォーマンスを1日以内に評価できるようになります。また、モデルが使用するトークン数に基づく課金モデルにより、企業が100枚のGPUカードを購入するコスト負担が軽減され、コンピューティングパワーへの投資を大幅に削減できます。

3. トラフィックに基づいてリソース割り当てを自動的に調整し、リソース使用率を最大化します。

コスト問題を解決した後、100のLoRA微調整モデルサービス全体にわたって、高呼び出しモデルの10%の応答速度をどのように確保すればよいでしょうか？「LoRAセルフデプロイモデルサービス」は、弾力性のある自動スケーリングもサポートしており、トラフィックに基づいてリソース割り当てを自動的に調整し、高呼び出しモデルの応答速度を確保します。

さらに、モデルをデプロイすれば、100個のLoRA微調整モデルサービスの管理と保守に専任の担当者を配置する必要はありません。Infini-AI Heterogeneous Cloud PlatformとLarge Model Service Platformがマネージドサービスを提供します。

私もニーズがあり、カスタマイズされたソリューションを望んでいます。

Wuwenxinqiongは、清華大学電子工学部の教授兼学部長である王宇教授によって2023年5月に設立され、清華大学電子工学部の博士号を取得した夏立雪氏が共同設立者兼CEOを務めています。

Infini-AI Heterogeneous Cloud Platform の LoRA 自己展開モデルサービスは、企業にシンプルで低コストの展開方法を提供し、モデル展開時の高額な展開コスト、リソース使用率の低下、繰り返しの展開といった問題から企業を解放します。

QR コードをスキャンするか、「原文を読む」をクリックしてリクエストを送信すると、Wuwenxinqiong がお客様のニーズに合わせて 1 対 1 のサポートを提供します。

618ZXW

GPU を購入する必要がなく、1 時間以内に 100 個の微調整済みモデルを簡単にデプロイし、従量課金制で月額最大 100,000 を節約できます。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ