|
データホエール Datawhaleソリューション チーム: Wuwenxin Qiong 大規模モデルサービスプラットフォーム 複数のビジネス微調整モデルを導入すると、コストと管理の複雑さに関連する課題が生じます。 現在、 LoRAのファインチューニングは、多くの企業にとってモデルのパフォーマンスを向上させるための重要な手法となっています。実験では、特にオープンソースベースのモデルにおいて、特定のタスクに対するLoRAのファインチューニングは、 GPT-4などのクローズドソースモデルを大幅に上回るパフォーマンスを発揮することが示されています。 ますます多くの企業が、特定のタスクに合わせて効率的なAIモデルをカスタマイズするために、LoRAファインチューニング技術を採用しています。例えば、採用業界では、質問、フォローアップ、質問への回答など、面接の様々な段階に合わせて、特化したカスタムモデルをトレーニングできます。 しかし、実際のビジネスシナリオにおいてモデルが最適に機能することを保証するには、段階的な導入に加え、継続的な微調整と最適化が必要です。複数のシナリオにわたってLoRAモデルを微調整することは、複雑さとコストの増加につながります。 100のビジネス微調整モデル展開の課題:コスト、時間、労力がかかる 大規模モデルの導入に精通している人は、100 70億のLoRA微調整モデルを導入するには、膨大な計算能力、人員、そして時間が必要であることをご存知でしょう。オープンソースの推論フレームワークを用いた従来の導入方法では、通常、以下の作業が必要になります。
コンピューティング能力、人員、時間といった明らかなコストに加えて、従来の導入ソリューションには多くの「隠れたコスト」も存在します。
これらの問題を解決するのに役立つケーススタディを紹介します。 カード投資を一切行わず、企業は 1 時間以内に 100 個の 7B 微調整モデルを簡単に導入できます。 人材紹介業界の著名なインターネット企業は、Wuwenxinqiongと提携し、GPUカードを100枚も購入することなく、わずか1時間で7B LoRA微調整モデル100個を展開しました。さらに、これらの100個のモデルは、その後特別なメンテナンスや管理も必要ありませんでした。 Infini-AI Heterogeneous Cloud Platform の Large Model Service Platform は、シンプルで低コストのソリューション「Lora Self-Deployed Model Service」を提供します。 特に以下のシナリオでの使用をお勧めします。
1. モデルのデプロイメントは API のデプロイメントと同じくらい簡単なので、デプロイメントの複雑さが軽減されます。 LoRA ファイルをアップロードしてベースモデルを選択するだけで、わずか 5 秒で 70 億の LoRA 微調整モデルをデプロイできるため、モデルのデプロイは API を呼び出すのと同じくらい簡単になります。 2. GPUを購入する必要がないため、大規模導入のコストを削減できます。 さらに、アルゴリズムエンジニアは1時間以内に100個のモデルをデプロイし、最適化されたパフォーマンスを1日以内に評価できるようになります。また、モデルが使用するトークン数に基づく課金モデルにより、企業が100枚のGPUカードを購入するコスト負担が軽減され、コンピューティングパワーへの投資を大幅に削減できます。 3. トラフィックに基づいてリソース割り当てを自動的に調整し、リソース使用率を最大化します。 コスト問題を解決した後、100のLoRA微調整モデルサービス全体にわたって、高呼び出しモデルの10%の応答速度をどのように確保すればよいでしょうか?「LoRAセルフデプロイモデルサービス」は、弾力性のある自動スケーリングもサポートしており、トラフィックに基づいてリソース割り当てを自動的に調整し、高呼び出しモデルの応答速度を確保します。 さらに、モデルをデプロイすれば、100個のLoRA微調整モデルサービスの管理と保守に専任の担当者を配置する必要はありません。Infini-AI Heterogeneous Cloud PlatformとLarge Model Service Platformがマネージドサービスを提供します。 私もニーズがあり、カスタマイズされたソリューションを望んでいます。 Wuwenxinqiongは、清華大学電子工学部の教授兼学部長である王宇教授によって2023年5月に設立され、清華大学電子工学部の博士号を取得した夏立雪氏が共同設立者兼CEOを務めています。 Infini-AI Heterogeneous Cloud Platform の LoRA 自己展開モデル サービスは、企業にシンプルで低コストの展開方法を提供し、モデル展開時の高額な展開コスト、リソース使用率の低下、繰り返しの展開といった問題から企業を解放します。 QR コードをスキャンするか、「原文を読む」をクリックしてリクエストを送信すると、Wuwenxinqiong がお客様のニーズに合わせて 1 対 1 のサポートを提供します。 |