618ZXW

Llama 3.1は売れない!業界関係者曰く、オープンソースモデルの方が実は高価らしい。

Meta のオープンソースの大規模モデル Llama 3 は市場であまり歓迎されておらず、大規模モデルをオープンソースにすべきかクローズドソースにすべきかについての議論がさらに激化しています。

The Information によると、Meta のオープンソースの大規模モデル Llama 3 は、世界最大のクラウドプロバイダーである Amazon の AWS で普及するのに苦戦しており、AWS のエンタープライズ顧客はAnthropic のクローズドソースの大規模モデル Claude を好んでいるとのことです

Microsoftの関係者によると、 LlamaはMicrosoftにとって最有力な選択肢ではないとのことです。彼らは、エンジニアやデータサイエンティストといったデータに関する専門知識を持つ企業にLlamaを推奨しています。

Metaは現在、企業のニーズに直接対応するために、独自のAI製品販売チームを立ち上げる必要性に迫られる可能性のある課題に直面しています。これらの問題は、大規模なオープンソースモデルの商用化の難しさを浮き彫りにしています。市場の観点から見ると、オープンソースモデルの実際の有効性と商業的収益は、企業顧客の期待を満たしていない可能性があります。

オープンソース vs. クローズドソース」という問いに対し、国内主要モデルベンダーは、それぞれの技術ロードマップや事業戦略に基づき、大きく異なるスタンスをとっています。では、企業はどのように大規模モデルを選択し、両者の最適なバランスを見出すべきなのでしょうか。

このような背景から、百度スマートクラウドAIおよびビッグモデルプラットフォームのゼネラルマネージャーであるXin Zhou氏がメディアインタビューに応じ、オープンソース対クローズドソースの議論の背後にある論理とビジネス戦略の詳細な分析、および将来の市場の予測を提供しました。

Xin Zhou氏は、オープンソースの大規模モデルとオープンソースソフトウェアの間には根本的な違いがあると考えています。オープンソースモデルは、学習用ソースコード、事前学習データ、微調整データなど、モデルのパフォーマンスに影響を与える重要な情報を公開していません。そのため、オープンソースソフトウェアのように、コミュニティ開発者の参加に頼ってパフォーマンスと効率を向上させることはできません。一方、ベースモデルの学習はベンダー自身によってのみ制御可能です。

オープンソースモデルとクローズドソースモデルのどちらがコストが高いかという議論において、周鑫氏は、オープンソースモデルは無料であり、低コストの印象を与える一方で、大規模モデルの適用には単一の技術ではなく、技術とサービスを組み合わせた包括的なソリューションが含まれると述べた。企業は全体的なコストを考慮する必要がある。実際のビジネス実装において、クローズドソースモデルと同じ成果を得るには、その後に多大な人材、資本、時間の投資が必要となり、結果として全体的なコストが高くなる

オープンソースモデルとクローズドソースモデルはどのようなシナリオに適しているのでしょうか?Xin Zhou氏は、オープンソースモデルは学術研究には適しているものの、公共サービスを提供する大規模な商業プロジェクトには適していないと考えています。数百万ドル、あるいは数千万ドル規模の投資を伴う本格的なプロジェクトでは、クローズドソースモデルが依然として主流のアプローチです

「オープンソースモデルは安くはありません。」

以下はインタビューの編集された完全な記録です。

1. 大型模型市場において、各模型メーカーはどのような役割を果たし、どのようなビジネスモデルを展開しているのでしょうか。

鑫周:この壮大なモデルの祭典では、各メーカーがそれぞれ異なるポジショニングとビジネスモデルを持っていますが、それは大きく分けて3つのカテゴリーに分けられます。

クラウドプロバイダーにとって、最初のビジネスモデルは基本的にコンピューティングリソースの販売です。スケールアップによってコストを削減し、リソースの弾力性を高めることで収益性を高めており、これが彼らの永続的なビジネスモデルです。オープンソースモデルであろうとクローズドソースモデルであろうと、コンテンツが自社のサーバーでホストされている限り、クラウドプロバイダーは収益を上げることができます。

2つ目のタイプのプレーヤーは、クラウドプロバイダーとモデルプロバイダーの両方です。彼らは、モデル呼び出しを通じてビジネスをクラウドへと誘導したいと考えています。現在、モデルAPI呼び出しのみからの利益率は依然として非常に低いため、有利な市場シェアを獲得し、大規模なモデル分野における新たな事業拡大の機会を継続的に模索することを目指しています。

3つ目のカテゴリーは、スタートアップモデルベンダーです。大手クラウドベンダーがモデルの価格引き下げを発表したことで、スタートアップモデルの利用量は大幅に減少しました。大規模モデル市場は、まもなく少数の大手クラウドベンダーによる激戦区となるでしょう。大規模モデルのスタートアップ企業は、特定の業界に特化するか、B2Bのプライベートプロジェクトを展開するか、B2C製品への転換を図るでしょう。

2. 「オープンソース モデルは安価ではなく、テクノロジはますます時代遅れになる」と言われるのはなぜですか?

Xin Zhou :まずは、時代遅れの技術の問題から始めましょう。

まず、大規模なモデルをオープンソース化しても、必ずしもモデルのパフォーマンスが向上するわけではありません

AndroidモバイルオペレーティングシステムやMySQLデータベースソフトウェアなどのオープンソースソフトウェアとは対照的に、すべてのオープンソースソフトウェアはソースコードが完全に公開されており、あらゆる分野の開発者が開発に参加できます。これはソフトウェア開発コストの削減だけでなく、ソフトウェアのイテレーション(反復開発)の加速とソフトウェアセキュリティの向上にもつながります。これがソフトウェアにおけるオープンソースの価値です。

オープンソースモデルは、モデルのトレーニングソースコード、パラメータの重み、トレーニングデータを含むため、はるかに複雑ですしかしながら、現在、モデルベンダーは一般的にパラメータの重みのみをオープンソース化し、トレーニングソースコードとトレーニングデータは非公開のままです。そのため、開発者はモデルを改良することができず、ひいてはパフォーマンス向上に貢献することができません

例えばLlamaの場合、モデルパフォーマンスの向上はすべてMeta自身のトレーニングの結果であり、開発者の介入によるものではありません。Llama2とLlama3はネットワーク構造に大きな違いはありませんが、Llama3は何を最適化しているのでしょうか?まず、多段階トレーニングなど、トレーニングプロセスを最適化します。次に、より多くのデータを追加します。Llama2とLlama3のデータは桁違いに異なります。データとトレーニング時間の増加は、モデルパフォーマンスの向上につながります。

しかし、これらのプラス効果はすべて Meta 自身によって達成されたものであり、開発者の力を十分に活用することは不可能であり、オープンソース ソフトウェアのようなコミュニティ フィードバック プロセスもありませんでした。

第二に、継続的なモデルの反復を保証する健全なビジネス モデルがないため、オープン ソース モデルはますます時代遅れになってしまいます

モデルの学習とデータのラベル付けには非常にコストがかかります。Metaのような企業がオープンソースモデルの継続的な開発をサポートできるリソースを持っていない限り、オープンソースモデルを持つスタートアップはクローズドループのビジネスモデルを構築できません。さらに、開発者はモデルの性能向上に貢献できないため、スタートアップはこの分野で必然的に遅れをとることになります。結果を見ると、最も優れたモデルは依然としてOpenAIのモデルであり、ベンチマークで上位にランクインしたモデルはすべてクローズドソースのモデルです。

さらに、オープンソースモデルがなぜ安価ではないのかについても考察しましょう。大規模モデルのアプリケーションは「テクノロジー+サービス」を組み合わせた包括的なソリューションを包含しており、大規模モデルを利用する企業は「総コストの算出」を行う必要があります。総コストはどのように算出するのでしょうか?

第一層はハードウェアリソースコストの計算です。クローズドソースのビジネスモデルには、トレーニングツールチェーンや推論ツールチェーンなど、対応するツールチェーンが付属しているため、これらのツールチェーンはオープンソースのものよりも優れたパフォーマンスを発揮します。顧客にとって、トレーニングだけでもハードウェアコストを約10~20%削減でき、推論を行うとさらに大きなコスト削減効果が得られます。ビジネス規模が大きいほど、削減効果は大きくなります。

2層目では、モデルがもたらすビジネスメリットを考慮します。同じパラメータスケールのモデルの場合、一般的にクローズドソースモデルの方がパフォーマンスが優れています。顧客によっては、精度が90%か95%かにそれほど敏感ではない場合もあります。しかし、商業広告などの一部のビジネスでは、CPMまたはCTRのわずか1パーセントポイントの違いが、広告プラットフォームの1日あたりの収益に数千万元もの差をもたらす可能性があります。このような場合、モデルのパフォーマンスに対する要求が高い企業は、よりパフォーマンスの高いクローズドソースモデルを購入する傾向があります。

3層目には、機会費用と人的資源費用が含まれます。クローズドソースのビジネスモデルを採用することで、より迅速な収束が可能になり、競合他社よりも早く新製品を発売できるようになります。クローズドソースのビジネスモデルでは、メーカーが既にモデルとハードウェアを適応・最適化しているため、顧客は成功体験を直接再現できます。しかし、オープンソースを使用する場合は、自ら適応・最適化する必要があり、結果としてコンピューティング能力とエンジニアリングのコストが高くなります。

したがって、エンタープライズ アプリケーション モデルでは「全体のアカウントを計算する」必要があると言われており、この全体のアカウント計算の結果は大きく異なります。

3. オープンソースハードウェアはなぜクローズドソースハードウェアよりもはるかに高価なのでしょうか?: ほとんどの企業顧客は、サプライチェーンのセキュリティと柔軟性を考慮する必要があるため、2種類以上のハードウェアを購入します。オープンソースモデルを各ハードウェアに適応させる必要がある場合、コストは非常に高くなります。

これはクローズドソースのビジネスモデルの利点を浮き彫りにしており、ソフトウェアとハ​​ードウェアの適応に伴うコストを大規模な販売によって分散させることができます。さらに、マルチコアへの適応は高度な技術を要する作業であり、BaiduのBaigeヘテロジニアスコンピューティングプラットフォームは、マルチコアの異種混合性に特化した広範な最適化が施されており、様々なハードウェアタイプに適応しています。Baige自体は、ハードウェアレベルでの様々な差異を吸収することができ、多数のアクセラレーションライブラリ、推論ライブラリ、トレーニングライブラリを提供しています。Baigeは、Wenxin大規模モデル向けのエンドツーエンドの最適化も提供しています。

顧客にとってのメリットは、使用するハードウェアに関係なく迅速に実行できるため、時間と人的資源を大幅に節約できることです。

4. オープンソース モデルとクローズドソース モデルはそれぞれどのようなシナリオに適していますか?

: 一般的なアプローチは次のとおりです。特定のビジネスシナリオで実験と検証を行いたい場合は、まずクローズドソースモデルを実行します。クローズドソースモデルはすぐに使用でき、迅速な検証が可能です。数百万元から数千万元規模の大規模な商用プロジェクトでは、規模と精度に対する要求が厳しく、企業にとってクローズドソースの商用モデルは依然として最良の選択肢です。効果とパフォーマンスに対する要求は高くないが、プライベートな展開が必要で、価格が特に重視されるビジネスシナリオでのみ、オープンソースモデルの活用を検討すべきです。

オープンソースは、推論のエンジニアリング性能の最適化や、事前学習および微調整データが結果に与える影響の分析など、学術研究の促進に有益です。学習コード、学習データ、命令微調整データなど、より多くのオープンソース化が可能になれば、学術研究や技術開発におけるオープンソースの価値はさらに高まります。モデルの重みのみが公開される場合でも、研究者にとって優れた基礎モデルとなります。

5. 一部のメーカーは、オープンソースモデルとクローズドソースモデルの両方を同時に追求したいと考えています。つまり、オープンソースモデルはユーザーを引き付けて大規模なエコシステムを構築し、クローズドソースモデルは商業化に特化しています。この考え方は実現可能でしょうか?

周新:実務経験がなければ実現可能のように思えます。しかし、現実は…

パブリッククラウドにおいて、各ベンダーが公開しているコールボリュームデータにおいて、クローズドソースモデルのコールボリュームはオープンソースモデルをはるかに上回っています。これは、オープンソースモデルがパブリッククラウドにおけるユーザー獲得やエコシステムの拡大において、実際には役割を果たしていないことを示しています。さらに、パブリッククラウドではオープンソースモデルとクローズドソースモデルのどちらでも微調整が可能であるため、顧客はパブリッククラウド上で最適なモデルを直接選択することになります。

この論理は、プライベートな導入においてはある程度理にかなっています。多くの企業は、まずオープンソースモデルをテストし、効果的だと判断すれば購入を決定します。多くの場合、同じソースのモデルの方がプロンプトへの適応性が高いため、対応するベンダーのクローズドソースモデルを選択します。この論理はこの場合にも当てはまります。しかし、この価値は徐々に低下しています。異なるベンダーのモデルの一般的な互換性が急速に向上するにつれて、切り替えコストは低下し、このモデルベースのアプローチの継承は徐々に排除されつつあります。

一部のメーカーは、自社のハードウェアを宣伝するためにオープンソースモデルを導入しています。例えば、NVIDIAはオープンソースモデルを導入しましたが、そのビジネスロジックは非常にシンプルです。モデルを使用するには、カードを購入する必要があるのです。

6. Baidu はなぜオープンソース モデルをリリースしないのですか?

Xin Zhou: さまざまなベンダーの問い合わせ量から、パブリック クラウドでは商用のクローズド ソース モデルに対する問い合わせが多く、一方でオープンソース モデルはパブリック クラウドにそれほど影響を与えていないことは明らかです。

民間市場では、顧客が大規模モデルへの理解を深めるにつれて、オープンソースかクローズドソースかという問題は徐々に重要性を失ってきています。多くの大企業の顧客とコミュニケーションをとる中で、ビジネスリーダーはモデルを採用するかどうかを決定する際に、有効性、パフォーマンス、セキュリティ、価格といった多くの要素を考慮していることがわかりました。モデルがオープンソースかクローズドソースかは、決定的な要素ではありません。

7. 企業がモデルを選ぶ際に最も重視するのは、効率性、性能、セキュリティ、そして価格だとおっしゃっていました。百度雲の「千帆大型機種一体型機」は、ハードウェアとソフトウェアを統合した新しいビジネスモデルを試みているのでしょうか?

周新:現在、企業は大規模モデルの活用を模索する段階にあり、大規模モデルのユースケースと効果を迅速に検証できる、低コストですぐに使える製品へのニーズが高まっています。中国ではプライベート導入の需要が非常に高いため、「千帆大規模モデルオールインワンマシン」はまさにこの段階に最適です。当社のオールインワンマシンはオープンで、様々なハードウェアと互換性があり、市場で主流のチップとモデルをすべて統合しています。百度AIクラウドの千帆大規模モデルオールインワンマシンは、以下の2つの機能を提供します。

まず、ハードウェアとソフトウェアの互換性を備えた統合プラットフォームを提供します。このプラットフォームには、Wenxin大規模モデルをはじめとする主流のオープンソース大規模モデルとシナリオアプリケーションテンプレートが含まれています。また、人気のオープンソースモデルも適応・最適化されているため、ユーザーは手動でモデルを調整することなく、オールインワンマシン上で直接実行できます。さらに、Qianfan大規模モデルオールインワンマシンは、大規模モデル向けの包括的なハードウェアとソフトウェアのソリューションを提供し、基本管理、AIフレームワーク、モデルトレーニング、予測・推論、シナリオアプリケーションを網羅し、エンドツーエンドのハードウェアとソフトウェアのサービスをお客様に提供します。

第二に、Qianfanの大型オールインワンマシンは、エンドツーエンドのパフォーマンス最適化を実施しており、すべてのハードウェアの能力を最大限に活用できるため、非常に高いコストパフォーマンスを実現しています。お客様は比較的低コストですぐに使い始めることができます。

全体的な価格から見ると、Qianfan オールインワン マシンは、サーバーや大型モデル、プラットフォームを個別に購入するよりもはるかに安価で、顧客はすぐに使用できます

8. 今では、基本的な大規模モデルを使用するだけでは不十分であり、大規模モデルの真の産業応用を実現するには、業界特化型モデルが必要だと考える人が増えています。では、企業が独自の業界特化型モデルを学習するには、現在どれくらいのコストがかかるのでしょうか?

Xin Zhou : コストは非常に高くなります。まず、学習するモデルのパラメータのサイズに依存し、このコストは線形に増加します。次に、データのサイズに依存します。最後に、データのラベル付けのコストがあります。

クラウドの弾力性のあるリソースを使って70ビットのモデルをゼロから学習させると、3,000万ポンドのコストがかかる可能性があります。より多くのパラメータを持つモデルを学習させると、コストは数億ポンドに達する可能性があります。これは経験豊富な人が学習することを前提としています。経験不足で、途中で回り道をする人がいると、コストはさらに高くなります。

9. コストがこれほど高い場合、企業は業界モデルを開発する必要があるかどうかをどのように判断すればよいでしょうか?

周欣:最初から結果を考慮せずに業界基盤モデルを構築することはお勧めしません。潜在的なリターンはともかく、コストは間違いなく高額になります。まずはニーズ分析を実施できるようお手伝いいたします。

例えば、横軸がタスクの感度、縦軸が業界データへの需要を表す座標系を考えてみましょう。タスクの感度とは、シナリオが業界やビジネスに深く関連しているかどうかを指します。例えば、医療分野では、これらは高度に専門化された問題です。縦軸は業界データへの需要を表します。業界が閉鎖的であるほど、そしてパブリックインターネット上で利用可能なデータが少ないほど、事前トレーニングの必要性が高まります。例えば、医療分野では、匿名化された医療記録情報をモデルに事前トレーニングする必要があります。

分析の結果、この座標軸の左下隅には業界特性が欠けており、業界データを必要としないため、一般的なモデルをそのまま使用できることがわかりました。しかし、右上隅は業界の業務特性に敏感であり、多くの業界データを必要とするため、業界モデルが必要となります。

私たちは通常、企業に 3 段階のアプローチを取るようアドバイスしています。

最初のステップは価値検証です。これは、大規模モデルのためのハードウェアとソフトウェアのインフラストラクチャを最初に構築し、業界全体にわたる予備的なモデルを構築することを含みます。比較的成熟した生成AIアプリケーションと組み合わせることで、結果を迅速に観察できます。例えば、Qianfan大規模モデルプラットフォームの軽量版と、インテリジェントカスタマーサービス、エンタープライズナレッジマネジメント、デジタルヒューマンなどの成熟したアプリケーションを組み合わせることで、これを実現できます。

第二段階は、様々なエンタープライズアプリケーションとの緊密な統合です。これには、大規模モデルインフラストラクチャのさらなる改善、大規模モデルに関するトレーニングと最適化だけでなく、アプリケーション開発プラットフォームも含む「千帆大規模モデルフラッグシップエディション」へのアップグレードが含まれます。百度とそのエコシステムパートナーは、企業内における大規模モデルの社内トレーニングと運用に深く関与し、技術的な雰囲気を醸成し、関連する人材を育成し、企業と協力してビジネス課題の深層に取り組み、より大きな価値をもたらします。

第三段階は、包括的なイノベーションと自主的なコントロールです。当社は大規模モデルとアプリケーション開発に必要な技術を習得し、それに応じた人材プールも備えているため、より自立的かつコントロールされた開発を行い、包括的なイノベーションを推進することができます。Baiduは長期的な技術サポートとアドバイザーとして、開発を支援し、継続的に新しい技術とソリューションを当社に提供します。

10. 来年の大型モデル市場についてどのように評価しますか?

周新:来年の開発動向については、3つの予測があります。

まず、マルチモーダルが新たな市場のホットスポットになるでしょう。

第二に、大規模モデルに基づくアプリケーションが急増し、エージェントが重要な方向性を担うでしょう。大規模モデルが規定された「入出力」アクションのみを実行するだけでは、その価値は大きく限定されてしまいます。モデルは、ツールの使用、協働、計画、思考、考察、反復といった人間に近い能力を持つべきです。特定のビジネスシナリオのニーズを満たすために、様々なコンポーネントやプラグインと統合する必要があります。そのため、エージェントは様々なモデルベンダーにとって、スケールアップの鍵となるでしょう。

第三に、ナレッジベース、カスタマーサービス、デジタルアンドロイド、コーディング支援といったエンタープライズアプリケーションの機会が拡大します。例えば、百度は大規模モデルを用いたコーディングを行う「文心クイックコード」という製品を有しており、既に百度社内で広く利用されています。採用率は46%、新規コード生成率は30%に達し、企業の開発効率を大幅に向上させています。同時に、AIアプリケーションを開発する企業が数多く登場するでしょう。これらの企業は、アプリケーションの導入・複製コストを十分に低いレベルにまで削減でき、運用効率が十分に高ければ、他社との差別化を図ることができるでしょう。