618ZXW

BaiduがSoraの買収を断念した背景には何があるのでしょうか?同社のマルチモーダル戦略とはどのようなものなのでしょうか?

ChatGPTが中国で「百モデルの戦い」を引き起こしたとき、Baiduは最初に文心易言に回答を提出した。

SORAは新たな動画生成のトレンドを巻き起こしたが、百度のCEOであるロビン・リー氏が社内スピーチで「SORAがどれだけ人気になっても、百度はそれを追求しないだろう」と述べたとの噂が浮上した。

突然、混乱、当惑、論争が次々と起こりました。

これらのコメントに対して、ロビン・リー氏は最近終了した百度世界会議後のインタビューで公に回答した。

彼は、Sora を作成しないという決定を繰り返しただけでなく、Baidu がマルチモーダル コンピューティングをどのように活用し、開発しているかについても説明しました。

カンファレンス中、ロビン・リー氏はiRAGテクノロジーを発表しました。これは、Baiduが今年初めから注力している重要な分野です。このテクノロジーは、AI分野における最も困難な「錯覚」問題の解決を目指しています。興味深いことに、この開発はSORAの人気が最高潮に達した時期と重なっていました。

Baidu の選択の理由は何ですか?

百度2024世界会議

幻覚問題の解決を加速する

まずはiRAGテクノロジーから始めましょう。これは、画像生成における錯覚の問題を解決します。

今年の初め、私たちはソラの開発ではなく、幻影の解決にリソースを集中させました。なぜでしょうか?

これを百度世界会議のテーマ「アプリケーションはここにある」の文脈で理解するには、次のようになります。

幻覚は大規模モデルの大規模応用に対する大きな障害となっている。

現代社会では、電卓は絶対的な信頼を得ています。入力が正しければ、計算結果はワークフローの次のステップで完全に信頼して使用できます。

しかし、幻覚を起こしやすいことが知られている大規模なモデルに対しても、同じレベルの信頼を与えることができるのでしょうか?

文小艶アプリ新バージョンのイラスト

幻覚の存在は、モデルの動作が完全には制御可能ではないことを示し、完全に信頼できない自動化されたワークフローでは依然として人間の介入が必要になります。

AI アプリケーションはこのジレンマに直面しています。

実際、ChatGPT の登場以来、大規模モデルの錯視問題にさまざまな方法で対処することで、大規模モデルにいくつかの大きな改善が加えられてきました。

長いコンテキスト ウィンドウにより、モデルはより完全な入力を取得できるようになり、不完全な情報による誤った推論が削減されます。

RAG (Retrieval Augmentation Generative) は、モデル パラメータに保存されている知識の不足を補うために、外部の知識ベースから補足情報を取得します。

オンライン検索により、リアルタイムで動的な情報が提供され、モデルの知識の境界が拡大します。

ゆっくり考えると、推論のプロセスをステップに分割することで直感的なエラーが減り、推論プロセスの解釈可能性が向上します。

ある意味、マルチモーダル技術はモデルに追加の情報入力方法も提供するので、視覚情報を見ることができない場合でも、タスクを完了するために情報を空から作り上げる必要がありません。

...

ではもう一度まとめると、なぜ今、幻覚問題の解決が AI 業界にとって緊急の課題となっているのでしょうか?

技術的な観点から言えば、幻覚の問題に対処しなければ、モデルの動作の限界を予測して制御することは困難です。

アプリケーションの観点から見ると、錯覚の問題は AI 製品に対するユーザーの信頼を妨げます。

業界の観点から見ると、錯覚問題を解決することは、AI アプリケーションの範囲を拡大し、AI システムの商業的価値を高めるために不可欠です。

百度に目を向けると、AIの錯覚問題を解決することがまさに百度の「主戦場」だ。

iRAG は、Image-based Retrieval-Augmented Generation の略で、Baidu の長年の検索経験を融合し、画像生成の制御性と精度を大幅に向上させた、まったく新しい検索強化テキスト画像変換パラダイムです。

その核心は、Baidu の膨大な画像リソースと Wenxin ビッグデータ モデルの生成機能を組み合わせ、共同最適化を通じて、生成された画像をよりリアルで信頼性の高いものにすることです。

百度2024世界会議

具体的には、iRAGはまず検索モジュールを用いて、膨大な画像ライブラリからテキスト記述に最も関連性の高い画像をいくつか見つけます。次に、それらの視覚的特徴を抽出し、テキスト特徴とともに生成モジュールに入力します。生成モジュールはこれに基づいて画像を理解、再構成、革新し、最終的に要件を満たす高品質の新しい画像を出力します。

文鑫が製作したフォルクスワーゲン・レンジローバーのモデルが万里の長城を飛び越える

iRAG は認知知能(検索)と生成知能(創造)を巧みに組み合わせ、互いの長所と短所を補完していると言えます。

一方で、大量の画像を参照することで、生成はより「現実的」になり、幻覚や禁止コンテンツなどの問題が大幅に軽減されます。

一方、強力な生成機能により、単純なコラージュや修正をはるかに超えた、より多様でクリエイティブな出力画像が可能になります。

さらに重要なのは、iRAGは多くの業界で幅広い応用が期待できることです。特に、AI生成画像の作成コストを大幅に削減できます。例えば、映画・テレビ番組制作やアニメーションデザインにおいて、iRAGはテキストスクリプトから高品質なストーリーボードやコンセプトアートを直接生成できるため、中間工程における手作業の介入を大幅に削減できます。

マルチモーダルアプローチ、Sora がより現実的な選択肢です。

幻覚の問題が AI 業界の優先事項であることを明確にした上で、百度は別の問題にも取り組む必要があります。マルチモーダル コンピューティングは、AGI (Automatic Gaining Intelligence) に向けた重要なステップとしてすでに広く認識されています。

マルチモーダル処理は、AIシステムの知覚と理解能力の向上に役立ちます。視覚、音声、テキストなど、異なるモダリティからの情報を処理することで、AIは環境をより包括的に認識し、認知能力と対話能力を向上させ、人間が複数の感覚を通して世界を認識する方法と整合させることができます。

ただし、Sora のアプローチはマルチモーダル テクノロジーの全体を代表するものではないことを明確にする必要があります。

まず、Soraのような汎用動画生成モデルの開発には、莫大な投資が必要になります。市場調査会社Facilitative Fundsのレポートによると、 Soraモデルの開発には、4,200~10,500個のNvidia H100 GPUを用いた少なくとも1ヶ月間の学習が必要と推定されています。Soraが広く普及した場合、需要を満たすには約72万個のNvidia H100 GPUが必要になります。Nvidia H100 AIアクセラレータカード1枚あたりのコストを3万ドルと仮定すると、72万枚のカードには216億ドルの費用がかかります。

現在、一般的な動画生成モデルは「iPhone Moment」の技術的成熟度にはまだ程遠い。あるアーティストとのコラボレーションによる短編映画「Air Head」には、AIが生成した素材の約300分の1が最終カットに使用されており、かなりの人間が関与していたことが後に明らかになった。

画像出典:fxguide.com

現在、ビデオ生成アプリケーションの市場は、短編ドラマコンテンツ制作から映画・テレビの特殊効果制作まで多岐にわたります。ビデオ生成技術の可能性を探る多くの取り組みが行われていますが、成熟した商業化ソリューションと安定した収益モデルはまだ構築されていません。

実際、マルチモーダル アプリケーションには Sora 以外にも複数のパスがあります。

Metaの主任科学者であり、チューリング賞受賞者のヤン・ルカン氏は、一貫して「世界モデル」アプローチを堅持してきました。彼は、動画生成のプロセスは世界モデルに基づく因果予測とは全く異なると考えており、ピクセル生成による世界モデル化は無駄であり、失敗する運命にあると考えています。

一方、スタンフォード大学のフェイフェイ・リー教授は、身体化された知能を重視しています。彼女は、AIは単に「見る」だけでは不十分だと考えています。「見ることは行動と学習のためなのです」。例えば、ロボットアームは大規模な言語モデルを通して、ドアを開けたり、サンドイッチを作ったり、人間の言葉による指示に応答したりするといったタスクを実行できます。

Baidu のマルチモーダル テクノロジーに対する理解は、最近、デジタル ヒューマンのシナリオで実証されました。

百度は2019年にデジタルヒューマン分野への進出を開始し、音声複製、リップシンク、表情モーションキャプチャといった一連の主要技術を駆使しています。現在、百度のデジタルヒューマン「希凌(シーリン)」と「匯博星(フイボスター)」は、ニュース放送やライブストリーミングeコマースなどの分野で広く活用されています。

百度恵博星電子商取引デジタルヒューマン

ロビン・リー氏が強調したように、Baidu が Sora を開発しないという決定は、同社がマルチモーダル コンピューティングの分野から姿を消すことを意味するわけではない。

デジタル人間の音声を唇の動きや動作と同期させる問題は、一般的なシナリオではビデオ生成によって最終的に解決される可能性がありますが、これには長い時間がかかり、非常にコストがかかります。

しかし、もっと簡単で低コストな方法があるので、まずはビジネスを立ち上げてみてはいかがでしょうか?

まず、一般的なソリューションは「大規模かつ包括的な」アプローチを追求し、単一のモデルであらゆるシナリオをカバーしようとします。しかし、このアプローチはまだ技術的に成熟しておらず、パフォーマンスに一貫性がないことがよくあります。対照的に、デジタルヒューマンは特定の垂直分野に焦点を当てることで、より正確なモデルの最適化と、究極のヒューマンコンピュータインタラクション体験の追求を可能にします。

第二に、ビデオが生成されると、それは固定された素材となり、リアルタイムのインタラクティブ機能が欠けています。一方、AI 駆動型デジタル ヒューマンは、動的なマルチターン ダイアログを実現し、ユーザーのフィードバックに基づいてリアルタイムで状態を調整することもできます。これは、現実世界のアプリケーションのニーズにより合致しています。

最後に、動画生成には非常に高い計算能力とデータが必要であり、現在それを真に使いこなせる企業はごくわずかであるため、商業化は極めて困難です。一方、デジタルヒューマン技術は参入障壁が比較的低く、応用シナリオも明確であるため、容易に模倣可能なビジネスモデルを構築し、データによる収益化を実現できます。

AIの大規模導入にはどのような条件が必要ですか?

画像の錯覚の問題の解決に投資するにせよ、ビジネスニーズに基づいたマルチモーダルアプローチを開発するにせよ、Baidu の目標は Robin Li 氏の言葉「より多くの人々がテクノロジーを利用できるようにすること」を中心に展開しているようだ。

ロビン・リー氏は最近、「モデル自体は直接的な価値を生み出すものではない」という点を強調しています。モデルをベースに様々なアプリケーションを開発し、様々なシナリオにおいていわゆるプロダクト・マーケット・フィット(PMF)を見つけることによってのみ、真の価値を生み出すことができるのです。

Baidu がすべきことは、個人や企業がアプリケーションを開発するためのインフラストラクチャを提供し、より多くの人々や企業が何百万もの「非常に便利な」アプリケーションを作成できるように支援することです。

長期的には、錯覚問題を解決することで産業応用の障害が取り除かれ、AI技術をより幅広い分野で応用・推進できるようになります。

マルチモーダル テクノロジーを使用してビジネス ニーズをサポートし、最初にビジネスを実行できるようにすることで、より多くの AI アプリケーション シナリオを誰もが使用できるようになります。

同時に、多数の業界アプリケーションによって生成されたデータは、 AGI の発展に豊富な栄養を提供し、好循環を形成し、データのフライホイールを高速で回転させ、 AGI に向けたペースを加速させます