618ZXW

陸晨友と楊:GPT-4の瞬間をビデオで再現 ― 3年後に目撃できるもの | MEET 2025

アルトマン氏は、Sora はビデオ生成の大規模モデルにおける GPT-1 の瞬間を表していると述べた。

今年に入ってから、スタートアップ企業やユニコーン企業から大手インターネット企業まで、国内外の企業がビデオ生成分野に多額の投資を行い、一連の新しいモデルを導入して、ビデオおよび映画業界に大きな変化をもたらしています。

現在のビデオ生成モデルは、空間や物理法則の理解など、依然として多くの課題を抱えていることは否定できません。ビデオ生成におけるGPT-3.5/4時代の到来を心待ちにしています。

国内には、加速トレーニングに焦点を当て、この目標に向けて取り組んでいるスタートアップ企業があります。

ルーチェン・テクノロジーです。創業者の楊有博士はカリフォルニア大学バークレー校を卒業し、後にシンガポール国立大学の学長および若手教授を務めました。

今年、Luchen Technology は、アクセラレーテッド コンピューティングの取り組みに加えて、VideoOcean ビデオ生成モデルを開発し、よりコスト効率の高いオプションを業界にもたらしました。

MEET 2025では、You Yang博士も過去1年間のビデオ生成分野に関する理解と洞察を共有しました。

MEET 2025 Intelligent Future Conferenceは、QuantumBitが主催する業界サミットで、20名を超える業界代表者が議論に参加しました。1,000名を超える来場者と320万人を超えるオンライン視聴者が集まり、主要メディアからも大きな注目を集め、大きく報道されました。

中核的な視点の要約

  • ビデオ生成モデルは、きめ細かなテキスト制御、任意のカメラ位置/角度、文字の一貫性、スタイルのカスタマイズを実現する必要があります。
  • おそらく 3 年後には、ビデオ生成が GPT-3.5/GPT-4 に到達する瞬間が来るでしょう。
  • ビデオ生成による大規模モデルの直接的な応用例の 1 つは、現実の限界を打ち破り、現実世界のシーンを再現する難しさを大幅に軽減することです。

(楊有氏の見解をより良く伝えるために、QuantumBit は原文の意味を変えずに以下のように要約しました。)

3 年後には、ビデオ モデルに GPT-3.5 が導入される時期になるかもしれません。

本日はQuantumBitカンファレンスにお越しいただき、皆様とコミュニケーションをとることができ、大変嬉しく思っております。本日は、大規模ビデオモデルの分野で私たちが行ってきた取り組みの一部についてお話ししたいと思います。

まず、私自身と私のスタートアップ企業であるLuchen Technologyについてご紹介させてください。カリフォルニア大学バークレー校を卒業し、その後シンガポール国立大学で教鞭を執りました。Luchen Technologyを設立できたことを光栄に思います。

私たちは以前、コンピューティング能力の最適化に取り組んでいました。2018年、Googleは世界初の1,000カロリーのTPU Podを構築しました。当時、世界最大のモデルはBERTでした。私たちは、Googleが世界最大のモデルのトレーニング時間を3日から76分に短縮するのを支援しました。

また、昨年ACL最優秀論文賞を受賞したPangu大規模モデルに関するプロジェクトでHuaweiと協力できたことを光栄に思います。当社の技術は、HuaweiのPangu大規模モデルのトレーニング効率向上に貢献しました。MicrosoftやNVIDIAといった企業のチームも当社の技術を分散トレーニングに活用しており、大規模モデルのトレーニングをより迅速かつ低コストで実現できることを期待しています。

さて、今日の話題に移り、大規模なビデオ生成モデルの紹介に焦点を当てましょう。

私たちは「Video Ocean」という製品を開発し、現在テスト段階にあります。まずはこの製品についてご紹介した後、大規模動画モデルがどのように進化していくかについてお話ししたいと思います。

まず、大規模なビデオ モデルの最も重要な側面は、きめ細かなテキスト制御を実現できることだと思います。

私たちは既にAIを用いて大規模なモデルを生成しており、それが私たちの意図を正確に反映してくれることを期待しています。しかし残念ながら、例えばWenshengtuのようなアプリを使って画像を生成する場合、多くの画像コンテンツを正確に制御できないことがまだ多くあります。そのため、この分野にはまだまだ改善の余地があると考えています。

Video Oceanモデルの学習中に、いくつかの初期探索を行いました。良い例として、私たちが正確に描写できた動画があります。サングラスをかけ、長い無精ひげを生やしたヨーロッパ人男性です。この動画は明らかに、私たちが求めていた雰囲気を捉えていました。青い空、海岸線、ビーチ、逆光、片手にカメラを持つ手、黒いTシャツ、そして彼がカメラに向かって直接話している様子です。

今後 3 年間の AI ビデオ大規模モデルにとって最も重要なことは、ビデオ大規模モデルのスケーリング法則を実現することだと私は考えています。

このプロセスには、驚くほど高度な製品機能は必要ありません。最も重要なのは、モデルと現実世界とのつながりを最大限に高めることです。最終的には、人が何かを言ったり、説明したりすると、その説明を動画として正確に表示できるようになると考えています。

したがって、今後3年間で、AIビデオビッグデータモデルはサム・アルトマン氏の発言のようになると私は考えています。現在はビデオにおけるGPT-1の時代ですが、3年後にはビデオビッグデータモデルにおけるGPT-3.5またはGPT-4の時代が到来するかもしれません。

こちらは Video Ocean のデモです。これが私たちがこれまでに達成したレベルです。

2 番目のポイントは、将来の大規模ビデオ モデルで、任意のカメラ位置と角度をどのようにして実現できるかということです。

現在、映画やドキュメンタリーを撮影する際、スマートフォンやカメラを自由に持ち、振ることで、撮影シーンを自在にコントロールできます。将来のAI動画モデルは、まず第一にこれを実現する必要があります。つまり、同じ描写であっても、異なる角度やレンズから見ても、その見た目は変化せず、同じ被写体として映るということです。

さらに、将来のAIビデオビッグデータモデルは、多くの業界に革命をもたらす可能性があります。例えば、サッカーやバスケットボールの試合を観戦するとき、私たちが目にする映像は、現場のディレクターがワイドショットやクローズアップで見せてくれる映像です。

将来的には、大規模なAIビデオモデルを活用して、人間がカメラを操作し、視線をどこへ向けるかを決定できるようになるでしょうか。つまり、スタジアム内でコーチ陣、最後列、最前列へとテレポートするようなものです。カメラの位置と角度を制御できることが不可欠になります。この点において、大規模なAIビデオモデルが鍵となると私は考えています。Video Oceanはいくつかの初期段階の試みを行っており、その成果は有望です。

3 つ目の重要なポイントは、役割の一貫性だと思います。

大規模なAI動画モデルを作成するには、最終的には収益の創出と収益化が必要です。誰がこれに喜んでお金を払うでしょうか?例えば、広告スタジオ、広告主、eコマースブロガー、映画・テレビ業界などです。これらの業界を深く掘り下げると、役割の一貫性が重要なポイントとなります。

たとえば、商品の広告では、動画内の衣服、靴、車などは最初から最後まであまり変化させてはならず、オブジェクトやキャラクターも一貫性を保たなければなりません。

映画制作においては、主演俳優と主要な脇役の容姿は最初から最後まで変わらないようにしなければなりません。Video Oceanもこの点に関して優れた研究を行っています。

もう一つの側面は、スタイルのカスタマイズです。俳優の費用が現在非常に高く、小道具の費用も非常に高いことは周知の事実です。

AIによる映像モデリングが今後3年以内に本格的に発展すれば、例えば監督が俳優にプールで撮影させたシーンをAIで『タイタニック』や『アバター』の水泳シーンに変換するといった需要が出てくると思います。こうした能力こそがAIの得意とするところで、映像に映画的で芸術的な雰囲気を与えるのです。

つまり、大規模モデルの直接的な応用価値の 1 つは、現実の限界を打ち破り、現実世界のシーンを再現する際の難しさを大幅に軽減できることです。

こんなジョークを聞いたことあるかもしれません。ハリウッドの監督が爆発シーンを作りたいと考えていました。予算を計算した結果、まず城を建てて爆破するという案と、コンピューターシミュレーションを使う案がありました。ところが、コストを計算してみると、どちらの案も非常に高額で、コンピューターシミュレーションはさらに高額であることがわかりました。現在、AIは大規模なモデルを用いた映画制作コストの大幅な削減を目指しています。

これが実現すれば、撮影場所や天候といった外的要因の制約から解放され、生身の俳優への依存を減らすことができます。これは俳優の仕事を奪うことではありません。飛行機や建物から飛び降りる俳優や、爆発寸前の爆弾から人々を救助する俳優など、重要なショットの中には非常に危険なものもあるからです。将来的には、AIが俳優の身元と肖像権を提供するだけでこれらのショットを処理できるようになるため、映画業界のコストは大幅に削減され、効率性も向上します。

先ほど崑崙万為のFang Han氏がおっしゃったように、当社のコンピューティングリソースは限られていますが、アルゴリズムの最適化を改善することで、より良いトレーニング結果が得られることがわかりました。例えば、Metaは30Bモデルのトレーニングに6,000台以上のGPUを使用しています。また、1ヶ月以内に10Bバージョンのモデルをリリースする予定ですが、このモデルでは256枚のGPUしか使用していません。

Video Oceanは、私たちのチームが最初に開発したオープンソース製品「 Open-Sora」から生まれました。このオープンソース製品は完全に無料で、GitHubで優れた成果を上げています。例えば、アメリカのユニコーン企業Lambda Labsは「Digital Lego」という人気アプリケーションを開発しましたが、これはOpen-Soraをベースにしています。

今年初めにSORAがリリースされて以来、中国のKuaishouやDouyin、米国のInstagram、TikTok、Snapchatなど、ショートビデオ配信の大手企業が動画ビッグモデルに注目するようになりました。Snapchatの動画モデル「Snap Video」は既にリリースされており、公式論文でも動画ビッグモデルの学習に当社の技術が引用されています。これらの技術は、大手企業が動画ビッグモデルをより迅速かつ高精度に、そしてよりインテリジェンスに学習するのに役立っています。

皆様ありがとうございました!

Video Ocean のより詳細な機能を体験するには、https://video.luchentech.com をクリックしてください。