|
速報: Sora のコア著者が Google World Model チームを率います! ソラ研究チームの2人のリーダーの1人であり、DALL-E 3の著者の1人でもあるティム・ブルックス氏は、世界中の才能ある人々に加わるよう呼びかける熱烈なツイートを投稿しました。 DeepMind は、多数の世界モデルを作成するという野心的な計画を立てています。 ブルックス氏は、2023年にカリフォルニア大学バークレー校で博士号を取得したばかりの、AI分野の新星です。 2023年1月から、ブルックス氏はSORAの研究チームを率い始め、2024年2月にSORAがデビューしました。 しかし昨年10月、ブルックス氏は突然、OpenAIを離れ、GoogleのDeepMindに移籍すると発表した。 当時、グーグル・ディープマインドCEOのデミス・ハサビス氏はこのツイートに返信し、ブルックス氏は「世界シミュレーターという長年の夢の実現」に貢献するだろうと述べた。 現在、ブルックス氏は Google の世界モデル チームを率いることになっており、チームをゼロから採用し、構築しています。 さらに、公式発表のツイートの重要な点を指摘する人もいた。 モデルとは、Google が 1 つの世界モデルだけではなく、多数の世界モデルを作成することを意味します。 公式発表ツイートの下のコメント欄は、ネットユーザーからの祝福の言葉でほぼ埋め尽くされていた。 Googleが新たな世界モデルチームを結成現在、ティム・ブルックスの LinkedIn と Twitter のプロフィールは両方とも次のように表示されています。 – DeepMindのビデオ生成+世界シミュレーション 「ビデオ生成」に関しては、ブルックス氏は高い評価を得た Veo 2.0 のリリース前に Google DeepMind に入社しました。 a16z の投資家たちは Veo 2.0 に驚嘆し、ビデオ モデルが 1 年足らずでこれほど急速に進歩したとは信じ難いと感じました。 現在、Veo 2 は VideoFX で利用可能で、来年には YouTube Shorts などのプラットフォームにも拡大される予定で、コンテンツ クリエイターにとって新たな可能性が広がります。 「ワールドシム」は、現在募集中の新チームが担うことになる重責となるはずだ。 ブルックス氏がリンクした求人広告によると、新チームはグーグルのジェミニ、ヴェオ、ジニーの各チームと協力し、これらの基盤を基に重要な新たな問題を解決し、世界モデルを最高レベルの計算に拡張するという。 チームは、構築された世界モデルをベースにした「リアルタイムインタラクティブ生成」ツールの開発に重点を置き、世界モデルを Gemini などの既存のマルチモーダルモデルと統合する方法を検討します。 公式情報によると、Google のワールド モデル チームは主に次の 2 種類の人材を採用しており、どちらも修士号または博士号が必要です。
(注:職種に応募する際に、希望する勤務地の具体的な給与範囲を添付することができます。) △科学者の要件(左画像)とエンジニアの要件(右画像) Google はまた、ビデオとマルチモーダル データ (強調追加) の事前トレーニングのスケーリングがAGI を実現するための重要な道であると考えていると述べています。 ワールドモデルは、視覚的推論とシミュレーション、具現化されたインテリジェントエージェントの計画、リアルタイムのインタラクティブエンターテイメントなど、さまざまな分野を推進します。 Google は(現在)世界モデルをどのように理解しているのでしょうか? 昨年末にリリースされた Genie 2を見ると、何らかの洞察が得られるかもしれません。 2024 年 12 月 5 日、Google は大規模なビデオ データセットでトレーニングされた自己回帰潜在空間拡散モデルである Genie 2 をリリースしました。 Genie 2は、1枚の画像から無限の種類の3Dゲームワールドを生成できます。生成された3Dワールドはキーボードとマウスの入力に反応し、プレイしたり操作したりできます。 以前の研究と比較して、Genie 2 は長期記憶を備えているため、プレイヤーが離れて戻ってきた場合でも、世界の既存の部分を安定してレンダリングできます。他の AI NPC もゲーム世界に存在し、プレイヤーが制御するキャラクターと複雑なやり取りを行うことができます。 しかし、最も重要な目標は、それで遊ぶことではありません。 Genie 2 は、具現化されたエージェントのトレーニングと評価に使用でき、豊かで多様な環境を作成することで、トレーニング中に AI が見たことのない評価タスクを生成します。 この研究はまだ初期段階にあり、エージェントと環境生成機能の面ではまだ改善の余地が大きいものの、Google は次のように述べています。 Genie 2 は、具現化されたエージェントを安全にトレーニングしながら AGI を実現するために必要な幅広さと汎用性を満たすソリューションであると考えています。 △Genie 2 は、プロンプトを通じてエージェントが正しいドアを開けるようにトレーニングできます。 世界モデル: 次の戦場?2024 年、AI テクノロジーは多方面で飛躍的な進歩を続け、ビデオ生成、世界モデリング、具現化インテリジェンス、空間インテリジェンスなどのテクノロジーが人間による AGI の探究を推進しました。 特にワールドモデルの分野では、多くのスタートアップ企業や大手テクノロジー企業がワールドモデルを追求しています。 ティム・ブルックスが助けを求める投稿を広く見た後、Reddit のネットユーザーがこのような感情を表明したのも不思議ではない。
実際、世界モデルは、モデルベースの強化学習作業に関して多くの AI 研究者が長年抱いてきた不満と期待を反映しています。 モデルの精度が十分でない場合、モデル内で完全にトレーニングされた強化学習は効果的ではありません。 正確な世界モデルが得られれば、そのモデル内で試行錯誤を繰り返して、現実世界における最適な決定を見つけることができます。 QuantumBit Think Tankの「2024年AIトレンドトップ10レポート」によると、世界モデリングの分野では、研究者たちは現実世界をシミュレートし理解できるモデルの開発に注力しています。その核心は、大量のデータから学習することで、モデルが自然に新しい行動や意思決定能力を発現できるようにすることです。 TechCrunchは、世界モデルを追い求める多くのプレーヤーの中には、Googleのようなテクノロジー大手以外にも、多くの輝かしいスタートアップ企業もあると指摘した。 たとえば、フェイフェイ・リーのワールドラボ(現在では空間知能に重点を置いていると見なされることが多いですが)や、Decart、Odyssey などの企業です。 この分野では、ワールドモデルは、ビデオゲームや映画などのインタラクティブなメディアを作成したり、ロボットや具現化知能のトレーニング環境などの現実的なシミュレーションを実行したりするために使用できると広く信じられています。 現状では、技術がまだ理想のレベルに達していないことに加え、世界モデルの進歩を阻むハードルがいくつかある。 1 つの問題は著作権です。一部のワールド モデルはゲームプレイ クリップでトレーニングされているようです。 次に、新しい Google World Model チームの最大の利点について触れなければなりません。このチームは YouTube 上に何億時間ものゲーム ビデオ データを所有しているのですが、ここでは言いません。 もう一つの要因は、コンテンツ制作者からの反対です。 しかし、Odyssey などのスタートアップ企業の中には、3D コンテンツ分野のクリエイティブ プロフェッショナルに取って代わるのではなく、彼らと協力することを約束しているところもあることは注目に値します。 Googleが何をするかは不明だ。 もう一つ最後に、ネットユーザーが新しい Google World Model チームの JD の詳細から発見した重要なポイントを紹介します。 Google DeepMind は次のように書いています: 私たちは、ビデオとマルチモーダル データの事前トレーニングのスケーリングが、人工汎用知能への重要な道であると考えています。 重要なポイント: 事前トレーニングのスケーリング。 以前、NeurIPSでイリヤは判決を公に発表した。 事前トレーニングの時代は終わります! Ilya は特に大規模言語モデルの事前トレーニング時代を指し、Google DeepMind は特に世界モデルの事前トレーニング時代を指していると理解することもできます。 でも…誰にも分からないと思いませんか?(ドージ絵文字) 参考リンク: |
ソラの中心著者が率いるグーグルの新世界モデルチームが世界中で募集中:初任給100万。
関連するおすすめ記事
-
オープンソースソフトウェアを利用する金融機関の潜在的リスクと対策
-
来週の土曜日、上海でお会いしましょう!AIコンパイラーテクノロジーサロンには、AIコンパイラー、ByteDance、Lingchuan Technologyなどの企業から業界リーダーが集まります。
-
アジェンダ紹介 | オープンソース教育フォーラム(オープンソースの夏とオープンソース人材育成)
-
ノーベル賞およびチューリング賞受賞者が率いるCuspAIは、地球規模の気候変動に対処するために3,000万ドルのシード資金を確保しました。
-
Datawhale 慈善団体は、子供たちが自分の興味や情熱を発見するのを支援します。
-
パラメータアクセスは不要!CMUは大規模モデルを用いて視覚言語キューを自動最適化 | CVPR'24