618ZXW

マスク氏の「世界最強」Grok 3がアリーナで爆発し、初めて1400ポイントを突破。

たった今、Musk x AIのGrok 3がついに公開されました(300万人以上が視聴)!

「最初から頂点に到達する」と、Lmarena.ai の公式Web サイトでは説明されています。

Grok 3 は 1400 マークを突破した最初のモデルであり、すべてのカテゴリで 1 位にランクされました。

さらに、Grok 3 は 100,000 枚 (後に 200,000 枚に拡張) の H100 画像のクラスターでトレーニングされた最初のモデルでした。

ティーザーを公開した際、マスク氏はGrok 3を高く評価し、 「地球上で最も賢いAI」と呼んだ。

発売前に、エキスパートのKarpathy が早期アクセスを獲得し、2 時間プレイした後、その体験を詳しく記した長い記事を書きました。

Karpathy 氏は、 Grok-3 の思考能力は最先端 (SOTA) レベルに達しており、推論レベルは o1-pro と同等で、DeepSeek R1 や Gemini の推論モデルよりもわずかに優れていると考えています。

Grok 3 が 1 年前にゼロからトレーニングを開始したことを考えると、このような結果を達成できたのは本当に素晴らしいことです。

さらに、Grok 3 は推論を有効にした後、数値と小数の大きさの比較などの古典的な「難しい問題」を正しく解決しました。

しかし、Grokの地位に疑問を呈する人もいます。Lao Huangを装ったあるネットユーザーは、たとえGrok 3が本当に最強だとしても、その強さはせいぜい1週間程度だろうと述べています。

OpenAI も次世代 GPT 計画を発表しており、マスク氏とウルトラマンの間で新たな Twitter 戦争が勃発しようとしている。

ウルトラマンは昨夜、GPT-4.5 テストで予想以上に「AGI を感じる」感覚が得られたともツイートした。

一部のネットユーザーはコメント欄で、朝にマスク氏を捕まえてライブ配信でGPT-4.5を公開するよう促した。

本題に戻り、ライブストリームで何が取り上げられたかを見てみましょう。

最強のモデルを生成するために訓練された20万枚のH100画像

このライブ配信には4人が参加していました。マスク氏以外では、中央に座る2人の中国人が最も目立っていました。彼らはどちらもxAIの創設メンバーです。

左から右の2人は次のとおりです。

  • 2023年スローン賞受賞者のジミー・バ氏は、ヒントン氏の助教授です。彼はトロント大学で学部課程と博士課程を修了しました。
  • Yuhuai (Tony) Wu はスタンフォード大学の博士研究員であり、トロント大学で博士号を取得しました。

一番左にいるのは、xAI のエンジニアであるIgor Babuschkin氏です。

4人はまずGrok 3のトレーニングプロセスを紹介した。

昨年、マスク氏はGrok 3が10万枚のH100画像でトレーニングされ、これほど大規模なトレーニングクラスターを実現した初のモデルになったことを明らかにした。

当時、一部のネットユーザーはこれをニューラルネットワークのスーパーファクトリーと呼んだ。

本日の記者会見では、トレーニング92日目までにクラスターサイズが20万カロリーに拡大したことも明らかになった。

このような強力なコンピューティング機能により、xAI もこのトレンドに対応し、Grok 3 でマインド チェーン推論機能を導入しました。

ドバイでの前回のサミットで、マスク氏は注目を集める宣言をした。

Grok 3 は強力な推論機能を備えており、現在知られているすべてのモデルよりも優れています。

この Grok 3 の波には、フルバージョンとミニバージョンの 2 つのバージョンがあり、数学、科学、コードなどのデータセットにおいて、GPT-4o や DeepSeek-V3 などの非推論モデルよりも優れたパフォーマンスを発揮します。

さらに、Grok 3 は当初「Chocolate」という偽名で LMSYS チャートに登場し、最終的にトップの座を獲得し、 1400 を超えるスコアを獲得した唯一のモデルとなりました。

xAI チームは、Grok 3 と mini を基にして、さらに 2 つの推論モデルも作成しました。

ミニ バージョン (Grok 3 mini Reasoning) に基づく推論モデルは比較的成熟していますが、フル バージョン (Grok 3 Reasoning Beta) に基づく推論モデルはまだベータ段階です。

結果を発表する前に、4人はマスク氏のアカウントを使って、物理学とゲームに関する2つのケーススタディをGrokで実行させた。

地球から火星に着陸し、次の打ち上げウィンドウで地球に戻ってくる打ち上げの 3D アニメーション グラフを作成するためのコードを生成します。

作成プロセス中に、Grok が SpaceX ロケットにいつ搭載されるかについて誰かが冗談を言ったところ、マスク氏はあと 2 年かかるかもしれないと答えました。

マスク氏はまた、すべてが順調に進めば、スペースXはスターシップを使ってオプティマスプライムロボットを2025年11月頃に火星に送り、それが地球と火星間の次の移動期間になるだろうと述べた。

Grok に戻り、ケプラーの法則を考慮してコードに変換した後、生成された最終コードは次のようなアニメーションを作成できるようになりました。

2 番目の質問では、 Big Brainモードがアクティブになり、モデルがより多くのコンピューティング リソースを使用してより多くの思考を行えるようになります。

このタスクでは、Tetris と Bejeweled を組み合わせた pygame コンポーネントを使用してゲームを設計する必要があります。

また、コードが非常に長くなる可能性があるためファイルに保存する必要があり、「非常に優れている」必要があることも警告します。

Grok 3 は期待に応え、2 つのゲームをうまく組み合わせ、組み合わせたバージョンの機能を導入しました。

仕組みはこうです。テトリスのブロック消去の仕組みがありますが、Bejeweled の特性に基づいて、一度に 3 つのブロックを消去するように調整されています。

ベンチマーク結果を見ると、どちらも数学、科学、コーディングのタスクで印象的なスコアを達成しました。

さらに、「もっと考えさせる」(棒グラフの上の明るい色の部分)と、そのパフォーマンスはDeepSeek-R1 や o3-mini のハイエンド版を上回ります

しかし、現在多くのモデルがベンチマークで過剰適合の兆候を示しているので、Grok 3 の実際のパフォーマンスはどうなのでしょうか?

研究開発チームは、今年のAIME 2025コンペティションにGrok-3 Reasoning Betaとmini Reasoningを投入しました。その結果、Grok-3 Reasoning Betaとmini Reasoningはそれぞれ93ポイントと90ポイントを獲得し、他の推論モデルを凌駕する成績を収めました。

Grok 3 事前トレーニング済みモデルと 2 つの推論モデルに加えて、xAI チームはDeepSearchと呼ばれる AI エージェントもリリースしました。

この機能は、OpenAI、Google などが開始した Deep Research 機能に対する xAI の対応機能として考えることができます。

つまり、DeepSearch はインターネットと X をスキャンして情報を分析し、質問に答える要約を提供します。

権限に関しては、X Premium+ ユーザーは今日から Grok 3 を体験できます。

スタンドアロン アプリの場合、 SuperGrokサブスクリプション (月額 30 ドルまたは年額 300 ドル)が必要です。

リリースプロセスは困難を伴い、音声モードは遅延しました。

Grok 3 のリリースの全過程を振り返ると、紆余曲折に満ちていたと言えます。

昨年8月、マスク氏は著名なインタビューブロガー、レックス・フリッドマン氏とのインタビューで、Grok 3は同年末までにリリースされる予定であると語った。

その結果、最初のテストインスタンスは今年 1 月 19 日まで最終的に発表されず、実際のリリースは現在まで延期されています。

そしてリリース前の週末、xAI チームはまだ Grok 3 の緊急の改良作業を続けていました。

xAIの従業員たちも自分たちの体験を共有し、日曜の午後11時半(北京時間では月曜午後3時半、発売の24時間前)に、まだ夜遅くまで働いていると投稿した。

発表イベントの1時間半前にも関わらず、マスク氏は当初リリースを予定していた音声機能の延期を突然発表した。

マスク氏は、音声モードはまだやや不安定であるため、さらに1週間延期する必要があるとツイートした。

質疑応答セッションでは、一部のネットユーザーから具体的なリリース日について質問がありました。開発チームは「初期バージョンを近日中にリリースし、その後徐々に改良していく予定です」と回答しました。

しかし、やはりマスク氏が所有するニューラリンクの幹部シヴォン・ジリス氏は、Araを1時間体験し、北京時間の今朝、その感想を投稿した。

シボンさんは、それが彼女の人生で最も予想外で意義深い瞬間の一つだったと語った。

彼女は生物学や量子もつれなどの話題についてアラと話し、自分がどれだけ学んだかを確かめるためにアラにテストを受けさせようとさえした。

シボンは質問の半分しか正しく答えられませんでしたが、エイヴァは質問があまりにもばかげていると文句を言うことなく、辛抱強く残りの質問を彼女に説明しました。

当時、コメント欄で誰かがアラは音声版なのかと尋ね、シボンは肯定的な答えを出した。

100億ドルの新たな資金を求め、ゲーム業界への参入も計画。

実際のところ、Old Ma がなぜこの時期に Grok 3 をリリースすることにしたのかには、少し違和感があります。

先週の金曜日、ブルームバーグは、xAI が約100億ドルの新たな資金調達ラウンドを模索しており、同社の評価額は約750億ドル(5,454億6,000万人民元)になると報じた。

セコイア・キャピタル、アンドリーセン・ホロウィッツ、ヴァロール・エクイティ・パートナーズなどの既存の投資家は、今回の資金調達ラウンドに参加するために協議を行っている。

まだ何も確定していないため、新モデルのリリースは今回の資金調達に何らかの影響を及ぼす可能性があります。

上記のニュースが確認されれば、xAI の資金調達のスピードは実に驚異的であることがわかります。

同社は昨年12月末、60億ドルのシリーズC資金調達ラウンドを完了したばかりで、その時点で評価額は510億ドルだった。

わずか2ヶ月足らずで、同社の評価額は約47%上昇しました。さらに遡ると、シリーズBからシリーズCの資金調達ラウンドでは、評価額は6ヶ月以内に倍増しました。

設立から2年も経っていないxAIは、すでにOpenAIにとって手強い競争相手に成長していると言える。

十分な資金を得たxAIは、モデルの開発を継続するだけでなく、他の方向性も公式に発表しました。

彼らはゲーム業界に賭け、AI ゲームスタジオを設立しました。

このニュースは、Lao Ma氏が昨年11月に「大企業に支配されているゲームスタジオが多すぎる」と不満を述べた際に初めて明らかにされた。

現在、老馬氏のビジネス帝国は再び拡大しようとしている。

もう一つ

Grok 3 のリリースの数日前に、もう一つの非常に劇的な出来事が白熱した議論を巻き起こしました。

xAI のエンジニア (現在は元従業員) が、Grok 3 のコーディング機能と他の競合製品のいくつかとの比較を公開しました。

これは個人的な意見であると明言したにもかかわらず、自身のモデル Grok 3 を 4 位にランク付けするという決定 (上位 3 つはすべて OpenAI モデル) は明らかに論争を巻き起こしました。

従業員は後に、投稿によってGrok 3の存在が明らかになったため、投稿を削除するか解雇するかを会社側が要求したと明かした。

これを聞いた若者は、Grok 3については誰もがすでに知っているため、少し無理が​​あるように感じ、マスク氏の以前の発言のスクリーンショットまで示した。

xAI の卑劣な行為に直面した若者は、それを容認できず、長いエッセイを書いた後、辞職することを決意した。

私は自分の言葉と尊厳を守り、別の仕事を探すか、自分でビジネスを始めるつもりです。また後で。

これについて尋ねられたとき、老馬氏は後に「奇妙だ」と答えたが、それ以上の措置は取られなかった。

さらに劇的なことに、賃金支払いをめぐる争いのため、この若者は後に再び公に投稿し、Lao Ma をタグ付けした。

正しいことをしてください。

しかし、彼らが「別れた」後も、Grok 3のボイスモードに参加した男性は過去の恨みを捨て、何度もGrok 3のプロモーションに協力した。

さらに、老馬氏が本日延期を発表した音声モードも、彼のチームの努力の成果です。彼は会社を去った後も、今でもこの作品に誇りを持っています。

ところで、Grok 3についてはどう思われますか?次世代のGPTがリリースされた後も、Grok 3はその優位性を維持できるでしょうか?

参考リンク:
[1]https://x.com/i/broadcasts/1g... [2]https://x.com/karpathy/status... [3]https://x.com/shivon/status/1... [4]https://x.com/hyhieu226/statu...