618ZXW

イーロン・マスクが、20万枚のカードを持つ新しいキング、新しいGrok3モデルを発表しました。

オリジナル Datawhale Datawhale

データホエールの共有

最新リリース: xAI、Grok 3

ちょうど今、マスク氏が語った「地球上で最も強力なAI」がついに登場した。

200 万人を超える人々の前で、マスク氏の AI 企業 xAI が Grok 3 を正式にリリースしました。

「Grok 3を非常に短期間でリリースできることを大変嬉しく思います。Grok 2と比べて桁違いに高性能だと考えています。これは素晴らしいチームの努力のおかげであり、このような素晴らしいチームと共に仕事ができたことを光栄に思います」とマスク氏は発表イベントで述べた。

余談だが、Grokという名前に関して、マスク氏は次のように説明した。

「グロク」という言葉は、ロバート・A・ハインラインの小説『異星人』に由来しています。火星語で、何かを完全に深く理解するという意味です。

Grok は信じられないほど速いペースで反復しています。

その背後には強力なコンピューティング能力とトレーニング方法があります。

Grok 3 は、わずか 8 か月で構築され、10 万個の NVIDIA H100 GPU を搭載し、2 億 GPU 時間を超えるコンピューティング リソースを提供する Colossus スーパーコンピューターでトレーニングされました。これは Grok 2 の 10 倍に相当します。

一方、トレーニング方法に関しては、xAI は合成データセット、自己修正メカニズム、強化学習など、Grok 3 の機能を最適化するためのいくつかの新しい戦略を採用しました。

xAI は当初、この 100,000 GPU クラスター (世界最大の完全接続型 H100 クラスター) の構築に 122 日を要しましたが、200,000 GPU クラスターへの拡張にはわずか 92 日しかかかりませんでした。

ここにもう一つデータがあります:

Grok 3 は、DeepSeek-V3 よりも 263 倍の計算能力を消費します。

マスク氏はその財力のおかげで、まさにトップクラスに追いついた。

基礎ができたので、早速 Grok の機能についてお話ししましょう。

記者会見の順序は、Grok 3、Grok 3 Reasoning、Agents です。

まず、推論能力が欠けている Grok 3 があります。

Grok 3 と Grok 3 mini は、AIME'24 (高度な数学コンテスト)、GPQA (大学院レベルの科学知識テスト)、LCB Oct-Feb (プログラミング スキル テスト) などの数学、科学、プログラミングのベンチマークで、GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3、Gemini-2 Pro を含むすべての主要モデルよりも優れた成績を収めました。

次に、推論を伴う Grok 3 Reasoning です。

最も印象的だったのは、地球への打ち上げ、火星への着陸、そしてホーマン遷移軌道を使った地球への帰還を描いたアニメーション化された 3D コードを生成した、シミュレーションによる宇宙船ミッションでした。

この問題の難しさは、膨大な数の数学的および物理的モデル計算を必要とする点にあります。研究チームはこれまで、これほど大規模なモデルを用いて宇宙飛行の打ち上げ時期を計算しようとしたことはありませんでした。

Grok 3は、実行可能な完全な3Dアニメーションを迅速に生成しました。以下は、ミッション中の太陽、地球、火星、そして宇宙船の位置関係を視覚的に示した3Dアニメーションのスクリーンショットです。

調査の結果、研究者たちは Grok-3 の答えが完全に正しいと述べました。

マスク氏はまた、これがスペースXの真の探査軌道であると述べた。彼は2年以内に地球と火星が繋がると自信たっぷりに語った。

ベンチマークテストでは、Grok 3 Reasoning と Grok 3 mini Reasoning が AIME'24 や GPQA などのテストで圧倒的な優位性を獲得し、最高スコアは 96 点に達しました。

チャットボット アリーナでは、Grok-3 の初期バージョン (コードネーム「Chocolate」) が 1 位となり、1,400 ポイント以上を獲得した唯一のモデルとなりました。

3番目、そして最後はエージェントです。

記者会見でマスク氏は、Grok 3 をベースにしたインテリジェント エージェントの DeepSearch も発表した。これは OpenAI が最近リリースした Deep Research に似ている。

しかし、結果は全く異なります。xAIは検索に重点を置いているのに対し、OpenAIは研究に重点を置いています。(というか、DeepSearchはDeep Researchのレベルには達していません。)

DeepSearchは、インターネットとXプラットフォーム全体にわたる包括的な検索を可能にします。このモデルは膨大な量の情報を分析し、高速かつ効率的な検索プロセスを通じて詳細かつ合理的な回答を提供します。

さらに、情報検索プロセスはユーザーにとってより透明化されています。Xのコンテンツのみを使用するように直接指示すると、その要件を満たすよう最大限努力するため、より制御しやすくインテリジェントになります。

OpenAIのDeep Researchは、金融、科学、政策、エンジニアリングといった分野の知識集約型業務に従事し、徹底的かつ正確で信頼性の高いリサーチを必要とするユーザー向けにカスタマイズされています。ヒントを与えるだけで、ChatGPTは数百ものオンラインリソースを発見、分析、統合し、リサーチアナリストレベルの包括的なレポートを作成します。

混乱しないでください。

記者会見でのプレゼンテーションに基づくと、Grok 3 は非常に印象的であるようです。

しかし、ラバであろうと馬であろうと、実際にテストしてみる必要があります。

AI専門家のKarpathy氏はベータテストに早期アクセスし、2時間にわたる詳細なレビューを提供した。

推論能力

✅ 利点:

  1. Grok 3の推論モードのパフォーマンスはほぼトップクラスです。例えば、スライダーに基づいて「リング数」を調整しながら、カタン風の六角形チェス盤のウェブページコードを完璧に生成できます。これは、OpenAIのハイエンドモデル(月額200ドルのo1-proなど)だけが確実に完了できるタスクですが、DeepSeek-R1、Gemini 2.0 Flash、Claudeはいずれも失敗しました。
  2. GPT-2 のトレーニング計算能力の推定に成功しました (論文に明示的に記載されていないデータは推測する必要があります)。Grok 3 は「思考」が有効になった後に正確に完了しましたが、GPT-4o と o1-pro はどちらも失敗しました。
  3. 他のモデルが単純に諦める中、DeepSeek-R1 と同様に、リーマン予想を解こうと敢えて試みます。

❌ 欠点:

  • Unicode バリアント セレクターによって隠された「絵文字パズル」をデコードできません (DeepSeek-R1 はこの問題の解決に最も優れており、部分的にデコードに成功しています)。
  • シンプルな三目並べの盤面を生成するのは非常に簡単です(多くの最新モデルは典型的には失敗します!)。しかし、難易度を上げると、複雑な三目並べの盤面を生成する際にエラーが発生します(o1-proでも失敗しました)。

エージェント: DeepSearch

✅ 利点:

DeepResearch は検索と推論を組み合わせて、Perplexity に匹敵する品質の回答を提供します。

❌ 欠点:

  1. X (Twitter) コンテンツのデフォルトの参照を防ぐには、手動でリクエストする必要があります。
  2. 場合によっては、架空のリンクや誤った記述が表示されることがあります。
  3. 主要なLLM研究室とその総資金およびスタッフ数の見積もりに関するレポートを作成するよう求められた際、彼らは自社であるxAIを省略しました。(これは少々滑稽ですが、さらに面白いのはOpenAIのエージェントにもxAIが含まれていないことです。なんとも奇妙な偶然でしょう…)

最後に、Karpathy 氏の評価によると、Grok-3 + Thinking のパフォーマンスは o1 Pro に匹敵し、DeepSeek-R1 および Gemini 2.0 Flash Thinking よりもわずかに優れているようです。

投稿が公開される前に、X のユーザーが Grok 3 で絵文字パズルをデコードできることを確認し、AK もそれを高く評価しました。

記者会見は質疑応答で終了し、マスク氏は誰もが気にかけていたいくつかの質問に答えた。

Q: Grok 3 はいつリリースされますか?

A: Xの事前登録者には最初に体験していただけます。リリースは今後1週間かけて段階的に開始される予定です。Grokのアップデートにご注目ください。

Q: 新しい URL とは何ですか?

回答: grok.com

マスク氏は、Grok のすべての機能 (API と音声アシスタント バージョンを含む) が約 1 週間以内に利用可能になると約束しました。

また、App Store で入手できるバージョンは比較的古いため、最新バージョンは Web バージョンである必要があることも強調されました。

結論は

スケーリング則がいつ時代遅れになるかをめぐっては大きな議論が交わされていますが、Grok 3 の成功は、少なくとも 100,000 GPU レベルでは、コンピューティング能力への多大な投資が依然として大きな利益を生む可能性があることを示しています。

最後に、xAI チームに感謝します。

「最初はすべてのアイデアが狂っているように思えるが、十分な決意があれば、現実になることができる。」

参考リンク:

1. https://x.com/xai

2. https://x.com/karpathy/status...

いいね (3件のいいね!)↓