618ZXW

イーロン・マスクがテスラのリソースを犠牲にしてOpenAIに挑戦する新しい大規模モデルを発表。直接テストがここにあります。

マスク氏のxAIが第2世代の大型モデルをリリース!

Grok-2ベータ版がリリースされており、Grok-2 mini はすでにプラットフォーム上でオンラインでプレイ可能です。

マスク氏はまた、大手模型業界を1か月以上も困惑させてきた秘密を、謎かけの形で明かした。

Lmsys 大規模モデル アリーナ内の謎の匿名モデルsus-column-r は、実際には Grok-2 であることが判明しました。

sus-column-r はリーダーボードで 10,000 票以上を獲得し、 GPT-4o の API バージョンと並んで 3 位になりました

xAI 独自の内部テストでは、Grok-2 は常識 (MMLU、MMLU-Pro)、数学競技問題 (MATH)、大学院レベルの科学的知識 (GPQA) などの分野で他の最先端モデルに匹敵します。

さらに、Grok-2 は視覚ベースのタスクに優れており、視覚的数学的推論 (MathVista) において最先端のパフォーマンスを実現しています。

ただし、このグラフのレイアウトは少し巧妙です。最高得点の GPT-4o と Claude-3.5-Sonnet は、このグラフから離れたところに配置されています。

スコアだけを見るのはまだ抽象的なので、実際のテストに移りましょう。

Grok-2の直接テスト

Twitterの有料ユーザーの方は、Grokチャンネルに直接アクセスして試すことができます。または、Lmsys Large Model Arenaでsus-column-rを選択して試すこともできます。

さらに、有料ユーザーはミニバージョンしかプレイできませんが、無料ユーザーはかなり寛大なラージバージョンをプレイできます

Grok-2 はリアルタイムデータにアクセスできるため、その日のニュースを直接要約することができ、さらに、楽しいモードをオンにすれば解説も加えることができます。

有料版には、中国語のプロンプトを英語に翻訳して理解しやすくする最新のオープンソース AI 画像モデル Flux.1 も統合されています

ホームページ上の「ファンタジーゲームを推薦してください」という質問例をクリックすると、最初にBaldur's Gate 3を推薦し、プロット、キャラクターのカスタマイズ、ゲームの仕組み、世界構築、ユーモアの要素、プレイヤーコミュニティなど、ゲームのハイライトをよく捉えたさまざまな側面からコメントしていることがわかります。

中国語に切り替えて質問を続けることができます。

Grok-2 は未発売のゲーム「Black Myth: Wukong」についても知っており、発売日が 8 月 20 日であること、使用されているエンジンが Unreal Engine 5 であること、オンラインでの議論を要約していることなどを正確に述べています。

最後にはネットユーザーからの投稿も掲載されており、クリックすることで議論に参加できます。プラットフォーム機能との統合は完了です。

ただし、ミニバージョンしか入手できないため、次の強度テストでは大型モデルのアリーナに移動し、GPT-4oと1対1の戦いも行うことができます。

最近人気の IQ テストの質問「9.9 と 9.11 のどちらが大きいですか?」では、Grok-2 (sus-column-r) が最新バージョンの ChatGPT よりも優れたパフォーマンスを発揮しました。

しかし、どちらももう 1 つの人気のテスト「Strawberry には 'r' がいくつありますか?」には合格しませんでした (あと数回試すと、両方とも正解できる可能性がわずかにあります)。

より深刻なトラップ問題、「次のろうそくのうちどれが最初に消えますか?」では、Grok-2 は ChatGPT よりもわずかに改善しています。

重要な点は、最初に吹き消されたろうそくの残りの部分が最も長いということです(正解3)。ChatGPTは誤ってそれを最短であると解釈しましたが、Grok-2のアプローチは正しかったものの、どちらが最長だったかを数えていません。

どちらも、大規模モデルの典型的な弱点である「逆転の呪い」を何らかの形で克服しているようだ。「トム・クルーズの母親は誰?」という質問だけでなく、「メアリー・リー・ファイファーの息子はトム・クルーズだ」という質問にも答えることができる。これはデータにはあまり現れない質問だ。

(もちろん、それが古典的な質問になった後、単に利用できるデータが増えた可能性もあります。)

マスク氏の大規模なモデルアップグレードは、テスラを犠牲にする代償を伴う。

テストは一時的に終了し、Grok-2 は前身の Grok-1.5 と比べて大きな進歩を遂げていることがわかります。

舞台裏では、マスク氏は多くの資源と人材を費やしてきた。

たとえば、xAI に新しく参加した研究者は、10 万枚のカードのクラスターで研究を行えるのは、大学の貧弱なリソースよりもはるかに優れていると述べています。

しかし、満足していない人々がいる。テスラの株主だ。

ウォール・ストリート・ジャーナルによると、マスク氏は人材、データ、GPUリソ​​ースをテスラからxAIに移し続けている

現在までに、xAI は以前テスラで働いていた従業員を少なくとも 11 名雇用しており、そのうち 6 名は Autopilot チームで直接働いていました。

マスク氏はまた、もともとテスラ向けに予約されていたGPUの注文をxAIに優先的に供給するようNvidiaに要請した。

マスク氏はまた、テスラが収集した膨大な量の視覚データについても公に話し、このデータはxAIモデルのトレーニングのリソースとして役立つ可能性があると述べた。

少なくとも3人のテスラ株主がこの件でマスク氏を訴え、xAIへのリソースの移行がテスラの投資家の利益を損なったと主張している。

この事件は現在デラウェア州の裁判所で審理されている。