Googleが帰ってきた！新しいGeminiベンチマークがO1を抜いてトップに。CEO「これは大したことない」

サメが大暴れ！Google の新しい Gemini がO1 を抜いて、アリーナの総合ランキングでトップの座を獲得しました！

6,000人以上のネットユーザーから匿名の投票を受け、彼はO1のトップ学生に匹敵する数学の成績を達成しただけでなく、他の5つの科目でも1位を獲得しました。

新しいモデルは「ジェミニ（Exp 1114）」と名付けられ、結果が発表されるやいなや、CEOのピチャイ氏も応援に駆けつけた。

アリーナの公式サイトもすぐにこの朗報を発表し、Google を祝福した。

この素晴らしいマイルストーンを達成されたことをお祝い申し上げます。

これは厄介だ！Googleがボトルネックに直面していたという主張は、一体どうなったのだろうか？予想外にも、彼らは勝利を決定づける一手を打った。

怖い、怖い。もしかしたら、今O1の完全版をリリースしているOpenAIだけが、それをテストできるのかもしれない。

新しいモデルは現在 Google AI Studioで体験可能となっており、公式チームは今後 API を提供する予定です。

ネットユーザーたちは、これが伝説のジェミニ2号ではないかと推測している。

彼らは7つのカテゴリーで1位を獲得し、数学の成績はO1レベルと同等でした。

一夜にして、Arena Imsys ランキングが再び更新されました。

全体的なランキングを見ると、Google の新しいモデル Gemini (Exp 1114) のスコアが 40 ポイント以上上昇し、これまでランキングを独占していた OpenAI モデル (o1-preview や GPT-4o を含む) を追い抜きました。

さらに、1対1の状況で敵と正面から遭遇した場合、新しいジェミニは50％以上の勝率があるようです。

全体的な勝率ヒートマップを見ると、Gemini (Exp 1114) は 4o-latest に対して 50% の勝率、o1-preview に対して 56% の勝率、Claude-3.5-Sonnet に対して 62% の勝率を示しています。

一方、ジェミニ（Exp 1114）は個人種目でも優秀な成績を収め、以下を含む 6 つの種目で 1 位を獲得しました。

ハードプロンプト: 複雑または難しいプロンプトを処理するモデルの能力。
数学;
クリエイティブライティング
指示の遵守: 与えられた指示に従うモデルの能力を評価します。
より長いクエリの処理: より長いクエリを処理するモデルの能力を測定します。
マルチターン: マルチターンのダイアログでコンテキストの一貫性を維持するモデルの能力。

最大の注目点は、Gemini (Exp 1114) が数学的能力において O1 モデルに匹敵することです。

OpenAIによれば、O1は特別な訓練を受けなくても数学オリンピックで金メダルを獲得でき、博士レベルの科学的な質疑応答セッションでは人間の専門家を上回ることさえできるという。

残念ながら、重要なコーディング機能に関しては、Gemini (Exp 1114) は Google の前のバージョンよりは改善が見られたものの、依然としてトップ 3 にランクインできませんでした (o1-mini/preview が引き続きトップです)。

さらに、スタイル制御の制限により、Gemini-Exp-1114もトップ3入りを逃し、Gemini-1.5-proにも及ばなかった。（o1、4o-latest、Sonnetに次ぐランク）

説明すると、スタイルコントロールは今年 Arena に導入された新しい機能で、派手なフォーマットを使用したり回答を長くしたりするのではなく、モデルの真の問題解決能力をスコアが反映するようにします。

しかし、嬉しい驚きもありました。Gemini-Exp-1114 は今回、視覚能力で GPT-4o を上回り、1 位を獲得したのです。

全体的に見て、Google の復活はまったく予想外のものでした。

現在、Gemini-Exp-1114はGoogle AI Studioでテストが可能で、将来的にはAPIも提供される予定とのこと。

すでに多くのネットユーザーが試していますが、かなり物議を醸しているようです。

ネットユーザーたちの反応は様々だった。

要約すると、ユーザーテストに基づいて、Gemini-Exp-1114 について現在わかっていることは次のとおりです。

32kのコンテキストウィンドウを持つ
モデルの知識応答期限は 2023 年 4 月ですが、結果は異なる可能性があります。
マインドチェーンを追加

32Kのコンテキストウィンドウ機能は厳しく批判されています。Gemini 1.5の200万コンテキストウィンドウと比較すると、これはむしろダウングレードだと率直に言う人もいます。

おそらくその不満を察したのか、Google AI Studio の責任者がすぐに介入して事態を収拾しようとした。「今すぐアップデートしてください！今すぐアップデートしてください！」

皆を落ち着かせた後、ようやく彼らはとても喜んでフィードバックを共有し始めました。

男たちの一人の観察を通して、ジェミニ Exp-1114 も今回思考の連鎖を使用し、質問に答える際に人間のように段階的に考えることができた。

さらに、彼は数学が本当に得意なのでしょうか？

Gemini-Exp-1114 は、2024 年米国数学オリンピック予選 II の質問 1 ～ 8 に正解しました。

比較的苦手なコーディングでも、初回で成功する人もいます。

しかし、事故は常に避けられません。

誰かがベンチマークテストで物理学の質問をしましたが、Gemini-Exp-1114 は思考連鎖のサポートがあったにもかかわらず、誤った回答をしました。

数字の大きさを比較したり、イチゴの「r」を数えたりする昔ながらの方法でも、やはり失敗しました。

さらに面白いのは、誰かが Gemini-Exp-1114 に「あなたの名前は何ですか?」と尋ねたことです。

答えは、クロード（ドージェ）でした。

実際、Gemini-Exp-1114 は、Google がアップデートを計画していると噂されている Gemini 2 ではないかと推測する声もある。

しかし、実際にテストしてみると、かなりの数のネットユーザーが反対意見を表明した。

結局のところ、旧バージョン 1.5 Pro で問題となっていた問題さえ解決できないようです。

これは、より大型のモデル（つまり、Gemini 2）のリリースを遅らせ、まずは妥協したバージョンをリリースして誰もが試せるようにし、人々が急いで完全なアップデートを要求しないようにするための Google の戦略だと主張する人もいます。

CEO ピチャイの煙幕戦略を考えると、一理あるように思えます (doge)!

618ZXW

Googleが帰ってきた！新しいGeminiベンチマークがO1を抜いてトップに。CEO「これは大したことない」

彼らは7つのカテゴリーで1位を獲得し、数学の成績はO1レベルと同等でした。

ネットユーザーたちの反応は様々だった。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ