GPT-4oは大きくリードしましたが、Googleの新モデルに敗北しました。ChatGPT公式アカウント：皆さん、深呼吸をしてください。

本当に飛躍しています！GPT-4o は Google の新しいモデルに追い抜かれました！

1週間にわたる12,000人以上による匿名投票の結果、 Gemini 1.5 Pro (0801)がGoogleを代表し、lmsys Arenaで初めて1位を獲得しました。（中国語タスクでも1位を獲得しました。）

さらに今回は、総合ランキング（1300点以上のスコアを獲得した唯一の人物）だけでなく、ビジュアルランキングでも1位を獲得し、ダブルチャンピオンとなった。

ジェミニチームの主要人物であるサイモン・トクミネ氏は、祝福のメッセージを投稿し、次のように述べた。

（この新しいモデルは）私たちがこれまでに作った中で最も強力でインテリジェントなジェミニです。

Redditのユーザーもこのモデルを「非常に優れている」と評価し、機能が削減されないことへの期待を表明した。

多くのネットユーザーは、OpenAI がついに挑戦を受け、反撃するために新バージョンをリリースしていると興奮気味に語りました。

ChatGPTの公式アカウントも何かをほのめかしていました。

興奮の中、Google AI Studio のプロダクトマネージャーは、モデルが無料テスト段階に入ったことを発表しました。

AI Studioで無料で利用可能

ネットユーザー：Google がついに登場！

厳密に言えば、Gemini 1.5 Pro (0801) は実際には新しいモデルではありません。

この実験版は、Googleが2月にリリースしたGemini 1.5 Proをベースに構築されており、1.5シリーズではその後、コンテキストウィンドウが200万ピクセルに拡張されました。

モデルが更新されるにつれて、名前がどんどん長くなり、多くの批判を集めています。

案の定、OpenAI の従業員は祝福の言葉を述べながらも、皮肉な発言をせずにはいられなかった。

もちろん、覚えにくい名前にもかかわらず、Gemini 1.5 Pro (0801) は、Arena の公式レビューで素晴らしい成績を収めました。

全体的な勝率ヒートマップを見ると、GPT-4o を 54%、Claude 3.5 Sonnet を 59% 上回っていることがわかります。

多言語能力ベンチマークテストでは、中国語、日本語、ドイツ語、ロシア語で1位を獲得しました。

しかし、コーディングとハードプロンプトアリーナのテストでは、Claude 3.5 Sonnet、GPT-4o、Llama 405B などの競合製品に勝つことはできませんでした。

この点についてはネットユーザーからも批判が出ており、以下のように訳される。

コーディングは最も重要な部分ですが、その分野でのパフォーマンスは良くありません。

しかし、Gemini 1.5 Pro (0801) の画像および PDF 抽出機能を推奨する人もいます。

DAIR.AI の共同創設者であるエルビス氏は、YouTube でテスト全体を個人的に実施し、次のように結論付けました。

その視覚能力は GPT-4o の能力に非常に近いです。

また、誰かが Gemini 1.5 Pro (0801) を使用して、Claude 3.5 Sonet がこれまでうまく答えられなかった問題を解決しました。

さらに詳しく調べてみると、この製品は性能が優れているだけでなく、兄弟機種である Gemini 1.5 Flash よりも優れた性能を発揮していました。

しかし、それでも「リンゴで終わる 10 個の文を書きなさい」といった、いくつかの古典的な常識テストには対応できません。

同時に、Google の Gemma 2 シリーズは、新しい20 億のパラメータモデルを導入しました。

Gemma 2 (2B)はすぐに使用でき、Google Colab の無料の T4 GPU で実行できます。

アリーナのリーダーボードでは、すべての GPT-3.5 モデルを上回り、Mixtral-8x7b さえも上回ります。

Google の最新の新しいランキングシリーズにより、 Arena ランキングの信頼性が再び疑問視されています。

Nous Research（微調整トレーニングの分野で有名な企業）の共同設立者であるTekniumは、次のようなリマインダーを投稿しました。

Gemma 2 (2B) はアリーナでは GPT-3.5 Turbo よりも高いスコアを獲得しましたが、MMLU では後者よりも大幅に低いスコアを獲得しました。
アリーナランキングをモデルのパフォーマンスの唯一の指標として使用する場合、この矛盾は心配な問題になります。

Abacus.AIのCEOであるBindu Reddy氏は、次のように直接呼びかけました。

この人間による評価ランキングの使用は直ちにやめてください！
Claude 3.5 Sonnet は GPT-4o-mini よりもはるかに優れています。
同様の Gemini/Gemma モデルは、このリーダーボードでこれほど高いスコアを獲得するべきではありません。

では、匿名の人間による投票というこの方法は、今でも信頼できると思いますか?