|
本当に飛躍しています!GPT-4o は Google の新しいモデルに追い抜かれました! 1週間にわたる12,000人以上による匿名投票の結果、 Gemini 1.5 Pro (0801)がGoogleを代表し、lmsys Arenaで初めて1位を獲得しました。(中国語タスクでも1位を獲得しました。) さらに今回は、総合ランキング(1300点以上のスコアを獲得した唯一の人物)だけでなく、ビジュアルランキングでも1位を獲得し、ダブルチャンピオンとなった。 ジェミニチームの主要人物であるサイモン・トクミネ氏は、祝福のメッセージを投稿し、次のように述べた。 (この新しいモデルは)私たちがこれまでに作った中で最も強力でインテリジェントなジェミニです。 Redditのユーザーもこのモデルを「非常に優れている」と評価し、機能が削減されないことへの期待を表明した。 多くのネットユーザーは、OpenAI がついに挑戦を受け、反撃するために新バージョンをリリースしていると興奮気味に語りました。 ChatGPTの公式アカウントも何かをほのめかしていました。 興奮の中、Google AI Studio のプロダクト マネージャーは、モデルが無料テスト段階に入ったことを発表しました。 AI Studioで無料で利用可能 ネットユーザー:Google がついに登場!厳密に言えば、Gemini 1.5 Pro (0801) は実際には新しいモデルではありません。 この実験版は、Googleが2月にリリースしたGemini 1.5 Proをベースに構築されており、1.5シリーズではその後、コンテキストウィンドウが200万ピクセルに拡張されました。 モデルが更新されるにつれて、名前がどんどん長くなり、多くの批判を集めています。 案の定、OpenAI の従業員は祝福の言葉を述べながらも、皮肉な発言をせずにはいられなかった。 もちろん、覚えにくい名前にもかかわらず、Gemini 1.5 Pro (0801) は、Arena の公式レビューで素晴らしい成績を収めました。 全体的な勝率ヒートマップを見ると、GPT-4o を 54%、Claude 3.5 Sonnet を 59% 上回っていることがわかります。 多言語能力ベンチマークテストでは、中国語、日本語、ドイツ語、ロシア語で1位を獲得しました。 しかし、コーディングとハードプロンプトアリーナのテストでは、Claude 3.5 Sonnet、GPT-4o、Llama 405B などの競合製品に勝つことはできませんでした。 この点についてはネットユーザーからも批判が出ており、以下のように訳される。 コーディングは最も重要な部分ですが、その分野でのパフォーマンスは良くありません。 しかし、Gemini 1.5 Pro (0801) の画像および PDF 抽出機能を推奨する人もいます。 DAIR.AI の共同創設者であるエルビス氏は、YouTube でテスト全体を個人的に実施し、次のように結論付けました。 その視覚能力は GPT-4o の能力に非常に近いです。 また、誰かが Gemini 1.5 Pro (0801) を使用して、Claude 3.5 Sonet がこれまでうまく答えられなかった問題を解決しました。 さらに詳しく調べてみると、この製品は性能が優れているだけでなく、兄弟機種である Gemini 1.5 Flash よりも優れた性能を発揮していました。 しかし、それでも「リンゴで終わる 10 個の文を書きなさい」といった、いくつかの古典的な常識テストには対応できません。 もう一つ同時に、Google の Gemma 2 シリーズは、新しい20 億のパラメータ モデルを導入しました。 Gemma 2 (2B)はすぐに使用でき、Google Colab の無料の T4 GPU で実行できます。 アリーナのリーダーボードでは、すべての GPT-3.5 モデルを上回り、Mixtral-8x7b さえも上回ります。 Google の最新の新しいランキングシリーズにより、 Arena ランキングの信頼性が再び疑問視されています。 Nous Research(微調整トレーニングの分野で有名な企業)の共同設立者であるTekniumは、次のようなリマインダーを投稿しました。 Gemma 2 (2B) はアリーナでは GPT-3.5 Turbo よりも高いスコアを獲得しましたが、MMLU では後者よりも大幅に低いスコアを獲得しました。 Abacus.AIのCEOであるBindu Reddy氏は、次のように直接呼びかけました。 この人間による評価ランキングの使用は直ちにやめてください! では、匿名の人間による投票というこの方法は、今でも信頼できると思いますか? |
GPT-4oは大きくリードしましたが、Googleの新モデルに敗北しました。ChatGPT公式アカウント:皆さん、深呼吸をしてください。
関連するおすすめ記事
-
GPT-4の6週間の個別指導は、2年間の学校教育に相当します。新たな研究によると、AIの支援が多ければ多いほど、進歩は顕著になることが示されています。
-
CESライブ配信:AI教育が熾烈な競争を繰り広げ、中国の参加者が実力を披露
-
GPT-4o を超えました!Alibaba は、リアルタイムのビデオ対話をサポートする、最も強力なオープンソース マルチモーダル モデルである Qwen2-VL をリリースしました。
-
BYD は 1 日あたり 2,174 人を雇用しており、採用シーズンには大忙しです。
-
ボストン・ダイナミクス社の電動ロボットが工場で稼働し、遠隔操作なしで完全に自律的に動作する様子を50万人がオンラインで視聴している。
-
DeepSeek-R1はシリコンバレーを揺るがし続けている。ゲームチャートでトップ3にランクインし、創設者のLiang Wenfeng氏のインタビューは綿密に精査された。