618ZXW

DeepSeek-R1 を上回るパフォーマンス!Google の Gemini 2.0 シリーズから新しいモデルがリリースされ、いずれも大型モデル分野でトップ 10 にランクインしました。

ついに、Google の DeepMind は、もはやじっとしていられなくなり、 DeepSeek-R1 を追い抜くために動き出しました

Pichai 氏自身が、Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite を含む Gemini 2.0 ファミリーのアップデートを正式に発表しました。

一方、大型モデル分野で常に第 1 位を獲得している推論モデルである Gemini 2.0 Flash Thinking が、Gemini アプリでリリースされました。

これにより、 Gemini 2.0 ファミリーのすべてのモデルが、大型モデル分野でトップ 10 入りしました

さらに、Gemini 2.0 Pro は DeepSeek-R1 を上回ります

Google の主任科学者 Jeff Dean 氏は、「2.0 シリーズの各モデルは、1.5 シリーズのモデルと比較すると、一般的に 1.5 シリーズの各モデルよりも優れています」と述べています。

今回発売された新モデルの中で、特に注目すべきものが2つあります。

1 つは、コーディングや複雑な指示タスクにおいてこれまで Google の最高性能モデルである Gemini 2.0 Pro で、Google 検索やコード実行などのツールの呼び出しをサポートする 200 万トークンのコンテキスト ウィンドウを備えています。

その 1 つは、Google のこれまでで最もコスト効率の高いモデルである Gemini 2.0 Flash-Lite です。これは大規模なテキスト出力ユースケース向けに最適化されており (DeepSeek に感謝しましょう)、全体的なアリーナ リーダーボードのトップ 10 にもランクインしています。

これらのモデルを雇うコストは減少しており、ネットユーザーの中には、これらのモデルは若くして働き、基本的に無償で、愛情から働いていると冗談を言う者もいる。

ネットユーザーたちは楽しい時間を過ごしながら「ああ、ガチョウ娘!」と叫んだ。

最初に目にするのは、o3-mini と DeepSeek-R1 が最近激しく戦った、内側に振れる六角形のボールです。

課題:回転する六角形の中でボールが跳ねる様子を表現するスクリプトを作成してください。ボールは重力と摩擦の影響を受け、回転する壁に跳ね返る様子がリアルである必要があります。p5.jsを使用して実装してください。

受け取るもの:

o3-miniとDeepSeek-R1のパフォーマンスは次のとおりです。

誰が優れているか、誰が劣っているかは、誰もが自分自身で判断できます。

Gemini 2.0 は誰でも利用できるようになりました。

詳しく言うと、今回リリースされた Gemini 2.0 ファミリーの 3 つのモデルは次のとおりです。

  • Gemini 2.0 フラッシュアップデート:すべてのユーザーにとって最良の選択
  • Gemini 2.0 Pro 実験版: Googleの最も強力な
  • Gemini 2.0 Flash-Lite :最高のコストパフォーマンス

これらのモデルはすべて、リリース時にマルチモーダル入力をサポートし、テキスト出力を生成します

以前公開されたGemini 2.0 Flash Thinkingを含めて、完全なファミリー写真は次のとおりです。

このファミリーの新しい 3 つのメンバーは、一般、コード、推論、マルチモーダル、数学、長文テキスト、画像、オーディオ/ビデオの分野で次の結果を達成しました。

Google の新しい王者の期待通り、 Gemini 2.0 Pro は13 のテストのうち 11 で 1 位を獲得しました。

一方、本当に印象的なのは、Gemini 2.0 Flash-Lite が Factuality FACTS Grounding カテゴリーで 84.6% のスコアを達成し、Gemini 2.0 Pro を上回って 1 位を獲得したことです

次に、新たに登場した3人の家族の詳細を詳しく見てみましょう。

Googleの最も強力なもの:Gemini 2.0 Pro実験版

Gemini 2.0 ProはGoogle DeepMindのこれまでで最も強力なモデルですが、公式リリースは現時点では実験版にすぎません

最も強力なコーディング性能と複雑なプロンプトを処理する能力を誇り、世界知識に関する理解力と推論力も Google 内で最高レベルです。

さらに、実験版の Gemini 2.0 Pro には、200 万トークンを備えた Google 最大のコンテキスト ウィンドウが搭載されています

これにより、大量の情報を総合的に分析・理解できるようになり、Google 検索やコード実行などのツールを呼び出す機能も備えています。

Gemini 2.0 Pro は実験モデルとして、Google AI Studio と Vertex AI の開発者に提供されるようになりました。

Gemini Advanced ユーザーの場合は、PC とモバイル デバイスの両方でモデル ドロップダウン メニューから選択して使用できます。

最も広く使用されているもの: 新しいGemini 2.0 Flash

Gemini 2.0 Flash の実験バージョンは、昨年の Google I/O カンファレンスでデビューしました。

現在、Gemini 2.0 Flash は Google の AI 製品に統合されており、誰でも利用できます。

Google DeepMind の CTO であり、Gemini チームの代表である Koray Kavukcuoglu 氏は、ブログ投稿で、Gemini 2.0 Flash は、大量かつ高頻度のタスクの大規模処理に適した包括的な機能を提供すると述べています。

また、最大 100 万トークンの長いテキストを処理する機能も備えており、膨大な量の情報に対するマルチモーダル推論をサポートします。

現在、Gemini 2.0 Flashはマルチモーダル入力とテキストのみの出力をサポートしており、画像生成機能と音声合成機能は開発中だ。「今後数か月以内に、Gemini 2.0 Flash用のマルチモーダルLive APIが利用可能になる予定です。」

現在の使用状況は以下のとおりです。

  • 通常ユーザー: Geminiアプリでお試しください
  • 開発者向け: Google AI Studio と Vertex AI での API の呼び出し

最高のコストパフォーマンス:Gemini 2.0 Flash-Lite

Google DeepMindは、「1.5 Flashのコストと速度を維持しながらモデルの品質を継続的に向上させる」という目標に基づき、Gemini 2.0 Flash-Liteをリリースしました。

このモデルは、速度とコストの面では Gemini 1.5 Flash と同等ですが、ほとんどのベンチマーク テストでは1.5 Flash を上回っています

これは Lite バージョンですが、長いテキスト機能は損なわれていません。Flash 2.0 と同様に、100 万のトークンを含むコンテキスト ウィンドウがあり、マルチモーダル入力をサポートしています。

そして信じられないほど安いです。

どれくらい安いのでしょうか?もっと具体的な例を挙げてみましょう。

Gemini 2.0 Flash-Lite が約 40,000 枚の異なる写真のそれぞれに短い説明を生成する場合、Google AI Studio の価格設定に基づくと、このタスクの合計コストは 1 ドル (約 7.2751 元) 以下になります。

要約すると、Google は、Gemini 2.0 ファミリーの 3 つの新しいメンバーの現在の機能を 1 つの画像で明確に示しました。

DeepSeekからの目に見えないプレッシャー?

モデルが公開された瞬間、ネットユーザーは大騒ぎ!

率先して行動する Jeff Dean 氏は、Gemini 2.0 Pro を使用して作成したお気に入りの Boggle パズル ゲームを最初に紹介しました

コードを生成して説明するのにどれくらいの時間がかかるかと尋ねられたとき、ジェフはネットユーザーに直接答えて、答えは18.9秒だと言いました。

彼は、比較的単純な手がかり語だけで、Gemini 2.0 Pro は、正しいデータ構造と検索アルゴリズムをすべて含む完全なコードを作成でき、また、Boggle ボード上の有効な単語をすべて見つけることができると熱心に説明しました。

コンピューター科学者として、最初のプレフィックス ツリーでデータ構造が正しく使用されたことにも満足しています。

これに続いて、一部のネットユーザーはSnakeのワイルドバージョンを作成しました。

「Google Gemini 2.0 ワンタイム生成、エンコーダーモード搭載!100匹のヘビが競い合い激しく踊るスネークゲームを作ろう。」

コメント欄ではGemini 2.0ファミリーのどのモデルを使用したかについては回答していませんが、それでも効果はかなり良好です。

詳細については、ぜひご自身で試してみて、コメント欄でご感想を共有してください。

もう一つの重要な点は

Google DeepMind の CTO はブログ投稿で、これらのリリースは AI エージェントの機能強化に向けた Google の幅広い取り組みの一環であると書いています。

Gemini 2.0 シリーズは、新しい強化学習技術を使用して構築されており、より正確でターゲットを絞った出力フィードバックをモデルに提供するとともに、敏感な手がかりを処理するモデルの能力を向上させます。

同氏はまた、チームが自動化されたレッドチームテストを使用して、一連のモデルの安全性とセキュリティリスクを評価したと述べた。

これには、間接メッセージインジェクションなどのリスクが含まれます。間接メッセージインジェクションは、AI システムによって取得される可能性のあるデータ内に攻撃者が悪意のあるコマンドを隠すタイプのサイバーセキュリティ攻撃です。

要約すると、2 つの重要なポイントを強調できます。

まず、「Gemini 2.0 シリーズは、新しい強化学習技術を使用して構築されています。」

これは、OpenAI o1が初めて明示的に探求していると表明した道筋です。その後、o3、o3-mini、DeepSeek-R1といった国内の推論モデルもすべてこの道を辿り、それに基づいて独自の最適化と開発を行ってきました。

Gemini 2.0 ファミリーの最初の製品である Gemini 2.0 Flash Thinking では、すでにこれが実現されていますが、今回は CTO がそれをさらに明確にしています。

第二に、Gemini 2.0 Flash-Lite は、国内外のほぼすべてのメディアやネットユーザーから、DeepSeek-R1 の圧力による産物であると見なされています。

DeepSeek-R1の低コスト、高性能、強力な推論能力の大きな影響により、OpenAIはo3-miniを緊急にリリースし、ChatGPTにディープサーチを緊急に追加せざるを得なくなっただけでなく、Google DeepMindが「AIビッグモデルPinduoduo」の道を歩み出すきっかけにもなりました。

現在、DeepSeek-R1 モデルの入力コストと出力コストは次のとおりです。

  • 入力コスト:入力コストは100万トークンあたり4元です。
  • 出力コスト:出力コストはトークン100万枚あたり16元です。

Gemini 2.0 Flash-Lite の使用コストは次のとおりです。

「神々が戦い、人間が残り物を拾い集めている」この状況に直面して、私は何を言えばいいでしょうか?

私が言えるのはこれだけです。

Google DeepMind CTO のブログ投稿:
https://blog.google/technolog...

参考リンク:
[1]https://x.com/Google/status/1... [2]https://x.com/sundarpichai/st... [3]https://x.com/lmarena\_ai/status/1887180371219132898 [4]https://x.com/\_akhaliq/status/1887195401419166163 [5]https://x.com/JeffDean/status... [6]https://x.com/\_akhaliq/status/1887272152535294460