|
墜落しました。ひどい墜落でした。 今朝、Google 版の Her 、Gemini Liveが正式にリリースされました。 結局のところ、これはテクノロジーの世界で大きな注目を集めている OpenAI の GPT-4o の直接的な競合相手であることは明らかです。 公式サイトで公開されているデモでは、写真ベースのQ&A機能は次のように表示されます。 その主な機能は、携帯電話でコンサートのポスターの写真を撮り、Gemini がユーザーのカレンダーをチェックして、スケジュールが参加に適しているかどうかを確認することです。 さらに、これに基づいて、設定された時間にチケットの価格を確認するなど、一連の後続操作を実行することができます。 ところが…記者会見でのデモになるとスタイルが180度変わった。 ビデオをご覧ください: 動画リンク: https://mp.weixin.qq.com/s/90...
うーん…男の表情を見ると、明らかに少し慌てている様子が見て取れた。 有名なテクノロジーメディア「TechCrunch」でもこの絵文字が使われていました。 一部のネットユーザーからは、痛烈なコメントも寄せられ始めた。 10秒でカレンダーを検索できます。 もちろん、これは今日の Made by Google シリーズのほんの一例です。 Gemini Live についてさらに詳しく知るには、読み続けてください。 Google版Herの全貌先ほど述べたように、Gemini Live と GPT-4o は非常に似た機能を持っています。 「写真Q&A」に加え、リアルタイム会話も可能で、ジェミニの返答に割り込むことも可能。 Gemini Live の機能が Android の Advanced サブスクライバーに提供されるようになりました (英語のみ)。 今後数週間で、この機能は徐々にさらに多くの言語に拡張され、iOS でも利用できるようになります。 会話の音声オプションに関しては、Gemini Live では10 種類の新しい音声選択肢が提供されており、その効果は次のとおりです。 動画リンク: https://mp.weixin.qq.com/s/90... 操作面では、Gemini はシステムに完全に統合されているため、電源ボタンを長押しするか、「Hey Google」と言うだけでアクセスできます。 たとえば、電子メールを作成中に、次に示すように、Gemini で画像を生成することができます。 しかしながら、海外のメディアはこの機能に対して賛否両論の評価を与えている。 たとえば、The Verge の著者の 1 人は、個人的にテストした後、次のようなタイトルを付けました。 Gemini Live は Google よりも高速ですが、扱いにくいです。 具体的な理由は、3日間のドライブ旅行中に車のオーディオシステムが突然故障したことでした。 オリジナルの Google アシスタントを使用して解決策を見つけるには少なくとも 5 分かかりましたが、Gemini Live ではわずか 15 秒しかかかりませんでした。 しかし、筆者は会話中にGemini Liveがずっと話し続けていることや、ユーザーが積極的に割り込む必要があるインタラクティブな方法に違和感を覚えた。 彼はこう信じている。
偶然にも、ウォールストリートジャーナルもジェミニライブのクラウドベースの運用について厳しい批判を行った。 対話は進歩するが、機能は後退する。 技術的な面では、GPT-4o はエンドツーエンドのシステムですが、Google がリリースしたものに基づくと、Gemini Live はそうではありません。 代わりに、STT、VAD、LLM、および TTS システムを統合します。 さらに、Gemini Live は Google の新しい Pixel シリーズのスマートフォンにも搭載されました。 これには、Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL が含まれます。 AI機能の面では、GoogleのPixelスマートフォンに、写真を撮るための「Add Me」という機能が追加されました。 拡張現実 (AR) と AI 技術を使用すると、2 枚の異なる写真から人物を「合成」することができます。 Google はなぜ OpenAI に追いつけないのか?GoogleのGemini LiveのリリースはOpenAIのGPT-4oへの対応と見ることができますが、大規模モデルの時代が始まって以来、非常に明確な傾向が見られてきました。 GoogleはOpenAIに遅れをとっている。 まず、ChatGPT のリリースという重要な局面で OpenAI が先駆者となったが、その後 Google が Gemini Live に似た Bard をリリースしたが、その後挫折に見舞われた。 その後の1年半は、OpenAI がすべての主要なモデルとアプリケーションのリリースをリードしているように見えました。 一方、Googleは技術面での減速の兆しを見せているだけでなく、世論の面でもOpenAIによる人事異動(イリヤ氏の退社)発表によって影が薄くなり、Google最大の年次イベント(I/Oカンファレンス)の人気にも影を落としている。 では、なぜ Google はビッグモデルの時代に失敗したのでしょうか? これに対して、元Google CEOのエリック・シュミット氏(2001年から2011年までCEOを務めた)は、スタンフォード大学での最近のスピーチで次のように見解を述べた。
動画リンク: https://mp.weixin.qq.com/s/90... 一部のネットユーザーは次のように明かした。 私の弟はGoogleのトップAIプログラマーです。フルタイムの仕事が3つありますが、Googleで働くのは1日2時間だけです。 これについてどう思いますか?ぜひ下のコメント欄にご意見をお寄せください。 参考リンク: |
Google の Her アプリがクラッシュ: 3 回の試行と別の電話機での試行を経てようやく成功... ネットユーザー: 手動で 10 秒で実行できます。
関連するおすすめ記事
-
新型モデルYは26万元で発売されたばかりで、公式発表では7人乗りバージョンが示唆された。
-
6 つの主要モデルは DeepSeek の影響にどのように対応するのでしょうか?
-
Datawhaleと若者のための学術バー
-
マルチモーダル大規模モデルの事実の正確性評価: O1 が最も強力ですが、モデルは一般に自信過剰であり、現代の建築/エンジニアリング/科学で最高のパフォーマンスを発揮します。
-
Alibaba の Sora のオープンソース バージョンはリリース後すぐにチャートのトップに躍り出て、4070 プロセッサ上で動作し、商用利用は無料です。
-
「オープンソースコラボレーションで明るい未来を創る」—KCC@Guangzhouの第3回オフラインイベントが大盛況のうちに終了