618ZXW

Google の Her アプリがクラッシュ: 3 回の試行と別の電話機での試行を経てようやく成功... ネットユーザー: 手動で 10 秒で実行できます。

墜落しました。ひどい墜落でした。

今朝、Google 版の Her 、Gemini Liveが正式にリリースされました。

結局のところ、これはテクノロジーの世界で大きな注目を集めている OpenAI の GPT-4o の直接的な競合相手であることは明らかです。

公式サイトで公開されているデモでは、写真ベースのQ&A機能は次のように表示されます。

その主な機能は、携帯電話でコンサートのポスターの写真を撮り、Gemini がユーザーのカレンダーをチェックして、スケジュールが参加に適しているかどうかを確認することです。

さらに、これに基づいて、設定された時間にチケットの価格を確認するなど、一連の後続操作を実行することができます。

ところが…記者会見でのデモになるとスタイルが180度変わった。

ビデオをご覧ください:

動画リンク: https://mp.weixin.qq.com/s/90...

  • 最初の試み: 失敗しました。
  • 2回目の試みは失敗しました。
  • 3 回目: 携帯電話を変更したら、うまくいきました。

うーん…男の表情を見ると、明らかに少し慌てている様子が見て取れた。

有名なテクノロジーメディア「TechCrunch」でもこの絵文字が使われていました。

一部のネットユーザーからは、痛烈なコメントも寄せられ始めた。

10秒でカレンダーを検索できます。

もちろん、これは今日の Made by Google シリーズのほんの一例です。

Gemini Live についてさらに詳しく知るには、読み続けてください。

Google版Herの全貌

先ほど述べたように、Gemini Live と GPT-4o は非常に似た機能を持っています。

「写真Q&A」に加え、リアルタイム会話も可能で、ジェミニの返答に割り込むことも可能。

Gemini Live の機能が Android の Advanced サブスクライバーに提供されるようになりました (英語のみ)。

今後数週間で、この機能は徐々にさらに多くの言語に拡張され、iOS でも利用できるようになります。

会話の音声オプションに関しては、Gemini Live では10 種類の新しい音声選択肢が提供されており、その効果は次のとおりです。

動画リンク: https://mp.weixin.qq.com/s/90...

操作面では、Gemini はシステムに完全に統合されているため、電源ボタンを長押しするか、「Hey Google」と言うだけでアクセスできます。

たとえば、電子メールを作成中に、次に示すように、Gemini で画像を生成することができます。

しかしながら、海外のメディアはこの機能に対して賛否両論の評価を与えている。

たとえば、The Verge の著者の 1 人は、個人的にテストした後、次のようなタイトルを付けました。

Gemini Live は Google よりも高速ですが、扱いにくいです。

具体的な理由は、3日間のドライブ旅行中に車のオーディオシステムが突然故障したことでした。

オリジナルの Google アシスタントを使用して解決策を見つけるには少なくとも 5 分かかりましたが、Gemini Live ではわずか 15 秒しかかかりませんでした。

しかし、筆者は会話中にGemini Liveがずっと話し続けていることや、ユーザーが積極的に割り込む必要があるインタラクティブな方法に違和感を覚えた。

彼はこう信じている。

声と話し方がとても人間的だったので、それを遮るのは不快に感じました。

私は、Gemini Live を問題解決のツールとして使用するよりも、それとのやりとりに多くの感情を注ぎ込みました。

偶然にも、ウォールストリートジャーナルもジェミニライブのクラウドベースの運用について厳しい批判を行った。

対話は進歩するが、機能は後退する。

技術的な面では、GPT-4o はエンドツーエンドのシステムですが、Google がリリースしたものに基づくと、Gemini Live はそうではありません。

代わりに、STT、VAD、LLM、および TTS システムを統合します。

さらに、Gemini Live は Google の新しい Pixel シリーズのスマートフォンにも搭載されました。

これには、Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL が含まれます。

AI機能の面では、GoogleのPixelスマートフォンに、写真を撮るための「Add Me」という機能が追加されました。

拡張現実 (AR) と AI 技術を使用すると、2 枚の異なる写真から人物を「合成」することができます。

Google はなぜ OpenAI に追いつけないのか?

GoogleのGemini LiveのリリースはOpenAIのGPT-4oへの対応と見ることができますが、大規模モデルの時代が始まって以来、非常に明確な傾向が見られてきました。

GoogleはOpenAIに遅れをとっている。

まず、ChatGPT のリリースという重要な局面で OpenAI が先駆者となったが、その後 Google が Gemini Live に似た Bard をリリースしたが、その後挫折に見舞われた。

その後の1年半は、OpenAI がすべての主要なモデルとアプリケーションのリリースをリードしているように見えました。

一方、Googleは技術面での減速の兆しを見せているだけでなく、世論の面でもOpenAIによる人事異動(イリヤ氏の退社)発表によって影が薄くなり、Google最大の年次イベント(I/Oカンファレンス)の人気にも影を落としている。

では、なぜ Google はビッグモデルの時代に失敗したのでしょうか?

これに対して、元Google CEOのエリック・シュミット氏(2001年から2011年までCEOを務めた)は、スタンフォード大学での最近のスピーチで次のように見解を述べた。

Google は、従業員に在宅勤務を認めるなど、ワークライフバランスを重視しています。

しかし、スタートアップ企業は本当に一生懸命働いています。

動画リンク: https://mp.weixin.qq.com/s/90...

一部のネットユーザーは次のように明かした。

私の弟はGoogleのトップAIプログラマーです。フルタイムの仕事が3つありますが、Googleで働くのは1日2時間だけです。

これについてどう思いますか?ぜひ下のコメント欄にご意見をお寄せください。

参考リンク:
[1]https://x.com/techcrunch/stat... [2]https://x.com/GoogleDeepMind/... [3]https://blog.google/products/... [4]https://x.com/alexkehr/status... [5]https://www.theverge.com/2024... [6]https://blog.google/products/...