618ZXW

ChatGPT版の「Her」が話題になっています。詩を読みながら泣いている人もおり、中国語でのパフォーマンスも非常に印象的です。

GPT-4o の高度な音声モードは、発売からわずか 1 日で爆発的に利用されるようになりました。

数え切れないほどのネットユーザーが想像力豊かなテストを考案し、GPT-4o はあらゆる種類の奇妙なタスクを受け入れただけでなく、そのパフォーマンスが非常に優れているため、多くの人が「驚いた」と叫んでいます。

たとえば、あるネットユーザーが GPT-4o に中国語で物語を語るように依頼したところ、次のように実行されました。

ビデオリンク: https://mp.weixin.qq.com/s/YA...

多くの中国語圏のネットユーザーは、GPT-4o は感情と全体的な説明の両方の点で非常に優れたパフォーマンスを発揮したとコメントしました。

しかし、完璧ではありません。例えば、話すスピードが少し遅かったり、 「qi」を「kì」と発音したりします

さらに人間に似た例もあります。よく聞いてください。

ビデオリンク: https://mp.weixin.qq.com/s/YA...

そうです、GPT-4o はアメリカの詩人エミリー・ディキンソンの作品を読みながら泣いたのです!

(深い愛情が自然と強くなっていく感じです)

この効果はネットユーザーを恐怖に陥れ、「不気味だ」と表現した。

しかし、これはネットユーザーが行ったクレイジーな実験のほんの一例に過ぎません。他にも興味深い例はたくさんあります。続きをお読みください。

1から100まで早く数える

英語で1から10までできるだけ早く数えるように言われたら、何秒かかりますか?

あるネットユーザーがGPT-4oに次のようなリクエストをしました: AIの話す速度を体験してみましょう!

ビデオリンク: https://mp.weixin.qq.com/s/YA...

ユーザーが1~10の数字をもっと速い速度で読み上げるように指示したところ、「AI字幕」の認識機能が機能しなかった。

GPT-4o に 1 から 50 までを速読するように指示すると、人間のように深呼吸をしているのが聞こえました。

次に、このネットユーザーはさらに高い要求、つまり1-100の速読を要求した。

ビデオリンク: https://mp.weixin.qq.com/s/YA...

当初はネットユーザーの要求を完全には理解していませんでしたが、彼の継続的な指導により、GPT-4o は最終的に 1-100 のスピード リーディングのタスクを完了しました。

GPT-4o はちょっとおかしいだけでなく、猫の鳴き声を真似るのも得意です。

ビデオリンク: https://mp.weixin.qq.com/s/YA...

(一緒にニャーニャーニャー鳴き方を学ぼうね〜)

もちろん、リアルタイムかつ多言語の音声機能が広く普及していることを考えると、ネットユーザーはこのタスクをテストする機会を逃すはずがありません。

主な特徴は、自由に中断して切り替えることができることです。

ウルドゥー語→ヘブライ語→ノルウェー語→モロッコ語ダリガ→アムハラ語→ハンガリー語→グルジア語→クリンゴン語。

ビデオリンク: https://mp.weixin.qq.com/s/YA...

さらに実用的な機能もあります。

たとえば、日本語のゲームをプレイしていて日本語のテキストが理解できない場合は、GPT-4o に任せることができます。

ビデオリンク: https://mp.weixin.qq.com/s/YA...

すごい!GPT-4o がリアルタイム翻訳機に変身しました!

「自然な話し方が鍵」

上記の具体的な例に加えて、ウォートン・ビジネス・スクールのイーサン・モリック教授も自身の考えを述べました。

彼は、GPT-4o の高度な音声機能を次の 3 つのポイントにまとめました。

  • 当時の OpenAI が実証したのと全く同じパフォーマンスを発揮しました。
  • 明らかに、より多くのオーディオを生成できますが、制限があります。
  • ゾッとする。無意識の手がかりがたくさんあるので、まるで人間と話しているような気分になる。

イーサン教授はまた、この非常に自然で人間のような声が、人間と AI の相互作用の本質を変える鍵になると考えています (ただし、基礎となるモデルは私たちが長年使用してきたものです)。

ただし、高度な音声モードは、実際には ChatGPT の既存の音声機能とはかなり異なります。

ChatGPT の以前の音声処理方法は、3 つの異なるモデルに依存していました。1 つ目は音声信号をテキストに変換するモデル、2 つ目はユーザー コマンドを解析して応答する GPT-4、そして最後に ChatGPT の出力テキストを音声に変換するモデルです。

対照的に、GPT-4o はマルチモーダル機能を備えており、他のモデルの支援なしにこれらのタスクを独立して完了できるため、対話プロセス中の待機時間が大幅に短縮されます。

さらに、OpenAIは、GPT-4oが悲しみや興奮といった感情を感知できるなど、ユーザーの声の感情的な変化を認識して対応できることを強調した。

ネットユーザーがテスト結果を共有するにつれ、一般の人々は興奮を抑えきれず、OpenAIがすぐにもっと多くの人に体験させてくれることへの期待を表明した。

GPT-4oの高度な音声機能を他にどのように活用できると思いますか?ぜひ下のコメント欄にご意見をお寄せください!

参考リンク:
[1]https://x.com/CrisGiardina/st... [2]https://x.com/ManuVision/stat... [3]https://x.com/emollick/status... [4]https://x.com/EthanSutin/stat... [5]https://x.com/flowersslop/sta... [6]https://x.com/CrisGiardina [7]https://www.youtube.com/watch...