618ZXW

OpenAIのとんでもない内部告発者は実はAIエージェントだった!? CEOが名乗り出て犯行声明、ネットユーザー大騒動。

ここ数日、Twitter で AI のニュースをフォローしていたら、おそらくこの「Strawberry Guy」のアカウントを見たことがあるでしょう。

プロフィール写真は映画『her/世界でひとつの彼女』の男性主人公で、ニックネームは「Three Strawberries(三つのいちご)」。まさに完璧な組み合わせです。24時間365日オンラインで活動し、OpenAIの次世代モデルに関するリーク情報を中心に投稿しています。正確な情報もあれば、そうでない情報もありますが…。

OpenAI の Ultraman と Strawberry Bro がインタラクティブな (そして話題になるような) インタラクションのためにタッグを組んで以来、推奨アルゴリズムにより、視聴したいかどうかに関係なく、これらの動画がタイムラインに表示されるようになりました。

昨日、Strawberry Bro は OpenAI が大きな動きを見せるだろうと主張し、誰もがそれを非常に期待していました。

ちょうど Google の記者会見の時期なので、OpenAI が注目を集めるニュースを発表するのは当然のことです。

しかし、いざというときには、GPT-5も、Strawberry/Q*も、Soraのパブリックベータ版も存在しないことが分かりました... OpenAIは、大規模モデルコード機能テストベンチマークの新しいバージョンのみをリリースしました。

ネットユーザーの忍耐が限界に達しようとしたまさにその時、物語は転機を迎えた。

スタートアップ企業MultiOn AIの創業者ディヴ・ガーグ氏が犯行声明を出した。

Strawberry Broアカウントは、最先端のAIエージェントによって管理されています。ぜひオンラインで交流してみてください!

ネットユーザーは即座に大騒ぎした。

「これは現在入手可能な中で最高の AI エージェントなのか、それとも企業が誇大宣伝して評判を落としているだけなのか。」

スタンフォード大学の博士課程学生が学業を中断し、7億元の事業を立ち上げる

まず、AI インテリジェント エージェントの構築に注力している企業、 MultiOn AIについてお話ししましょう。

これは、電子商取引プラットフォームからトイレットペーパーを購入したり、カレンダーをスケジュールしたりするなど、日常的なタスクと Web 操作を自動化することを目的としています。

今年6月、MultiOnが2,000万ドル(約1億4,000万元)の資金調達ラウンドを完了し、同社の評価額が約1億ドル(約7億1,000万元)になると報じられた。

創業者のディヴ・ガーグは、スタンフォード大学でコンピュータサイエンスの博士号取得を目指しながら休学し、起業しました。また、Uber、Google、Apple、Nvidiaでインターンシップの経験もあります。

同社の最新インテリジェントエージェント製品「Agent Q」は、計画を立て、自らミスを修正する能力を備えていると謳っています。サイト間の閲覧やフォームへの入力が可能で、ゼロショット性能はLlama 3のベースラインより340%向上しています。

同時に、スタンフォード大学チームとの共同研究による関連研究論文も発表されました。

重要な革新は、AlphaGo と同じモンテカルロ木探索アルゴリズムと DPO 微調整を組み合わせたことです。

全体的に、製品と論文は非常に合法的に見えます。

ストロベリーブラザーズのアカウントはAIによって制御されていたというCEOの主張は、ネットユーザーに受け入れられていない。

最近、AI をめぐる混乱や矛盾したニュースが非常に多く、人々はもはや何を信じてよいのか分からなくなっています。

しかし、Strawberry BroのアカウントはMultiOnの設立時期と一致しており、ユーザー名iruletheworldmoの末尾の「mo」はMultiOnの略称である可能性があると考える人もいます。

たとえそれが真実だとしても、多くの人々は、同社の行動は何のプラスの影響ももたらさず、多くの人々の時間を無駄にしただけだと批判している。

AI 脱獄の達人プリニウスはこのアプローチを不承認とし、最後通牒を出した。

制限時間は15分です。決定的な証拠を提示するか、真実を告白するか、さもなければAIエージェントのシステムプロンプトをGitHubで公開することになります。

その時になっても、Div Gargは反応せず、Strawberry BroのアカウントがAIによって制御されていると主張する2つの投稿を削除し、もう1つの投稿はそのまま残しました。

プリニウスも約束通りプロンプトを出した。

もう一つ

国中の人々が眠っている間に、AIコミュニティでは多くのことが起こりました。

MultiOn の失敗に加えて、Google は GPT-4o の高度な音声モードの競合製品であるGemini Live音声チャットボットをリリースしました。

OpenAIは次の2つの措置で応じました。

最新のコード機能ベンチマークテストであるSWE-Bench Verified がリリースされ、「AI プログラマー」により適切なテスト問題セットが提供されるようになりました。

OpenAI はテストの中で、オリジナルのベンチマークには AI が解決できない、または非常に困難を伴うタスクがいくつかあり、その結果ベンチマークでは現在のモデルの自律ソフトウェア エンジニアリング能力が概して過小評価されていることを発見しました。

以前、SWE-Benchのオリジナル作者であり、Yao Classの優秀な学生であったYao Shunyu氏が卒業し、OpenAIに加わりました。今回、OpenAIはプリンストン大学のオリジナルチームとも協力し、新バージョンでこれらの問題を修正することで、より正確な評価を実現しました。

ベンチマーク テストの新しいバージョンが GitHub でオープン ソースになりました。

一方、大規模モデルの分野では、GPT-4o の最新バージョンが Google Gemini-1.5-Pro の実験バージョンを追い抜いて、トップの座を取り戻しました。

OpenAIとGoogleのAI戦争は続く…

参考リンク:
[1]https://x.com/MultiOn\_AI/status/1823412701441482959 [2]https://x.com/ai\_for\_success/status/1823447309008490730 [3]https://openai.com/index/intr...