618ZXW

OpenAIに突如オペレーターが登場!ブラウザを完全に自律制御できるようになりました。ウルトラマン レベル3の時代が到来。

OpenAI の待望のインテリジェント エージェントが正式にリリースされました。

OpenAIの公式紹介:

Operatorは、当社の最初のインテリジェントエージェントの一つです。これらのAIは、あなたに代わって自律的に作業を行うことができます。タスクを与えるだけで、自動的に実行します

必要に応じて、買い​​物リストを提供すると、Operator が自動的に最適なものを購入します。

ご覧のとおり、オペレーターの手はキーボードから離れ、画面上のすべての操作はオペレーター自身によって実行されます。

レストランの予約にも使えます:

ウルトラマンのライブストリームがちょうど終了した時、OpenAIのCEOであるブロックマン氏は熱心にこう発表した。

2025年はインテリジェントエージェントの年です。

そして今回、Operator は発表後すぐに正式にリリースされましたが、現時点では Pro ユーザー、つまり月額 200 ドル (約 1,458 人民元) のプレミアム メンバーシップのみが利用可能です。

ネットユーザーたちはライブ配信を見た後も大いに興奮し、「クレイジーな木曜日」と叫んだ。

しかし...

ええ、Operatorは素晴らしいですが、オープンソースだったらもっと良くなるでしょう。DeepSeekとMeta、早く動いてください(doge)。

人間の支援なしにブラウザを使いこなしましょう。

口で言うのは簡単です。Operator が実際にどれほど「独立」しているかを確認するために、公式デモを見てみましょう。

人間の支援なしに、ほぼすべての Web サイトで使用できます。

たとえば、Allrecipes でクラムフレンチのレシピを見つけて、すべての材料を Instacart のショッピングカートに入れたとします。

その操作ロジックは人間と同じで、どの画像を見てどのボタンをクリックするかを認識します。

API やプログラミング インターフェイスを使用する他のエージェントとは異なり、このエージェントは推論にテキストベースの思考プロセスを使用します。

メニューが決まったら、どのお店に行って食材を注文すればいいでしょうか?

次に人間が Gus を使用するなどの追加の指示を出し、オペレーターは対応する Web サイトにアクセスして注文を行います。

ログインや支払いなどの操作が発生すると、オペレーターはユーザーに操作を返します。

ユーザーテストでは、一部のブロガーは、Operator が Reddit でブロックされている場合、関連する投稿を見つけるために検索にキーワード「Reddit」が自動的に追加されることを発見しました。

ユーザーはカスタムコマンドを追加して、パーソナライズされたエクスペリエンスを実現することもできます。例えば、航空券を予約する際に、好みの航空会社を設定することができます。

Operator を使用すると、ユーザーはホームページですぐにアクセスできるようにヒントを保存できるため、ショッピング Web サイトでの補充などの繰り返しのタスクに最適です。

Operatorは、複数のWebページを開くのと同じように、複数のタスクを同時に実行することもできます。例えば、Etsyでパーソナライズされたエナメルマグカップを注文しながら、同時にHipcampでキャンプ場を予約するといったことが可能です。

Operator は、Computer-Using-Agent (CUA) と呼ばれるまったく新しいモデルを中核に使用します。

GPT-4o の視覚機能と高度な推論強化学習を組み合わせることで、CUA は GUI インタラクションを実行できます。

オペレーターはWebページインターフェースのコンテンツを閲覧し、マウスとキーボードを使用して許可されたすべての操作を実行できます。これにより、カスタムAPIの統合を必要とせずに自動操作が可能になります。

問題やエラーが発生した場合、オペレーターは推論機能を使用して自己修正を行います。また、行き詰まり、支援が必要な場合は、ユーザーに制御を返します。

CUA は、WebArena と WebVoyager の両方のベンチマークで最先端 (SOTA) の結果を達成しました。

現在、米国地域のProメンバーはoperator.chatgpt.comからOperatorを利用できます。Plus、Team、Enterpriseなどの有料会員、および他の地域のユーザーはもう少しお待ちいただく必要がありますが、OpenAIは将来的にこれらの機能をChatGPTに統合することを約束しています。

OpenAIが「レベル3」に突入

2024 年 7 月、OpenAI は「AI から AGI への 5 段階のプロセス」をリリースしました。

  • レベル 1 : チャットボット、AI は会話形式で人々と対話できます。
  • レベル 2 : 推論者、AI テクノロジーは人間レベルの問題を解決します。
  • レベル 3 : エージェント、AI は特定のアクションやタスクを実行するシステムとして機能できます。
  • レベル 4 : イノベーター、AI は革新的な AI を開発できます。
  • レベル 5 : 組織。AI は組織が通常行う作業を実行できます。

OpenAI は当初の定義と計画において、まだレベル 1 であり、レベル 2 に近づいていると述べていました。

さて、オペレーターのリリースに伴い、ウルトラマンは次のことを発表します。

これがレベル 3 への旅の始まりです。

冒頭で述べたように、OpenAI が静かに重要な点を強調していたことは注目に値します。Operator はインテリジェント エージェントの「最初のバッチ」にすぎず、唯一のエージェントではないということです。

生放送中にウルトラマンも予告しました。

今後数週間から数か月の間に、さらに多くのエージェントを展開する予定です。

もう一つ

今日の OpenAI のライブ ストリームの直前に、ちょっとした情報がありました。

Operator がリリースされる 2 時間前に、OpenAI は ChatGPT と API の高エラー率の問題を修正したとツイートしました。

彼はまたネットユーザーを騙した(doge)。

もうひとつの朗報は、Ultraman が ChatGPT の無料版でも o3-mini が使用可能になることを発表したことです。

- 以上-