618ZXW

Operatorのような強力なツールでさえ、CAPTCHAに対して脆弱です。1450元の価格は価値があったのでしょうか?最初のテストラウンドが始まりました。

『オペレーター』をプレイするのに1450元かかるという事実は、当初興奮していた多くの人々を失望させた。

お金を払った人たちは、さまざまな検査結果を興奮しながら共有し始めました。

あるネットユーザーは、オペレーターがウェブを閲覧して3分以内に近くの歯科医院を見つけ、住所と電話番号を報告したとシェアした。

arXiv 上の論文を一つずつ開いて、読んでから要約を出力するなど、研究アシスタントとして使っている人もいます。

AI がどのように反応するかを見るために、わざと難しい問題を作り出す「悪者」もいます。オペレーターが ChatGPT ウェブサイトでオペレーターを使用したらどうなるでしょうか?

しかし驚いたことに、OpenAI は彼の予測を予測し、皮肉なエラーメッセージを表示しました。

うまくいきました。次回は試さないでください。

Operator のような強力なツールでも、インターネットを閲覧中に CAPTCHA に引っかかってしまうことがありますが、ありがたいことに、人間のユーザーに助けを求めることを学習しています。

CAPTCHA に遭遇しました... 引き継いで修正してもらえますか?

そうです、これはまだ初期プレビュー版です。

ライブ放送に参加した基礎研究貢献者のケーシー・チュー氏は、間違いが起こる可能性はあるが、未来を垣間見ることができると考えている。

さらに、彼の投稿は実際には Operator によって送信されており、ネストされたループが成功しています。

コア貢献者であるYilong Qin は、テスト時間の計算に関するスケーリング法則がここでも引き続き有効であると考えています。

エージェントにさらに時間を与えると、エージェントはイントロスペクトし、更新し、最終的に成功するまで何度も試行します。

もう一人のコア貢献者であるYao Shunyu氏は、強化学習という新しいパラダイムにより、Operator の進歩の速度は o1-preview から o3 までの速度と同じようなものになるだろうと述べました。

また、エージェントは OpenAI (さらには AI) の創業以来の目標であり、その開発には多くの試みがなされてきたとも説明しました。

しかし、エージェントの潜在能力が真に解き放たれたのは、GPT と Strawberry (o1) という 2 つの新しいパラダイムが発見されてからでした。

2025年はエージェントの年となるでしょう。

なぜ彼はそんなことを言ったのでしょうか?OpenAI設立当初まで遡る必要があります。

OpenAIのエージェントとの10年間の旅

2016年から2017年にかけて、OpenAIはWord of BitsとUniverseを通じてAIがブラウザを操作しインターネットにアクセスできるようにすることを検討しました。

Word of BitsはOpenAIとスタンフォード大学の共同プロジェクトで、参加者にはKarpathy氏やJim Fan氏、スタンフォード大学准教授のPercy Liang氏、Yao Class卒業生のTianlin Shi氏など、おなじみの名前が含まれています。

Shi Tianlin 氏は、 2017 年に Cresta を設立する前に、OpenAI でわずか 1 年間勤務していました。Cresta の事業は AI エージェントに重点を置いており、カスタマー サービス センターにさまざまな AI アシスタントを提供しています。

2024年11月、クレスタは1億2,500万ドルのシリーズD資金調達ラウンドを完了し、総資金調達額は2億7,000万ドルとなりました。

OpenAI Universeは、エージェントの訓練とテストのためのプラットフォームです。Fei-Fei Li氏のImageNetに着想を得て、画像認識タスクにおける急速な進歩をエージェント分野にも再現したいと考えています。

2017 年までに、Universe はすでに AI が簡単なブラウザ操作を実行し、Atari ゲームをプレイできるようになっていました。

しかし、その後まもなく、OpenAI は強化学習から GPT シリーズの言語モデルへと主な焦点を移しました。

2021年末、GPT-3時代の到来とともに、OpenAIは当初の使命を忠実に守り、テキストベースのウェブブラウザを使用して自由形式の質問により正確に答えるWebGPTを立ち上げました。

この研究により、自由形式の質問に対するGPT-3の回答の信憑性と有用性は20%~30%から40%~80%に向上しましたが、それでも人間の平均レベルには達しませんでした。

WebGPT の作者のうち 4 名 (Ouyang Long、Christina Kim、Reiichiro Nakano、Kevin Button) も最新の Operator 貢献者リストに登場しました。

発表のライブ放送には、Operatorプロジェクトの研究ディレクターの一人である中野礼一郎氏も登場した。

サム・アルトマン、ヤシュ・クマール、ケイシー・チュー、中野礼一郎

最新の Operator の基盤モデルは CUA (Computer Use Agent) と名付けられており、以前の調査と比較していくつかの重要な進歩を遂げています。

  • マルチモーダル理解は、GPT-4o によって提供される「知覚」機能をもたらします。
  • 長いコンテキストは「タスクビジョン」として機能し、エージェントが最大 20 分間タスクを継続的に実行できるようにします。
  • O1 スタイルの思考連鎖推論であるこの内部独白により、モデルは観察結果を評価し、中間ステップを追跡し、動的に適応することができます。

10年間の開発プロセス全体に参加し、観察したカルパティ氏は次のように要約した。

デジタル世界におけるオペレーターは、現実世界におけるヒューマノイドロボットと同じ存在です。
デジタルの世界は物理世界よりも速く発展しています。ビットを反転するコストが原子を移動するコストの約 1/1000 に過ぎないからです。
...
2025 年をエージェントの年と呼ぶよりも、2025 年から 2035 年はエージェントの 10 年であると言った方が正確です

ビットの世界
https://proceedings.mlr.press...

宇宙
https://openai.com/index/univ...

ウェブGPT
https://openai.com/index/webgpt/

オペレーター
https://openai.com/index/open...

参考リンク:
[1]https://www.reddit.com/r/sing...\_operator\_finds\_me\_an\_in\_network\_dentist/ [2] https://x.com/omarsar0/status... [3]https://x.com/liambolling/sta... [4]https://x.com/caseychu9/statu... [5]https://x.com/yilongqin/statu... [6]https://x.com/liambolling/sta... [7]https://x.com/karpathy/status...