618ZXW

OpenAIは画像理解にo1推論を使用し、アプリケーション開発の2分間のライブデモンストレーションがロンドンの開発者コミュニティを刺激した。

OpenAI は、Cursor の o1-mini アプリケーションを使用してライブ アプリケーションを作成し、わずか 2 分でドローンの飛行を直接制御しました

これには観客から驚きの声が上がった。

このアクションは、 OpenAIのロンドン開発者デーイベントで行われました。OpenAIの「テクノロジー春祭り」として開催されたこのイベントは、会場が人でいっぱいになり、非常に活気に満ちていました。

OpenAIの製品責任者であるオリヴィエ・ゴデマン氏も、 o1の新機能をいくつか紹介しました。

これには、関数呼び出し開発者メッセージストリーミング メディア構造化出力画像理解の5 つの側面が含まれます。

その後の質疑応答で、アルトマン氏はネタバレを避けつつも、「画像モデルはまもなく大幅に改善されるだろう」と明かした。既存のモデルを複製することは難しくなく、OpenAIが常に新たなブレークスルーを生み出していることを誇りに思うと語った。

これを聞いてネットユーザーたちはさらに興奮した。

彼が画像生成、画像分析、あるいはその両方について言及しているのかは分かりません。しかし、画像トークンを推論に使うことを想像してみてください。視覚的な問題に直面しているなら、問題を段階的に視覚化できるかもしれません。他のモデルで同様の機能を持つものをまだ見たことがありません。

OpenAI が画像処理に力を入れていることは、しばらく前から明らかでした。

少し前に、清華大学の卒業生である Lu Cheng 氏と Song Yang 氏が、 OpenAI で最新の画像生成研究を発表しました。

彼らは一貫性モデルを簡素化し、わずか 2 つのサンプリング ステップを使用して、拡散モデルに匹敵する生成品質を実現しながら、速度を 50 倍に高めました。

なお、OpenAIが言及した画像モデルについては、数日前に話題となり画像作成コンテストで1位になった謎のレッサーパンダ( red_pa​​nda )ではないかと推測する人もいました。

しかし、この主張はすぐに反論されました。

レッサーパンダを開発したRecraft AIチームは、これが彼らの新しいモデルであるrecraft-v3であるとツイートしました。

つまり、O1は今回本当にみんなの興味をそそり、ネットユーザーたちは4.5Oと5のプレビューをすぐにリリースするよう促している。

素晴らしいですが、Sonnet のモデルに勝るコードはまだありません。

ウルトラマンは他に何を言いましたか?

イベントでは、アルトマン氏は、OpenAIの開発の方向性がO1モデルに似ているか、あるいはより大規模なモデルが登場するかについても質問された。

あらゆる面で改善していきたいと考えているが、OpenAIにとって特に重要なのは推論モデルの開発だと語った。

推論機能は、新しい科学分野への貢献や非常に複雑なコードの作成支援など、長年私たちが実現したいと願ってきた多くのことを実現すると確信しています。これらはすべて、私たちにとって大きな後押しとなるでしょう。そのため、Oシリーズモデルの迅速な改良は期待できます。これは私たちにとって非常に重要な戦略的意義を持っています。

「エージェントとは何か」と「エージェントは何ができるか」について議論した際、アルトマン氏は、エージェントとは実行プロセス中に最小限の監視で長期間にわたってタスクを実行できるものであると述べました。

アルトマン氏は、人々が挙げる最も一般的な例は、OpenTable のようなオンラインレストラン予約プラットフォームを通じて、またはレストランに直接電話して、エージェントにレストランの予約を手伝ってもらうことだと考えています。

確かにこれによって人間の仕事がいくらか軽減されるかもしれないが、もっと興味深いのは、人間ができない、あるいはやりたくないことを人間が行える世界が創造されることだ。

たとえば、エージェントがレストランに電話して予約を取る代わりに、300 軒のレストランに電話して最も良い、または最もユニークなレストランを見つけることができ、多数のタスクを並行して処理できるようになります。

エージェントは非常に賢く、高度な能力を持つ同僚になります。プロジェクトで共同作業することも、2日間、あるいは2週間ほど独立して作業させ、タスクを完了させて結果を報告してもらうこともできます。

次に、ウルトラマンは最も尊敬するライバルは誰かと尋ねられた。彼はまずカーソルAIを挙げたが、その後こう付け加えた。

つまり、今この分野に携わる皆さんに、私はある種の敬意を抱いているということです。この分野からは本当に素晴らしい仕事がたくさん生まれ、信じられないほど才能があり、勤勉な人がたくさんいると思います。問題を避けようとしているわけではありませんが、本当に素晴らしい仕事をしている素晴らしい人たちがたくさんいることを指摘できます。

ちょうど昨日、Microsoft は GitHub Copilot が Claude および Gemini と統合することを発表しました。

その後、ウルトラマンは向きを変え、マイクロソフトの競合である Cursor AI に親指を立てました...

さらに、Ultraman は AI の最もエキサイティングな応用シナリオは何かと尋ねられ、再び Agent について質問しました。

人それぞれに抱える懸念は異なり、この問題を解決する方法も様々ですが、あなたの人生全体を理解できるAIが登場することを願っています。必ずしも無限のコンテキストを持つ必要はありませんが、むしろ、何らかの形であなたのすべてを知り、あなたのあらゆるデータにアクセスできるAIエージェントが理想です。

ウルトラマンはまた、大型モデルの欠点のほとんどは将来の世代で徐々に解消されるだろうと考えています。

脆弱性を修正したりモデルの欠陥を回避したりするためのツールを構築するのではなく、将来の利点を活用するモデルを構築します。

もう一つ

ティーザーに加えて、OpenAIはもう一つの最新の開発を発表した。

短い事実の質問に答える言語モデルの能力を評価するために、 SimpleQAと呼ばれる新しいベンチマークがオープンソース化されました。

この論文の共同第一著者は、 Jason Wei (MindChain に関する画期的な論文の第一著者) とKarina Nguyen (MindChain 決闘当時は Anthropic に所属し、現在は OpenAI のエンジニア) で、昨年は X に関するキューワード決闘を互いに挑んで大きな注目を集めました。

興味深いことに、o1-mini と o1-preview はどちらもこのベンチマークに失敗し、両者の差は顕著でした。

参考リンク: [1]https://twitter.com/idonotwri... [2]https://twitter.com/stevenhei... [3]https://x.com/kimmonismus/sta... [4]https://twitter.com/OpenAI/st... [5]https://twitter.com/AymericRo... [6]https://www.youtube.com/watch... [7]https://x.com/caromcc\_/status/1851570587287601237