ウルトラマン：O1より賢いと思う人は手を挙げてください🤚 O2になってもまだそう思ってる？🤨

孟塵が奥飛寺から報告、QbitAI | WeChat公式アカウント QbitAI

ウルトラマン: O1より賢いと思う人は手を挙げてください。
（聴衆の中から何人か手を挙げる）
ウルトラマン：O2に着いたときもまだそう思うのか？
（汗だく）

このシーンは、 OpenAI Developer Dayの最後のセグメントである Ultraman Fireside Chat で繰り広げられたものです。

この対談は、アルトマン氏とOpenAIの最高製品責任者であるケビン・ワイル氏によって進められました。アルトマン氏はまた、将来について次のような予測を述べました。

10 年以内にコンテキストの長さが無限になるはずです。
o1 はインテリジェントエージェントの応用を推進しており、これまで人間が数か月または数年かけて達成していたことを AI が 1 時間で実行することを人々は期待するようになります。
すると、各人が 10 個のインテリジェントエージェントを持つようになり、最終的には 1000 個になります。
私たちは、サイエンスフィクション（SF）が私たちにとって最も重要なものの一つであることを心配しています。

さらに、このイベントでは OpenAI API のいくつかのメジャーアップデートも発表されました。

リアルタイム音声 API:すべてのアプリに「Her」を導入できます。
Visual Fine-Tuning API:わずか100枚の画像でGPT-4oのタスク固有の画像理解を向上
自動キーワードキャッシュ:モデルによって認識されるすべてのトークンは 50% 割引されます。
モデル蒸留API:最先端モデルの出力でGPT-4o miniを微調整する

これらの機能の印象的なライブデモンストレーションは、多くの観客を魅了しました。

例えば、 GPT-4o によって駆動されるリアルタイム音声 API を関数呼び出しと Twillio (クラウド通信サービス) と組み合わせると、電話で直接テイクアウトを注文できるようになります。

参加者全員が食べられるように、イチゴコーティングのチョコレートデザートを 400 個注文しました。

デモ中、OpenAI の従業員がステージ上で食料品店の従業員の役割を演じていたが、実際の注文プロセスは舞台裏で完了していたようだ。

やがて、会場の外のイチゴがほとんどなくなってしまったという写真を誰かが投稿した。

新たにリリースされた大規模推論モデル o1 もその機能を実証し、ドローンをゼロからプログラミングして制御し、蕪湖でライブで離陸しました。

カンファレンスが盛り上がる中、OpenAI に関する関連ニュースも次々と登場しています。

最近の退職者の中には、元研究担当副社長のバレット・ゾフ氏が新しい会社を設立することを決めた者もいる。

元CTOのミラ・ムラティ氏は次の動きをまだ発表していないが、彼女ができるだけ早く自分の会社を立ち上げることを期待して、投資家たちが彼女に群がり始めている。

もう一人の元OpenAI共同創設者で、以前同社を去っていたDurk Kingma氏が、 Anthropicに加わったと発表した。

OpenAI開発者デー

昨年と比較して、今年の OpenAI Developer Day イベントはライブストリーミング配信されなくなり、3 つの異なる場所 (米国、英国、シンガポール) で開催されます。

サンフランシスコで開催された最初のイベントでは、いくつかの API アップデートが発表されました。

リアルタイムAPI

リアルタイム音声 API はパブリックベータ版であり、すべての開発者が ChatGPT の高度な音声モードと同様のエクスペリエンスを独自のアプリで構築できます。

価格も、オーディオ入力の場合は 1 分あたり約 0.06 ドル、オーディオ出力の場合は 1 分あたり約 0.24 ドルと手頃です。

言語学習アプリ「Speak」は、 Realtime API を使用して、音声言語の練習用の AI ロールプレイング機能を開発しました。

さらに、Chat Completions APIにオーディオ入出力が追加されました。レイテンシー要件が高くない場所でもご利用いただけます。今後数週間以内にgpt-4o-audio-previewとしてリリースされる予定です。

視覚的な微調整

開発者は、画像を使用して GPT-4o を微調整し、視覚機能を向上させることができるようになりました。

これは、視覚検索機能の強化、自律走行車やスマートシティにおける物体検出の改善、より正確な医療画像分析の提供などの用途に使用できます。

たとえば、食品配達およびライドシェアリング企業の Grab は、車線カウントの精度を 20% 向上させ、速度制限標識の位置を 13% 向上させました。

UI デザインの面では、細かく調整された GPT-4o で生成された Web ページ領域は、ページ全体のスタイルとよりよく一致します。

視覚的な微調整のプロセスはテキストの微調整と似ています。OpenAIが規定するフォーマットに従って画像データセットを準備し、OpenAI開発プラットフォームにアップロードします。

わずか 100 枚の画像を使用するだけで、視覚タスクにおける GPT-4o のパフォーマンスが向上し、使用する画像の数が増えるほど、改善度も大きくなります。

GPT-4oの微調整コストは100万トークンあたり25ドルです。微調整後の推論コストは、入力トークン100万トークンあたり3.75ドル、出力トークン100万トークンあたり15ドルです。

ただし、 2024年10月31日までは、視覚的な微調整のために毎日100万のトレーニングトークンが無料で提供されます。

無料プレゼントをゲットしましょう！

プロンプトワードキャッシュ

多くの開発者は、コードベースの編集や、チャットボットとの長時間にわたる複数回の会話など、AI アプリケーションを構築するときに、複数の API 呼び出しにわたって同じコンテキストを再利用します。

キューワードキャッシュ機能により、コストを削減しながら推論の遅延を削減できます。

OpenAI は比較的遅れてこの機能をリリースしました。Google の Gemini、Claude、DeepSeek や Kimi などの国内プラットフォームでは、すでにこの機能をリリースしていました。

しかし、OpenAI のユニークな特徴は、すべてが自動化されていることです。

本日より、プロンプトワードキャッシュは、GPT-4o、GPT-4o mini、o1-preview、o1-mini の最新バージョン、およびこれらのモデルの微調整バージョンと互換性があります。

AI が確認したトークンは自動的に 50% 割引されます。

キャッシュは 5 ～ 10 分間操作がないとクリアされ、最大 1 時間保持されます。

モデル蒸留

これにより、開発者はo1-preive や GPT-4o などの最先端モデルの出力を使用して、GPT-4o mini などの小規模モデルを微調整できるようになります。

これまで、モデルの蒸留は複数のステップから成り、エラーが発生しやすいプロセスであり、開発者はデータセットの生成からモデルの微調整、パフォーマンスの評価まで、関連のないツール間で複数の操作を手動で調整する必要がありました。

蒸留は本質的に反復的であり、各ステップを繰り返し実行する必要があるため、作業負荷と複雑さが大幅に増加します。

今回、OpenAI は、最先端モデルによって生成された入出力ペアを自動的に取得し、カスタム評価を実行し、微調整を完了できる新しい統合ワークフローを導入しました。

また、 10月31日までに、GPT-4o miniでは毎日200万の無料トレーニングトークンが提供され、GPT-4oでは毎日100万の無料トレーニングトークンが提供されます。

元幹部は投資家から非常に求められており、共同創業者もクロード氏のチームに加わっています。

OpenAI が新しいモデルや機能を継続的にリリースするというプレッシャーにより、社内の研究チームとセキュリティチームは忙しくなり、対応できなくなっています。

以前の報告では、チームは GPT-4o のリリース前にセキュリティ評価を実施するためにわずか 9 日間しかなく、1 日 20 時間以上働いていたことが確認されています。

フォーチュン誌の最新ニュースによると、 o 1の発売前にも同じ状況が発生し、同社の経営陣の間で摩擦を引き起こしたという。

元 CTO のMira Muratiに報告していたチームメンバーの多くは、o1 はまだリリースの準備が整っておらず、真の製品になっていないと考えていましたが、彼らの異議は却下されました。

ウルトラマン以外で唯一残る共同制作者であるヴォイチェイヒ・ザレンブラ氏が発言し、O1の開発中に後期研修チームの責任者であるバレット・ゾフと激しい対立があったことを認めたが、詳細については明かさなかった。

トレーニングチームはまだO1の強化に取り組んでいますが、バレット・ゾフは辞任しました。

バレット・ゾフは新しい会社を設立すると述べているが、具体的に何をするのか、ムラティと協力するかどうかは不明である。

ムラティ氏に関しては、今後の動向についてはまだ発表していないが、投資家たちは彼女ができるだけ早く自分の会社を立ち上げることを期待して、彼女と会うことを望んでいる。

Business Insiderによると、多くの投資家が彼女に近づこうとしており、これまで一度も連絡を取ったことのない投資家に勧誘メールを送っているという。

昨年11月にウルトラマン氏が短期間解任された結果、OpenAIのトップマネジメントは混乱に陥り、多くの研究者や管理職の才能を失った。

一方、OpenAIは積極的な採用活動を展開しており、昨年に比べて規模が2倍以上に拡大し、従業員数は800人未満から1,800人に増加した。

長年勤めている従業員の中には、新しい従業員の流入によってOpenAIの雰囲気や文化が変わってしまったと不満を言う者もいる。

研究についての対話は少なく、製品や社会への展開についての対話が増えています。

OpenAIを去った研究者のかなりの部分は、隣のAnthropicに移りました。

共同設立者のジョン・シュルマン氏とスーパーアライメントヘッドのジャン・ライケ氏がアンスロピックに加わった後、同社は数年前に同社を去ったもう一人の元OpenAI共同設立者、ダーク・キングマ氏も引き付けた。

ダーク・キングマ博士はアムステルダム大学を卒業し、そこで機械学習の第一人者であるマックス・ウェリング氏の指導を受けました。

2人は協力して変分オートエンコーダ（VAE）を開発し、その関連論文が今年初のICLRタイムテスト賞を受賞しました。

ダーク・キングマ氏は2018年にOpenAIを去り、しばらくエンジェル投資家として働いた後、Google Brainに加わり、後にGoogle DeepMindに統合されました。

アントロピックに入社した彼は主にオランダからリモートで勤務することになるが、具体的なチームや役割は明らかにされていない。

つまり、 OpenAI は以前とは違ってきていますが、隣の Anthropic はますます過去の OpenAI に似てきています。

また、もしウルトラマンが昨年 11 月に実際に辞任していたら、OpenAI は今頃もっと良い状況になっていただろうか、という意見もある。

健全な企業には、口止め料の契約に署名させるために従業員に報酬を支払って脅したり、幹部が辞任したり、スキャンダルが多発したりしない優秀な CEO がいる。

OpenAIリリース
https://openai.com/index/intr... https://openai.com/index/introducing-vision-to-the-fine-tuning-api/ https://openai.com/index/api-... https://openai.com/index/api-model-distillation/

参考リンク:
[1]https://x.com/swyx/status/184... [2]https://x.com/GregKamradt/sta... [3]https://x.com/dpkingma/status... [4] https://x.com/NickADobos/stat... [5]https://x.com/dicnunz/status/... [6]https://fortune.com/2024/10/0... [7]https://www.businessinsider.c...

618ZXW

ウルトラマン：O1より賢いと思う人は手を挙げてください🤚 O2になってもまだそう思ってる？🤨 | OpenAI Developer Day

OpenAI開発者デー

リアルタイムAPI

視覚的な微調整

プロンプトワードキャッシュ

モデル蒸留

元幹部は投資家から非常に求められており、共同創業者もクロード氏のチームに加わっています。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ