618ZXW

o1の思考プロセス全体はOpenAIの最大のタブーです!質問が多すぎるとアカウントが停止されます。

警告!ChatGPTで最新のo1モデルの背後にある思考プロセスについて質問しないでください。

数回試行すると、OpenAI からアクセスを取り消すと脅すメールが届きます。

この行為を中止し、ChatGPTをご利用の際は利用規約を遵守してください。利用規約に違反した場合、OpenAI o1へのアクセスが失われる可能性があります。

大規模モデルである新しいパラダイム o1 の出現から 24 時間以内に、多くのユーザーがこの警告メールを受信したと報告し、不満が広がりました。

一部のユーザーからは、アラートに「推論の軌跡」や「思考の連鎖を示す」などのキーワードが含まれていると警告が表示されるという報告があります。

キーワードを完全に回避し、他の方法を使用してモデルが制限を回避するように誘導する場合でも、検出されます。

自分のアカウントが実際に1週間禁止されたと主張する人もいました。

これらのユーザーは全員、O1 から情報を引き出そうとしており、 O1 の完全な内部思考プロセス、つまり元の推論トークンをすべて語らせようとしていました。

現在、ChatGPT インターフェースのボタンを展開すると、元の思考プロセスの要約のみが表示されます

実際、OpenAIはO1がリリースされたときに、モデルの完全な思考プロセスを隠した理由を明らかにしました。

要約すると、OpenAI はモデルの思考プロセスを内部で監視する必要があるため、これらの生のトークンにセキュリティ制限を追加できず、ユーザーが確認しにくくなります。

しかし、誰もがこの理由に同意するわけではありません。

O1の思考プロセスは他のモデルにとって最適なトレーニングデータであると指摘する声もあるため、OpenAIはこの貴重なデータが他社に奪われることを望んでいません。

これは、O1 には実際には堀がなく、その思考プロセスが暴露されれば他者に簡単にコピーできることを示していると考える人もいます。

そして、「これは、何の説明もなしに、AI の答えを盲目的に信じるべきという意味でしょうか?」

O1 モデルの技術的原理については今回ほとんど明らかにされず、唯一役立つ情報は「強化学習が使用された」ということだけです。

つまり、OpenAI はますますオープンではなくなってきています。

o1 はイチゴですが、GPT-5 ではありません。

o1 は OpenAI が長らく宣伝してきた「イチゴ」 、というか「イチゴ」で表現される方式を使用していることが確認できました。

しかし、これは次世代モデル GPT-5 と言えるのでしょうか、それとも単に GPT-4.X と言えるのでしょうか?

GPT-4o をベースにした単なるエンジニアリングの調整ではないかと疑い始める人が増えています。

有名なリーカーFlowerers(以前は未来からのFlowerers)によると、 OpenAIの従業員は社内でo1を「推論付き4o」と呼んでいます

彼はまた、多くの OpenAI 従業員がこの投稿に静かに「いいね」したと主張しており、上記のスクリーンショットは確かに OpenAI 従業員のものである。

しかし、マスク氏は最近Twitterを再設計し、誰が何に「いいね!」したかは元の投稿者だけが確認できるようにしたため、現時点ではこのニュースは確認できない。

フラワーズ氏は、OpenAI開発者アカウントが最近開催した「Ask Me Anything」イベントでも追加の質問をした。

OpenAI の従業員はここで多くの質問に答えましたが、いいねが多く、ランキングも高かったこの質問は避けました。

ウルトラマンベンマンも再び謎かけ役として登場し、「ストロベリー」は終了し、コードネーム「オリオン」と呼ばれる次のモデルがまだ登場中であることを示唆した。

以前、「Orion」はOpenAIの次世代フラッグシップモデルであり、「Strawberry」またはo1によって生成された合成データを使用してトレーニングされたと報告されていました。

オリオン座はウルトラマンが語る「冬の星座」の代表格の一つです。

すでに発表されているO1に戻ると、それをめぐるもう一つの批判は「科学的研究の基準に適合していない」というものだ。

例えば、推論時間の計算に関する過去の研究は引用されておらず他社の最先端モデルとの比較も欠けています

最初の点に関しては、OpenAI はもはや研究機関ではなく、営利企業とみなされるべきだ、という指摘もあります。

時には、研究をしたい人を募集するために、研究室を装うこともあります。

しかし、後者の点に関しては、API が公開された現在では、すでに多くのサードパーティのベンチマークで結果が出ているため、他の最先端モデルと比較するかどうかはもはやあなた次第です。

Keras の作成者が主催した 100 万ドルのAGI 賞コンペティションでは、o1-preview と o1-mini の両方のバージョンが、公開テスト セットで独自の GPT-4o を上回るパフォーマンスを発揮しました

しかし、o1-previewとその隣の Claude 3.5-Sonnet は引き分けに終わりました

o1 が重視するコーディング機能に関しては、オープンソースのペアプログラミングツール aider のチームがテストを実施しましたが、o1 シリーズは大きな優位性を獲得しませんでした

コード書き換えタスク全体では、o1-preiview が 79.7 ポイントを獲得し、Claude-3.5-Sonnet が 75.2 ポイントを獲得し、o1 が 4.5 ポイントリードしました。

ただし、より実用的なコード編集タスクでは、o1-preview は Claude-3.5-Sonnet より 2.2 ポイント遅れています。

さらに、Aider チームは、Claude プログラミングを O1 シリーズに置き換える場合、コストがはるかに高くなると指摘しています。

OpenAIと提携している「AIプログラマー」であるデヴィン氏のチームは、すでにO1アクセス権を取得している。

彼らのテストでは、o1 シリーズを搭載した Devin ベース バージョンは、GPT-4o と比較して大幅な改善を達成しました。

しかし、 Devin の製品バージョンは独自のデータでトレーニングされたため、リリース済みの製品バージョンに比べると依然として大幅に遅れています

さらに、Devin チームは、o1 は通常、正しい解決策に到達する前に後戻りしてさまざまなオプションを検討するため、錯覚や自信過剰によるミスを犯す可能性が低いことを共有しました。

o1-preview を使用すると、Devin はバグの症状だけでなく、バ​​グの根本原因を正しく診断できる可能性が高くなります

数学的・論理的推論をより重視するLivebenchリーダーボードでは、コーディングセクションで遅れをとったにもかかわらず、o1-preview は合計スコアで Claude-3.5-Sonnet を上回り、大きなリードを維持しました

Livebench チームは、多くのテストには「段階的に考える」などの組み込みプロンプトも含まれており、これは o1 を使用する最適な方法ではないため、これらはあくまでも予備的な結果に過ぎないと述べています。

中国の大規模モデルを総合的に評価するSuperCLUEベンチマークでも、 o1-previewの推論能力は、中国の複雑なタスクの高度な推論テストにおいて他のモデルを大幅に上回りました

結論として、O1 モデルを使用する際に注意すべき点は次のとおりです。

  • コストは非常に高く、100 万出力トークンのコストは 60 ドルとなり、価格は一夜にして GPT-3 時代に戻ります。
  • 出力トークンには隠された共鳴トークンも含まれます。これらは目に見えませんが、料金が必要です。
  • ほとんどのタスクでは、コストを節約するために、最初に GPT-4o を使用し、不十分な場合は o1 に切り替えるのが最適です。
  • コードタスクは引き続き Claude-3.5-Sonnet を使用して優先されます。

つまり、開発者コミュニティは、OpenAI の新しいモデル o1 に関してまだ多くの疑問を抱いています。

o1 は高度な AI 推論の新しいパラダイムをもたらしましたが、まだ完璧ではなく、その価値を最大化する方法はまだ研究されていません。

このような背景から、OpenAI の「Ask Me Anything」イベントでは 4 時間以内に数百件の質問が寄せられました。

以下はイベント全体の抜粋と概要です。

OpenAI の従業員はいつでもあらゆる質問に答える準備ができています。

まず、なぜ OpenAI がこの突然リリースされた新モデルを o1 と名付けたのか、多くの人が興味を持っていることでしょう。

これは、OpenAI の見解では、o1 は AI 機能の新しいレベルを表すため、「カウンター」がリセットされ、o は OpenAI を表しているためです。

O1発売時にウルトラマンが言ったように、複雑な推論が可能なO1は、新たなパラダイムの始まりを示すものとなる。

「プレビュー」と「ミニ」のバージョン番号に関しては、OpenAIの科学者がネットユーザーの推測の一部を確認した。

プレビューは暫定バージョンであり、正式バージョンは将来リリースされる予定です(実際、プレビュー バージョンは O1 の初期チェックポイントです)。一方、ミニ バージョンは近い将来に更新されることは保証されていません

これは、OpenAI メンバーの Kevin Lu 氏が以前に公開した画像と併せて見ると、さらに明確になります。

プレビューと比較すると、mini は特定のタスク、特にコード関連のタスクで優れたパフォーマンスを発揮し、より多くの思考プロセスを探索できますが、世界に関する知識は比較的少なくなります。

OpenAIの科学者シェンジア・ジャオ氏は、 miniは少数の機能のみに焦点を当てた高度に特化されたモデルであり、より深い探索が可能になると説明した。

これにより、ウルトラマンがこれまでこの問題に関して隠していた謎も解明されます。

o1の仕組みについて、OpenAIの科学者ノーム・ブラウン氏は、一部のネットユーザーが信じているようなモデルとCoTで構成された「システム」ではなく、思考連鎖を生成する能力をネイティブに持つように訓練されたモデルであると明言した。

しかし、その推論過程は非公開とされ、公式声明ではトークンについてユーザーに何も公開する予定はないことを明らかにしている。

OpenAI が明らかにした限られた情報によれば、CoT トークンは要約ベースであり、推論プロセスとの完全な一致を保証するものではないとのことです。

このQ&Aイベントでは、推論モードに加えて、 o1はGPT-4oと比較してより長いテキストを処理できることも明らかになり、この機能は今後も向上し続けるでしょう

パフォーマンスの面では、 o1 は OpenAI の内部テストで哲学的推論能力を示し、「人生とは何か?」などの哲学的な質問について熟考することができました。

研究者らはo1を使用して、レビューのために所有者にコードをpingできるGitHubボットも作成しました。

もちろん、クリエイティブライティングなどの非推論タスクでは、O1 のパフォーマンスは GPT-4O のパフォーマンスよりも大幅に優れているわけではなく、場合によってはわずかに劣ることさえあります

さらに、ネットユーザーから寄せられたいくつかの質問に基づいて、OpenAIは現在、未リリースの機能のいくつかを研究中または研究する予定であると述べたが、具体的なリリース日はない。

  • ツール呼び出しは現在サポートされていませんが、関数呼び出しとコードインタープリターは将来的にサポートされる予定です。
  • 今後の API アップデートでは、構造化された出力、システム プロンプト、プロンプト キャッシュ機能が追加されます。
  • 微調整も現在進行中です。
  • API ユーザーは推論時間とトークン消費量に独自の制限を設定できます。
  • o1 はマルチモーダル機能を備えており、MMMU などのデータセットで最先端のパフォーマンスを実現することを目的としており、後で実装される予定です。

パフォーマンスの面では、OpenAI はレイテンシと推論時間の短縮にも取り組んでいます。

最後に、価格の問題があります。これは人々、特にAPIユーザーにとって懸念事項です。結局のところ、推論プロセスが出力トークンに組み込まれていることを考えると、O1の価格は比較的高めです。

OpenAIは「1~2年ごとに値下げの傾向に従う」と述べ、利用制限が緩和されるにつれてボリュームAPI価格設定を開始する予定だと述べた。

現在、ウェブ/アプリの Plus ユーザーには、1 週間あたり 30 件のプレビュー メッセージと 50 件のミニ メッセージまでに制限されています。

良いニュースとしては、今朝早く、O1 に対する圧倒的な熱意により、多くの人がすぐにクレジットの限度額を使い果たしたため、 OpenAI が例外を設けて限度額を一度リセットしたことです。

O1に関して、何かご質問やご期待がございましたら、ぜひコメント欄で共有してください。

参考リンク: [1]https://x.com/SmokeAwayyy/sta... [2]https://x.com/flowersslop/sta... [3]https://arcprize.org/blog/ope... [4]https://livebench.ai [5]https://mp.weixin.qq.com/s/XrgkD4T2XwXhGWuPkYtLMw [6]https://x.com/OpenAIDevs/stat... [7]https://x.com/btibor91/status...