O1初の企画力テスト！言語モデルの域を超え、プレビューがついにミニに勝利！

o1-preview がついに mini に勝利しました!

アリゾナ州立大学の最近の研究によると、計画タスクにおいては o1-preview が o1-mini よりも大幅に優れていることが示されています。

従来のモデルに対するその利点は圧倒的で、極めて困難なタスクにおける精度は Llama3.1-405B の 11 倍です。

注目すべきは、OpenAI自身が以前、プレビュー版では性能面で本格版に太刀打ちできず、ミニ版ほど費用対効果が高くなく、非常に困った立場に置かれていることを示す写真を投稿していたことだ。

ツイートの中で著者は、信頼性とコストの問題にもかかわらず、o1は大規模モデルの「近似検索」特性を超え、CoT単独では「近似推論」のレベルにまで達したと述べています。

さらに、この論文では、o1 は一般的な大規模言語モデルとしての LLM ではなく、LRM (Large Reasoning Model) と呼ばれています。

o1 チームの中心メンバーである Noam Brown 氏もこの調査を共有し、o1-preview を称賛しました。

一部のネットユーザーは、半月以上前にMetaでLeCun氏がツイートした内容を掘り起こし、大規模モデルには計画能力が欠けていると述べていました。そして今、OpenAIはO1を投入して彼らに挑んでいます。

「ビルディングブロック」を使用して大規模モデルをテストする

o1 シリーズモデルの計画機能を評価するため、著者らは PlanBench 評価ベンチマークを使用しました。

このベンチマークの提案者には、この論文の 3 人の著者のうち 2 人、共同筆頭著者の Karthik Valmeekam 氏とその指導者の Subbarao Kambhampati 氏が含まれています。

PlanBench は、大規模モデルの計画機能を評価するように特別に設計されており、そのタスクタイプには、計画の生成、コスト最適計画、計画の検証が含まれます。

この特定の実験では、著者らは、国際計画コンペティション (IPC) から生まれた Blocksworld とそのバリエーションを使用しました。

このタイプの問題では、テーブルの上にビルディングブロックを積み重ね、それらを初期状態から目標の構成に並べ替えることが目的です。

ブロックは異なる色でマークされています。一度に動かせるブロックは1つだけで、各山の一番上のブロックだけを動かせるようになっています。拾ったブロックは、テーブルの上か、直接テーブルの上に置くことができます。

バリアント Mystery Blocksworld は、Blockworlds に難読化メカニズムを追加し、アクションを無関係な用語に置き換えます。

これを基にして、さらに複雑で完全にランダム化された変種が存在し、その場合の指示は他の英語の単語から意味のない文字列にさらに変換されます。

O1 以前、Blockworlds の最先端モデルは Llama3.1-405B で、スコアは 62.6% でしたが、Mystery Blockworlds では5% を超えるスコアを達成できるモデルはありませんでした。

o1 のテスト結果では、プレビューが mini に比べてパフォーマンス面で大きな優位性を持っていることが示されています。

Blockworlds ミッションでは、プレビューバージョンは 98% の精度を達成しましたが、ミニバージョンは 56.6% しか達成できず、ラマバージョンよりもパフォーマンスが悪くなりました。

もちろん、難読化が追加されたことにより、Mini は Llama よりもいくつかの利点も示しています。

ゼロサンプル構成では、プレビューバージョンは50% を超える精度を達成しました。これは、llama の 4.3% の 11 倍以上です。ミニバージョンも 19.1% に達し、これは llama の 3.4 倍です。

最後に、完全にランダム化されたバージョンでは、o1-preview は依然として 37.3% の精度を達成しました。

上記の結果は、O1 シリーズモデル、特に O1-preview の優れた計画機能を示していますが、その欠点も明らかです。

まず、計画の長さが長くなると、難読化されていないブロックワールドであっても、モデルのパフォーマンスは急速に低下します。

さらに、すべてのブロックワールドの問題が解けるわけではなく、著者らはo1では解けない問題を特定する精度がまだ不十分であることを発見しました。

難読化されていないバージョンの精度率はわずか 27% ですが、解決不可能と誤分類されるケースはありません。一方、完全にランダム化されたバージョンでは精度率はわずか 16% で、解決可能な問題を解決不可能と誤分類する可能性がさらに 11.5% あります。

著者は、o1 が時には言い訳をして、その答えが間違っていると人々に納得させるために、説得力のある合理的な理由を提示することさえあることを発見しました。

モデル自体の性能に加え、コストと時間消費も重要な考慮事項です。従来の大規模モデルと比較すると、o1-miniのコストはGPT4-Turboの2倍以上であり、プレビューコストも桁違いに高くなります。

もしあなたが開発者だったら、o1の高性能のためにもっとお金を払いたいですか？ぜひコメント欄であなたの意見を共有してください。

論文の宛先:
参考リンク: https://arxiv.org/abs/2409.13373
https://x.com/rao2z/status/18...