618ZXW

OpenAI o1 モデルの最も包括的なガイドがここにあります。

データホエール

Datawhaleガイド

著者:ベン・ハイラック、編集:マシン・ハート

過去2日間で、「o1はチャットモデルではない(それがポイントだ)」というタイトルの記事が、OpenAIのCEOであるサム・アルトマン氏と社長のグレッグ・ブロックマン氏の注目を集めました。

この記事では、o1 はチャット モデルではなく、レポート ジェネレーターとして考えることができると述べています。

オリジナルリンク: https://www.latent.space/p/o1...

以下の翻訳と構成は原文の意味を変えずに行いました。

O1 がチャット モデルでないなら、何なのでしょうか?

これはレポートジェネレーターと考えることができます。十分なコンテキストと出力内容を指定すれば、o1 は通常、一発で解決策を決定します。

次の質問は、o1 をどのように使用するかということです。

プロンプトを書くのではなく、概要を書いてください。

たくさんのコンテキストを与えてください。著者はコンテキストの量を「トン」と表現していますが、これはヒントの量の 10 倍に相当すると考えられます。

この図は、o1 モデルのプロンプトを構築する方法を示し、それをいくつかの部分に分割しています。

モデルと何度もやり取りし、修正や要件の拡張を繰り返して、望ましい出力が得られるまで作業を進めます。おしゃべりなモデルは、基本的にこのやり取りを通してユーザーからコンテキストを読み取ります。モデルとのやり取りの過程で、私たちは次第に怠惰になり、良い出力が得られる限り、ますますおざなりな入力提案をするようになるかもしれません。

しかし、O1はそのようなおざなりな質問をそのまま受け入れ、私たちから文脈を引き出そうとはしません。代わりに、O1にできるだけ多くの文脈を提供する必要があります。

単純なエンジニアリングの質問をする場合でも、次のことが必要です。

  • 試してみたがうまくいかなかった方法をすべて詳しく説明してください。
  • すべてのデータベース スキーマの完全なダンプを追加します。
  • 会社の事業内容と規模について説明します(会社固有の用語も定義します)。

つまり、o1 を新しく雇用された従業員として扱う必要があります。

目標に焦点を当てる: 自分が何を望んでいるかを正確に説明します。

モデルに可能な限り多くのコンテキストを提供したら、どのような出力が期待されるかを説明することに重点を置く必要があります。

ほとんどのモデルでは、モデルにどのような回答を期待するかを伝えます。例えば、あなたが熟練したソフトウェアエンジニアだとすると、モデルにはゆっくりと慎重に考えてもらう必要があります。

これは、O1で成功を収める方法とは全く逆です。やり方を指示するのではなく、何をすべきかだけを指示します。そして、O1が自ら計画を立て、問題を解決します。ここで自律的な推論が役に立ちます。そして、プロセスの中で人間が手動で確認したりチャットしたりするよりもはるかに高速です。

O1 が何が得意で、何が苦手か知っていますか?

o1 は何が得意ですか?

  • 複数のファイル全体、あるいは複数のファイルを一度に完璧に処理:これはo1の最も印象的な機能です。例えば、大量のコードをコピー&ペーストする際に、ビルド対象に関する詳細なコンテキスト情報を含めても、o1は既存のパターンコードベースに従い、ファイル全体(あるいは複数のファイル)を一度に完璧に処理します。通常はエラーも発生しません。
  • 幻想を減らす: たとえば、o1 は確かにカスタム クエリ言語 (ClickHouse や New Relic など) に優れていますが、Claude は Postgres の構文をわかりにくくすることがよくあります。
  • 医学的診断:Hylakのガールフレンドは皮膚科医で、友人や家族が皮膚のトラブルを抱えていると、たいてい彼女に写真を送ってきます。Hylakがその写真をo1に見せると、o1の答えは驚くほど正解に近いもの(約60%)になることが多いのです。医療従事者にとってさらに便利なのは、o1がほぼ常に非常に正確な鑑別診断を下してくれることです。
  • 概念の説明: Hylak は、o1 が例を通じて非常に難しいエンジニアリングの概念を説明するのが非常に得意であることに気付きました。
  • 難しいアーキテクチャ上の決定を下す場合、Hylak では複数のプランを作成し、それぞれに長所と短所があるこれらのプランを比較することがよくあります。
  • 評価: Hylak は、評価の識別器として LLM を使用することに常に非常に懐疑的でしたが、o1 は大きな可能性を示しています。o1 は、生成された結果がほとんどコンテキストなしで正しいかどうかを判断できることが多いからです。

o1 が改善できる領域:

  • 特定の声やスタイルで書くこと:Hylakは、o1は特に特定の声やスタイルで書くことが得意ではないことに気づきました。非常に学術的/企業報道的なスタイルに従っています。

Hylak は o1 にこのブログ投稿を書かせようとしましたが、何度も試みた結果、当たり障りのないレポートしか作成されませんでした。

  • アプリケーション全体のビルド:o1はファイル全体を一度にビルドすることに優れていますが、SaaS全体をビルドすることはできません(少なくとも多くのイテレーションを経る場合は)。ただし、特にフロントエンドやシンプルなバックエンド機能など、ほぼすべての機能を一度にビルドできます。

レイテンシーは、製品体験を根本的に変えてしまいます。メールとテキストメッセージの違いを考えてみましょう。レイテンシーは主にレイテンシーに影響します。音声メッセージと電話の違いもレイテンシーに影響します。

Hylak は o1 を「レポート ジェネレーター」と呼んでいます。o1 は明らかにチャット モデルではなく、電子メールのような感じだからです。

Hylak 氏は、o1 によって、たとえば、高レイテンシで長時間実行されるバックグラウンド インテリジェンスの恩恵を受けられる製品など、特定の製品が初めて実現されると考えています。

ユーザーが5分待って完了できるタスクとはどのようなものでしょうか?1時間?1日?3~5営業日?正しく設計されていれば、そのようなタスクはたくさんあります。

o1-preview と o1-mini はストリーミングをサポートしていますが、構造化コンテンツの生成やシステム プロンプトはサポートしていないことに注意してください。o1 は構造化コンテンツの生成とシステム プロンプトをサポートしていますが、ストリーミングはまだサポートしていません。

開発者が 2025 年に製品を設計する際には、そのモデルを実際にどう活用するかを把握することが非常に重要になります。

いいね (3件のいいね!)↓