618ZXW

OpenAI が緊急に新機能を追加: ChatGPT に Deep Search が追加され、30 分後に 10,000 語の継続的な思考を実証し、「人類最後のテスト」のチャートでトップに立った。

オープンソースの DeepSeek-R1 がさまざまな AI 検索ツールに統合されつつあるちょうどその頃、 OpenAI は小規模な即席記者会見を開催しました。

ライブ配信が8時に始まるというアナウンスは4時27分に行われました。

ChatGPTは、大規模推論モデルの思考能力をオンライン検索に適用する「Deep Research」を開始しました。

報告によると、ディープ リサーチ機能は、人間の専門家が数時間かかる複雑なリサーチ タスクを数十分で完了できるとのことです。

「人類最後のテスト」では、 Deep Research が新たな最高記録を達成し、o3-mini の高推論設定のスコアの 2 倍を達成しました。

この試験には、言語学、ロケット科学から生態学まで 100 以上のトピックを網羅した 3,000 以上の多肢選択式および短答式の質問が含まれています。

Deep ResearchはO1と比べて化学、人文社会科学、数学で優れており、「必要に応じて専門的な情報を探す」という人間らしい能力を発揮しています。

もう一つのテストであるGAIAは、現実世界の問題におけるAIを評価する公開ベンチマークです。Deep Researchは、3つの難易度レベルすべてで記録を更新しました。

ベンチマークを保護するため、OpenAI はこれらのタスクを完了する際の Deep Research の検索プロセスのみを示し、最終的な答えは隠しました。

Deep Research 機能は、まもなく Pro、Plus、Team ユーザーに提供される予定です。

ウルトラマン氏はその後、現在のバージョンは o3 上に構築されており、Plus ユーザー (月額 20 ドル) はそれを月に約 10 回使用でき、より効率的なバージョンが構築中であると付け加えた。

さらに、無料ユーザーにもごく少量の使用クレジットが付与されます。

推論エージェントの第一歩

OpenAI によれば、Deep Research は金融、科学、工学などの分野で集中的な知識労働に従事し、詳細かつ正確で信頼性の高い研究を必要とする人々のために特別に設計されています。

これは OpenAI o3 を搭載しており、ブラウザーと Python ツールの使用を含む実際のタスクのトレーニングを通じて、o1 と同じ強化学習アプローチを採用しています。

プロンプトを入力するだけで、何百ものオンライン リソースを検索、分析、統合し、リサーチ アナリスト レベルの包括的なレポートを生成します。

OpenAI にとってのディープ リサーチの重要性に関する公式声明は次のとおりです。

ディープリサーチは、AGI開発という私たちの野心的な目標に向けた大きな一歩です。私たちは長年、AGIによって革新的な科学研究が可能になることを思い描いており、ディープリサーチはそのビジョンの重要な前進を表しています。

使用するには、入力ボックスの下にある「ディープリサーチ」ボタンをクリックするだけです。追加情報を追加するためのファイルのアップロードもサポートされています。

たとえば、プロンプト:

過去3年間の小売業界の変化に関する調査レポートを作成してください。必要に応じて箇条書きや表を用いて、分かりやすく説明してください。

ChatGPT は、「最も興味のある小売業の側面について、もう少し具体的に教えていただけますか?」や「世界的な視点が必要ですか、それとも地域固有の分析が必要ですか?」など、質問の詳細を確認します。

その後、情報の分析と採掘が始まりました。

サイドバーには、実行された手順と使用された情報ソースの概要が表示されます。

タスクの完了には約 5 ~ 30 分かかり、最終結果はレポートの形式で出力されます。

OpenAIは、今後数週間以内にこれらのレポートに埋め込み画像、データの視覚化、その他の分析出力を追加する予定だと述べている。

GPT-4o などと比較して、Deep Research は、深さと詳細さが求められる多面的なドメイン固有の質問に対して、幅広い視点を探求し、あらゆる視点を引用することができます。

しかし、OpenAIはディープリサーチの限界も指摘した。

内部評価によると、そのエラー率は既存の ChatGPT モデルよりも大幅に低いものの、回答において事実上の錯覚を生み出したり、誤った推論を行ったりすることがあります。

権威ある情報と噂を区別するのが難しい場合があり、信頼性の調整に弱点があり、不確実性を正確に伝えることができないことがよくあります。

レポートや引用に軽微な書式エラーが発生する可能性があり、タスクの開始に時間がかかる場合があります。

OpenAIは、今月中にモバイルアプリとデスクトップアプリでDeep Researchをリリースすると発表しました。現在、Deep Researchはパブリックネットワークとアップロードされたファイルにアクセスできますが、将来的にはより専門的なデータソースに接続できるようになり、出力の堅牢性とパーソナライズ性が向上します。

ChatGPTは、非同期の実世界研究開発におけるエージェントエクスペリエンスの融合を実現することを目指しています。Deep Research(非同期のオンラインアンケートの実施を可能にする)とOperator(実世界におけるアクションの実施を可能にする)を組み合わせることで、ChatGPTはますます複雑なタスクを実行できるようになります。

AIディープサーチはインターネットの新しいインターフェースです。

OpenAIの研究者ジェイソン・ウェイ氏は、この新しい研究についての考えを次のように共有した。

これは優れたエージェントであるだけでなく、インターネットの新しいインターフェースとしても見ることができます。

人間はインターネットでの検索やクリックに多くの時間を費やしますが、時間と注意力には限りがあります。

AI は決して疲れることがなく、一度に多くの Web サイトを閲覧でき、世界に関する事実上無限の知識を持っています。

将来、計算機を使わずに手動で数字を計算するのと同じように、ブラウザを使用して手動でインターネットを閲覧することは時代遅れになるでしょう。

OpenAIのtoG事業責任者であるフェリペ・ミロン氏は、個人的な話を披露した。

10月下旬、ミロンさんの妻は両乳房乳がんと診断されました。病状は重篤で、12月初旬に両乳房切除手術を受け、その後化学療法を受けました。

彼らは新たな問題に直面しました。放射線治療を受けるべきかどうかです。彼女の特殊な状態を考えると、これは曖昧な問題であり、専門家によってアドバイスが異なっていました。

ミロン氏はすでにOpenAIを通じてDeep Researchへのテストアクセスを取得していたため、手術レポートのアップロードを試み、ChatGPTにアドバイスを求めた。

ChatGPT は人間の専門家が述べたことを確認しただけでなく、まったく新しい参考研究も発見しました。

ミロン氏はこれが世界を変えるツールだと信じている。

さらに、いくつかのサードパーティチームが事前にDeep Researchからテスト資格を取得し、本日そのテスト結果を共有しました。

Every チームは、質問によっては結果が出るまでに 30 分かかる場合があり、回答が 10,000 語を超える場合もあると説明しました。

彼らが実施したテストには以下のものが含まれます。

  • 2020年から今日までの歴史を綴ります。
  • 『戦争と平和』の第 1 章を読んで、トルストイの人物描写を分析し、「人間性に関する彼の見解はどのようなものか」という質問に答えます。
  • 最近の 10-K レポートを注意深く確認し、報告されていない財務上の不正がないか確認します。

テスト中に見つかった制限は次のとおりです。

  • 引用元から情報が抜けていることがある
  • 「停止」ボタンはありません。検索が迷子になった場合は、最初からやり直す必要があります。

ライブストリームのリプレイ: https://www.youtube.com/watch..._wiw

参考リンク: [1]https://openai.com/index/intr... [2]https://x.com/_jasonwei/status/1886213911906504950 [3]https://x.com/danshipper/stat...