618ZXW

初のハイブリッド推論モデル「Claude 3.7」がリリースされました!優れたプログラミング能力を誇り、思考時間のコントロールも可能です。

クロードは夜遅くに新しいモデルを発表した—

初のハイブリッド推論モデルであるClaude 3.7 Sonnetがリリースされ、コーディングとフロントエンドWeb開発で大幅な改善が達成され、あらゆる面で先頭に立っています。

o3-mini と比較すると、Claude 3.7 Sonnet は同じプロンプトで示されているとおりに動作しました。

o3-ミニ:

クロード 3.7 ソネット:

(ヒント:球体内で跳ね回る 100 個の色付きボールをシミュレートする p5.js スクリプトを作成してください。各ボールは、最新の動きを示す、徐々に消える軌跡を残します。コンテナ球体はゆっくりと回転します。ボールが球体内に留まるように、適切な衝突検出が実装されていることを確認してください。)

ビデオゲームの制作にも使われます。

ハイブリッド推論モデルであるため、次の 2 つの思考モードがあります。

ほぼリアルタイムで応答し、段階的に進歩的に考えます。

拡張された思考モードにより、数学、物理学、指示の追跡、コーディングなど、複数のタスクでさらなる利点が得られます。

APIユーザーは、モデルの思考時間を正確に制御することもできます。現在、Amazon Web Services(Bedrock)とGoogle Cloudを含むすべてのプラットフォームで利用可能で、無料版を除くすべてのプラットフォームで思考モードの拡張が可能です。

モデルはアップグレード、価格は据え置き —

前身と同様に、トークンの価格は入力 100 万件あたり 3 ドル、出力 100 万件あたり 15 ドルです (Think トークンを含む)。

さらに、彼らは最初のコーディングツールであるClaude Codeもリリースしました。

通常、手作業で行うと 45 分以上かかるタスクを、1 回で完了できます。

ネットユーザーたちは、これを使うのが待ちきれないと表明している。

しかし、なぜバージョン 3.7 なのでしょうか?

クロード 3.7 ソネット:最初のハイブリッド推論モデル

公式声明ではまず、Claude 3.7 Sonnet の開発理念が市場の他の推論モデルとは異なることが示されました。

人間の脳が素早い反応と深い思考という2つの側面を持っているように、推論も完全に独立したモデルではなく、最先端モデルの総合的な能力であるべきだと彼らは考えています。

したがって、クロード 3.7 ソネットはさまざまな方法でこの概念を体現しています。

まず、Claude 3.7 Sonnet は通常の LLM モデルと推論モデルの両方です。

モデルに通常通り回答させる場合と、回答前にモデルに長い時間考えさせる場合を選択できます。

標準モードでは、Claude 3.7 SonnetはClaude 3.5 Sonnetからのアップグレードです。拡張思考モードでは、回答前に自己分析を行うため、数学、物理学、指示の理解、コーディングなど、多くのタスクのパフォーマンスが向上します。

モデルのプロンプトはどちらのモードでも同様です。

これは、コード生成タスクに答えるときの 2 つの思考プロセスの違いを示しています。

次に、思考予算、取引速度、回答の質にかかるコストを管理します

API ユーザーは、考慮されるトークンの数が N を超えることはできない (N は任意の値) が、出力制限が 128K トークンを超えることはできないことを Claude に伝えることができます。

モデルのパフォーマンスは、思考に使用できるトークンの数に依存します。例えば、次のグラフはAIME 2024の結果を示しています。

3 番目に、最適化の焦点は、数学やコンピューター競技の問題に対する最適化が少なくなり、ユーザーのニーズをよりよく反映する現実世界のタスクに移行しました

△ 実践的な確率問題を解く

コーディング作業に関しては、ネットユーザーは「バイブコーディング」(非開発者向けのAI支援コーディング)に感銘を受けた。

一部のユーザーはこれをテストし、他のモデルでは解決できない問題を実際に解決できることを発見しました。 > p5js を使用して最も複雑な布のシミュレーションを作成できますか?

Grok 3とo1 proでは結果は得られませんでした。Claude 3.7 Sonnetでは以下の結果が得られました。

プロキシツールの使用に関しては、最先端(SOTA)実装を実現しています。

クロード 3.7 ソネットは、指示に従う能力、一般的な推論能力、マルチモーダル能力、代理コーディングに優れており、思考力を数学や科学にまで大幅に拡張しています。

従来のベンチマークテストに加え、ポケモンゲームテストでもこれまでのすべてのモデルを上回りました。

チームは、Claude に基本的なメモリ、画面ピクセル入力、キーと画面のナビゲーション用の関数呼び出しを装備し、一般的なコンテキスト制限を超えてゲームを継続的にプレイし、何万ものインタラクションを通じてゲームプレイに参加できるようにしました。

最終テストの結果、このソネットはこれまでで最も優れた性能を発揮し、3人のポケモンジムリーダー(ゲームのボス)全員に勝利し、バッジを獲得しました。対照的に、クロード3.0ソネットは、物語の始まりであるパレットタウンの家から出ることさえできませんでした。

x 軸は、クロードがゲームをプレイ中に完了するインタラクションの数を表します。y 軸は、特定のアイテムの収集、特定のエリアへの移動、特定のボスの倒しなど、ゲーム内の重要なマイルストーンを表します。

この研究では、研究者は並列テスト時間計算を使用してモデルのパフォーマンスを向上させました。

彼らのアプローチは、複数の独立した思考プロセスをサンプリングし、真の答えを事前に知ることなく最良の答えを選択するというものです。一つの方法は多数決を用い、最も一般的な答えが「最良の」答えとして選ばれます。もう一つのアプローチは、別の言語モデル(例えばクロードの言語モデルの2つ目のコピー)を用いて、自身の作業や学習のスコアリング関数を検証し、最良と判断した答えを選択するというものです。

その結果、この方法により、GPQA 評価中のモデルが著しく改善されました。

GPQAは、一般的に使用されながらも難易度の高い生物学、化学、物理学の問題集です。Claude 3.7 Sonnetは、256個の独立サンプルを用いた同等の計算、学習済みのスコアリングモデル、最大64トークンの認知コストを用いて、GPQAスコア84.8%(物理学サブスコアの96.5%を含む)を達成しました。

さらに、Claude 3.7 Sonnet では、有害なリクエストと無害なリクエストをより詳細に区別し、以前のバージョンと比較して不要な拒否を 45% 削減します。

クロードの最初のコーディングツールがリリースされました。

公式ドキュメントによると、 Claude Code では、コードの検索と読み取り、ファイルの編集、テストの作成と実行、GitHub へのコードのコミットとプッシュ、コマンドライン ツールの使用が可能です。

現時点では初期プレビュー バージョンのみであり、ターミナルで直接実行できます。

初期のテストでは、Claude Code は、通常手動で完了するには 45 分以上かかるタスクを 1 回で完了することができ、開発時間とオーバーヘッドを削減できました。

今後数週間にわたり、使用経験に基づいて継続的に改善していく予定です。

たとえば、ツール呼び出しの信頼性が向上し、長時間実行されるコマンドのサポートが追加され、アプリケーション内レンダリングが改善され、Claude の機能に対する理解が深まります。

さらに、Claude.ai のコーディングエクスペリエンスも向上しました。Claude が使用されているすべてのプラットフォームで GitHub 統合が利用できるようになり、開発者はコードリポジトリを Claude に直接接続できるようになりました。

参考リンク: [1]https://www.anthropic.com/new... [2]https://www.anthropic.com/res... [3]https://docs.anthropic.com/en... [4]https://docs.anthropic.com/en... [5]https://x.com/deedydas/status... [6]https://x.com/\_akhaliq/status/1894106278185898489