618ZXW

エージェントが一夜にして変わりました!Claude 3.5は人間のようにコンピューターを操作できるようになりました!🙀

10月23日、Anthropic AIはアップグレードモデル「Claude 3.5 Sonnet」と新モデル「Claude 3.5 Haiku」をリリースしました。注目すべきは、Claude 3.5 Sonnetのバージョン番号は変更されていないものの、画期的なアップデート「Computer Use」が搭載されていることです。

新機能:「コンピュータの使用」は、エージェントの変革をリードします。

Anthropicのデモでは、AIが画面を視認し、カーソルを動かし、ボタンをクリックし、ユーザーの指示に従ってテキストを入力することで、人間とコンピュータのインタラクションを模倣しています。従来のエージェントが事前に設定されたワークフローに基づいて特定のタスクを実行していたのとは異なり、AnthropicはAIに一般的なコンピュータスキルを学習させ、人間向けに設計されたさまざまな標準ツールやソフトウェアプログラムを使用できるようにしようとしています。それでは、公式のケーススタディを見てみましょう。

このフォーム入力の例では、必要なデータがコンピュータ上の複数の場所に散在しています。Claudeはまずユーザーの画面をキャプチャし、必要なデータがフォーム内にないことをすぐに発見します。そこで、すぐにCRMに切り替えてデータを検索します。データが見つかると、ページをスクロールしながら必要な情報を検索・入力し、最終的にフォームを送信します。

アントロピック社は、Claude 3.5 Sonnetが「コンピュータ使用」機能のパブリックベータテストを提供する初の最先端AIモデルであると述べました。開発者は現在、APIを通じてこの機能を体験できます。ただし、この機能はまだ実験段階であり、時折不具合が発生することがあります。例えば、Claudeはコンピュータ使用のデモ中に長時間の画面録画を誤って停止し、すべての映像が失われるといったミスを犯します。さらに、ライブコーディングのデモを突然中断してイエローストーン国立公園の写真を閲覧するなど、「怠ける」ことも学習しました。アントロピック社は、早期リリースは開発者からのフィードバックを集め、迅速な改善を図るためであると認めました。

現在、Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyといった有名企業が、Claudeの新たな可能性を探り、数十、あるいは数百のステップを要する複雑なタスクの実行を可能にしています。例えば、ReplitはClaude 3.5 Sonnetのコンピュータ使用機能とUIナビゲーションを活用し、Replit Agentの主要機能を開発しています。これにより、アプリケーション構築中のリアルタイム評価が可能になります。

新しいアップグレード: Claude 3.5 Sonnet、最先端のコーディング機能。

パフォーマンス指標に基づくと、アップグレードされたClaude 3.5 Sonnetは大幅なパフォーマンス向上を示しています。特にエンコードにおいて、Claude 3.5 SonnetはSWE-bench Verifiedのパフォーマンスを33.4%から49.0%に向上させ、OpenAI o1-previewのような推論モデルやプログラミング専用システムを含む、現在利用可能なすべてのモデルを上回りました。一部の初期テスト顧客からのフィードバックは、アップグレードされたClaude 3.5 Sonnetのパフォーマンスの飛躍をさらに裏付けています。

  • GitLab: DevSecOps タスクのテストでは、Claude 3.5 Sonnet はレイテンシを増加させることなく推論機能を大幅に向上させる (すべてのテスト ケースで最大 10% の向上) ことが確認されており、複雑なソフトウェア開発プロセスを推進するための理想的な選択肢となっています。
  • 認知: Claude 3.5 Sonnet の新バージョンは自律 AI 評価に適用され、コーディング、計画、問題解決などの分野で前世代モデルと比較して大幅な進歩を達成しました。
  • The Browser Company: このモデルを使用して Web ワークフローを自動化したところ、Claude 3.5 Sonnet がこれまでテストしたすべてのモデルよりも優れたパフォーマンスを発揮することがわかりました。

アップグレードされたClaude 3.5 Sonnetは、すべてのユーザーに同一価格でご利用いただけます。開発者は、Anthropic API、Amazon Bedrock、Google CloudのVertex AI上のコンピューターを使用して、ベータ版をベースに開発を進めることができます。

新しくリリースされました: パフォーマンスとスピードを兼ね備えた Claude 3.5 Haiku。

Claude 3.5 Haiku は Anthropic で最速のモデルです。

Claude 3.5 Haikuは、同価格帯で同等の速度でありながら、前世代機と比べて大幅な性能向上を実現しています。実際、複数のインテリジェントベンチマークテストにおいて、前世代機の最高性能モデルであるClaude 3 Opusを上回っています。

Claude 3.5 Haikuはエンコード性能にも優れています。SWE-bench Verifiedテストでは、Claude 3.5 Haikuは40.6%という高いスコアを達成し、Claude 3.5 SonnetのオリジナルバージョンとGPT-4oを上回りました。

Claude 3.5 Haikuは、低レイテンシのレスポンス、より正確なコマンド実行、そしてより正確なツール使用という3つの主な利点を備えています。これにより、ユーザー向け製品の開発、特殊なサブエージェントタスク、そして購入記録、価格情報、在庫データといった膨大なデータに基づいたパーソナライズされたエクスペリエンスの生成に最適です。

Claude 3.5 Haiku の価格は、入力トークン 100 万個あたり 0.25 ドルから、出力トークン 100 万個あたり 1.25 ドルからとなり、Anthropic のファーストパーティ API、Amazon Bedrock、Google Cloud Vertex AI (プレーンテキスト モデルが最初に利用可能) など複数のプラットフォームで今月下旬にリリースされる予定です。