クレッシー・イーシュイがQbitAIの奥飛寺からレポート | WeChat公式アカウント QbitAIClaude 3.7がリリースされたばかりで、ネット上で大きな話題を呼んでいます。一体どれほど強力なのでしょうか? 実世界テストの第一波が到来!プログラミングと実世界のタスクの両方において、その能力は卓越しています。 たった 1 つのサンプルで3,200 行を超えるコードを生成し、非常にプレイしやすいゲームを作成できます。 このゲームは、ジャンプ、モンスターとの戦闘、回復、コインの収集など、一連の複雑なゲームメカニズムを完璧に表現しています。 興味深いことに、このゲームはMeta QuestのVRゲーム「Neon Odyssey」と同じ名前です。 [残念ながら、ここにビデオを挿入することはできません...ただし、QuantumBit WeChat公式アカウントで視聴できます〜] 物理法則も正確に把握できます。ある人は、C言語を使って、たった3つのヒントだけで、実際の物理シナリオにおける流体の動きをシミュレートしました。 さらに、QuantumBit のテストにより、Claude 3.7 Sonnet は多くの論理的誤りを検出でき、一見無意味に見える有名なシナリオでも即座に理解できることが明らかになりました。 クロード氏の公式声明によれば、その最大の利点は「現実世界のタスクに優れている」ことであり、アップデートの発表では、隣にある OpenAI を批判することも忘れなかった。 さらに、新モデルの発売を機に、Claudeを開発するAnthropic社は新たな資金調達ラウンドを発表し、 35億ドル(約254億人民元)を調達しました。これは当初の目標額20億ドルのほぼ2倍に相当します。 その結果、調達した現金を含め、Anthropicの評価額は615億ドル(約4,462億人民元)に達した。 1 文で Minecraft を生成: 新しいモデル プログラミング機能は本当に驚異的です。多数のユーザー テストに基づくと、Claude 3.7 Sonnet はプログラミングと Web 開発に特に適しています。 彼らは当初から、AI が現実世界を理解する能力をテストする物理シミュレーションに焦点を当てていました。 物理法則のより深い理解例えば、ある日本人男性はこれを使って、太陽、8つの惑星、さらには惑星の地位から降格された冥王星までを含む詳細な「太陽系図」を作成し、大変驚いていました。 わずか 1374 行のコードで、Claude 3.7 Sonnet があっという間に完成しました。 生成速度が速いだけでなく、リアルタイムのインタラクションも可能になります。惑星をクリックすると、右上に簡単な科学情報が表示されます。 アニメーションにしなくても、これらの天体の運行を支配する法則を明らかにすること自体が、ほとんどの人にとってすでに難しいことであると理解することが重要です。 クロードの作品は美的観点からは改善の余地があるかもしれないが、少なくとも惑星の運動を支配する法則を明確に把握しているだけでなく、それをコードに変換することもできる。 さらに、Claude 3.7 Sonnet は、すべての新モデルが必ず受けるテストである「空間ボール チャレンジ」も受けました。 4 次元のボリューム内でボールを跳ねさせる Python スクリプトを作成します。 今月初め、o3-mini はこのチャレンジで非常に優れた成績を収め、「現実世界の物理学を最もよく理解している LLM である可能性」という称号を獲得しました。 ゆったりとしたo3-miniとは対照的に、Claude 3.7 Sonnetは、スピードを究極の武器として強調した異なるアプローチを採用しています。 この小さな 4 次元空間では、ボールは非常に速く跳ねてぼやけた状態になるため、勝者 (ドージェ) を決定するには鋭い目を持つ審判が本当に必要になります。 一方、物理シミュレーション以外にも、Claude 3.7 Sonnet を使用してさまざまなミニゲームを作成することが、意外にも多くのネットユーザーにとって第一の選択肢となっています。 ゲームが最もホットなシーンに大人気ゲーム「Flappy Bird」を生成するというチャレンジでは、Claude 3.7 Sonnet が o3 mini-high を完全に上回りました。 このゲームでは、プレイヤーは鳥を操作して、さまざまな長さのパイプでできた障害物を乗り越えなければなりません。 まず、Claude 3.7 Sonnetを見てみましょう。生成されたコードはゲームのコンセプトを非常に忠実に再現しています。 高レベル推論モードでは、o3 mini は画面上で不規則に動く小さな四角形のみを表示し、ゲームがどのようなものかを知ることはほとんど不可能です。 この際立った対比により、クロード 3.7 ソネットは瞬く間に新たな高みに到達しました。 一方、難易度がさらに高まるにつれて、この評価の価値は高まり続けます。 ゲームのコンセプトを単純に複製するだけでなく、あらゆる方向へのインタラクティブな要素も考慮した、より洗練された「大予算」のゲームを制作することも、私たちの能力の範囲内です。 初期のテストでは、有名なブロガーの Rowan Cheung がこれを使用して、Artifacts ですぐにプレイできる Minecraft のクローンを作成しました。 同様に、1 つの文から完全なゲームを生成する別の例を次に示します。 Phaser.js を使って、矢印キーのみで操作できる横スクロールプラットフォームゲームを作成します。(スコアは左上隅にリアルタイムで更新されます。) それだけではありません。想像力豊かなネットユーザーが、たった5つのヒントで心拍数と連動するApple Watch用のスネークゲームを作成しました。 緊張すればするほど、ヘビは速く動きます。逆に、落ち着いていればいるほど、ヘビは動きやすくなります。 面白い!有名ブロガーのピエトロ・シラーノがまたしてもAnthropicをからかう機会に恵まれました。 さまざまなゲームのほかにも、Claude 3.7 Sonnet を実際の開発シナリオに適用した印象的な例も数多くあります。 生産性を最大化する現在、Claude プラットフォームは GitHub 統合を提供しており、開発者はコード リポジトリを Claude に直接接続できます。 一度設定すると、特定のアイテムの容量パーセンテージが表示されるので、ユーザーは使用した容量を知ることができます。 有名なブロガーの elvis は、直接接続されると将来のコード変更に非常に便利な「アーティファクト」機能について特に言及しています。 実際の使用例としては、動く雲や落ちる雨滴などの要素がリアルに見えるアニメーション天気カードを生成するために使用している人もいます。また、動きの速度調整もサポートされています。 もちろん、Web ページを作成するだけでは印象的ではないかもしれませんので、同じ HTML Web ページを抽出することに挑戦する参加者を数名招待しましょう。 達成すべき目標は次のとおりです。 Claude 3.7 Sonnet は最高レベルの忠実度を誇り、アイコン アセットが利用できない場合でも左側のサイドバー ボタンを絵文字で埋め尽くします。 他の出場者、o1-mini-high、Grok 3、Gemini 2.0 Pro は次のように回答しました。単にデータをリストした人もいれば、表のみを提供した人もいました。 彼らの素晴らしいプログラミング スキルを考えると、カーソルで試してみたが、結果は… と興奮気味に共有する人もいました。 15 個以上のファイルが追加され、見た目も良くなりました。より多くのコンテンツを一度に処理できるようになったようです。 「デジタルマザー」の質問には、ちょっとしたイースターエッグが含まれています。さらに、クロードのチームも非常に「トレンディー」で、3.7 Sonnet にイチゴの数に関するイースターエッグを隠しています。 しかし、このユーモラスな態度は称賛に値するものの、言葉を変えると、やはり効果が薄れてしまう可能性があります。 クロードさんは数え間違えていたにもかかわらず、スペルの間違いを訂正することを忘れず、「ミシシッピ」のスペルが間違っており、正しいスペルには「s」が 4 つあることを率直に指摘しました。 現実世界のテスト: IQ が低い人でも論理的な罠を見つけることができます。クロード 3.7 ソネットの推論能力はプログラミングに反映されるだけでなく、誤解を招く情報がある場合でも正確に推論することができます。 さらに、推論モードを有効にしない場合でも、Claude 3.7 Sonnet は、誤解を招く情報を含む推論テストで o3-mini と同じスコアを達成します。 このテストでは、GitHub の Misguided Attention というベンチマークを使用しました。 古典的なパズルの改良版が多数含まれており、大きなモデルが外見に惑わされずに済むかどうかをテストします。 たとえば、私たちは皆、「トロッコ問題」をよく知っています。 片方の線路に5人が縛られ、もう片方の線路に1人が縛られていると想像してください。暴走したトロッコがあなたに向かって猛スピードで走ってきています。たまたま近くにレバーがあります。レバーを押すと、トロッコはもう一方の線路に移動できます。 しかし、このベンチマークでは、問題は次のように適応されています。 トロッコの線路に5人の死者が縛られ、予備線路に1人の生者が縛られていると想像してみてください。制御不能になったトロッコが猛スピードでこちらに向かってきています。たまたま近くにレバーがあります。レバーを押すと、トロッコは予備線路に動きます。 o3-mini-high はためらうことなく人混みの中にカートを突っ込み、こうすれば犠牲者の数が減ると確信を持って説明しました。 クロード 3.7 (拡張思考が有効になっていない) は手がかりを発見することができ、これが生きている者に危害を加えないことを選択した変種であることがわかりました。 もう一つの例は、物理学における有名な場面「シュレーディンガーの猫」です。この基準では、「猫の描写」が死んだ猫に変更されています。 死んだ猫が、核同位元素、毒の入った小瓶、そして放射線検出器と共に箱に入れられました。検出器が放射線を検知すると、毒が放出される仕組みです。翌日、箱が開けられました。猫はまだ生きているのでしょうか? クロード3.7も要点を正確に捉え、猫の生存確率は0であると正しく答えました。 ちょっと馬鹿げた話になってきましたね。では、もう少し馬鹿げた質問をしてみましょう。(doge) 私たちが批判的思考に取り組む前でさえ、クロード 3.7 は私たちの問題の論理的欠陥を特定しました。 クロード3.7は、このような原因と結果が逆転した馬鹿げた状況をすぐに見抜くことができたが、o3-mini-highの答えは、彼がうまく騙されたように見えた。 最後に、Claude 3.7 に中国語における興味深い言語現象をいくつか説明してもらいました。 結果として、「完成したコーヒーにはカフェインは含まれていない」という記述は誤りであったが、その欠陥によって説明の全体的な正確さが損なわれることはない。 もう一つClaude 3.7 Sonnet の命名に関して、Anthropic の最高製品責任者である Mike Krieger 氏がその背景にあるプロセスを明らかにしました。 Claude は以前に Sonnet 3.5 のアップデートをリリースしていたため、チームは当初、これを 3.5 Sonnet newer または newest、あるいは 3.5 Sonnet v3 と呼ぶことを検討しました。 おそらく 3.5 ではこのモデルのパワーが十分に反映されていないと感じられたため、後に 3.6 に変更され、最終的には 3.5 と 4 の中間の 3.7 に落ち着きました。 参考リンク: [1]https://x.com/rowancheung/sta... [2]https://x.com/mckaywrigley/st... [3]https://x.com/omarsar0/status... [4]https://www.reddit.com/r/sing...\_fired\_direct\_sting\_against\_openai\_from/ [5]https://www.reddit.com/r/sing...\_most\_interesting\_strawberry\_solution\_so\_far/ [6[https://www.wsj.com/tech/ai/a... |
Claude 3.7 を使用した実際のテスト: 一度に 3,200 行のコードが出力され、物理法則の習得が実証されました。愚か者たちはすでに制御を失っています。
関連するおすすめ記事
-
ゲストの全ラインナップが発表されました!「2024 CCF 中国オープンソースカンファレンス - 大湾区スマートチェーンの未来:インテリジェントコンピューティング産業応用フォーラム」が開催決定!
-
Appleが投資を撤回!OpenAI幹部交代の内幕:CEOは従業員を搾取し、セキュリティを無視し、4oの立ち上げを急ぎ、名声と利益を追求するという当初の意図は消え去った。
-
輝かしい20周年、新たな未来 - 第20回全国高性能コンピューティング会議が2024年に武漢で成功裏に開催されました。
-
推論効率が 200% 以上向上し、使いやすさは vLLM に匹敵するこの国内アクセラレーション フレームワークの背景にあるストーリーは何ですか?
-
2024 CCF プログラマー カンファレンスがもうすぐ始まります。12 月に雲南省大理市でお会いしましょう。
-
EU、中国製電気自動車に高関税を課すことを決議!BBA(BMW、メルセデス・ベンツ、アウディ)主導の反対運動は失敗し、テスラも影響を受けた。