|
プログラミング開発能力では文句なしのナンバーワン! Claude 3.7 Sonnet が WebDev アリーナのリーダーボードでトップに輝きました。 このモデルは2位のモデルを100ポイント以上も大幅に上回りましたが、上位10位以内のその他のモデルとの差はわずか数~数十ポイントでした。 では、2位になったのは誰でしょう?それはクロード自身、クロード3.5ソネットでした。 WebDev ランキング リストは、よく知られている Chatbot Arena ランキング リストと同じ起源を持ちます。どちらも LMARana (LMSYS Org) によって作成されていますが、AI プログラミングと Web アプリケーション開発機能に重点を置いています。 注目すべきは、トップ 10 の中で唯一のオープン ソース モデルである DeepSeek R1 が early-grok-3、o3-mini-high、Claude 3.5 Haiku などを上回り、3 位にランクされたことです。 ネットユーザーの中には、クロードの『ソネット』の3.7という高得点がチャートのトップになったことに驚きを隠さない者もいる。 ネットユーザーはここ2日間、Claude 3.7を熱心にテストし、何度も驚嘆させられてきました。最新のテスト結果は、Claude 3.7に対するネットユーザーの認識を改めて高めました。 最新のClaude 3.7テスト結果たとえば、p5js で記述された次の Claude 3.7 Sonnet 布シミュレーション効果が数日前にオンラインで話題になりました。 これを見たある学者は、MITで1986年に取得した「布地の外観モデリング」に関する修士論文を披露してくれました。彼は、かつてはこの作業に数日かかっていたが、今ではAIがわずか数分でこなせるようになったと述べ、こう感嘆しました。 まだ給料は払われているが、この状況はいつまで続くのだろうか? さて、これはさらに悲痛なことだ、友よ。 ネットユーザーは光と影の関係も取り入れた別のバージョンも作成した。 ネットユーザーらは「上級のコンピュータグラフィックスコースでも、このような効果を実現する方法を学ぶことは稀だ」とコメントした。 さらに、Redditのユーザーによる最近の投稿もネットユーザーの間で白熱した議論を巻き起こした。 彼は1997年にVisual Basic 4で書いた古いアプリケーションを突然思い出したと言い、 27年前のEXEファイルをClaude 3.7にアップロードし、Pythonコードへの変換を依頼しました。その結果、Claudeはファイルの構成要素を解析しただけでなく、5分以内にPygameで完璧に変換され実行可能なPythonコードを作成しました。 この男性は、Claude 3.7 とのチャット履歴も共有しています。 ネットユーザーは新しい遊び方を発見すると、それを真似し始めた。 さらに、Claude 3.7 の新しいGitHub 統合機能を体験した一部のユーザーからは、「エンジニアがソフトウェアを理解する方法が変わった」というコメントが寄せられています。 コードベースを作成し、特定のフォルダを選択して、コードに関する質問をすることができます。また、Claude はコンテキストウィンドウに各フォルダの割合を表示し、コードの構造と内容をより深く理解するのに役立ちます。 たとえば、Claude 3.7 は yt-dlp (YouTube ダウンローダー) のワークフローを視覚化します。 ウォートン・ビジネス・スクールのイーサン・モリック教授も最新のテスト結果を発表した。 Claude 3.7 を使用すると、インタラクティブな「過去へ戻ることができるタイムマシン プロップ」を作成できます。 Ethan Mollick 氏は、Claude 3.7 を紹介するために特別にブログ記事を書きました。 興味深いことに、このブログ投稿はAnthropicの注目を集めました。Anthropicは、 Claude 3.7はそれほど大規模ではない(学習に数千万ドルかかるような規模ではない)と述べています。しかし、将来のモデルは規模が大きくなる予定です。 参考リンク: [1]https://x.com/lmarena\_ai/status/1894840263379689490 [2]https://x.com/deedydas/status... [3]https://x.com/deedydas/status... [4]https://x.com/deedydas/status... [5]https://x.com/emollick/status... |