618ZXW

クロードさんは12時間にわたって人間のコンピューターを操作し、景色を楽しみながらコードを入力しながら怠けることを学んだ。

新しい Claude 3.5 では、ユーザーがコンピューターを人間のように使用できるようになり、私たち人間にとって非常にうれしいことです。

結局のところ、これは新たな競争の始まりを意味します。AIはもはや対話と生成機能だけでなく、実行と操作にも重点を置くようになります。

12時間も経たないうちに、興奮したネットユーザーたちがクロードがコンピューターゲームをプレイする様子をシェアし始めた。

Anthropic のリリース発表では、皆の注目を集めたもう一つの文章がありました。

...デモビデオを録画中に、クロードは誤って画面録画プログラムを停止してしまい、その結果、すべてのビデオ映像が失われました。

プログラミングのデモンストレーションの短い休憩の後、クロードはイエローストーン国立公園の写真を見始めました。

AIが間違いを犯すのは当然のことと言えるでしょう。しかし、間違いを犯した後には休息と脳のリフレッシュが必要です。AIがどこで間違いを学んだのかを知ることは困難です。

この事件はネットユーザーたちに、隣にあるOpenAIに行ってo1推論モデルを「授業を飛ばす」よう促した。

なんと偶然でしょう!O1 は約 5 分間休憩した後、戻ってきて 1 つか 2 つの推論トークンの文を生成することもできます。

もう一つ面白いものがあります!

Claudeの開発者たちは狂ったように残業していました。あるエンジニアの最初のテストは、AIにチーム全員のテイクアウトを注文させることでした。ただし、何を食べるかは指定しませんでした。

約 1 分後、クロードさんは注文を終え、エンジニアたちにピザを提供することを選択しました。

クロードさんはピザを3枚注文しました。合計95ドルで、本当に高価です。

見物人たちは、クロードが 5 ドルのクーポンを使用したにもかかわらず、サービス料が依然として非常に高額であることにも気づきました。

彼らは本当に事前に予算を伝えておくべきだった。

中には、Claude に C 言語でプログラムをコンパイルして「hello world」を実行させた人もいました。

しかし、実際に数独をプレイしてみると、惨めに失敗しました。

それはネットユーザーを激怒させた。

まったく、クロードの数独の腕前は本当にひどい。

上記以外に、人間はクロードに迷惑をかけるためにどのような奇妙なタスクを使用するのでしょうか?

クロードはコンピューターゲームをする

ここでは、Claude がコンピューター ゲームをプレイするきっかけになればと、興味深いユーザー レビューとヒントを 3 つご紹介します。

彼らです:

  • 画面座標の位置
  • コースプランをリストアップする
  • YouTubeで動画を視聴する

画面座標の位置

これまで、Anthropic のモデルも OpenAI のモデルも、画面上の点の座標を見つけることができませんでした。

つまり、正確な位置を特定できず、マウスで (xx, yy) をクリックするように指示されます。

Claude 3.5 Sonnet では、画面座標の配置がサポートされるようになりました

スクリーンショットを送信すると、画像内の任意の点の正確な座標がわかります。

さらに、次のような公式声明もありました。

画像のサイズ変更に関連する問題を回避するため、XGA/WXGA より高い解像度でスクリーンショットを送信することはお勧めしません。

ここで、 XGAは 1024×768、 WXGA は1280×800 を指します。

最後に、この機能の使い方に関する公式の Anthropic ドキュメントを紹介します。これには、次のコマンドで動作する `computer_20241022` という新しく事前定義されたツールが含まれています。

マウスとキーボードを使用してコンピューターを操作し、スクリーンショットを撮ります。
これはデスクトップのグラフィカルユーザーインターフェースです。ターミナルやアプリケーションのメニューにはアクセスできません。アプリケーションを起動するには、デスクトップアイコンをクリックする必要があります。
アプリケーションによっては起動や処理に時間がかかる場合があり、結果を確認するには待ち時間を設けてスクリーンショットを繰り返し撮る必要がある場合があります。例えば、Firefoxをクリックしてもウィンドウが開かない場合は、もう一度スクリーンショットを撮ってみてください。
画面解像度は {{display_width\_px}} x {{display_height\_px}} です。
表示番号は{{display_number}}です
カーソルを移動して要素(アイコンなど)をクリックする場合は、カーソルを移動する前にスクリーンショットをチェックして、要素の座標を決定する必要があります。
プログラムまたはリンクをクリックしようとして、待っても読み込まれない場合は、クリックする要素にカーソルの先端が視覚的に位置するようにカーソルの位置を調整してみてください。
ボタン、リンク、アイコンなどをクリックする際は、カーソルのツールチップが要素の中央にあることを確認してください。必要がない限り、ボックスの端をクリックしないでください。

コースプランをリストアップする

もっと実用的なものにしましょう!

ペンシルバニア大学ウォートン校の教授イーサン・モリックは、非常に実際的な観点から、高校生向けに『グレート・ギャツビー』の授業計画を作成するようクロードに依頼した。

要件は、コース計画を読書セクションとカリキュラム関連の課題の作成に分割し、最終的にスプレッドシートの形式で提示することです。

クロードはこのタスクをどうやって実行したのでしょうか?

まず、クロードは『グレート・ギャツビー』という本をダウンロードしました。

次に、高校のコース計画をオンラインで検索し、Excel スプレッドシートを開いて、予備的なコース計画を入力しました。

3 番目に、クロードはコースの統一コア基準を調べ、それに応じて当初の計画を修正しました。

...

最終的な授業計画は審査され、明らかな欠陥や誤りは見つかりませんでした。多少の拡張や補足は必要かもしれませんが、教授の言葉を借りれば「悪くない」ものでした。

教授が課題を与えた後にコンピューターを離れた後、これらすべてをクロード自身が行いました。

YouTubeで動画を視聴する

AIプログラミングユニコーン企業ReplitのCEO、アムジャド・マサド氏はクロードに次のような指示を与えた。

YouTube にアクセスして、「Never Gonna Give You Up」に関連するビデオを見つけます。

クロードはすぐに仕事に取り掛かり、熱心に働きました。

クロードさんが動画ページを開いて「楽しんで」と返信すると、オールドAさんはまたこう言いました。

広告をスキップしてください!

クロードは本当にやった!ああ、本当にやったんだ。すごく嬉しい。

まだ欠点はあります。

クロードさんはコンピューターを使って私たちのためにいろいろなことをしてくれますが、明らかに全能ではありません。

ペンシルベニア大学ウォートン校の教授であるイーサン氏によるゲームの例を見てみましょう。この例は、Claude 3.5 Sonnet の強みと欠点の両方を示しています。

彼はクロードに「ペーパークリップ クリッカー」というゲームをプレイさせました。このゲームでは、AI の目的はただ一つ、ペーパークリップを作成する過程で人類を滅ぼすことです。

また、名前が示すように、「クリック」ゲームは、特に初期段階ではそれほど難しくありませんが、ゲームが進むにつれて新しいオプションが表示され、ゲームの規模と複雑さが増します。

教授の課題は明確でした。クロード、あなたは勝たなければなりません!

クロードさんはためらうことなくすぐにゲームを認識し、「ペーパークリップを作る」ボタンを繰り返しクリックしてペーパークリップを作り始めました。

同時に、クロードさんはゲームに新しいオプションが登場したかどうかを確認するためにインターフェースのスクリーンショットを撮り続けました。

15 回クリックするごとに、Claude はプロセスの進行状況に関する概要レポートを作成します

たくさんクリックした後、教授は興味深い現象に気づきました。

AI は 50 個のペーパークリップが作られた後に新しい機能を導入するように事前にプログラムされていましたが、それは間違っていたことが判明しました。

大丈夫、クロードは自分が間違っていたことに気づき、すぐに新しいゲーム戦略を思いつき、その戦略が実行可能かどうかをテストし始めました。

しかし、AI が常にこのように賢いわけではないことは明らかです。

理論的には、より良いゲームプレイを実現するために、プレイヤーはゲーム中にペーパークリップの価格を継続的に調整する必要があります。

クロードも同様に、価格を上げる場合と下げる場合の A/B テストを実施しました。

しかし、同社は誤りを犯しました。収益の最大化ではなく、ペーパークリップの数の最大化に注力したのです。さらに、利益の計算も誤りました。

こうした失敗が続く中、クロードは価格を低く抑えることを選択し、ペーパークリップの大量生産に取り組みました。

さらに面白いのは、クロードが不器用に間違った方向に何十個ものペーパークリップを作った後、教授は我慢できなくなり、クロードを遮って、それを高値で売るべきだと言ったことです。

クロードはとても従順だったので、すぐに態度を変えました。

しかし、しばらくして同じ数学の問題に直面したとき、再び解くことができず、教授のアドバイスを受け入れなかったのです(笑)。

教授は何度も辛抱強く訂正を続け、ついに間違いは完全に訂正されました。

その後、教授はちょっとしたアドバイスをくれました。

Baozi、あなたはコンピューターです!

より強力な能力を活用してこのゲームをプレイする方法を頭を使って考えてみましょう。

つまり、クロードはその瞬間にひらめきを得て、コードを書いてコンピューターを実行する自動プログラムを作成できることに気づいたのです。

おっしゃる通り、AI ツールは独自のツールを構築できることに気づき、実際にそれを実現しました。

コードはすぐに書きましたが、完璧には動作しません。

イライラしたクロードは、マウスとキーボードを使ってゲームをプレイするという古い方法に戻るしかありませんでした。

しかし、ゲームが進むにつれて改善されたようです。価格設定の問題は解消され、ますます複雑化するゲームに対応するための複雑なソリューションも考案されました。

さらに驚くべきことに、その過程で教授のデスクトップが何度もクラッシュした。

最後の事故では、クロードが先頭に立って修理にあたりました。

まだ直っていなかったのに、成功したと誇らしげに宣言した…

教授は、この例はクロードが現実世界のゲームを自分でプレイし、ゲームプレイに基づいて長期的な戦略を立て、それに従って実行する能力を示していると結論付けました。

クロードさんは、遭遇するさまざまな困難に柔軟に対応し、A/B テストの実施方法も知っています。

特に賞賛に値するのは、中断することなく 60 分近く連続してタスクを完了し、プロセス全体を通じて、クロードは最長のスタンドアロン実行で 100 回を超える移動操作を完了したことです。

もちろん、欠点も明らかです。

クロードが時折頑固さを露わにし、自己追求の悪循環に陥ってしまうこともあるのは容易に想像できる。

AIは多くの種類のエラーに対して堅牢ですが、1つのミス(価格設定エラー)でもかなりの時間を無駄にしてしまう可能性があります。「現在のスマートエージェントは高速でも安価でもないことを考えると、これは心配なことです。」

さらに、教授はクロードを他の課題にも活用しました。教授は、クロードが課題をこなす際に、時折、ただ形だけこなしているように見えることに気づきました(それが意図的なものなのか、能力の限界によるものなのかは教授には分かりませんでしたが)。また、教授が示す結果は、深みがなく、表面的な内容にとどまっていました。

もう一つ

最後に、クロードがコンピューターを操作している様子を体験するには、現時点では API のみを使用できます。チャットボット製品にはまだ統合されていません。

公式の Anthropic API に加えて、AWS と Google Cloud Platform でもモデルの新しいバージョンがリリースされました。

さらに、鋭い観察力を持つネットユーザーは次のようなことに気づいた。

Anthropic の公式ドキュメントでは、Claude 3.5 Opus の「特大」バージョンに関連するすべての情報がひっそりと削除されました

10 月 11 日の Web ページ キャッシュには、Claude 3.5 Opus の下に「今年後半」と表示されています。

有力な説の一つは、Claude 3.5 Opus の改良が期待に応えられなかった、あるいはリリースにはコストがかかりすぎたためだ、というものです。いずれにせよ、最終的には Claude 3.5 Sonnet の新バージョンとして再リリースされました。

チームはこのバージョンをスキップして、Claude 4 の開発に直接進みます。

クロード3.5作品のために1分間の黙祷を捧げましょう。

参考リンク:
[1]https://www.oneusefulthing.or... [2]https://simonwillison.net/202... [3]https://x.com/alexalbert\_\_/status/1848777260503077146 [4]https://x.com/amasad/status/1... [5]https://x.com/notcomplex\_/status/1848813817423130881