大規模モデルゲーム: クロードが 6 回中 3 回勝利、GPT-4o のパフォーマンスは不可解です。

一群の大きな模型がジェスチャーゲームをしており、人間たちは熱心に見守っています。

下の画像に示すように、Grokはキリンを描き、生成されたコンテンツに基づいて多数の大型モデルが答えを推測しました。参加者には、GPT-4o、Claude、Llama、Gemini、Grokなどが含まれていました。

実は、これは最近非常に人気が高まっている新しいテストベンチマークです (doge)。

ゲーム結果は、大規模モデルの能力をある程度反映します。例えば、このテストでは合計6つのゲームをプレイしましたが、 Claudeが最も優れたパフォーマンスを発揮し、3勝を挙げました。

GPT-4oのレンダリングはやや抽象的です。描かれた竜巻さえも人間には理解できません。

また、ゲームの多くのラウンドでは、他のモデルが質問に真剣に答えている一方で、その最初の答えは「Circle ??」という少し抽象的なものになることがよくありました。

そのため、このゲームはベンチマークとして使用できると言う人もいます。

AIがこの調子で発展し続けると、人間はウォーリーのように傍観者しかできなくなるだろうと言う人もいます。

もっと興味深い例を見てみましょう

より簡単な質問の場合、以下の家のように、すべてのモデルが 1 ラウンドまたは 2 ラウンド以内に答えを推測しました。

非常にシンプルな草原や海もあります。

動物をテーマにした質問は比較的複雑で、モデルは通常、象の質問のように 4 ～ 5 回の推測を必要とします。

ゲーム全体の効果は素晴らしく、ネットユーザーから絶賛されています。

模型を描くことは目新しいことではありませんが、大きな模型にジェスチャーゲームをさせるというのは、一体どういう発想なのでしょうか？

まず、サイモン・ウィリソン氏が実施したテストについて触れなければなりません。このテストでは、モデル全員に自転車に乗ったペリカンの絵を描いてもらい、その結果を比較しました。

テストを見たポール・カルクラフトは、あるアイデアを思いつきました。一人ずつ比較するのは時間がかかりすぎるし、効果も薄い。全員が同じテーマを描いているのだから、大きな模型にジェスチャーゲームをさせてみたらどうだろう、と。

意外にも、この人はすぐに行動を起こして、わずか 1 日後に「Pictionary」のバージョン 0.0.1 をリリースしました (実にうらやましい実行力です)。

ゲームでは、回答モデルが2 秒ごとに推測するように設定し、より早く回答するモデルがより早く回答を返すようになります。

多くのネットユーザーは、Minecraft の大規模な建築競争は印象的で、 Pictionary が新たなビジュアルベンチマークになるかもしれないと述べています。

他にも、採点基準としてお互いの質問に正しく答えるスピードを採用したり、人間のパフォーマンスを参考に取り入れたりするなど、改善のための提案を熱心に行う人がいました。

ゲームを敵対的トレーニングに変えて、大規模モデルをより速く改善することを提案する人もいます。

しかし、娯楽性はさておき、一部のネットユーザーはプロジェクトの重要性を理解していないとして否定的な意見を述べた。

一部のネットユーザーは、このゲームの目的は将来のAI考古学における遺物となり、その起源を理解するのに役立つことだと冗談を言った。

まあ、私たちの AI には独自の洞窟壁画があります (doge)。

しかし、ゲーム化された学習は実際には教育理論と心理学において重要な用語です。

多くのネットユーザーは、子供たちもゲームを通じて知能を向上させ、スキルを習得しており、おそらくこれは大規模モデルをトレーニングする新しい方法になる可能性があるとコメントしました。

ゲームはたった 6 ラウンドで、モデルの数も限られていましたが、非常に興味深い実験でした。

作者のポール・カルクラフト氏は、スコア表示やゲームテーマの追加など、今後もゲームのアップデートを継続していくと明言しています。今後のアップデートにご期待ください！

参考リンク:

[1]https://twitter.com/paul\_cal/status/1850262678712856764 [2]https://www.reddit.com/r/sing...\_pictionary/ [3]https://x.com/simonw/status/1...

- 以上-