|
北京大学卒業生が制作した1,000のインテリジェントエージェントが登場するゲーム「Minecraft」の基本原理が明らかに! チームは最新の35 ページの技術レポートを公開し、AI エージェントが専門的な労働の分担、社会的交流、さらには仮想宗教の普及をどのように生み出すかについて詳細な説明を提供しています... 最も興奮したのは、チームの奇行でした。 物語では、司祭の NPC を通じて仮想宗教を紹介し、その後、その宗教が 500 の知的存在 (6 つの主要な都市と農村地域にまたがる) に広く普及していることが判明します。 このプロジェクトは、マルチエージェント相互作用の問題を解決し、複数の出力ストリームの一貫性を確保するように設計されたPIANO と呼ばれるアーキテクチャによってサポートされています。 次に、研究チームは人類の歴史にヒントを得た文明ベンチマークを使用して、個々のエージェントと複数のエージェントのパフォーマンスをそれぞれ評価しました。 驚くべきことに、同一の初期構成を持つ 30 個の AI エージェントを展開した後、AI グループは互いに初期テストを行った後、最終的に社会的分業を確立しました。 より広い視点で見ると、ダンス、環境意識、いたずらなどのトピックに関する議論は、マルチエージェントシステムが異なる地域で異なる文化圏を形成していることを示しています。 これを見たネットユーザーが次のように叫んだのも不思議ではない。 私たちはアナログのマトリックスの中に生きています。未来は今です。 新しいPIANOアーキテクチャ「Sid 」というコードネームが付けられたこのプロジェクトは、北京大学の卒業生であり、MITの教授でもあるロバート・ヤン氏によって開始され、最終目標はインテリジェントエージェントを人間社会にシームレスに統合することです。 少し前に、チームは GPT-4 を搭載した 1,000 のエージェントが Minecraft で新しい文明を創造する方法を実演し、当時大きな注目を集めました。 しかし、Sid チームにとって、これはまだ最終目標からは程遠く、相互作用の範囲と複雑さは限られたままです。 彼らの言葉によれば: 個々のインテリジェントエージェントは自律的な意思決定と実行において大きな進歩を遂げてきましたが、自発的に社会化して一緒に進歩することができるインテリジェントエージェントを構築することは、依然として根本的な課題です。 同時に、大規模モデルによって駆動されるエージェントにも多くの問題があります。 たとえば、計画や反省のためのモジュールが装備されている場合でも、インテリジェントエージェントは繰り返しに陥り、錯覚がある程度蓄積されると間違いを犯すこともあります。 さらに恐ろしいのは、この誤りが人から人へと広がり、さらなる幻覚や悪循環を引き起こす可能性があることです。 これに応えて、チームは「PIANO」(ニューラルオーケストレーションによる並列情報集約)と呼ばれる新しいアーキテクチャを提案しました。ここで、P は知覚モジュール、I はインテリジェンスコア、A はアクションモジュールを表します。 このアーキテクチャは、次の質問に答えるために使用されました。 インテリジェントエージェントはどのようにして、複数の時間スケールにわたって意識的および無意識的に同時に考え、行動できるのでしょうか? 研究チームは、脳の異なるモジュールをピアノの鍵盤で表現し、それらが一緒に演奏することで美しい和音を生み出すという例えを用いて説明しました。同様に、人間のような特性がインテリジェントエージェントにも現れています。 具体的には、PIANO アーキテクチャは次の 2 つの原則に基づいて設計されています。
まず、システム 1 とシステム 2 と同様に、エージェントは同時に考え、行動できる必要があります。つまり、エージェントは即時の反応を処理しながら、ゆっくりとした慎重な思考も行うことができます。 この設計により、エージェントは複雑な意思決定を行う能力を維持しながら、リアルタイム環境で低遅延で対話できるようになります。 第二に、エージェントによって生成される複数の出力は一貫している必要があります。 これを確実にするために、PIANO は、高レベルの決定を下し、その決定を下流の決定に変換して各モーター モジュールで適切な出力に変換する役割を担う認知コントローラー (CC) モジュールを導入しました。 この設計により情報量が削減され、エージェントは複数の出力ストリーム間で一貫性を維持できるようになります。 上記の原則に基づいて、PIANO は同時に実行される 10 個の異なるモジュールで構成されています。 たとえば、目標生成モジュールは、エージェントの経験と環境との相互作用に基づいてエージェントの目標を生成できます。 たとえば、エージェントが以前は物流部門で働いていて、現在交通渋滞に遭遇した場合、このモジュールは新しいターゲットを生成する可能性があります。 他のインテリジェント エージェントと協力して、新しい物流ソリューションを設計します。 ここで、知覚処理モジュールは、視覚や聴覚などの環境からの入力情報を処理し、エージェントが理解して処理できる情報に変換する役割を担います。 次に、スキル実行モジュールにより、エージェントは Minecraft 内での掘削、作成、構造物の構築など、環境内で特定のスキルやアクションを実行できるようになります。 緊急事態が発生した場合、行動反射モジュールは即時の反応と行動を処理する役割を担います。このモジュールは、小型で高速な非LLMニューラルネットワークで構成されています。 さらに、プロセス全体を通じて、インテリジェント エージェントはアクション認識モジュールを通じて自身の状態とパフォーマンスを評価することもできるため、リアルタイムの調整と自己改善が可能になります。 他のインテリジェント エージェントと通信する必要がある場合、 Talk モジュールが音声の解釈と生成を担当します。 さらに、社会認識モジュールも重要な役割を果たします。このモジュールは、エージェントが他のエージェントからの社会的合図を解釈して反応することを可能にし、協力とコミュニケーションをサポートします。 それだけではありません。対話の理解や応答など、インテリジェントエージェント間のソーシャルインタラクションの処理を担当する専用のソーシャルインタラクションモジュールもあります。 もちろん、鍵となるのは記憶モジュールです。これは、作業記憶(WM)、短期記憶(STM)、長期記憶(LTM)など、さまざまな時間スケールで会話、行動、観察を保存および取得する役割を担っています。 このモジュールは細心の注意に重点を置いており、エージェントは各ステップの説明を記憶できるだけでなく、対話における質問と回答の順序や、両者が強調した重要なポイントも記憶できます。 最後に、前述の認知コントローラー (CC) モジュールは、全体的な出力の一貫性を確保する役割を担います。 新しい文明が誕生したエージェントのパフォーマンスを評価するために、チームはそれぞれ単一エージェントと複数エージェントの動作をテストしました。 単一のエージェントの場合、専門的な分業を生成できるかどうかが重要な評価基準となります。 この目的のために、チームはインテリジェントエージェントの特化を評価するための 3 つの基本原則を提案しました。
詳細を説明すると、チームは Minecraft の村に同一の初期構成を持つ30 個のエージェントを展開しました。 この実験は、社会意識こそが社会における分業を推進できる唯一のものであるという前提に基づいていた。 これら 30 のインテリジェント エージェントは、社会的相互作用を通じて他のエージェントの行動の背後にある動機を理解し、最終的に独自の分業目標を決定する必要があります。 最終結果は、これらのインテリジェントエージェントが農民やエンジニアを含むさまざまな職業を独自に開発したことを示しました。 さらに、社会意識が取り除かれると、AI はより均質な役割を選択するようになり、こうした役割は時間の経過とともに持続しなくなります。 次に、チームはマルチエージェントシステムのテストを続け、AIのグループが社会的ルールをどのように処理できるかに焦点を当てました。 チームは、 25 人の有権者の社会を観察することによって、エージェントのグループが当初は事前に設定された税法を遵守し、期限内に税金を支払っていたことを発見しました。 しかし、社会で影響力のある個人が世論を動かすため、有権者は民主的な投票を通じて税率の調整を決定します。 もちろん、新しい税率が可決された後、誰もが新しい税率に従って税金を支払いました。 さらに、チームはテストの範囲を、6 つの都市部と農村部に分散された 500 のインテリジェント エージェントで構成される社会にまで拡大しました。 結果は、エージェントがダンス、環境意識、いたずらなどの文化的コンテンツを自発的に作成して広め、エージェントの協会を通じて広まった仮想宗教を形成することさえあることを示しました。 さらに興味深いのは、都市部と農村部の間に最終的に異なる文化圏が形成されたことです。 ネットユーザーは、インテリジェントエージェントのパフォーマンスを見た後、興奮を表明し、より大規模なインテリジェントエージェントの登場を待ち望んでいました。 どう思いますか? |
北京大学の卒業生による35ページの技術レポートは、1,000のインテリジェントエージェントを使った「Minecraft」の作成の秘密を明らかにしている。
関連するおすすめ記事
-
自己矛盾する予言:大規模モデルはそれを検出できるか?上海交通大学の最新研究がその謎を解明する。
-
L2 から L4 にアップグレードして直接 L4 に移行する以外にも、自動運転は次のような方法でも実現できます…
-
『Domestic SORA』がさらにパワーアップ!デューン級の映画のようなビジュアルを、誰でも無料で体験できます。
-
Meitu の大規模モデルはビデオ生成機能をアップグレードし、Meitu Xiu Xiu、Wink、MOKI などの製品に徐々に実装されています。
-
DeepSeekは一夜にしてBaiduを20年前の状態に戻した。ネットユーザー:これは本当か?
-
OpenAIが突如Operatorをリリース!完全自律型ブラウザコントロール『ウルトラマン レベル3の時代』