618ZXW

AIは携帯電話の活用がますます進化しています!ウェストレイク大学が、自己進化可能な新しいインテリジェントエージェント「AppAgentX」をリリースしました。

人工知能は、大規模言語モデル (LLM) の台頭により、インテリジェント システムを情報処理から自律的な相互作用へと推進するなど、前例のない変革を遂げています。

DeepSeek に代表される LLM は、強力な言語理解および推論機能により、テキスト作成、プログラミング支援、複雑なタスク計画などの分野で優れたパフォーマンスを発揮します。

しかし、LLMの可能性はテキスト生成をはるかに超えています。それは、全く新しい形態のインテリジェントエージェント、すなわちGUIエージェントを形成しつつあります。これらのエージェントは、指示を理解するだけでなく、人間のようにコンピュータやモバイルフォンを直接操作できるため、事前設定されたルールやAPIへの依存から解放されます。これにより、より自然で効率的なインタラクション方法が実現し、AIがソフトウェアエコシステムに真に統合され、インテリジェントオペレーティングシステムの一部となることが可能になります。

問題は、現在の LLM エージェントは強力な推論能力を備えているものの、タスク実行効率に大きなボトルネックがあることです

この問題を解決するため、ウェストレイク大学AGIラボの張志氏のチームは、自己進化機能を備えたGUIエージェント「 AppAgentX 」を開発しました。このエージェントは、タスクを継続的に実行しながら行動パターンを学習・最適化することで、より効率的な運用を実現します。

AppAgentX の核となるイノベーションは次のとおりです。

  • 効率的な操作パターンを自動的に要約: タスクを実行するときに、エージェントは繰り返し実行される操作パターンを検出し、それをより高レベルの「ワンクリック」操作に自動的に要約できます。
  • タスク実行の高速化と冗長計算の削減: 従来の LLM エージェントはタスクが実行されるたびに操作プロセスを再考する必要がありましたが、AppAgentX は実行戦略を記憶して再利用できるため、推論の繰り返しを回避し、タスク実行をよりスムーズかつ効率的に行うことができます。
  • 完全な視覚ベースの操作で、様々なソフトウェアに対応:従来の自動化手法では、バックエンドAPIへのアクセスが必要になる場合がほとんどですが、AppAgentXは画面の視覚情報のみに基づいて操作するため、バックエンドへのアクセスは不要です。そのため、様々なソフトウェアやデバイスで使用可能で、真の「プラグアンドプレイ」を実現します。

AppAgentX: インテリジェントエージェントの「進化」を可能にする

従来、コンピュータ自動化は主にRPA(ロボティック・プロセス・オートメーション)に依存しており、RPAは事前に設定されたルールやAPIを通じて固定のタスクを実行していました。しかし、このアプローチでは多くの手動設定が必要であり、柔軟性に欠けていました。

GUI エージェントの出現によりこの状況は変わり、ソフトウェアの世界では具現化されたインテリジェンスとして歓迎されるようになりました。

GUIエージェントはバックエンドAPIに依存せず、人間と同じように画面の視覚、マウス、キーボードを介してソフトウェアインターフェースと直接対話します。つまり、インテリジェントエージェントは様々なアプリケーションの操作方法を自律的に学習し、異なるソフトウェアプログラムを切り替えて複雑なアプリケーション間タスクを実行することさえ可能です。例えば、

  • オフィスシナリオ: ドキュメントを自動的に整理し、メールを一括送信する
  • エンターテイメントと創作:Photoshopを使って画像を処理し、ビデオコンテンツを生成する
  • 自動化された操作:バッチデータ入力、自動注文処理
  • アプリケーション間タスク: Web ページから情報を収集して Excel に入力し、複数のソフトウェア アプリケーション間で調整された操作を実行します。

このため、GUI エージェントは、インテリジェント アシスタント、デジタル従業員、自動テストなどの分野における次世代ソリューションとして注目されていますが、現在の課題も顕著です。既存のインテリジェント エージェントはスマートですが、十分に効率的ではありません

既存のLLMエージェントは通常、段階的な推論を採用しています。つまり、モデルは各操作を実行する前に次のアクションを推論します。例えば、Web検索を実行する場合、次のような決定を下す可能性があります。

  1. 検索する情報を特定します。
  2. 検索ボックスをクリックします。
  3. キーワードを入力してください。
  4. 検索ボタンをクリックします。

このアプローチにより、エージェントは強力な一般化能力を獲得し、新しいタスクシナリオに適応できるようになりますが、非効率的な実行や深刻な反復計算などの問題も生じます。

この問題点に対する AppAgentX のソリューションの根底にある考え方は、インテリジェント エージェントが「進化」することを学習できるようにすることです。

下の図は、AppAgentXで音楽を再生する例です。「ワンクリック」操作が分かれば、次に何をするかを考える時間をかけずに、タスクを素早く完了できます。

これは、エージェントが「探索」と呼ばれる高レベルの操作を進化させ、一連の非効率的な低レベルの操作を置き換えたことを示しています。この進化により、反復的で時間のかかる段階的な推論が回避され、エージェントの効率が大幅に向上します。

△ AppAgentXの機能図

方法の紹介

タスク軌跡の分解

AppAgentXはタスクを実行する際に、プロセス全体を複数の重複するトリプル(つまり、3つの部分の組み合わせ)に分解します。これらのトリプルには、ページコンテンツとユーザーインターフェース(UI)要素の機能記述が含まれています。

具体的には、インテリジェントなエクスペリエンス:

  • 機能説明の生成:大規模言語モデル(LLM)を活用して、各ページおよびインターフェース要素の詳細な機能説明を生成します。これらの説明は、エージェントが各部分の役割を理解するのに役立ちます。
  • 重複する説明のマージ: 一部のページで説明が繰り返し生成される場合、AI はこれらの説明をマージして冗長な情報を削減します。
  • インタラクション履歴の記録: インタラクションプロセス全体がノードのチェーンとして記録され、完全な操作履歴が形成されるため、後で簡単に検索できます。

進化のメカニズムと実行プロセス

AppAgentXは、タスク実行中にエージェントがより効率的に操作を実行できるようにする進化的メカニズムも導入します。このメカニズムの中核は、「ショートカットノード」の生成にあります。これにより、エージェントは一連の操作を実行する際に、段階的な推論を省略することができます。具体的な手順は以下のとおりです。

  • ショートカットノードは、エージェントが特定の操作の実行順序が固定されていることを認識したときに作成されます。これらのノードは、複数の低レベル操作を高レベルアクションに統合します。
  • 効率的な実行:これらのショートカットノードを呼び出すことで、エージェントは段階的に推論することなく、一連の操作を迅速に実行できます。これにより、タスク実行の効率が大幅に向上します。

実験結果によると、AppAgentX は、単一ステップの実行効率から全体的な API トークンの消費まで、複数の GUI インタラクション タスクにわたって大幅な「コスト削減と効率向上」を実現しています。

全体として、AppAgentX は革新的なモバイル端末インタラクション技術として、チェーン状の知識ストレージアーキテクチャと動的マッチング実行メカニズムを構築することで、大規模言語モデルエージェントの柔軟性を維持しながら実行効率を大幅に向上し、バックエンドアクセスを必要としないグラフィカルインターフェイスインテリジェントオペレーティングシステムを実現します。

この技術は、従来のインテリジェントエージェントにおける応答速度と認知能力のバランスという課題の解決において画期的な進歩をもたらし、モバイルAIアプリケーションに新たな技術的道を切り開きました。この研究は、インテリジェントエージェント技術における効率性と知能のダイナミックなバランスにおける重要なブレークスルーであるだけでなく、ヒューマンコンピュータインタラクション分野にスケーラブルな技術パラダイムを提供します。

プロジェクトアドレス: https://appagentx.github.io/ Githubアドレス: https://github.com/Westlake-A... Arxivアドレス: https://arxiv.org/abs/2503.02268