|
人工知能は、大規模言語モデル (LLM) の台頭により、インテリジェント システムを情報処理から自律的な相互作用へと推進するなど、前例のない変革を遂げています。 DeepSeek に代表される LLM は、強力な言語理解および推論機能により、テキスト作成、プログラミング支援、複雑なタスク計画などの分野で優れたパフォーマンスを発揮します。 しかし、LLMの可能性はテキスト生成をはるかに超えています。それは、全く新しい形態のインテリジェントエージェント、すなわちGUIエージェントを形成しつつあります。これらのエージェントは、指示を理解するだけでなく、人間のようにコンピュータやモバイルフォンを直接操作できるため、事前設定されたルールやAPIへの依存から解放されます。これにより、より自然で効率的なインタラクション方法が実現し、AIがソフトウェアエコシステムに真に統合され、インテリジェントオペレーティングシステムの一部となることが可能になります。 問題は、現在の LLM エージェントは強力な推論能力を備えているものの、タスク実行効率に大きなボトルネックがあることです。 この問題を解決するため、ウェストレイク大学AGIラボの張志氏のチームは、自己進化機能を備えたGUIエージェント「 AppAgentX 」を開発しました。このエージェントは、タスクを継続的に実行しながら行動パターンを学習・最適化することで、より効率的な運用を実現します。 AppAgentX の核となるイノベーションは次のとおりです。
AppAgentX: インテリジェントエージェントの「進化」を可能にする従来、コンピュータ自動化は主にRPA(ロボティック・プロセス・オートメーション)に依存しており、RPAは事前に設定されたルールやAPIを通じて固定のタスクを実行していました。しかし、このアプローチでは多くの手動設定が必要であり、柔軟性に欠けていました。 GUI エージェントの出現によりこの状況は変わり、ソフトウェアの世界では具現化されたインテリジェンスとして歓迎されるようになりました。 GUIエージェントはバックエンドAPIに依存せず、人間と同じように画面の視覚、マウス、キーボードを介してソフトウェアインターフェースと直接対話します。つまり、インテリジェントエージェントは様々なアプリケーションの操作方法を自律的に学習し、異なるソフトウェアプログラムを切り替えて複雑なアプリケーション間タスクを実行することさえ可能です。例えば、
このため、GUI エージェントは、インテリジェント アシスタント、デジタル従業員、自動テストなどの分野における次世代ソリューションとして注目されていますが、現在の課題も顕著です。既存のインテリジェント エージェントはスマートですが、十分に効率的ではありません。 既存のLLMエージェントは通常、段階的な推論を採用しています。つまり、モデルは各操作を実行する前に次のアクションを推論します。例えば、Web検索を実行する場合、次のような決定を下す可能性があります。
このアプローチにより、エージェントは強力な一般化能力を獲得し、新しいタスクシナリオに適応できるようになりますが、非効率的な実行や深刻な反復計算などの問題も生じます。 この問題点に対する AppAgentX のソリューションの根底にある考え方は、インテリジェント エージェントが「進化」することを学習できるようにすることです。 下の図は、AppAgentXで音楽を再生する例です。「ワンクリック」操作が分かれば、次に何をするかを考える時間をかけずに、タスクを素早く完了できます。 これは、エージェントが「探索」と呼ばれる高レベルの操作を進化させ、一連の非効率的な低レベルの操作を置き換えたことを示しています。この進化により、反復的で時間のかかる段階的な推論が回避され、エージェントの効率が大幅に向上します。 △ AppAgentXの機能図 方法の紹介タスク軌跡の分解AppAgentXはタスクを実行する際に、プロセス全体を複数の重複するトリプル(つまり、3つの部分の組み合わせ)に分解します。これらのトリプルには、ページコンテンツとユーザーインターフェース(UI)要素の機能記述が含まれています。 具体的には、インテリジェントなエクスペリエンス:
進化のメカニズムと実行プロセスAppAgentXは、タスク実行中にエージェントがより効率的に操作を実行できるようにする進化的メカニズムも導入します。このメカニズムの中核は、「ショートカットノード」の生成にあります。これにより、エージェントは一連の操作を実行する際に、段階的な推論を省略することができます。具体的な手順は以下のとおりです。
実験結果によると、AppAgentX は、単一ステップの実行効率から全体的な API トークンの消費まで、複数の GUI インタラクション タスクにわたって大幅な「コスト削減と効率向上」を実現しています。 全体として、AppAgentX は革新的なモバイル端末インタラクション技術として、チェーン状の知識ストレージアーキテクチャと動的マッチング実行メカニズムを構築することで、大規模言語モデルエージェントの柔軟性を維持しながら実行効率を大幅に向上し、バックエンドアクセスを必要としないグラフィカルインターフェイスインテリジェントオペレーティングシステムを実現します。 この技術は、従来のインテリジェントエージェントにおける応答速度と認知能力のバランスという課題の解決において画期的な進歩をもたらし、モバイルAIアプリケーションに新たな技術的道を切り開きました。この研究は、インテリジェントエージェント技術における効率性と知能のダイナミックなバランスにおける重要なブレークスルーであるだけでなく、ヒューマンコンピュータインタラクション分野にスケーラブルな技術パラダイムを提供します。 プロジェクトアドレス: https://appagentx.github.io/ Githubアドレス: https://github.com/Westlake-A... Arxivアドレス: https://arxiv.org/abs/2503.02268 |
AIは携帯電話の活用がますます進化しています!ウェストレイク大学が、自己進化可能な新しいインテリジェントエージェント「AppAgentX」をリリースしました。
関連するおすすめ記事
-
DeepSeekに勝てないなら、参加しよう! 最新リスト: Tencent Docs、Baidu Search
-
強力な表処理ツールがNatureに掲載されました!箱から出してすぐに使え、どんな表でも平均2.8秒で処理できます。
-
今年もインテリジェントドライビングを取り巻く状況は大きく変化しています。VLAテクノロジーがレースのルールを塗り替え、NVIDIA Thorが量産され、車両に搭載されるようになりました。固定点測位よりも、大ヒット製品が重要なのです。
-
時価総額150億元の新興電気自動車スタートアップ企業が突然の破綻に見舞われ、創業者9人全員が逃亡、株価は97%急落した。
-
「仮想従業員」でOpenAIに先んじよう!清華大学、復旦大学、スタンフォード大学が協力し、エージェントがあなたのコンピューターを操作して仕事をこなします。
-
賞金総額が68万人民元を超える2025年ファーウェイソフトウェアエリートチャレンジの登録受付が開始されました。