あなた専用の「アイアンマン」アシスタント、OSAgentsが登場！浙江大学を含む10機関による最新の概要をご紹介します。

OSエージェントチームがQbitAIに貢献しました | WeChat公式アカウントQbitAI

映画「アイアンマン」では、トニー・スタークの助手ジャービスがさまざまなシステムを制御してタスクを自動的に完了するのを手伝い、数え切れないほどの視聴者を羨ましがらせました。

今、そのような超インテリジェントアシスタントがついに現実のものとなりました!

マルチモーダル大規模言語モデルの爆発的な進化により、コンピューターと携帯電話をシームレスに制御し、面倒なタスクを自動的に処理できるOS エージェントが登場しました。

Anthropic の Computer Use から Apple の Apple Intelligence、Zhipu AI の AutoGLM、Google DeepMind の Project Mariner まで、テクノロジー界の巨人たちの野望はすべて同じ目標、つまり真にインテリジェントなオペレーティングシステムアシスタントを作成することを指し示しています。

OS エージェントはもはや単なる「アシスタント」ではなく、人間とコンピュータの相互作用におけるゲームのルールを書き換えています。

最近、浙江大学はOPPO、01wx.com 、その他10機関と共同で、「OSエージェント：汎用コンピューティングデバイス向けMLLMベースエージェントの調査」と題するレビュー記事をまとめました。この記事では、OSエージェントの中核技術構造を詳細に解説するだけでなく、その評価方法や今後の課題についても考察しています。

OS エージェントはテクノロジー業界の次の大きなトレンドになるでしょうか?

OSエージェント：ビジネスと学術のイノベーションが同時に出現

JarvisのようなスーパーAIアシスタントは、一般的にOSエージェントと呼ばれます。OSエージェントは、オペレーティングシステム（OS）が提供する環境とインターフェース（グラフィカルユーザーインターフェース（GUI）など）を利用して、コンピューターやスマートフォンなどのコンピューティングデバイス上のさまざまなタスクを自動化できます。

OSエージェントは、世界中の何十億ものユーザーの生活を向上させる大きな可能性を秘めています。オンラインショッピングや旅行の予約といった日常的な活動が、これらのインテリジェントエージェントによってシームレスに実現される世界を想像してみてください。人々の効率と生産性は飛躍的に向上するでしょう。

過去には、Siri[1]、Cortana[2]、Google Assistant[3]などのAIアシスタントがこの可能性を示してきました。しかし、これまでのモデルの能力には限界があったため、これらの製品は限られた数のタスクしか実行できませんでした。

幸いなことに、Gemini[4]、GPT[5]、Grok[6]、Yi[7]、Claude[8]シリーズモデル（2024年12月22日に更新されたChatbot Arena LLMリーダーボード[9]によるランキング）などのマルチモーダル大規模言語モデルの継続的な開発により、この分野に新たな可能性がもたらされました。

(M)LLM は優れた機能を発揮し、OS エージェントが複雑なタスクをよりよく理解し、コンピューティングデバイス上で実行できるようにします。

アントロピックが立ち上げたComputer Use[10]、アップル社が立ち上げたApple Intelligence[11]、Zhipu AIが立ち上げたAutoGLM[12]、グーグル・ディープマインドが立ち上げたProject Mariner[13]など、最近はベーシックモデル企業や携帯電話メーカーがこの分野で活発な動きを見せている。

Computer UseはClaude[14]を利用してユーザーのコンピュータと直接対話し、シームレスなタスクの自動化を可能にします。

一方、学術界では、(M)LLM に基づいて OS エージェントを構築するためのさまざまな手法が提案されています。

例えば、OS-Atlas[15]は、複数のプラットフォーム間でGUI操作データを統合することでGUI上で動作するモデルの能力を大幅に向上させ、OODタスクのパフォーマンスを向上させるGUI基本モデルを提案した。

OS-Copilot[16]は、エージェントがほとんど監視なしで幅広いコンピュータタスクを自動化できるようにするOSエージェントフレームワークであり、さまざまなアプリケーションでその一般化と自己改善機能を実証しています。

△ OSエージェントの代表的な商用製品と学術研究

この記事では、OS エージェントの包括的な概要を説明します。

まず、OSエージェントの基礎を説明し、環境、観測空間、行動空間といった主要な要素について考察します。また、オペレーションの理解、計画、実行といったコア機能についても概説します。

次に、OS エージェントを構築するための方法論を検討し、OS エージェントのドメイン固有の基礎モデルとエージェントフレームワークの開発に重点を置きました。

次に、評価プロトコルとベンチマークの詳細なレビューを提供し、さまざまなタスクにわたって OS エージェントがどのように評価されるかを示します。

最後に、この記事では現在の課題について説明し、セキュリティとプライバシー、パーソナライゼーション、自己進化など、将来の研究の潜在的な方向性を指摘しています。

この記事は、OS エージェントに関する研究の現状をレビューし、学術研究と産業発展に役立てることを目的としています。

この分野におけるイノベーションをさらに推進するため、チームはOSエージェントに関する250以上の論文やその他の関連リソースを含むオープンソースのGitHubリポジトリも維持しており、継続的に更新しています。（リンクは記事末尾にあります）

△ OSエージェントの基礎：主要な要素とコア機能

OSエージェントの基礎

主要コンポーネント

OS エージェントが一般的な方法でコンピューティングデバイスを制御できるようにするには、オペレーティングシステムによって提供される環境、入力および出力インターフェイスと対話する必要があります。

この相互作用要件を満たすために、既存の OS エージェントは次の 3 つの主要な要素に依存しています。

環境：コンピュータ、携帯電話、ブラウザなど、インテリジェントエージェントが動作するシステムまたはプラットフォーム。環境は、インテリジェントエージェントがタスクを完了する舞台であり、単純な情報検索から複雑な複数ステップの操作まで、あらゆるものをサポートします。
観測空間: エージェントが利用できる情報の範囲。スクリーンショット、テキストによる説明、GUIインターフェース構造といった情報は、エージェントが環境やタスクを理解するための基礎となります。例としては、WebページのHTMLコードや携帯電話のスクリーンショットなどが挙げられます。
アクションスペース：エージェントが環境とインタラクトするために実行する一連のアクション。クリック、入力、ナビゲーション、さらには外部ツールの呼び出しなど、実行可能なアクションを定義します。これにより、エージェントはタスクを自動化し、ワークフローを最適化できます。

コア機能

OS エージェントのこれらの主要な要素を考慮した後、オペレーティングシステムと正しく効果的に対話する方法という問題を解決するには、OS エージェント自体の機能をさまざまな側面からテストする必要があります。

OS エージェントが習得しなければならないコア機能は、次の 3 つのポイントにまとめられます。

理解：OSエージェントはまず、複雑な動作環境を理解する必要があります。HTMLコード、スクリーンショット、画面上の密集したアイコンやテキスト情報など、エージェントは理解を通して重要なコンテンツを抽出し、タスクと環境を包括的に理解する必要があります。この理解は、情報検索などのタスクを処理するための前提条件です。
計画：OSエージェントの計画機能は、タスク実行において極めて重要です。計画では、OSエージェントが複雑なタスクを複数のサブタスクに分解し、目標を達成するための一連の操作を策定する必要があります。理想的には、OSエージェントは環境の変化に応じて計画を動的に調整し、動的なWebページやリアルタイムで更新されるユーザー画面インターフェースなどの複雑なオペレーティングシステム環境に適応できる必要があります。
グラウンディング：OSエージェントは最終的に、計画をボタンのクリック、テキストの入力、APIの呼び出しといった具体的かつ実行可能なアクションに変換する必要があります。この計画を「グラウンディング」する能力により、OSエージェントは現実世界の環境でタスクを効率的に完了し、テキスト記述からアクション実行への正確な変換を実現できます。

OSエージェントの構築

基礎モデル

タスクを効率的に実行できる OS エージェントを構築するための鍵は、適応された基本モデルを開発することにあります。

これらのモデルは、複雑な画面インターフェースを理解する必要があるだけでなく、マルチモーダルシナリオでタスクを実行する必要もあります。

基本モデルのアーキテクチャとトレーニング戦略の詳細な概要は次のとおりです。

△ OSエージェント基本モデル：アーキテクチャ、事前トレーニング、教師ありファインチューニング、強化学習

アーキテクチャ: 主なモデルアーキテクチャを 4 つのタイプに分類します。1.既存の LLM : オープンソースの大規模言語モデルアーキテクチャを直接採用し、構造化された画面インターフェイス情報をテキスト形式で LLM に入力することで、モデルが環境を認識できるようにします。2.既存の MLLM : オープンソースのマルチモーダル大規模言語モデルアーキテクチャを直接採用し、テキストと視覚処理機能を統合して、GUI の理解を向上させ、テキスト化された視覚情報による機能の損失を減らします。3.連結 MLLM : LLM と視覚エンコーダーをブリッジすることで形成され、柔軟性が高く、タスクの要件に応じてさまざまな言語モデルと視覚モデルを選択して組み合わせることができます。4.修正 MLLM : 既存の MLLM アーキテクチャを最適化および調整して、画面インターフェイスの詳細をより細かく認識して理解するための追加モジュール (高解像度の視覚エンコーダーや画像セグメンテーションモジュールなど) を追加するなど、特定のシナリオの課題に対処します。

事前トレーニング：事前トレーニングはモデル構築の基盤を築き、膨大なデータから画面インターフェースを理解する能力を向上させます。データソースには公開データセットと合成データセットが含まれ、事前トレーニングタスクには画面グラウンディング、画面理解、光学式文字認識（OCR）などが含まれ、これらが学習されます。

教師ありファインチューニング：教師ありファインチューニングは、モデルをGUIシナリオにより適したものにし、OSエージェントの計画・実行能力を向上させる重要な手段です。例えば、タスク実行軌跡を記録することで学習データを生成したり、画面インターフェースの詳細をHTMLでレンダリングすることで、モデルの様々なGUIへの汎化能力を向上させることができます。

強化学習：現在の強化学習は、特徴抽出のための(M)LLMからエージェントとしての(M)LLMへのパラダイムシフトを達成しており、OSエージェントが動的な環境で相互作用し、報酬フィードバックに基づいて継続的に意思決定を最適化できるようにしています。このアプローチは、エージェントのアライメントを改善するだけでなく、視覚エージェントやマルチモーダルエージェントの汎化能力とタスク適応性を強化します。

以下は、OS エージェントの基本モデルに関連する最近の論文の要約です。

△ OSエージェント基本モデルに関する最近の研究の要約

エージェントフレームワーク

堅牢な基本モデルに加えて、OS エージェントは、認識、計画、記憶、およびアクションの機能を強化するためにエージェントフレームワークと組み合わせる必要があります。

これらのモジュールは連携して動作し、OS エージェントが複雑なタスクや環境を効率的に処理できるようにします。

以下は、OS エージェントフレームワークの 4 つの主要モジュールの概要です。

△ OSエージェントフレームワーク：知覚、計画、記憶、行動

知覚：OSエージェントの「目」として、知覚は入力されたマルチモーダルデータ（スクリーンショットやHTMLドキュメントなど）を通じて環境を観察します。知覚は、以下の2つに分類されます。1. テキスト知覚：オペレーティングシステムの状態を、DOMツリーやHTMLファイルなどの構造化テキスト記述に変換します。2. 画面インターフェース知覚：視覚エンコーダを使用して画面インターフェースのスクリーンショットを理解し、ボタンやメニューなどの視覚的な配置とHTMLタグなどの意味的なつながりから主要な要素を正確に識別します。

計画：OSエージェントの「頭脳」として、計画はタスクの実行戦略を策定する役割を担います。計画は、1. グローバル計画：完全な計画を一括生成し、実行する。2. 反復計画：環境の変化に応じて計画を動的に調整し、エージェントがリアルタイムで更新される画面インターフェースとタスク要件に適応できるようにする。

メモリ：OSエージェントフレームワークの「メモリ」コンポーネントは、タスクデータ、操作履歴、環境状態の保存に役立ちます。メモリは3つのタイプに分かれています。1. 内部メモリ：操作履歴、スクリーンショット、状態データ、動的環境情報を保存し、タスク実行時のコンテキスト理解と軌道最適化をサポートします。例えば、スクリーンショットを用いて画面レイアウトを分析したり、過去の操作履歴に基づいて意思決定を生成したりできます。2. 外部メモリ：外部ツール（APIなど）やナレッジベースを呼び出してドメイン背景知識を獲得するなど、長期的な知識サポートを提供し、複雑なタスクの意思決定を支援します。3. 特定メモリ：タスク固有の知識とユーザーニーズに焦点を当て、サブタスクの分解方法、ユーザーの好み、画面インターフェースのインタラクション機能などを保存し、ターゲットを絞った操作サポートを提供します。さらに、いくつかのメモリ最適化戦略をまとめました。

アクション：OSエージェントのアクションの範囲をアクション空間と定義し、オペレーティングシステムとのインタラクション方法を含めます。アクション空間は3つのカテゴリーに分類されます。1. 入力操作：入力は、OSエージェントがデジタルスクリーンインターフェースとインタラクションを行うための基盤であり、主にマウス操作、タッチ操作、キーボード操作が含まれます。2. ナビゲーション操作：OSエージェントがターゲットプラットフォーム上を探索・移動し、タスク実行に必要な情報を取得できるようにします。3. 拡張操作：従来のスクリーンインターフェースインタラクションの限界を打ち破り、コード実行やAPI呼び出しなど、より柔軟なタスク実行機能をエージェントに提供します。

以下は、OS エージェントフレームワークに関する最近の論文の要約です。

△ OSエージェントフレームワークに関する最近の研究の要約

OSエージェントの評価

OS エージェントの開発では、科学的な評価が、開発者がさまざまなシナリオでエージェントのパフォーマンスを測定する上で重要な役割を果たしてきました。

以下の表は、OS エージェントの評価ベンチマークに関する最近の論文をまとめたものです。

△ OSエージェントベンチマークにおける最近の研究成果の概要

評価プロトコル

オペレーティングシステムエージェントの評価の中核は、評価プロセスをどのように実施すべきか、そしてどのような側面を評価する必要があるかという 2 つの重要な質問に要約できます。

次の記事では、これら 2 つの問題に焦点を当て、オペレーティングシステムインテリジェントエージェントの評価原則と指標について詳しく説明します。

評価の原則：OSエージェントの評価は、多次元的な技術的アプローチを組み合わせることで、その機能と限界を包括的に理解します。これは主に2つのカテゴリーに分類されます。1. 客観的評価：標準化された数値指標を用いて、特定のタスクにおけるエージェントのパフォーマンスを評価します。例としては、操作精度、タスク成功率、セマンティックマッチング精度などが挙げられます。この手法は、エージェントのパフォーマンスを迅速かつ標準化された方法で測定します。2. 主観的評価：人間のユーザーの主観的な経験に基づいて、エージェントの出力品質を評価します。これには、関連性、自然さ、一貫性、全体的な有効性などが含まれます。近年、(M)LLM-as-Judgeを評価に活用する研究も増えており、効率性と一貫性が向上しています。
評価メトリクス：評価メトリクスは、OSエージェントの理解、計画、運用能力に焦点を当て、様々なタスクにおけるパフォーマンスを測定します。主に以下の2つの側面が含まれます。1. ステップレベルメトリクス：アクションの意味的一致度やタスク実行時の運用精度など、操作の各ステップにおけるエージェントの精度を評価します。2. タスクレベルメトリクス：タスクの成功率やタスク完了の効率など、タスク全体の完了に焦点を当てます。

評価ベンチマーク

OS エージェントのパフォーマンスを総合的に評価するために、研究者はさまざまなプラットフォーム、環境設定、タスクカテゴリを網羅するさまざまな評価ベンチマークを開発しました。

これらのベンチマークテストは、インテリジェントエージェントのクロスプラットフォーム適応性と動的タスク実行機能を測定するための科学的根拠を提供します。

評価プラットフォーム：評価プラットフォームは統合的な評価環境を構築します。プラットフォームごとに課題や評価の焦点が異なります。私たちは主に、モバイルプラットフォーム、デスクトッププラットフォーム、Webプラットフォームの3つのカテゴリーに分類しています。

ベンチマーク設定：このセクションでは、OSエージェントの評価環境を静的環境とインタラクティブ環境の2つの主要なカテゴリに分類します。インタラクティブ環境はさらに、シミュレーション環境と実世界環境に細分化されます。静的環境は基本的なタスクのオフライン評価に適しており、インタラクティブ環境（特に実世界環境）は、複雑で動的なシナリオにおけるOSエージェントの実際の機能をより包括的にテストできます。実世界環境は、一般化能力と動的適応性を重視しており、将来の評価における重要な方向性を示しています。

タスク: OS エージェントの機能を総合的に評価するために、現在のベンチマークでは、システムレベルのタスク (アプリケーションのインストールやアンインストールなど) から日常的なアプリケーションタスク (電子メールの送信やオンラインショッピングなど) まで、さまざまな専門タスクを統合しています。これらは主に 3 つのカテゴリに分けられます。1. GUI グラウンディング: 指示を画面上のインターフェイス操作に変換する OS エージェントの能力、つまりオペレーティングシステム内の特定の操作可能な要素と対話する方法を評価します。2. 情報処理: 特に動的で複雑な環境で、大量のデータから有用な情報を抽出するなど、情報を効率的に処理および要約する OS エージェントの能力を評価します。3. エージェントタスク: 複雑なタスクを計画および実行する能力など、OS エージェントのコア機能を評価します。これらのタスクは、エージェントに目標または指示を提供し、明示的なガイダンスなしにタスクを完了することを要求します。

課題と将来

このセクションでは、OS エージェントが直面している主な課題と将来の開発方向について、安全性とプライバシー、およびパーソナライゼーションと自己進化という 2 つの主な側面に焦点を当てて説明します。

セキュリティとプライバシー

セキュリティとプライバシーは、OS エージェントの開発において真剣に考慮する必要がある領域です。

OSエージェントは、間接的なインジェクション攻撃、悪意のあるポップアップ、敵対的なコマンド生成など、様々な攻撃手法にさらされています。これらの脅威により、システムが誤った操作を実行したり、機密情報を漏洩したりする可能性があります。

LLM のセキュリティフレームワークはすでに存在していますが、OS エージェントの防御メカニズムは依然として不十分です。

現在の研究は、インジェクション攻撃やバックドア攻撃といった特殊な脅威に対処するための防御ソリューションの設計に重点を置いています。OSエージェントの全体的なセキュリティと信頼性を向上させるために、包括的かつスケーラブルな防御フレームワークの開発が急務となっています。

さまざまなシナリオにおけるOSエージェントの堅牢性を評価するために、ST-WebAgentBench[17]やMobileSafetyBench[18]など、システムのセキュリティパフォーマンスを包括的にテストして改善するためのエージェントセキュリティベンチマークも導入されています。

パーソナライゼーションと自己進化

パーソナライズされた OS エージェントは、ユーザーの好みに基づいて動作と機能を継続的に調整する必要があります。

マルチモーダル大規模言語モデルは、ユーザー履歴の理解とユーザーニーズへの動的な適応を徐々にサポートし始めています。OpenAIのMemory機能[19]は、この方向で一定の進歩を遂げています。

これにより、インテリジェントエージェントはユーザーとのやり取りやタスク実行を通じて継続的に学習し、最適化できるため、パーソナライゼーションとパフォーマンスが向上します。

将来的には、メモリメカニズムは、オーディオ、ビデオ、センサーデータなどのより複雑な形式に拡張され、より高度な予測機能と意思決定サポートが提供されるようになります。

同時に、ユーザーデータに基づく自己最適化をサポートし、ユーザーエクスペリエンスを向上させます。

要約

マルチモーダル大規模言語モデルの開発により、オペレーティングシステムエージェントに新たな機会が生まれ、高度な AI アシスタントのアイデアが現実に近づきました。

このレビューの目的は、OS エージェントの基礎、その主要コンポーネントと機能の概要を説明することです。

さらに、この記事では、ドメイン固有の基本モデルとエージェントフレームワークに特に焦点を当てながら、OS エージェントを構築するためのさまざまなアプローチについて説明します。

プロトコルとベンチマークを評価する際に、チームメンバーはさまざまな評価指標を綿密に分析し、ベンチマークを環境、セットアップ、タスク別に分類しました。

今後を見据え、チームはセキュリティとプライバシー、パーソナライゼーション、自己進化など、継続的な研究と注力を要する重要な課題を特定しました。これらの分野は、今後の研究の焦点となります。

このレビューでは、この分野の現状を要約し、将来の研究の潜在的な方向性を指摘し、OS エージェントの継続的な開発に貢献し、学界と産業界におけるその応用価値と実用的意義を高めることを目指しています。

誤りがありましたら、遠慮なくご指摘ください。また、著者は同僚の方々と意見交換や議論を交わすことを希望しています。

論文リンク: https://github.com/OS-Agent-S... プロジェクトホームページ: https://os-agent-survey.githu...

参考文献:
[1]Apple Inc. Siri – apple、2024年。https://www.apple.com/siri/
[2]Microsoft Research. Cortana に関する調査 – Microsoft Research、2024年。https://www.microsoft.com/en-...
[3]Google. Googleアシスタント、2024年。https://assistant.google.com/
[4]Google. Gemini – google. https://gemini.google.com/
[5]OpenAI。ホーム – オープンナイ。 https://openai.com/
[6]xAI. x.ai. https://x.ai/
[7]01.AI. 01.ai。 https://www.lingyiwanwu.com/
[8]アントロピック。アントロピック。https://www.anthropic.com/
[9]チャットボットアリーナ：人間の好みに基づいてLMSを評価するためのオープンプラットフォーム、2024年。https://arxiv.org/abs/2403.04132
[10]Anthropic. 3.5 モデルとコンピュータの使用 – anthropic、2024a。https://www.anthropic.com/new...
[11]Apple.Appleインテリジェンス、2024年。https://www.apple.com/apple-i...
[12]Autoglm: GUIのための自律基盤エージェント https://arxiv.org/abs/2411.00820
[13]Google DeepMind. プロジェクトマリナー、2024年。https://deepmind.google/techn...
[14]アントロピック. クロード・モデル – アントロピック, 2024b. https://www.anthropic.com/claude
[15]Os-atlas:ジェネラリストGUIエージェントの基礎行動モデル。https://arxiv.org/abs/2410.23218
[16]Os-copilot:自己改善機能を備えたジェネラリストコンピュータエージェントの実現に向けて。https://arxiv.org/abs/2402.07456
[17]St-webagentbench:ウェブエージェントの安全性と信頼性を評価するためのベンチマーク、2024年。http://arxiv.org/abs/2410.06703
[18]Mobilesafetybench:モバイルデバイス制御における自律エージェントの安全性評価、2024年。https://arxiv.org/abs/2410.17520
^ChatGPT のメモリと新しいコントロール。https://openai.com/index/memo...

618ZXW