OSエージェントチームがQbitAIに貢献しました | WeChat公式アカウントQbitAI映画「アイアンマン」では、トニー・スタークの助手ジャービスがさまざまなシステムを制御してタスクを自動的に完了するのを手伝い、数え切れないほどの視聴者を羨ましがらせました。 今、そのような超インテリジェントアシスタントがついに現実のものとなりました! マルチモーダル大規模言語モデルの爆発的な進化により、コンピューターと携帯電話をシームレスに制御し、面倒なタスクを自動的に処理できるOS エージェントが登場しました。 Anthropic の Computer Use から Apple の Apple Intelligence、Zhipu AI の AutoGLM、Google DeepMind の Project Mariner まで、テクノロジー界の巨人たちの野望はすべて同じ目標、つまり真にインテリジェントなオペレーティング システム アシスタントを作成することを指し示しています。 OS エージェントはもはや単なる「アシスタント」ではなく、人間とコンピュータの相互作用におけるゲームのルールを書き換えています。 最近、浙江大学はOPPO、01wx.com 、その他10機関と共同で、「OSエージェント:汎用コンピューティングデバイス向けMLLMベースエージェントの調査」と題するレビュー記事をまとめました。この記事では、OSエージェントの中核技術構造を詳細に解説するだけでなく、その評価方法や今後の課題についても考察しています。 OS エージェントはテクノロジー業界の次の大きなトレンドになるでしょうか? OSエージェント:ビジネスと学術のイノベーションが同時に出現JarvisのようなスーパーAIアシスタントは、一般的にOSエージェントと呼ばれます。OSエージェントは、オペレーティングシステム(OS)が提供する環境とインターフェース(グラフィカルユーザーインターフェース(GUI)など)を利用して、コンピューターやスマートフォンなどのコンピューティングデバイス上のさまざまなタスクを自動化できます。 OSエージェントは、世界中の何十億ものユーザーの生活を向上させる大きな可能性を秘めています。オンラインショッピングや旅行の予約といった日常的な活動が、これらのインテリジェントエージェントによってシームレスに実現される世界を想像してみてください。人々の効率と生産性は飛躍的に向上するでしょう。 過去には、Siri[1]、Cortana[2]、Google Assistant[3]などのAIアシスタントがこの可能性を示してきました。しかし、これまでのモデルの能力には限界があったため、これらの製品は限られた数のタスクしか実行できませんでした。 幸いなことに、Gemini[4]、GPT[5]、Grok[6]、Yi[7]、Claude[8]シリーズモデル(2024年12月22日に更新されたChatbot Arena LLMリーダーボード[9]によるランキング)などのマルチモーダル大規模言語モデルの継続的な開発により、この分野に新たな可能性がもたらされました。 (M)LLM は優れた機能を発揮し、OS エージェントが複雑なタスクをよりよく理解し、コンピューティング デバイス上で実行できるようにします。 アントロピックが立ち上げたComputer Use[10]、アップル社が立ち上げたApple Intelligence[11]、Zhipu AIが立ち上げたAutoGLM[12]、グーグル・ディープマインドが立ち上げたProject Mariner[13]など、最近はベーシックモデル企業や携帯電話メーカーがこの分野で活発な動きを見せている。 Computer UseはClaude[14]を利用してユーザーのコンピュータと直接対話し、シームレスなタスクの自動化を可能にします。 一方、学術界では、(M)LLM に基づいて OS エージェントを構築するためのさまざまな手法が提案されています。 例えば、OS-Atlas[15]は、複数のプラットフォーム間でGUI操作データを統合することでGUI上で動作するモデルの能力を大幅に向上させ、OODタスクのパフォーマンスを向上させるGUI基本モデルを提案した。 OS-Copilot[16]は、エージェントがほとんど監視なしで幅広いコンピュータタスクを自動化できるようにするOSエージェントフレームワークであり、さまざまなアプリケーションでその一般化と自己改善機能を実証しています。 △ OSエージェントの代表的な商用製品と学術研究この記事では、OS エージェントの包括的な概要を説明します。 まず、OSエージェントの基礎を説明し、環境、観測空間、行動空間といった主要な要素について考察します。また、オペレーションの理解、計画、実行といったコア機能についても概説します。 次に、OS エージェントを構築するための方法論を検討し、OS エージェントのドメイン固有の基礎モデルとエージェント フレームワークの開発に重点を置きました。 次に、評価プロトコルとベンチマークの詳細なレビューを提供し、さまざまなタスクにわたって OS エージェントがどのように評価されるかを示します。 最後に、この記事では現在の課題について説明し、セキュリティとプライバシー、パーソナライゼーション、自己進化など、将来の研究の潜在的な方向性を指摘しています。 この記事は、OS エージェントに関する研究の現状をレビューし、学術研究と産業発展に役立てることを目的としています。 この分野におけるイノベーションをさらに推進するため、チームはOSエージェントに関する250以上の論文やその他の関連リソースを含むオープンソースのGitHubリポジトリも維持しており、継続的に更新しています。(リンクは記事末尾にあります) △ OSエージェントの基礎:主要な要素とコア機能OSエージェントの基礎主要コンポーネントOS エージェントが一般的な方法でコンピューティング デバイスを制御できるようにするには、オペレーティング システムによって提供される環境、入力および出力インターフェイスと対話する必要があります。 この相互作用要件を満たすために、既存の OS エージェントは次の 3 つの主要な要素に依存しています。
コア機能OS エージェントのこれらの主要な要素を考慮した後、オペレーティング システムと正しく効果的に対話する方法という問題を解決するには、OS エージェント自体の機能をさまざまな側面からテストする必要があります。 OS エージェントが習得しなければならないコア機能は、次の 3 つのポイントにまとめられます。
OSエージェントの構築基礎モデルタスクを効率的に実行できる OS エージェントを構築するための鍵は、適応された基本モデルを開発することにあります。 これらのモデルは、複雑な画面インターフェースを理解する必要があるだけでなく、マルチモーダルシナリオでタスクを実行する必要もあります。 基本モデルのアーキテクチャとトレーニング戦略の詳細な概要は次のとおりです。 △ OSエージェント基本モデル:アーキテクチャ、事前トレーニング、教師ありファインチューニング、強化学習アーキテクチャ: 主なモデル アーキテクチャを 4 つのタイプに分類します。1.既存の LLM : オープンソースの大規模言語モデル アーキテクチャを直接採用し、構造化された画面インターフェイス情報をテキスト形式で LLM に入力することで、モデルが環境を認識できるようにします。2.既存の MLLM : オープンソースのマルチモーダル大規模言語モデル アーキテクチャを直接採用し、テキストと視覚処理機能を統合して、GUI の理解を向上させ、テキスト化された視覚情報による機能の損失を減らします。3.連結 MLLM : LLM と視覚エンコーダーをブリッジすることで形成され、柔軟性が高く、タスクの要件に応じてさまざまな言語モデルと視覚モデルを選択して組み合わせることができます。4.修正 MLLM : 既存の MLLM アーキテクチャを最適化および調整して、画面インターフェイスの詳細をより細かく認識して理解するための追加モジュール (高解像度の視覚エンコーダーや画像セグメンテーション モジュールなど) を追加するなど、特定のシナリオの課題に対処します。 事前トレーニング:事前トレーニングはモデル構築の基盤を築き、膨大なデータから画面インターフェースを理解する能力を向上させます。データソースには公開データセットと合成データセットが含まれ、事前トレーニングタスクには画面グラウンディング、画面理解、光学式文字認識(OCR)などが含まれ、これらが学習されます。 教師ありファインチューニング:教師ありファインチューニングは、モデルをGUIシナリオにより適したものにし、OSエージェントの計画・実行能力を向上させる重要な手段です。例えば、タスク実行軌跡を記録することで学習データを生成したり、画面インターフェースの詳細をHTMLでレンダリングすることで、モデルの様々なGUIへの汎化能力を向上させることができます。 強化学習:現在の強化学習は、特徴抽出のための(M)LLMからエージェントとしての(M)LLMへのパラダイムシフトを達成しており、OSエージェントが動的な環境で相互作用し、報酬フィードバックに基づいて継続的に意思決定を最適化できるようにしています。このアプローチは、エージェントのアライメントを改善するだけでなく、視覚エージェントやマルチモーダルエージェントの汎化能力とタスク適応性を強化します。 以下は、OS エージェントの基本モデルに関連する最近の論文の要約です。 △ OSエージェント基本モデルに関する最近の研究の要約エージェントフレームワーク堅牢な基本モデルに加えて、OS エージェントは、認識、計画、記憶、およびアクションの機能を強化するためにエージェント フレームワークと組み合わせる必要があります。 これらのモジュールは連携して動作し、OS エージェントが複雑なタスクや環境を効率的に処理できるようにします。 以下は、OS エージェント フレームワークの 4 つの主要モジュールの概要です。 △ OSエージェントフレームワーク:知覚、計画、記憶、行動知覚:OSエージェントの「目」として、知覚は入力されたマルチモーダルデータ(スクリーンショットやHTMLドキュメントなど)を通じて環境を観察します。知覚は、以下の2つに分類されます。1. テキスト知覚:オペレーティングシステムの状態を、DOMツリーやHTMLファイルなどの構造化テキスト記述に変換します。2. 画面インターフェース知覚:視覚エンコーダを使用して画面インターフェースのスクリーンショットを理解し、ボタンやメニューなどの視覚的な配置とHTMLタグなどの意味的なつながりから主要な要素を正確に識別します。 計画:OSエージェントの「頭脳」として、計画はタスクの実行戦略を策定する役割を担います。計画は、1. グローバル計画:完全な計画を一括生成し、実行する。2. 反復計画:環境の変化に応じて計画を動的に調整し、エージェントがリアルタイムで更新される画面インターフェースとタスク要件に適応できるようにする。 メモリ:OSエージェントフレームワークの「メモリ」コンポーネントは、タスクデータ、操作履歴、環境状態の保存に役立ちます。メモリは3つのタイプに分かれています。1. 内部メモリ:操作履歴、スクリーンショット、状態データ、動的環境情報を保存し、タスク実行時のコンテキスト理解と軌道最適化をサポートします。例えば、スクリーンショットを用いて画面レイアウトを分析したり、過去の操作履歴に基づいて意思決定を生成したりできます。2. 外部メモリ:外部ツール(APIなど)やナレッジベースを呼び出してドメイン背景知識を獲得するなど、長期的な知識サポートを提供し、複雑なタスクの意思決定を支援します。3. 特定メモリ:タスク固有の知識とユーザーニーズに焦点を当て、サブタスクの分解方法、ユーザーの好み、画面インターフェースのインタラクション機能などを保存し、ターゲットを絞った操作サポートを提供します。さらに、いくつかのメモリ最適化戦略をまとめました。 アクション:OSエージェントのアクションの範囲をアクション空間と定義し、オペレーティングシステムとのインタラクション方法を含めます。アクション空間は3つのカテゴリーに分類されます。1. 入力操作:入力は、OSエージェントがデジタルスクリーンインターフェースとインタラクションを行うための基盤であり、主にマウス操作、タッチ操作、キーボード操作が含まれます。2. ナビゲーション操作:OSエージェントがターゲットプラットフォーム上を探索・移動し、タスク実行に必要な情報を取得できるようにします。3. 拡張操作:従来のスクリーンインターフェースインタラクションの限界を打ち破り、コード実行やAPI呼び出しなど、より柔軟なタスク実行機能をエージェントに提供します。 以下は、OS エージェント フレームワークに関する最近の論文の要約です。 △ OSエージェントフレームワークに関する最近の研究の要約OSエージェントの評価OS エージェントの開発では、科学的な評価が、開発者がさまざまなシナリオでエージェントのパフォーマンスを測定する上で重要な役割を果たしてきました。 以下の表は、OS エージェントの評価ベンチマークに関する最近の論文をまとめたものです。 △ OSエージェントベンチマークにおける最近の研究成果の概要評価プロトコルオペレーティング システム エージェントの評価の中核は、評価プロセスをどのように実施すべきか、そしてどのような側面を評価する必要があるかという 2 つの重要な質問に要約できます。 次の記事では、これら 2 つの問題に焦点を当て、オペレーティング システム インテリジェント エージェントの評価原則と指標について詳しく説明します。
評価ベンチマークOS エージェントのパフォーマンスを総合的に評価するために、研究者はさまざまなプラットフォーム、環境設定、タスク カテゴリを網羅するさまざまな評価ベンチマークを開発しました。 これらのベンチマーク テストは、インテリジェント エージェントのクロスプラットフォーム適応性と動的タスク実行機能を測定するための科学的根拠を提供します。 評価プラットフォーム:評価プラットフォームは統合的な評価環境を構築します。プラットフォームごとに課題や評価の焦点が異なります。私たちは主に、モバイルプラットフォーム、デスクトッププラットフォーム、Webプラットフォームの3つのカテゴリーに分類しています。 ベンチマーク設定:このセクションでは、OSエージェントの評価環境を静的環境とインタラクティブ環境の2つの主要なカテゴリに分類します。インタラクティブ環境はさらに、シミュレーション環境と実世界環境に細分化されます。静的環境は基本的なタスクのオフライン評価に適しており、インタラクティブ環境(特に実世界環境)は、複雑で動的なシナリオにおけるOSエージェントの実際の機能をより包括的にテストできます。実世界環境は、一般化能力と動的適応性を重視しており、将来の評価における重要な方向性を示しています。 タスク: OS エージェントの機能を総合的に評価するために、現在のベンチマークでは、システムレベルのタスク (アプリケーションのインストールやアンインストールなど) から日常的なアプリケーション タスク (電子メールの送信やオンライン ショッピングなど) まで、さまざまな専門タスクを統合しています。これらは主に 3 つのカテゴリに分けられます。1. GUI グラウンディング: 指示を画面上のインターフェイス操作に変換する OS エージェントの能力、つまりオペレーティング システム内の特定の操作可能な要素と対話する方法を評価します。2. 情報処理: 特に動的で複雑な環境で、大量のデータから有用な情報を抽出するなど、情報を効率的に処理および要約する OS エージェントの能力を評価します。3. エージェント タスク: 複雑なタスクを計画および実行する能力など、OS エージェントのコア機能を評価します。これらのタスクは、エージェントに目標または指示を提供し、明示的なガイダンスなしにタスクを完了することを要求します。 課題と将来このセクションでは、OS エージェントが直面している主な課題と将来の開発方向について、安全性とプライバシー、およびパーソナライゼーションと自己進化という 2 つの主な側面に焦点を当てて説明します。 セキュリティとプライバシーセキュリティとプライバシーは、OS エージェントの開発において真剣に考慮する必要がある領域です。 OSエージェントは、間接的なインジェクション攻撃、悪意のあるポップアップ、敵対的なコマンド生成など、様々な攻撃手法にさらされています。これらの脅威により、システムが誤った操作を実行したり、機密情報を漏洩したりする可能性があります。 LLM のセキュリティ フレームワークはすでに存在していますが、OS エージェントの防御メカニズムは依然として不十分です。 現在の研究は、インジェクション攻撃やバックドア攻撃といった特殊な脅威に対処するための防御ソリューションの設計に重点を置いています。OSエージェントの全体的なセキュリティと信頼性を向上させるために、包括的かつスケーラブルな防御フレームワークの開発が急務となっています。 さまざまなシナリオにおけるOSエージェントの堅牢性を評価するために、ST-WebAgentBench[17]やMobileSafetyBench[18]など、システムのセキュリティパフォーマンスを包括的にテストして改善するためのエージェントセキュリティベンチマークも導入されています。 パーソナライゼーションと自己進化パーソナライズされた OS エージェントは、ユーザーの好みに基づいて動作と機能を継続的に調整する必要があります。 マルチモーダル大規模言語モデルは、ユーザー履歴の理解とユーザーニーズへの動的な適応を徐々にサポートし始めています。OpenAIのMemory機能[19]は、この方向で一定の進歩を遂げています。 これにより、インテリジェント エージェントはユーザーとのやり取りやタスク実行を通じて継続的に学習し、最適化できるため、パーソナライゼーションとパフォーマンスが向上します。 将来的には、メモリメカニズムは、オーディオ、ビデオ、センサーデータなどのより複雑な形式に拡張され、より高度な予測機能と意思決定サポートが提供されるようになります。 同時に、ユーザーデータに基づく自己最適化をサポートし、ユーザーエクスペリエンスを向上させます。 要約マルチモーダル大規模言語モデルの開発により、オペレーティング システム エージェントに新たな機会が生まれ、高度な AI アシスタントのアイデアが現実に近づきました。 このレビューの目的は、OS エージェントの基礎、その主要コンポーネントと機能の概要を説明することです。 さらに、この記事では、ドメイン固有の基本モデルとエージェント フレームワークに特に焦点を当てながら、OS エージェントを構築するためのさまざまなアプローチについて説明します。 プロトコルとベンチマークを評価する際に、チームメンバーはさまざまな評価指標を綿密に分析し、ベンチマークを環境、セットアップ、タスク別に分類しました。 今後を見据え、チームはセキュリティとプライバシー、パーソナライゼーション、自己進化など、継続的な研究と注力を要する重要な課題を特定しました。これらの分野は、今後の研究の焦点となります。 このレビューでは、この分野の現状を要約し、将来の研究の潜在的な方向性を指摘し、OS エージェントの継続的な開発に貢献し、学界と産業界におけるその応用価値と実用的意義を高めることを目指しています。 誤りがありましたら、遠慮なくご指摘ください。また、著者は同僚の方々と意見交換や議論を交わすことを希望しています。 論文リンク: https://github.com/OS-Agent-S... プロジェクトホームページ: https://os-agent-survey.githu... 参考文献: |
あなた専用の「アイアンマン」アシスタント、OSAgentsが登場!浙江大学を含む10機関による最新の概要をご紹介します。
関連するおすすめ記事
-
iPhone 16 シリーズのパフォーマンステスト: 最適化された放熱は少しは役立ちますが、ほんの少しだけです。
-
[TVM チュートリアル] Tensorize を使用してハードウェア インライン関数を活用する
-
Zhipu AI版Soraがオープンソース化!商用利用可能かつプレイ可能な初のオンラインアプリケーションとして、GitHubでわずか5時間で3,700個のスターを獲得しました。
-
中国製の3D大型モデルが、世界のインターネットで話題沸騰中!外国人も新年を祝う代わりに、実際に試作しているほどです。
-
AI VenomがDouyinとXiaohongshuで話題沸騰中!Xianyuでは1回10元で販売されていますが、公式サイトではなんと無料で提供されています。
-
量子化により、大規模なモデルは「記憶を回復」し、削除されたプライバシーと著作権コンテンツをすべて復元できます。