618ZXW

AIでモバイルタスクの自動実行が可能に!中国の大学の最新研究により、モバイルデバイスの操作が簡素化されます。

AI は炭素ベースの生物の手を解放し、さらには携帯電話が自動で再生できるようにもなります

おっしゃる通り、これは実はモバイル タスクの自動化です。

AIの急速な発展に伴い、これは徐々に新しい人気の研究分野になってきました。

モバイルタスク自動化は、AIを活用して人間の意図を正確に捉え、分析し、モバイルデバイス(スマートフォン、タブレット、車載端末)上で多様なタスクを効率的に実行することで、認知能力の限界や身体的な制限、特殊な状況にあるユーザーにこれまでにない利便性とサポートを提供します。

  • 視覚障害のあるユーザーがナビゲーション、読書、またはオンライン ショッピングを完了できるように支援します。
  • 高齢者の携帯電話利用を支援し、情報格差を埋める
  • 車の所有者が運転中にテキストメッセージを送信したり、車内の環境を調整したりするのに役立ちます。
  • ユーザーの日常生活でよく発生する反復的なタスクを完了します。
  • ...

お母さんは、複数のカレンダーイベントを繰り返し設定するのが面倒ではなくなりました。

最近、西安交通大学教育部知能ネットワークとネットワークセキュリティ重点実験室(MOE KLINNS実験室)の蔡忠敏教授と宋雲鵬准教授のチーム(主な研究分野は、インテリジェントな人間とコンピュータの相互作用、ハイブリッド拡張知能、インテリジェント電力システム)は、最新のAI研究成果に基づいて、視覚ベースのモバイルデバイスタスク自動化ソリューションであるVisionTaskerを革新的に提案しました。

この研究は、一般ユーザーにスマートなモバイルデバイスエクスペリエンスを提供するだけでなく、特別なニーズを持つグループに対するケアとエンパワーメントも実証しています。

ビジョンベースのモバイルデバイスタスク自動化ソリューション

チームは、モバイル タスクを段階的に自動化するために、ビジョンベースの UI 理解と LLM タスク プランニングを組み合わせた 2 段階のフレームワークであるVisionTasker を提案しました。

このソリューションは、UI 表現のビュー階層への依存を効果的に排除し、さまざまなアプリケーション インターフェイスへの適応性を向上させます。

VisionTasker では、大規模なモデルをトレーニングするために大量のデータが必要ないことは注目に値します。

VisionTasker は、ユーザーが自然言語でタスク要求を送信することから始まり、その後エージェントが指示を理解して実行を開始します。

具体的な実装は次の通りです。

1. ユーザーインターフェースの理解

VisionTasker は視覚的な方法を使用してユーザー インターフェイスを理解し、解釈します。

まず、エージェントはボタン、テキスト ボックス、テキスト ラベルなどのユーザー インターフェイスの要素とレイアウトを識別して分析します。

次に、識別された視覚情報は、インターフェースのコンテンツを説明する自然言語の説明に変換されます。

2.タスクの計画と実行

次に、エージェントはナビゲーションに大規模な言語モデルを使用し、ユーザーの指示とインターフェースの説明に基づいてタスクを計画します。

ユーザータスクをクリックやスワイプなどの実行可能なステップに分割し、タスクを自動的に完了まで進めます。

3.上記のプロセスを継続的に繰り返します。

各ステップが完了すると、エージェントは最新のインターフェースと履歴アクションに基づいてダイアログとタスク計画を更新し、各決定が現在のコンテキストに基づいていることを確認します。

これは、タスクが完了したと判断されるか、事前に設定された制限に達するまで継続される反復プロセスです。

ユーザーは、操作から手を解放できるだけでなく、目に見えるプロンプトを通じてタスクの進行状況を監視し、いつでもタスクを中断してプロセス全体を制御することができます。

最初のステップは、インターフェース内のウィジェットとテキストを識別し、ボタンやテキスト ボックスなどの要素とその位置を検出することです。

テキスト ラベルのないボタンの場合、CLIP モデルを使用して、視覚的なデザインに基づいてボタンの可能な機能を推測します。

次に、システムは UI レイアウトの視覚情報に基づいてインターフェースをブロックに分割し、各ブロックの自然言語による説明を生成します。

このプロセスには、各要素の機能が正しく理解されるように、テキストとウィジェットを一致させることも含まれます。

最終的に、このすべての情報は自然言語による記述に変換され、大規模な言語モデルに明確で意味的に豊富なインターフェース情報を提供して、タスク計画と自動操作を効果的に実行できるようになります。

実験評価

実験評価セクションでは、プロジェクトは次の 3 つの UI 理解の比較分析を提供します。

  • GPT-4V
  • VH(ビュー階層)
  • VisionTaskerメソッド

比較により、VisionTasker は複数の次元において他の方法に比べて大きな利点があることがわかります。

さらに、言語間アプリケーションを処理する際にも優れた一般化能力を発揮します。

△実験1で使用した共通UIレイアウト

これは、VisionTasker のビジョンベースの UI 理解アプローチが、特に多様で複雑なユーザー インターフェイスを扱う場合に、UI の理解と解釈において明らかな利点があることを示しています。

△ 4つのデータセットにわたるシングルステップ予測精度

この論文では、現在のタスクの状態とユーザー インターフェイスに基づいて次に実行されるアクションまたは操作を予測する、シングル ステップ予測実験も実施しました。

結果によると、VisionTasker はすべてのデータセットで平均 67% の精度を達成し、これはベースライン メソッドよりも 15% 以上高い数値でした。

現実世界のミッション:VisionTasker vs. 人間

実験中、研究者らは、中国で一般的に使用されている 42 のアプリケーションを網羅し、VisionTasker のパフォーマンスをテストするために 147 の実際のマルチステップ タスクを設計しました。

同時に、研究チームは人間による比較テストも実施し、12 人の人間の評価者がこれらのタスクを手動で実行し、VisionTasker の結果を比較しました。

結果によると、VisionTasker はほとんどのタスクで人間に匹敵する完了率を達成し、一部の未知のタスクでは人間を上回ったことが示されました。

△実践的なタスク自動化実験の結果。「Ours-qwen」はオープンソースのQwenを用いたVisionTaskerフレームワークの実装、「Ours」はLLMとしてWenxin Yiyanを採用したことを示します。

チームは、さまざまな大規模言語モデル (LLM) とプログラミングデモンストレーション (PBD) メカニズムの使用など、さまざまな条件下での VisionTasker のパフォーマンスも評価しました。

VisionTasker は、ほとんどの直感的なタスクで人間に匹敵する完了率を達成しました。慣れたタスクでは人間よりわずかに低いものの、慣れていないタスクでは人間より優れていました。

△VisionTaskerがタスクを段階的に完了するデモ

結論は

ビジョンベースおよび大規模モデルベースのモバイル タスク自動化フレームワークである VisionTasker は、モバイル タスク自動化の現在のビュー階層構造への依存を克服します。

一連の比較実験を通じて、そのユーザー インターフェイスのパフォーマンスが従来のプログラミング デモンストレーションやビュー階層方式を上回ることが実証されました。

4 つの異なるデータセットで効率的な UI 表現機能を実証し、より幅広い適用性を示しました。また、Android スマートフォンでの 147 の実際のタスクでは、特に複雑なタスクの処理において、超人的なタスク完了能力を実証しました。

さらに、VisionTasker は、統合プログラミング デモンストレーション (PBD) メカニズムを通じて、タスク自動化のパフォーマンスを大幅に向上させます。

この研究は、2024年10月13日から16日まで米国ピッツバーグで開催されたヒューマンコンピュータインタラクションに関するトップレベルの会議であるUIST(ACM Symposium on User Interface Software and Technology)で正式な論文として発表されました。

UIST は、ヒューマン コンピュータ インタラクションの分野におけるトップクラスの学術会議 (CCF クラス A) であり、ヒューマン コンピュータ インターフェイスのソフトウェアと技術革新に重点を置いています。

オリジナルリンク: https://dl.acm.org/doi/10.114...
プロジェクトリンク: https://github.com/AkimotoAya...