「仮想従業員」でOpenAIに先んじよう！清華大学、復旦大学、スタンフォード大学が協力し、エージェントがあなたのコンピューターを操作して仕事をこなします。

清華大学、復旦大学、スタンフォード大学などの研究者らが協力し、 「オペレーター」の開発でOpenAIに先んじる大規模プロジェクトを進めている。

彼らは「 Eko 」と呼ばれるエージェント開発フレームワークを提案しました。これにより、開発者は簡潔なコードと自然言語を使用して、すぐに本番環境で使用できる「仮想従業員」を迅速に構築できます。

エージェントはユーザーのコンピューターとブラウザを操作し、人間に代わってさまざまなタスクを実行します。

これはまさに、OpenAIが以前リークした「Operator」が実現可能なものでした。リークでは、OpenAIが今月「Operator」をリリースするとされていましたが、その計画は完全に頓挫しました。

さらに重要なことに、研究チームはEkoもオープンソース化した。

Eko がどのようにワークフローを自動化するかを見てみましょう。

たとえば、Yahoo Finance から、主要株の価格変動、時価総額、取引量など、最新の Nasdaq データを自動的に収集し、そのデータを分析して、視覚的なレポートを生成することができます。

例えば：

現在のログインページの自動テスト:
正しいユーザー名とパスワードは admin / 666666 です。
ログイン認証が正しく機能していることを確認するために、ランダムなユーザー名とパスワードの組み合わせでテストしてください。例：ユーザー名は空欄にできません、パスワードは空欄にできません、ユーザー名が正しくありません、パスワードが正しくありません。
最後に、正しいユーザー名とパスワードでログインして、ログインが成功したかどうかを確認します。
テストレポートを生成してエクスポートする

現在のディレクトリにある1MBを超えるファイルをすべて削除します

これはどのように達成されるのでしょうか?

オープンソースの「仮想従業員」開発フレームワーク

この演技技法の中核となる技術革新は次の 3 つです。

ハイブリッドエージェント表現:これは、高レベルの設計を表現するために使用される自然言語と、開発者が低レベルの実装に使用するプログラミング言語をシームレスに組み合わせた「混合エージェント表現」を提案します。
クロスプラットフォームエージェントフレームワーク:同じフレームワークとプログラミング言語を実装するための環境認識型アーキテクチャを提案し、ブラウザー、コンピューター、およびブラウザープラグインとしての使用をサポートします。
本番環境レベルの介入メカニズム：既存のエージェントフレームワークは一般的に自律性を重視しており、人間の介入は不要です。しかし、Ekoフレームワークは明示的な本番環境レベルの介入メカニズムを提供することで、エージェントワークフローをいつでも中断して調整できるようにし、本番環境レベルのエージェントワークフローに対する効果的な人間による監視とガバナンスを確保します。

環境を考慮した建築

主なシナリオは次のとおりです。

i)ブラウザの使用：これは主に、グラフィカルユーザーインターフェース（GUI）を介してブラウザ内のWebページや要素を操作することに焦点を当てています。一般的な実装方法としては、スクリーンショットやWebページの抽出技術などが挙げられます。

ii)コンピュータの使用: ブラウザとは異なり、Node.js の自動化は主にコマンドラインインターフェイス (CLI) 操作とファイルシステム管理を対象としており、将来的には GUI 認識が導入される予定です。

Eko のクロスプラットフォーム開発は、ユニバーサルコア、環境固有のツール、環境ブリッジという 3 つの主要レイヤーで構成される環境認識アーキテクチャを通じて実現されます。

一般的なコア: このレイヤーは、ワークフロー管理、ツールレジストリ管理、LLM (大規模言語モデル) 統合、フックシステムなど、環境に依存しない基本的な機能を提供します。
環境固有のツール: ブラウザ拡張機能、Web 環境、Node.js 環境など、各環境に最適化されたツールセットが提供されます。
環境ブリッジング: このレイヤーは、環境の監視、ツールの登録、リソース管理、セキュリティ制御を担当し、異なるプラットフォーム間のスムーズな相互作用と通信を保証します。

セキュリティとアクセス制御： Ekoは、さまざまな環境に適したセキュリティ対策を実装しています。ブラウザ拡張機能とWeb環境では厳格なアクセス制御とAPIキー管理を採用し、Node.js環境では、ユーザーの権限に基づいて、より広範なシステムレベルのアクセス、ファイル操作、コマンド実行を許可し、必要に応じて実行前にユーザーの確認を求めます。

自動ツール登録: Eko は、loadTools() などのツールを使用して、現在の環境に適したツールを自動的に登録します。これにより、開発者は複数の環境をシームレスに切り替え、ツールが正しくロードされることを保証できます。

階層的計画

チームは、タスクを計画層と実行層の 2 つの層に分割する階層的認識フレームワークを提案しました。

計画層は、ユーザーの要件 (自然言語またはコード言語で表現) と既存のツールセットを、ドメイン固有言語で表現されたタスクグラフに分解する役割を担います。

タスクグラフは、サブタスク間の依存関係を記述する有向非巡回グラフです。このタスクグラフはLLMによって一度だけ合成されます。実行層では、各タスクによるLLMの呼び出しに基づいて、具体的な実行動作とツール呼び出しが合成されます。

マルチステップマージの最適化：Ekoは、2つの実行がどちらもLLMへの呼び出しであることを検出すると、フレームワークの自動マージメカニズムを起動し、2つの呼び出しからのシステムプロンプトを1つの呼び出しに自動的に統合します。これにより推論が高速化されます。

視覚インタラクティブ要素の認識

Visual-Interactive Element Joint Awareness Framework (VIEP) は、視覚認識と要素のコンテキスト情報を組み合わせることで、複雑な Web ページ上のタスクの精度と効率を大幅に向上させる新しいブラウザー認識ソリューションです。

これは、Web ページからインタラクティブな要素 (A11y ツリーなど) を抽出し、それらをドメイン固有言語 (DSL) にマッピングして効率的な疑似 HTML コードを生成することにより、要素の表現を簡素化します。

従来の A11y + スクリーンショットソリューションとは異なり、VIEP は視覚信号の観点から Set-of-Mark を導入し、各要素の視覚識別子が疑似 HTML の識別子と 1 対 1 で対応するようにすることで、要素認識の精度を向上させます。

パフォーマンスを最適化するために、スクリーンショットの解像度は元の 60% に圧縮され、画像品質は 50% に圧縮され、十分な認識品質を維持しながらリソースの消費を削減しました。

VIEPは、従来のHTML表現と比較して、インタラクティブな要素を簡素化し、コンパクトな疑似HTML構造を生成することで、膨大なHTMLコンテンツを直接処理する際のオーバーヘッドを回避します。例えば、GoogleのホームページのHTMLは22万文字からわずか1,058文字に削減され、処理速度と精度が大幅に向上しました。

VIEP は、パフォーマンスを最適化してコストを削減するだけでなく、環境間の適応性も向上させ、さまざまなブラウザやオペレーティングシステムで自動操作が安定して実行されるようにします。

生産レベルの介入メカニズム

AI 駆動型の自動化システムを構築する場合、開発者は多くの場合、タスクの実行を監視し、必要に応じて動作を調整したり、必要に応じて介入したりする必要があります。

「フック」はソフトウェア開発では一般的な概念ですが、Eko では AI 自動化と人間による監督の間のギャップを埋めるという独自の役割を果たします。

簡単に言うと、入力の検証、結果の処理、失敗したタスクの再試行など、ワークフローの実行前または実行後に独自のロジックを挿入できます。

コードは次のとおりです。

Eko は、それぞれ独自の機能を備えた 3 つの異なる層のフックを提供しています。

ワークフローフックはワークフローの最上位層に配置され、自動化されたプロセスの開始と終了を全体的に制御および監視するために使用されます。例えば、ワークフローの開始前にリソースを初期化したり、ワークフローの終了後に最終結果をクリーンアップして処理したりできます。

サブタスクフック：これらのフックはワークフローの中間層に配置され、各サブタスクの開始前と開始後に監視と処理を可能にします。例えば、各サブタスクの実行前にログを記録したり、タスク完了後に中間結果を処理したりできます。

ツールフックは最もきめ細かなフックであり、各ツールの実行前後にデータの検証と変更を行うことができます。例えば、ツール実行前に入力パラメータを検証したり、ツール実行後に返された結果を処理したりできます。

フックを使用すると、開発者はワークフローをリアルタイムで最適化し、自動化システムの精度と効率を向上させることができます。

例えば、特定のタスクを実行する際に、開発者はフックを使用して入力データを検証し、誤った情報がシステムに入るのを防ぐことができます。また、タスク完了後には、結果を処理・変換して出力をより有効に活用することができます。フックは、実行データの収集、パフォーマンス分析、ボトルネックの特定、自動化プロセスの最適化にも役立ちます。

標準的な監視およびデバッグ機能に加えて、Eko のフックシステムはより革新的なユースケースもサポートします。

たとえば、フックを使用すると、重要なタスクの実行時にワークフローを一時停止して人間の承認を待つことができます。AI の決定に問題が発生した場合、開発者はフックを使用して手動で介入したり、AI の判断をオーバーライドしたりして、スムーズなビジネスプロセスを確保できます。

著者について

呂一文は清華大学の博士課程の学生です。彼の研究分野は、具現化知能プラットフォームとインテリジェントエージェントです。

Luo Zhuowei 氏は FellouAI の主任エンジニアリング専門家であり、現在は人工知能の分野で働いています。

シャオテン・マーは清華大学オートメーション学部の博士研究員であり、同大学で博士号を取得しています。主に強化学習とインテリジェントエージェントを研究しています。

陳嘉奇は復旦大学の修士課程に在籍し、スタンフォード大学の客員研究員も務めています。主な研究分野はコンピュータービジョンとインテリジェントエージェントです。

ホームページ: https://eko.fellou.ai/ Github リンク: https://github.com/FellouAI/eko ドキュメント: https://eko.fellou.ai/docs/

618ZXW