|
オリジナル記事:Wang Yuefan (Datawhale) Datawhaleのヒント 共有者: 王躍凡、Alipay Toolbox チーム 最近、Alipay Toolboxチームのテクニカルリードである王躍凡氏が、DatawhaleコミュニティでAIエージェントの概要を共有しました。大規模言語モデルの開発史から始まり、AIエージェントの出現理由、構成、コア技術、コア機能、適用シナリオ、そして様々なシナリオへの実装における課題など、AIエージェントの現状を包括的に共有しました。最後に、記事では、人間とコンピュータのインタラクションとインテリジェントエージェントの将来の傾向について論じました。「人間とマシンのインタラクションが言語を通じて実現できるレベルまで進化すれば、将来の可能性は広大なものとなるでしょう。」ビデオリンク: https://www.bilibili.com/vide... 宝箱の住所: https://tbox.alipay.com/pro-a... Datawhale は、元の意味を変えずに、次の小さな調整と改訂を行いました。 大型モデルの開発史 皆さん、こんにちは。Ant GroupのToolboxのテクニカルリードを務めているWang Yuefanです。本日は、画面を少し共有しながら、AIエージェントについてプレゼンテーションさせていただきます。 大規模言語モデルの開発は1990年代にまで遡ります。当時、自然言語処理(NLP)分野は主に特定のタスクに焦点を当てており、統計と確率を用いて、単語の頻度統計や単純な構文解析といった基本的なタスクを実行するモデルを構築していました。 2013年までに、NLP技術はタスクに依存しない特徴学習へと移行し始め、Word2Vecやニューラル確率言語モデル(NPLM)といった代表的な成果が生まれました。これらのモデルは、特定のコンテキストモデリング機能を備え、テキスト分類や情報抽出といった特定のタスクを解決できました。この段階での進歩は、その後の大規模言語モデルの基礎を築きました。 2018年、大規模言語モデルは新たな開発段階に入り、転移可能な能力を持つタスクソルバーへと進化しました。この段階における中核的な成果は、事前学習済み言語モデルの出現であり、代表的なモデルとしてはBERTやGPTの第1世代および第2世代が挙げられます。初期のGPTモデル(GPT-2やGPT-3など)は、まだ比較的限られた性能しか備えておらず(主にドメイン固有のタスクの解決に重点を置いていた)、事前学習とファインチューニングの組み合わせにより、強力な転移学習能力が実証され、NLPシステムの複雑なタスク処理能力が大幅に向上しました。 2020年には、GPT-3.5とGPT-4に代表される汎用大規模言語モデルにおいてブレークスルーが達成されました。これらのモデルは、より大規模なパラメータと学習データを用いることで飛躍的な能力向上を達成し、ChatGPTやClaudeといったモデルの広範な応用を促進しました。これらのモデルは、対話を促すプロンプトに基づいており、テキスト生成から複雑な問題解決まで、様々なタスクを解決でき、より幅広い応用シナリオをカバーしています。 現在、ChatGPT、Qianwen、Kimiなど、国内外で主流となっている大規模言語モデルは、強力な基盤機能を備えた代表的なモデルとなり、さまざまなAIエージェントに技術サポートを提供しています。 AI エージェントの出現により、大規模モデルの欠点が補われます。 大規模言語モデルの強力な能力は既に実証されており、実に様々な問題を解決できます。では、なぜAIエージェントが登場しているのでしょうか? これは、OpenAIによる汎用人工知能(AGI)の5段階標準に関連します。AGIの究極の目標は、人間と同様に様々な複雑なタスクを実行でき、かつ自然なコミュニケーションも可能な汎用人工知能を開発することです。この定義によれば、AGIの開発は5段階に分けられます。 現在、ChatGPTなど、私たちが使用している大規模言語モデルのほとんどは、第1レベルと第2レベルにあります。これらのモデルは多くの知識ベースの質問に対応でき、主な能力は指示の受信、事前学習で学習した知識に基づく推論、そして回答の提供にあります。この動作方法は人間の思考に多少似ていますが、高度な認知能力を必要とする多くのタスクには依然として不十分です。例えば、情報を長期間保持できず、持続的な記憶力も欠いています。複雑なタスクに直面した際には、それを具体的なステップに分解して段階的に完了させることに苦労し、ましてや人間のように様々なツールを柔軟に活用して組み合わせて目標を達成することは不可能です。 対照的に、AIエージェント、あるいは「インテリジェントエージェント」は、より高度な知能への重要な一歩を踏み出すものです。アクション機能、長期記憶メカニズム、そしてツール統合機能を導入することで、AIエージェントは現在の大規模言語モデルの欠点を克服し、質問に答えるだけでなく、真に何かを「実行する」ことを可能にします。 さらに重要なのは、AI エージェントは、コンテキスト情報を記憶したり、詳細な計画を策定したり、さらには目標を達成するために複数のツールを調整したりするなど、複雑なタスクを処理するときに人間に近い思考を発揮できることです。 AIエージェント = 大規模モデル + メモリ + 計画 + ツールの使用 昨年から存在するこの図は、AIエージェントそのものを明確に定義しています。次に、インテリジェントエージェントの中核となる機能のいくつかについて説明します。 まず、AIエージェントの基本的な能力は、大規模な言語モデルに由来します。大規模言語モデルは言語理解と生成において大きな利点を有しますが、メモリ容量不足など、いくつかの制限も存在します。 AIエージェントの目標の一つは、短期記憶と長期記憶を含む、人間に近い記憶能力をモデルに付与することです。これらの能力により、AIエージェントは人間と同様にユーザーとの過去の会話や個別のニーズを記憶し、よりカスタマイズされたサービスを提供できるようになります。 第二に、計画能力はAIエージェントの中核能力の一つです。インテリジェントエージェントは、複雑な問題に直面し、タスクを分解し、問題を段階的に複数の実行可能なサブタスクに特定し、各タスクを「ステップバイステップ」で解決する必要があります。この能力により、静的な質疑応答セッションを超え、複雑なシナリオを動的に処理し、より強力なタスク実行能力を発揮できるようになります。 さらに、ツールを活用できることは、AIエージェントを従来の大規模言語モデルと区別する重要な特徴の一つです。この機能には、天気予報や検索エンジンからの最新データ取得といったリアルタイム情報を取得するためにインターネットツールにアクセスする機能や、食品のデリバリー注文といった現実世界のサービスシステムとの統合が含まれます。こうしたツール統合機能により、AIエージェントの応用シナリオはさらに広がり、AIエージェントが現実世界と真に繋がり、ユーザーの真のニーズに応えることが可能になります。 まとめると、AIエージェントは従来の大規模言語モデルの純粋な対話機能や質問応答機能を超越し、計画機能、記憶機能、ツール統合機能を備えたインテリジェントエージェントへと徐々に進化しています。このプロセスは、AIエージェントの技術モジュールを充実させるだけでなく、その定義のためのより包括的な枠組みを提供します。複雑な問題を分解し、ユーザーのニーズを記憶して動的に応答し、現実世界のツールと連携することで、AIエージェントはより包括的、インテリジェント、かつ実用的な方向へと発展し、ユーザーにより高いレベルのサービスを提供します。 AIエージェントの実際の応用シナリオ AI エージェントはすでに業界内で多様な応用シナリオを見つけています。 まず、高等教育分野では、AIエージェントが既に導入され、キャンパスサービスに統合されています。奨学金申請手続きや試験結果の問い合わせといったキャンパス内での一般的な問い合わせに回答できるだけでなく、大学のサービスシステムに接続して、学生のスケジュールや特定のコースの開講場所を確認することも可能です。これらのアプリケーションは、大規模モデルの言語理解、ツール活用、知識管理能力を最大限に活用しています。 2つ目の応用分野は、景勝地での活用です。AIエージェントを景勝地プラットフォームと連携させることで、ユーザーにインテリジェントなサービスを提供できます。ユーザーの自然言語による説明に基づいて、自動注文生成、訪問日の選択、公園入口での手配など、発券プロセスを完了できます。さらに、ユーザーのニーズに合わせて旅行ルートを推奨することもできます。例えば、ユーザーが特定の観光スポットのみを訪れたい場合、AIエージェントはインテリジェントなナビゲーションと推奨スキームを設計できます。この機能により、ユーザーの旅行体験が大幅に向上します。 最後に、画像生成のシナリオがあります。AIエージェントをMidJourneyやStable Diffusionといった画像生成機能と組み合わせることで、自然言語を用いた画像生成が可能になります。ユーザーはダイアログボックスに要件を入力するだけで、エージェントは説明に一致する画像を生成します。この機能により、AIエージェントの応用範囲が拡大し、グラフィックデザインやクリエイティブに関わる多くの業界に新たな可能性をもたらします。 まとめると、大学から景勝地、画像生成に至るまで、AIエージェントは様々な産業に急速に統合されています。今年(2024年)は、AIスキルと実産業の大規模な統合にとって重要な年でもあります。これらの応用を通じて、AIエージェントは産業界によりインテリジェントなサービスとより効率的なソリューションを提供しています。 AIエージェントの3つのコア機能 アプリケーションシナリオを理解した上で、AI エージェントの 3 つのコア機能を見てみましょう。 AIエージェントの主な機能:ナレッジベース まず、知識ベース機能です。この機能は、AIエージェントのプライベートドメイン知識のサポートと、リアルタイム情報の取得・理解能力を強化することを目的としています。大規模言語モデルの学習原理に詳しい方なら、大規模言語モデルが大規模データによる事前学習によって形成されることをご存知でしょう。この学習方法は、モデルに強力な言語生成・理解能力を与えますが、同時に固有の限界ももたらします。それは、モデルが知識をリアルタイムで更新できないということです。 一方、実際の産業応用においては、多くの分野が独自のドメイン知識に依存しています。例えば、観光地のシナリオでは、チケット販売時間、毎日のツアールート、営業・休業中のアトラクション情報といった内部知識の一部は、汎用的な大規模言語モデルでは事前に把握できません。こうした情報は特定のシナリオでは極めて重要ですが、大規模モデルの事前学習データには含まれていないことが多く、知識ベース機能による補完とサポートが必要になります。 AI エージェントは、業界固有のプライベート ナレッジ ベースを構築および統合することで、リアルタイム パフォーマンスとドメイン固有の知識の面での大規模言語モデルの欠点を補い、特定のシナリオにおける適用性と理解能力を大幅に向上させることができます。 したがって、大規模言語モデル向けの外部知識ベースを設計する主な目的は、プライベートドメイン知識とリアルタイム知識の獲得における欠点を補うことです。知識ベースの機能を紹介する際には、知識ベースの拡張を目的として特別に設計されたコア技術であるRAG(Retrieval-Augmented Generation)について触れなければなりません。RAGプロセスは3つのステップで構成され、大規模言語モデルが知識拡張を通じてより正確な回答を生成できるようにすることを目指しています。
この包括的なプロセスを通じて、RAGテクノロジーは知識の検索と生成を強化します。大規模言語モデルがプライベートドメイン知識にアクセスできるようにするだけでなく、リアルタイムで知識を獲得する能力も追加します。インデックス作成、検索、生成という3つの重要なステップを通じて、AIエージェントは様々な具体的なシナリオをより効率的にサポートし、応答の精度と使いやすさを向上させます。 前述のRAGの3つのステップは、実際にはより直感的なフローチャートで表現できます。この図は、いくつかの関連論文から引用されたもので、RAGの具体的な動作メカニズムを示しています。
このメカニズムを通じて、RAG は大規模言語モデルにおけるプライベートドメイン知識とリアルタイム知識サポートの不足を補い、より正確で的を絞った回答をユーザーに提供します。 埋め込みのベクトル化原理: RAGワークフローにおいて、埋め込みのベクトル化は重要なステップです。テキスト、画像、単語など、埋め込みの目的は、コンテンツを高次元のベクトル表現に変換することです。このベクトル表現はデータの意味情報を捉え、ベクトルデータベースへの保存と取得を容易にします。 ベクトル化とは、基本的にテキスト、画像、または単語をオブジェクトとして扱い、実数で表される固定のベクトル空間にマッピングすることです。このベクトル空間は3次元空間として考えられ、マッピングは特定のベクトルモデルを用いて計算されます。このベクトルモデルは特殊な学習を必要とし、学習には大量のテキストデータと画像データを必要とします。学習が完了すると、対応する文字、テキスト、または画像をベクトル空間内のベクトルに変換できるようになります。 モデル学習の目標は、意味的に類似したオブジェクトをベクトル空間で可能な限り近づけることです。例えば、「キング」と「クイーン」、そして「マン」と「ウーマン」の間には類似関係があり、これはベクトル演算によって表現できます。例えば、「ウーマン」は「マン + クイーン - キング」で表現できます。これは、「マン」と「ウーマン」が意味的に類似していることを意味するため、ベクトル空間では近い位置にあります。同様に、「キング」と「クイーン」は意味的な類似性により空間的にさらに近くなり、「クイーン」と「ウーマン」の類似性も、これらが近い位置にあることにつながります。 これは、特定のテキストまたは画像をベクトル空間に投影し、モデルのトレーニングを通じて意味的に類似したコンテンツをベクトル空間内で近づけることで、意味的な想起を実現し、類似コンテンツを取得することと理解できます。 同じ原理が画像にも当てはまります。図の2枚のiPhone画像を例に挙げると、大規模モデルは各ピクセルを理解しベクトル化することで、これら2枚の画像を類似のベクトル空間に学習させ、2枚のiPhone画像を近接して表示します。球体画像と比較すると、2枚のiPhone画像は大幅に近接しています。 実際のアプリケーションでは、ベクトル化プロセスはベクトル空間における2つのエンティティ間の距離を計算し、それらの類似性を表します。例えば、ユーザーが「北京大興空港への行き方」と質問した場合、データベースには「大興空港へのルート」に関連する情報が含まれている可能性があります。この場合、ユーザーの質問における「大興空港」とデータベース内の「大興空港へのルート」間の距離はベクトル空間において比較的短いため、類似性計算によって関連する知識を取得できます。類似性距離に基づいて、ユーザーのクエリに関連する知識が取得され、より大きなモデルを通じて統合され、完全な回答が生成されます。 これは、知識ベースへのベクトル空間の埋め込みや RAG 技術の典型的な応用であり、知識ベースにおける非常に重要な中核技術でもあります。 ナレッジベースに関しては、現在、ツールボックスを通じて外部ナレッジを統合できます。Word文書、Excelスプレッドシート、TXTファイルなど、様々な形式のファイルをアップロードでき、Yuqueと接続することも可能です。Yuqueは効率的なドキュメント編集・管理ツールとして、既存のナレッジコンテンツをワンクリックで簡単にナレッジベースにインポートできるため、大規模モデルの外部ナレッジベースとして機能し、インテリジェントエージェントのサポートを提供します。 AIエージェントの2番目の主要機能:ツールの呼び出し知識ベースに加え、AIスキルの2つ目の主要な機能はツール呼び出しです。インテリジェントエージェントは、様々なツールやAPIを呼び出すことで大規模言語モデルの行動範囲を拡張し、言語の生成と理解にとどまらず、現実世界のアプリケーションへの応用を可能にします。例えば、インテリジェントエージェントはツール呼び出しを利用して、ユーザーがアトラクションのチケットを予約したり、自動的に配車を手配したり、スターバックスを注文したりすることを支援できます。この機能により、RAGは知識の取得と生成だけでなく、現実世界の状況にも対応し、より実用的で包括的なサービスをユーザーに提供できるようになります。 Toolboxのプラグイン機能(Toolboxの簡単な紹介〜) Toolboxは豊富なプラグインリソースを提供しており、将来的にはクーポン配信、決済機能、セサミクレジットといったAlipayのワンパーティサービス機能との連携も予定しています。これらの連携により、Toolboxはプラグインタスクのリアルタイム実行、外部サービスの自動呼び出し、インターネットAPIクエリ、コード実行、グラフ作成、Gaode Map検索といった機能の実装が可能になります。プラグインは直感的でユーザーフレンドリーなインターフェースを備えており、ユーザーは簡単に使い始めることができます。 AIエージェントの3番目の主要機能:ワークフロー 知識ベースとツール呼び出しに加え、AIエージェントの3つ目のコア機能はワークフローです。前述の通り、AIエージェントの動作には入力としてプロンプトが必要です。これを外部知識ベースと組み合わせることで、RAGは実際のシナリオとユーザーニーズを結び付けるための特定のツールを呼び出すことができます。しかし、実行プロセス全体の信頼性と制御性を確保するためには、ワークフロー機能が特に重要です。 ワークフローは、AIエージェントのビジネスプロセスをオーケストレーションし、実行時に計画性と制御性を持たせることを可能にします。現在、Toolboxは、各タスクノードを迅速に接続できるシンプルで効率的な設定ツールを提供しています。例えば、ユーザーはRAGの操作シーケンスを定義できます。まず、知識検索を完了し、次に特定のツールを起動し、最後にタスクを生成して実行します。このように、複雑なタスクは個々のノードに分解され、段階的に連携することで、明確でスムーズ、かつ制御可能なタスク実行を実現します。 この構成可能なワークフロー機能により、AI エージェントの柔軟性が向上するだけでなく、ユーザーはタスク実行のロジックをカスタマイズおよび制御できるため、操作のすべてのステップが期待どおりに実行されることが保証され、複雑なタスクの効率的な実行が確実に保証されます。 (ツールボックスの簡単な紹介~)ツールボックスには際立った特徴があります。まず、モデル機能の面では、百霊大規模モデル、同義千聞、質量分析大規模モデル、月の裏側モデルなど、様々な主流の大規模モデルを統合しています。これらのモデルの統合により、開発者は様々なシナリオのニーズに対応できる豊富な選択肢を得ることができます。 さらに、本製品は迅速な導入をサポートしており、複雑なコーディングや開発作業を必要とせず、開発したエージェントをわずか1分でAlipayミニプログラムに公開できます。ワンクリック公開機能により、ユーザーはAlipayミニプログラム上でエージェントの機能をすぐに体験できます。この効率的で便利な開発・公開プロセスにより、参入障壁が大幅に下がり、開発者はイノベーションと機能実装に集中できるようになります。 このツールボックスには、画像スタイルを学習するための便利な画像学習機能も搭載されています。10~20枚程度の少数の画像をアップロードするだけで、システムは画像の特徴とラベルを自動的に分析し、モデルを迅速に学習させます。学習後、ユーザーはRAW画像機能を使用して、指定した画像スタイルに基づいて、類似したスタイル効果を持つ画像を生成できます。このシンプルで効率的な学習方法により、カスタマイズされた画像生成のハードルが大幅に下がり、ユーザーはよりクリエイティブでパーソナライズされた画像作成が可能になります。 AIエージェント導入の主な課題 AIエージェントのコア機能と機能コンポーネントを紹介したところで、実際の実装における主な課題について見ていきましょう。これらの課題は主に以下の3つの側面に焦点を当てています。
では、これらの課題にどう対処すべきでしょうか? インテリジェントエージェントの実用化において、重要なステップは、これらのエージェントの体系的な評価です。評価によって、エージェントの能力が明確になり、潜在的な問題点が特定されます。評価プロセス全体は以下のとおりです。
これらの課題に基づき、エージェントは、プロンプトの調整、ワークフローの最適化、ナレッジベース内のデータと知識コンテンツの更新など、的を絞った方法で最適化されます。この評価と最適化の閉ループメカニズムを通じて、エージェントのパフォーマンスを継続的に向上させ、応答品質と速度を実際のニーズにより適合させることができます。 同時に、大規模言語モデルの機能に対するより深い理解は、AI エージェントの導入によってもたらされる課題に適切に対処するのに役立ちます。 大規模言語モデルは、初期学習段階から、普遍的な言語使用の問題を解決するように設計されています。本質的に、大規模言語モデルはタスク生成を中核機能とする深層APIです。より高次の視点から見ると、主に以下の4つの機能を備えています。
大規模言語モデルは強力ですが、次のような制限が残っています。
Prompt 的微调与优化 随着大语言模型的出现,针对Prompt 的设计与优化逐渐发展为一个垂直领域,并衍生出一个专门的岗位——Prompt Engineer。这一领域的重点在于研究如何为不同的大语言模型设计最佳的Prompt 格式,使模型的回答效果达到最优。 Prompt 的设计需要综合考虑以下几个方面:
图中左侧示例展示了一个实际的Prompt 设计案例。在这个例子中,模型被定义为一名Java 高级开发工程师,任务是对一组shopModel 数据进行处理,并生成符合要求的Map 数据结构。这个设计包含了角色说明、任务描述、具体要求以及明确的输出格式。 Prompt 的设计需要遵循一些基本原则,这在图中右侧部分进行了总结:
此外,不同模型(如ChatGPT、通义千问、Kimi、Claude 等)在Prompt 细节上可能存在差异,因此需要结合模型的特点调整设计。 两种思维方式:CoT和ReAct 除了Prompt 的结构设计外,还可以通过特定的思维模式让大语言模型遵循更具体的指令,进而优化任务的执行过程。这些模式在Prompt 工程中被称为 最佳实践,其中包括以下两种经典方法:
这些思维模式都可以通过Prompt 的设计来控制。例如,提示模型“将问题分解为步骤,逐步执行每一步并验证结果”,可以有效地触发CoT 或ReAct 模式的应用。 在Prompt 工程的学习过程中,我们可以重点研究CoT 和ReAct 相关内容。通过深入理解这些思维模式,可以进一步优化Prompt 的设计,让大语言模型更高效地完成复杂任务。 未来的人机交互与智能体发展趋势 如果人与机器的交互已经发展到通过语言即可实现,那么未来的想象空间将会非常广阔。 目前,未来趋势的一些雏形已经在今天得以体现,虽然还未在日常生活中大规模应用,但已有许多具体的案例开始出现。 今天我们已经看到大部分的场景,包括在行业里面落地,都是以对话框,然后以文本文字的方式交互加上卡片的一个方式展示,然后这样的方式去构建智能体与人机进行交互,与AI 进行交互。 像最新的ChatGPT 包括智谱的能力,他们已经能做到说视频,我直接跟现实生活,物理世界看到的东西进行一个交互。 ChatGPT 其实演示了一个比较好的场景,就是可能这个人正在做咖啡,那ChatGPT 能识别的话,他是在做咖啡,然后能够一步一步教他,通过语音指令的方式教他怎么做咖啡,同时他做咖啡的过程中有任何的问题还能够去跟GPT 进行交互,然后再指导他进行一个优化。 这样的话想象空间就非常大了,想象以后的具身智能,每个人都会拥有一个AI 的管家,帮大家去做一些相关的现实生活中的问题,可能你正在做饭,我告诉你今天是这个菜应该怎么做,先放什么再放什么放多少克盐,然后煮多少分钟的菜等等。 有了这种实时的音视频的这种交互方式的话,未来整个AI Agent 加智能硬件,其实也是一个非常明显的趋势。 今年其实有很多厂商像Meta,然后Rokid,然后包括闪极,其实已经发布了很多这种智能硬件的一些方案。 可能比较火热的一个场景就是智能眼镜这个方向,因为眼镜它对于人来说它是一个无感佩戴的过程,上面也可以装摄像头,也可以装一些语音的输入输出的一个设备。然后它可以跟手机连接,然后通过手机的计算能力去跟大模型进行交互,包括推出一些耳机场景,包括车机系统这些场景,这些都是未来,明年后年可能会大规模的应用的智能体加硬件的一些落地场景。 好,今天我这边主要的分享就到这里,然后看大家还有没有什么问题,我们可以收集一下大家的一些问题进行回答。 いいね! (3件のいいね!)↓ |
AI エージェントの包括的な概要 (10,000 語以上) が公開されました。
関連するおすすめ記事
-
前例のない!Intel と AMD が x86 を救うために提携。
-
Ant Financial は AI-to-B を探求し、烏鎮で新しい AI データ合成および生成プラットフォームを発表しました。
-
速報!世界最速GPU、RTX 5090が14,000元を超える価格で正式に発表されました。不具合のある5090 Dの中国版の価格は16,000元を超えています。
-
NVIDIA などが Proteina をリリース、モデルパラメータが RFdiffusion の 5 倍を超え、de novo タンパク質バックボーン設計で最先端のパフォーマンスを実現!
-
中国科学院のチームは、スーパーコンピューティングとインテリジェントコンピューティングを統合し、気象データを組み込むことができる太陽光発電のマルチタイムスケール電力予測モデルを開発しました。
-
2024 OSCARオープンソースインダストリーカンファレンスまであと2日。カンファレンスパートナーの皆様、ありがとうございます!