AI エージェントの包括的な概要 (10,000 語以上) が公開されました。

オリジナル記事：Wang Yuefan (Datawhale)

Datawhaleのヒント

共有者: 王躍凡、Alipay Toolbox チーム

最近、Alipay Toolboxチームのテクニカルリードである王躍凡氏が、DatawhaleコミュニティでAIエージェントの概要を共有しました。大規模言語モデルの開発史から始まり、AIエージェントの出現理由、構成、コア技術、コア機能、適用シナリオ、そして様々なシナリオへの実装における課題など、AIエージェントの現状を包括的に共有しました。

最後に、記事では、人間とコンピュータのインタラクションとインテリジェントエージェントの将来の傾向について論じました。「人間とマシンのインタラクションが言語を通じて実現できるレベルまで進化すれば、将来の可能性は広大なものとなるでしょう。」

ビデオリンク:

https://www.bilibili.com/vide...

宝箱の住所:

https://tbox.alipay.com/pro-a...

Datawhale は、元の意味を変えずに、次の小さな調整と改訂を行いました。

大型モデルの開発史

皆さん、こんにちは。Ant GroupのToolboxのテクニカルリードを務めているWang Yuefanです。本日は、画面を少し共有しながら、AIエージェントについてプレゼンテーションさせていただきます。

大規模言語モデルの開発は1990年代にまで遡ります。当時、自然言語処理（NLP）分野は主に特定のタスクに焦点を当てており、統計と確率を用いて、単語の頻度統計や単純な構文解析といった基本的なタスクを実行するモデルを構築していました。

2013年までに、NLP技術はタスクに依存しない特徴学習へと移行し始め、Word2Vecやニューラル確率言語モデル（NPLM）といった代表的な成果が生まれました。これらのモデルは、特定のコンテキストモデリング機能を備え、テキスト分類や情報抽出といった特定のタスクを解決できました。この段階での進歩は、その後の大規模言語モデルの基礎を築きました。

2018年、大規模言語モデルは新たな開発段階に入り、転移可能な能力を持つタスクソルバーへと進化しました。この段階における中核的な成果は、事前学習済み言語モデルの出現であり、代表的なモデルとしてはBERTやGPTの第1世代および第2世代が挙げられます。初期のGPTモデル（GPT-2やGPT-3など）は、まだ比較的限られた性能しか備えておらず（主にドメイン固有のタスクの解決に重点を置いていた）、事前学習とファインチューニングの組み合わせにより、強力な転移学習能力が実証され、NLPシステムの複雑なタスク処理能力が大幅に向上しました。

2020年には、GPT-3.5とGPT-4に代表される汎用大規模言語モデルにおいてブレークスルーが達成されました。これらのモデルは、より大規模なパラメータと学習データを用いることで飛躍的な能力向上を達成し、ChatGPTやClaudeといったモデルの広範な応用を促進しました。これらのモデルは、対話を促すプロンプトに基づいており、テキスト生成から複雑な問題解決まで、様々なタスクを解決でき、より幅広い応用シナリオをカバーしています。

現在、ChatGPT、Qianwen、Kimiなど、国内外で主流となっている大規模言語モデルは、強力な基盤機能を備えた代表的なモデルとなり、さまざまなAIエージェントに技術サポートを提供しています。

AI エージェントの出現により、大規模モデルの欠点が補われます。

大規模言語モデルの強力な能力は既に実証されており、実に様々な問題を解決できます。では、なぜAIエージェントが登場しているのでしょうか？

これは、OpenAIによる汎用人工知能（AGI）の5段階標準に関連します。AGIの究極の目標は、人間と同様に様々な複雑なタスクを実行でき、かつ自然なコミュニケーションも可能な汎用人工知能を開発することです。この定義によれば、AGIの開発は5段階に分けられます。

現在、ChatGPTなど、私たちが使用している大規模言語モデルのほとんどは、第1レベルと第2レベルにあります。これらのモデルは多くの知識ベースの質問に対応でき、主な能力は指示の受信、事前学習で学習した知識に基づく推論、そして回答の提供にあります。この動作方法は人間の思考に多少似ていますが、高度な認知能力を必要とする多くのタスクには依然として不十分です。例えば、情報を長期間保持できず、持続的な記憶力も欠いています。複雑なタスクに直面した際には、それを具体的なステップに分解して段階的に完了させることに苦労し、ましてや人間のように様々なツールを柔軟に活用して組み合わせて目標を達成することは不可能です。

対照的に、AIエージェント、あるいは「インテリジェントエージェント」は、より高度な知能への重要な一歩を踏み出すものです。アクション機能、長期記憶メカニズム、そしてツール統合機能を導入することで、AIエージェントは現在の大規模言語モデルの欠点を克服し、質問に答えるだけでなく、真に何かを「実行する」ことを可能にします。

さらに重要なのは、AI エージェントは、コンテキスト情報を記憶したり、詳細な計画を策定したり、さらには目標を達成するために複数のツールを調整したりするなど、複雑なタスクを処理するときに人間に近い思考を発揮できることです。

AIエージェント = 大規模モデル + メモリ + 計画 + ツールの使用

昨年から存在するこの図は、AIエージェントそのものを明確に定義しています。次に、インテリジェントエージェントの中核となる機能のいくつかについて説明します。

まず、AIエージェントの基本的な能力は、大規模な言語モデルに由来します。大規模言語モデルは言語理解と生成において大きな利点を有しますが、メモリ容量不足など、いくつかの制限も存在します。

AIエージェントの目標の一つは、短期記憶と長期記憶を含む、人間に近い記憶能力をモデルに付与することです。これらの能力により、AIエージェントは人間と同様にユーザーとの過去の会話や個別のニーズを記憶し、よりカスタマイズされたサービスを提供できるようになります。

第二に、計画能力はAIエージェントの中核能力の一つです。インテリジェントエージェントは、複雑な問題に直面し、タスクを分解し、問題を段階的に複数の実行可能なサブタスクに特定し、各タスクを「ステップバイステップ」で解決する必要があります。この能力により、静的な質疑応答セッションを超え、複雑なシナリオを動的に処理し、より強力なタスク実行能力を発揮できるようになります。

さらに、ツールを活用できることは、AIエージェントを従来の大規模言語モデルと区別する重要な特徴の一つです。この機能には、天気予報や検索エンジンからの最新データ取得といったリアルタイム情報を取得するためにインターネットツールにアクセスする機能や、食品のデリバリー注文といった現実世界のサービスシステムとの統合が含まれます。こうしたツール統合機能により、AIエージェントの応用シナリオはさらに広がり、AIエージェントが現実世界と真に繋がり、ユーザーの真のニーズに応えることが可能になります。

まとめると、AIエージェントは従来の大規模言語モデルの純粋な対話機能や質問応答機能を超越し、計画機能、記憶機能、ツール統合機能を備えたインテリジェントエージェントへと徐々に進化しています。このプロセスは、AIエージェントの技術モジュールを充実させるだけでなく、その定義のためのより包括的な枠組みを提供します。複雑な問題を分解し、ユーザーのニーズを記憶して動的に応答し、現実世界のツールと連携することで、AIエージェントはより包括的、インテリジェント、かつ実用的な方向へと発展し、ユーザーにより高いレベルのサービスを提供します。

AIエージェントの実際の応用シナリオ

AI エージェントはすでに業界内で多様な応用シナリオを見つけています。

まず、高等教育分野では、AIエージェントが既に導入され、キャンパスサービスに統合されています。奨学金申請手続きや試験結果の問い合わせといったキャンパス内での一般的な問い合わせに回答できるだけでなく、大学のサービスシステムに接続して、学生のスケジュールや特定のコースの開講場所を確認することも可能です。これらのアプリケーションは、大規模モデルの言語理解、ツール活用、知識管理能力を最大限に活用しています。

2つ目の応用分野は、景勝地での活用です。AIエージェントを景勝地プラットフォームと連携させることで、ユーザーにインテリジェントなサービスを提供できます。ユーザーの自然言語による説明に基づいて、自動注文生成、訪問日の選択、公園入口での手配など、発券プロセスを完了できます。さらに、ユーザーのニーズに合わせて旅行ルートを推奨することもできます。例えば、ユーザーが特定の観光スポットのみを訪れたい場合、AIエージェントはインテリジェントなナビゲーションと推奨スキームを設計できます。この機能により、ユーザーの旅行体験が大幅に向上します。

最後に、画像生成のシナリオがあります。AIエージェントをMidJourneyやStable Diffusionといった画像生成機能と組み合わせることで、自然言語を用いた画像生成が可能になります。ユーザーはダイアログボックスに要件を入力するだけで、エージェントは説明に一致する画像を生成します。この機能により、AIエージェントの応用範囲が拡大し、グラフィックデザインやクリエイティブに関わる多くの業界に新たな可能性をもたらします。

まとめると、大学から景勝地、画像生成に至るまで、AIエージェントは様々な産業に急速に統合されています。今年（2024年）は、AIスキルと実産業の大規模な統合にとって重要な年でもあります。これらの応用を通じて、AIエージェントは産業界によりインテリジェントなサービスとより効率的なソリューションを提供しています。

AIエージェントの3つのコア機能

アプリケーションシナリオを理解した上で、AI エージェントの 3 つのコア機能を見てみましょう。

AIエージェントの主な機能：ナレッジベース

まず、知識ベース機能です。この機能は、AIエージェントのプライベートドメイン知識のサポートと、リアルタイム情報の取得・理解能力を強化することを目的としています。大規模言語モデルの学習原理に詳しい方なら、大規模言語モデルが大規模データによる事前学習によって形成されることをご存知でしょう。この学習方法は、モデルに強力な言語生成・理解能力を与えますが、同時に固有の限界ももたらします。それは、モデルが知識をリアルタイムで更新できないということです。

一方、実際の産業応用においては、多くの分野が独自のドメイン知識に依存しています。例えば、観光地のシナリオでは、チケット販売時間、毎日のツアールート、営業・休業中のアトラクション情報といった内部知識の一部は、汎用的な大規模言語モデルでは事前に把握できません。こうした情報は特定のシナリオでは極めて重要ですが、大規模モデルの事前学習データには含まれていないことが多く、知識ベース機能による補完とサポートが必要になります。

AI エージェントは、業界固有のプライベートナレッジベースを構築および統合することで、リアルタイムパフォーマンスとドメイン固有の知識の面での大規模言語モデルの欠点を補い、特定のシナリオにおける適用性と理解能力を大幅に向上させることができます。

したがって、大規模言語モデル向けの外部知識ベースを設計する主な目的は、プライベートドメイン知識とリアルタイム知識の獲得における欠点を補うことです。知識ベースの機能を紹介する際には、知識ベースの拡張を目的として特別に設計されたコア技術であるRAG（Retrieval-Augmented Generation）について触れなければなりません。RAGプロセスは3つのステップで構成され、大規模言語モデルが知識拡張を通じてより正確な回答を生成できるようにすることを目指しています。

インデックス作成は、プライベートな知識や時間的制約のある知識のインデックス作成から始まります。これは、生データの抽出、埋め込みモデルを用いたエンコード、そしてベクトル表現への変換を伴います。これらのベクトルはベクトルデータベースに保存され、迅速な検索を可能にする知識ベース構造を形成します。
知識検索では、ユーザーがクエリを送信した後、システムがベクトル類似性に基づいて関連する知識をマッチングします。このプロセスでは、具体的なニーズに応じて、ユーザーのクエリを書き換えることも、元の質問をそのまま検索に使用することもできます。このベクトル化されたマッチング手法により、システムは質問に関連する知識コンテンツを効率的に見つけることができます。
関連する知識を取得した後、 Generation はこれらの情報を大規模言語モデルにプロンプトとして提供します。大規模言語モデルは、このプライベートドメイン知識とコンテキスト情報を組み合わせて要約応答を生成し、最終的にユーザーに正確な回答を提供します。

この包括的なプロセスを通じて、RAGテクノロジーは知識の検索と生成を強化します。大規模言語モデルがプライベートドメイン知識にアクセスできるようにするだけでなく、リアルタイムで知識を獲得する能力も追加します。インデックス作成、検索、生成という3つの重要なステップを通じて、AIエージェントは様々な具体的なシナリオをより効率的にサポートし、応答の精度と使いやすさを向上させます。

前述のRAGの3つのステップは、実際にはより直感的なフローチャートで表現できます。この図は、いくつかの関連論文から引用されたもので、RAGの具体的な動作メカニズムを示しています。

文書処理とベクトル化保存プロセスの最初のステップは、文書を処理することです。具体的には、文書を複数のチャンクに分割し、各チャンクを埋め込みモデルを用いてベクトル化します。これらのベクトル化された表現はベクトルデータベースに保存され、後続の検索の基盤となります。
クエリ類似度リコール：ユーザーが質問（クエリ）を送信すると、システムはベクターデータベースを介して類似度検索を実行し、ユーザーの質問に関連する知識ブロックをリコールします。このステップでは、埋め込みモデルによって生成されたベクター表現を使用して、質問と知識ブロック間の類似度を計算し、リコールされたコンテンツの関連性と正確性を確保します。
大規模言語モデルは回答を生成します。取得された関連知識ブロックは、プロンプト入力の一部として大規模言語モデルに入力されます。大規模言語モデルは、言語理解および生成機能を活用して、知識ブロックをユーザーの質問に関連付け、推論とテキスト処理を通じて回答を生成します。このプロセスにおいて、大規模言語モデルは知識ブロックとユーザーの質問の関連性を考慮し、プライベートドメインのサポートを備えた高品質な回答を生成します。

このメカニズムを通じて、RAG は大規模言語モデルにおけるプライベートドメイン知識とリアルタイム知識サポートの不足を補い、より正確で的を絞った回答をユーザーに提供します。

埋め込みのベクトル化原理:

RAGワークフローにおいて、埋め込みのベクトル化は重要なステップです。テキスト、画像、単語など、埋め込みの目的は、コンテンツを高次元のベクトル表現に変換することです。このベクトル表現はデータの意味情報を捉え、ベクトルデータベースへの保存と取得を容易にします。

ベクトル化とは、基本的にテキスト、画像、または単語をオブジェクトとして扱い、実数で表される固定のベクトル空間にマッピングすることです。このベクトル空間は3次元空間として考えられ、マッピングは特定のベクトルモデルを用いて計算されます。このベクトルモデルは特殊な学習を必要とし、学習には大量のテキストデータと画像データを必要とします。学習が完了すると、対応する文字、テキスト、または画像をベクトル空間内のベクトルに変換できるようになります。

モデル学習の目標は、意味的に類似したオブジェクトをベクトル空間で可能な限り近づけることです。例えば、「キング」と「クイーン」、そして「マン」と「ウーマン」の間には類似関係があり、これはベクトル演算によって表現できます。例えば、「ウーマン」は「マン + クイーン - キング」で表現できます。これは、「マン」と「ウーマン」が意味的に類似していることを意味するため、ベクトル空間では近い位置にあります。同様に、「キング」と「クイーン」は意味的な類似性により空間的にさらに近くなり、「クイーン」と「ウーマン」の類似性も、これらが近い位置にあることにつながります。

これは、特定のテキストまたは画像をベクトル空間に投影し、モデルのトレーニングを通じて意味的に類似したコンテンツをベクトル空間内で近づけることで、意味的な想起を実現し、類似コンテンツを取得することと理解できます。

同じ原理が画像にも当てはまります。図の2枚のiPhone画像を例に挙げると、大規模モデルは各ピクセルを理解しベクトル化することで、これら2枚の画像を類似のベクトル空間に学習させ、2枚のiPhone画像を近接して表示します。球体画像と比較すると、2枚のiPhone画像は大幅に近接しています。

実際のアプリケーションでは、ベクトル化プロセスはベクトル空間における2つのエンティティ間の距離を計算し、それらの類似性を表します。例えば、ユーザーが「北京大興空港への行き方」と質問した場合、データベースには「大興空港へのルート」に関連する情報が含まれている可能性があります。この場合、ユーザーの質問における「大興空港」とデータベース内の「大興空港へのルート」間の距離はベクトル空間において比較的短いため、類似性計算によって関連する知識を取得できます。類似性距離に基づいて、ユーザーのクエリに関連する知識が取得され、より大きなモデルを通じて統合され、完全な回答が生成されます。

これは、知識ベースへのベクトル空間の埋め込みや RAG 技術の典型的な応用であり、知識ベースにおける非常に重要な中核技術でもあります。

ナレッジベースに関しては、現在、ツールボックスを通じて外部ナレッジを統合できます。Word文書、Excelスプレッドシート、TXTファイルなど、様々な形式のファイルをアップロードでき、Yuqueと接続することも可能です。Yuqueは効率的なドキュメント編集・管理ツールとして、既存のナレッジコンテンツをワンクリックで簡単にナレッジベースにインポートできるため、大規模モデルの外部ナレッジベースとして機能し、インテリジェントエージェントのサポートを提供します。

AIエージェントの2番目の主要機能：ツールの呼び出し

知識ベースに加え、AIスキルの2つ目の主要な機能はツール呼び出しです。インテリジェントエージェントは、様々なツールやAPIを呼び出すことで大規模言語モデルの行動範囲を拡張し、言語の生成と理解にとどまらず、現実世界のアプリケーションへの応用を可能にします。例えば、インテリジェントエージェントはツール呼び出しを利用して、ユーザーがアトラクションのチケットを予約したり、自動的に配車を手配したり、スターバックスを注文したりすることを支援できます。この機能により、RAGは知識の取得と生成だけでなく、現実世界の状況にも対応し、より実用的で包括的なサービスをユーザーに提供できるようになります。

Toolboxのプラグイン機能（Toolboxの簡単な紹介〜）

Toolboxは豊富なプラグインリソースを提供しており、将来的にはクーポン配信、決済機能、セサミクレジットといったAlipayのワンパーティサービス機能との連携も予定しています。これらの連携により、Toolboxはプラグインタスクのリアルタイム実行、外部サービスの自動呼び出し、インターネットAPIクエリ、コード実行、グラフ作成、Gaode Map検索といった機能の実装が可能になります。プラグインは直感的でユーザーフレンドリーなインターフェースを備えており、ユーザーは簡単に使い始めることができます。

AIエージェントの3番目の主要機能：ワークフロー

知識ベースとツール呼び出しに加え、AIエージェントの3つ目のコア機能はワークフローです。前述の通り、AIエージェントの動作には入力としてプロンプトが必要です。これを外部知識ベースと組み合わせることで、RAGは実際のシナリオとユーザーニーズを結び付けるための特定のツールを呼び出すことができます。しかし、実行プロセス全体の信頼性と制御性を確保するためには、ワークフロー機能が特に重要です。

ワークフローは、AIエージェントのビジネスプロセスをオーケストレーションし、実行時に計画性と制御性を持たせることを可能にします。現在、Toolboxは、各タスクノードを迅速に接続できるシンプルで効率的な設定ツールを提供しています。例えば、ユーザーはRAGの操作シーケンスを定義できます。まず、知識検索を完了し、次に特定のツールを起動し、最後にタスクを生成して実行します。このように、複雑なタスクは個々のノードに分解され、段階的に連携することで、明確でスムーズ、かつ制御可能なタスク実行を実現します。

この構成可能なワークフロー機能により、AI エージェントの柔軟性が向上するだけでなく、ユーザーはタスク実行のロジックをカスタマイズおよび制御できるため、操作のすべてのステップが期待どおりに実行されることが保証され、複雑なタスクの効率的な実行が確実に保証されます。

（ツールボックスの簡単な紹介～）ツールボックスには際立った特徴があります。まず、モデル機能の面では、百霊大規模モデル、同義千聞、質量分析大規模モデル、月の裏側モデルなど、様々な主流の大規模モデルを統合しています。これらのモデルの統合により、開発者は様々なシナリオのニーズに対応できる豊富な選択肢を得ることができます。

さらに、本製品は迅速な導入をサポートしており、複雑なコーディングや開発作業を必要とせず、開発したエージェントをわずか1分でAlipayミニプログラムに公開できます。ワンクリック公開機能により、ユーザーはAlipayミニプログラム上でエージェントの機能をすぐに体験できます。この効率的で便利な開発・公開プロセスにより、参入障壁が大幅に下がり、開発者はイノベーションと機能実装に集中できるようになります。

このツールボックスには、画像スタイルを学習するための便利な画像学習機能も搭載されています。10～20枚程度の少数の画像をアップロードするだけで、システムは画像の特徴とラベルを自動的に分析し、モデルを迅速に学習させます。学習後、ユーザーはRAW画像機能を使用して、指定した画像スタイルに基づいて、類似したスタイル効果を持つ画像を生成できます。このシンプルで効率的な学習方法により、カスタマイズされた画像生成のハードルが大幅に下がり、ユーザーはよりクリエイティブでパーソナライズされた画像作成が可能になります。

AIエージェント導入の主な課題

AIエージェントのコア機能と機能コンポーネントを紹介したところで、実際の実装における主な課題について見ていきましょう。これらの課題は主に以下の3つの側面に焦点を当てています。

業界理解とプロセス再構築：AIエージェントを特定の業界に効果的に適用するには、その業界を深く理解する必要があります。これには、業界の既存のロジックとプロセスへの深い理解、そして業界に関する豊富な知識とデータの蓄積が含まれます。業界の特性とニーズを包括的に理解して初めて、AIエージェントを効果的に活用して業界プロセスを再構築し、その真の価値を実現することができます。
パフォーマンスの安定性と応答時間: AI エージェントのパフォーマンスの安定性と応答速度は、ユーザーエクスペリエンスに影響を与える重要な要素です。

パフォーマンスの安定性：大規模な言語モデルは、特定のシナリオでは安定したパフォーマンスを発揮できない可能性があります。そのため、AIエージェントを構築する際には、ワークフローを通じて安定性と制御性を向上させることが重要な目標となります。
応答時間: ユーザーエクスペリエンスを確保するため、AI エージェントの最初の応答時間 (TTFT、最初のトークンまでの時間) は、応答が遅いためにユーザーエクスペリエンスに影響を与えないように、妥当な範囲内になければなりません。

大規模モデルの能力を最大限に活用するには、AIエージェントの導入において、大規模言語モデルの長所と短所を深く理解し、それに基づいたベストプラクティスを開発する必要があります。具体的には、大規模モデルの限界を明確に把握し、Promptなどの最適化技術を活用してその利点を最大限に活用する必要があります。これにより、モデルのパフォーマンスが向上するだけでなく、潜在的な問題を効果的に回避できます。

では、これらの課題にどう対処すべきでしょうか?

インテリジェントエージェントの実用化において、重要なステップは、これらのエージェントの体系的な評価です。評価によって、エージェントの能力が明確になり、潜在的な問題点が特定されます。評価プロセス全体は以下のとおりです。

評価指標と評価範囲を定義する
まず、評価指標と評価軸を定義する必要があります。具体的には、エージェントが提供すべき主要な機能と、各機能の評価基準を明確にすることを意味します。重要な質問は、「どの機能が重要か？」「良い回答と悪い回答はどのように定義されるか？」です。このステップは評価の基礎であり、その後のデータセットの構築と評価に不可欠です。
評価データセットの構築
定義された能力次元に基づいて、エージェントの特定のシナリオに関連するデータセットを構築します。例えば、エージェントが主に文化観光景勝地で使用される場合、その景勝地に関連する一連の質問と回答のペア（QAペア）を評価の基礎データセットとして準備する必要があります。このデータは、評価結果の代表性を確保するために、エージェントのコア機能を網羅する必要があります。
評価方法
評価は次の 2 つの方法で実施できます。
1.主観的評価：モデルの応答の品質は、人間の評価者によって評価されます。人間の評価者は、モデルの応答が期待どおりであるかどうかを判断するために、ラベル付けまたはスコア付けを行います。
2.自動評価：より洗練されたモデルを用いて、エージェントの応答を自動的に評価します。例えば、高レベルモデルを用いて応答の正確性と品質を分析します。このアプローチは、主観的な評価を補完し、効率性を向上させることができます。
評価レポートを生成する
評価が完了したら、詳細な評価レポートを作成する必要があります。レポートには、以下の点を含める必要があります。
1. モデルのパフォーマンス: 回答の精度や関連性などのコア指標を含みます。
2. 最初の単語の応答時間 (TTFT): モデルの最初の応答時間がユーザーシナリオの要件を満たしているかどうかを評価し、それが妥当な範囲内にあるかどうかを判断します。
評価が完了すると、評価レポートを通じてエージェントの欠点を特定できます。たとえば、次のようになります。
1. ユーザーの質問にまだ効果的に答えられていないケース（悪いケース）はどれですか?
2. どのようなシナリオで最初の文字の処理に時間がかかり、ユーザーエクスペリエンスに影響しますか?

これらの課題に基づき、エージェントは、プロンプトの調整、ワークフローの最適化、ナレッジベース内のデータと知識コンテンツの更新など、的を絞った方法で最適化されます。この評価と最適化の閉ループメカニズムを通じて、エージェントのパフォーマンスを継続的に向上させ、応答品質と速度を実際のニーズにより適合させることができます。

同時に、大規模言語モデルの機能に対するより深い理解は、AI エージェントの導入によってもたらされる課題に適切に対処するのに役立ちます。

大規模言語モデルは、初期学習段階から、普遍的な言語使用の問題を解決するように設計されています。本質的に、大規模言語モデルはタスク生成を中核機能とする深層APIです。より高次の視点から見ると、主に以下の4つの機能を備えています。

テキスト分類と情報抽出
大規模言語モデルは、テキスト分類タスクを処理できます。例えば、ユーザーが「今日は黄山風景区に行きたい」と入力すると、モデルはユーザーの意図を判断できます。入力に基づいて、モデルはユーザーが風景区に行きたいのか、どの風景区に行きたいのかなどを特定できます。これは典型的なテキスト分類タスクです。
さらに、このモデルは重要な情報を抽出できます。例えば、ユーザー入力から「黄山風景区」を抽出し、それを後続のプロセスに統合することで、黄山風景区のチケットを直接購入するようにユーザーを誘導することができます。このように、このモデルは意図認識から具体的な行動への変換を支援します。
質疑応答スキル
質問応答は、大規模言語モデルの典型的な応用シナリオです。例えば、ユーザーが質問をすると、モデルは事前学習段階で蓄積された知識と確率計算に基づいて適切な回答を生成します。これはChatGPTなどのアプリケーションで最も一般的な機能シナリオであり、様々なユーザーの問題の解決に広く利用されています。
ドキュメントの概要
大規模言語モデルは、文書の内容を要約・圧縮することができます。例えば、ユーザーが論文を入力すると、モデルは論文の中核となる議論、使用された手法、データ、検証式を抽出し、簡潔な要約を生成します。この機能により、モデルは無関係なコンテンツを省略し、関連する情報を簡潔な説明にまとめることができます。
テキスト生成
テキスト生成は、大規模言語モデルの中核機能の一つです。先行するテキストと後続するテキストの確率的関係を学習することで、モデルは既知の内容に基づいて後続のテキストを予測・生成することができます。例えば、ライティングタスクにおいて、ユーザーが冒頭の段落を入力すると、モデルは文脈ロジックに基づいて完全なストーリーラインを生成できます。この機能は、大規模モデルがコーパス学習中に学習した言語パターンと意味関係を活用します。

大規模言語モデルは強力ですが、次のような制限が残っています。

幻覚の問題
大規模なモデルはコンテンツ生成時に「錯覚」に陥り、存在しない情報や誤った情報を生成する可能性があります。例えば、「キリンの足には目がいくつありますか？」と質問された場合、初期のモデルは誤った質問に答えようとする可能性があります。モデルは一般的に一般的な客観的事実を適切に処理しますが、私的または専門的な分野においては、一般的な合意に基づかないコンテンツについては誤った判断を下す可能性があります。そのため、モデルがその分野における客観的事実を認識できるように、微調整や追加のトレーニングが必要になります。
指示は不安定さに従う
在某些任务中，模型可能无法稳定地遵循指令。例如，当用户要求按照指定格式输出内容时，模型有时会偏离预设格式。这种情况通常通过优化Prompt（指令）设计和精调来提升模型的指令遵循能力。
数据的时效性不足
大语言模型的训练数据往往存在滞后性，难以覆盖实时更新的知识。此外，由于预训练耗时长、资源消耗大，无法频繁更新所有知识。为了解决这一问题，需要通过外挂知识库（RAG）技术，为模型提供实时知识和私有领域知识支持。RAG 通过向量化检索增强模型能力，让其能够回答实时性强、领域专属的问题，从而弥补预训练数据的时效性不足。

Prompt 的微调与优化‍

随着大语言模型的出现，针对Prompt 的设计与优化逐渐发展为一个垂直领域，并衍生出一个专门的岗位——Prompt Engineer。这一领域的重点在于研究如何为不同的大语言模型设计最佳的Prompt 格式，使模型的回答效果达到最优。

Prompt 的设计需要综合考虑以下几个方面：

角色定义：明确告知大语言模型其角色、需要负责的内容及背景信息。
任务说明：具体描述需要完成的任务以及任务的输出格式。

图中左侧示例展示了一个实际的Prompt 设计案例。在这个例子中，模型被定义为一名Java 高级开发工程师，任务是对一组shopModel 数据进行处理，并生成符合要求的Map 数据结构。这个设计包含了角色说明、任务描述、具体要求以及明确的输出格式。

Prompt 的设计需要遵循一些基本原则，这在图中右侧部分进行了总结：

明確な指示
背景和上下文
示例和语法
逻辑分步
容错与反思
信息源

此外，不同模型（如ChatGPT、通义千问、Kimi、Claude 等）在Prompt 细节上可能存在差异，因此需要结合模型的特点调整设计。

两种思维方式：CoT和ReAct

除了Prompt 的结构设计外，还可以通过特定的思维模式让大语言模型遵循更具体的指令，进而优化任务的执行过程。这些模式在Prompt 工程中被称为最佳实践，其中包括以下两种经典方法：

思维链（Chain of Thought, CoT） CoT 是一种引导模型按照逻辑链条逐步完成任务的思维模式。通过CoT，模型能够将复杂的任务拆解为多个子任务，并对每个子任务的可执行性进行验证。这种模式确保了模型在解决问题时能够逻辑清晰，并对任务有更强的理解和执行能力。
反应式行动（ReAct） ReAct 是另一种思维模式，适用于让模型面对复杂问题时将其分解为具体的行动步骤。模型可以基于问题拆分出每个行动（Action），观察每个行动执行的结果，并根据结果确定下一步要执行的任务。通过这种模式，模型能够自主完成任务拆分，并有效执行外部任务，增强其对复杂问题的处理能力。

这些思维模式都可以通过Prompt 的设计来控制。例如，提示模型“将问题分解为步骤，逐步执行每一步并验证结果”，可以有效地触发CoT 或ReAct 模式的应用。

在Prompt 工程的学习过程中，我们可以重点研究CoT 和ReAct 相关内容。通过深入理解这些思维模式，可以进一步优化Prompt 的设计，让大语言模型更高效地完成复杂任务。

未来的人机交互与智能体发展趋势

如果人与机器的交互已经发展到通过语言即可实现，那么未来的想象空间将会非常广阔。

目前，未来趋势的一些雏形已经在今天得以体现，虽然还未在日常生活中大规模应用，但已有许多具体的案例开始出现。

今天我们已经看到大部分的场景，包括在行业里面落地，都是以对话框，然后以文本文字的方式交互加上卡片的一个方式展示，然后这样的方式去构建智能体与人机进行交互，与AI 进行交互。

像最新的ChatGPT 包括智谱的能力，他们已经能做到说视频，我直接跟现实生活，物理世界看到的东西进行一个交互。

ChatGPT 其实演示了一个比较好的场景，就是可能这个人正在做咖啡，那ChatGPT 能识别的话，他是在做咖啡，然后能够一步一步教他，通过语音指令的方式教他怎么做咖啡，同时他做咖啡的过程中有任何的问题还能够去跟GPT 进行交互，然后再指导他进行一个优化。

这样的话想象空间就非常大了，想象以后的具身智能，每个人都会拥有一个AI 的管家，帮大家去做一些相关的现实生活中的问题，可能你正在做饭，我告诉你今天是这个菜应该怎么做，先放什么再放什么放多少克盐，然后煮多少分钟的菜等等。

有了这种实时的音视频的这种交互方式的话，未来整个AI Agent 加智能硬件，其实也是一个非常明显的趋势。

今年其实有很多厂商像Meta，然后Rokid，然后包括闪极，其实已经发布了很多这种智能硬件的一些方案。

可能比较火热的一个场景就是智能眼镜这个方向，因为眼镜它对于人来说它是一个无感佩戴的过程，上面也可以装摄像头，也可以装一些语音的输入输出的一个设备。然后它可以跟手机连接，然后通过手机的计算能力去跟大模型进行交互，包括推出一些耳机场景，包括车机系统这些场景，这些都是未来，明年后年可能会大规模的应用的智能体加硬件的一些落地场景。

好，今天我这边主要的分享就到这里，然后看大家还有没有什么问题，我们可以收集一下大家的一些问题进行回答。

いいね！（3件のいいね！）↓

618ZXW

AI エージェントの包括的な概要 (10,000 語以上) が公開されました。

AIエージェントの2番目の主要機能：ツールの呼び出し

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ