|
本日、Baidu World 2024 カンファレンスにおいて、Baidu の創業者である Robin Li 氏が「アプリケーションはここにある」と題した基調講演を行い、アプリケーションを強化する 2 つの AI テクノロジー、iRAG (情報ベースの画像検索) とノーコード ツール「Miaoda」を発表しました。
11月初旬の時点で、百度の「文心ビッグデータモデル」の1日あたりの呼び出し回数は15億回を超え、5月に報告された2億回と比較して7.5倍、1年前に初めて報告された5000万回と比較して約30倍に増加しました。ロビン・リー氏は「この成長率は予想を上回っており、AIに対する真の需要を示している」と述べました。彼は、この急激な成長曲線は、過去2年間の中国におけるビッグデータモデルの応用の爆発的な成長を表していると述べました。 AIアプリケーションの開発動向について、ロビン・リー氏は、インテリジェントエージェントがAIアプリケーションの最も主流であり、まさに飛躍的な発展を遂げようとしていると述べました。リー氏は、インテリジェントエージェントを企業、役割、ツール、業界の4つのカテゴリーに分類し、インテリジェントエージェントの作成をPC時代のウェブサイト構築やモバイル時代のソーシャルメディアアカウント作成に例えました。「違いは、インテリジェントエージェントはより人間に近く、より知的で、営業、カスタマーサービス、アシスタントのような存在であるということです。インテリジェントエージェントは、AIネイティブ時代において、コンテンツ、情報、そしてサービスの新たな担い手となる可能性があります。」 スピーチの全文は次のとおりです。 01. 画像生成の錯覚を解消:Wenxin iRAGが新バージョンをリリースビッグデータモデルのブームは2年近くも続いており、関連技術はかつてないペースで進化と革新を遂げています。大企業から起業家、ベンチャーキャピタリストまで、誰もが生成AI時代のビッグデータモデルに基づくスーパーアプリケーションを模索しています。この図は、第三者研究機関が最近発表したグローバルAIの全体像を示しており、ビッグデータモデルと生成AIの爆発的な成長の波が重なり合っていることを示しています。まずOpenAIがChatGPTをリリースし、続いてBaiduのWenxin Yiyan、そしてGoogleがBard(後にGeminiと改名)をリリースしました。次に、NvidiaなどのチップメーカーやMicrosoftなどのクラウドプロバイダーがその恩恵を受けました。そして、オープンソースモデルの急速な台頭を目の当たりにしました。同時に、さまざまなアプリケーション層のスタートアップ企業が投資を受け始め、一部の従来型ソフトウェアベンダーもAIを活用して製品を再構築し始めました。しかし、客観的に見ると、誰もが期待するスーパーアプリケーションはまだ登場していません。過去 24 か月にわたるこの世界的な熱狂は、新たな技術革命なのか、それとも単なるバブルなのか疑問視し始めている者もいる。 中国の人工知能分野をリードする企業として、私たちはこの質問に答える資格があると信じています。このグラフをご覧ください。これは文鑫の大規模モデルの1日平均呼び出し回数を示しています。現在、この数値は15億回を超えています。これは非常に急激な成長曲線です。過去18ヶ月間の中国における大規模モデルの応用の爆発的な成長は、このグラフ、あるいはこの曲線によって表されています。率直に言って、この成長率は私の予想をはるかに上回っています。今年5月、わずか6ヶ月前、ユーザー1人あたりの平均呼び出し回数が2億回に達した時、私は上級幹部と大規模モデルの将来と成功の方法について議論しました。当時、1日平均API呼び出し回数、つまり大規模モデルのAPI呼び出し回数が1年以内に10倍、つまり2億回から20億回に増加すれば、真の需要があることを示し、成功と言えるだろうと述べました。それからわずか6ヶ月後の今、私たちはその数字にかなり近づいており、その勢いは信じられないほど強いです。 問い合わせ件数の急増は、文信がビッグデータモデルのアップグレードと進化、コスト削減、スピードアップに向けて絶え間ない努力を続けてきた証です。これはまた、顧客ニーズを綿密に把握し、継続的に課題を特定・解決してきたプロセスでもあります。昨年3月に文信易眼がリリースされた際、百度のビッグデータモデルは知識強化と検索強化を特徴としていると述べました。その後、検索強化は百度独自のものではなく、徐々に業界のコンセンサスとなってきたことがわかりました。検索強化の手法はRAG(Retrieval-augmented Generation、検索拡張生成)と呼ばれています。 もちろん、私たちは探索から始めたので、この分野では最高であるべきです。この方法の意義は何でしょうか?それは本質的に、大きなモデルの幻想を排除することです。大きなモデルに基づいてアプリケーションを開発したい場合、幻想を排除することは不可欠です。モデルが常に真面目な態度でナンセンスを吐き出していると、誰も信じてくれず、アプリケーションは生まれません。モデルを使って小説を書くと、ちょっとした幻想がより面白く魅力的になると言う人がいますが、それは間違いです!文学作品の創作においても、ストーリーは一貫している必要があります。そうでなければ、それは知性ではなく、愚かさです! ですから、もし過去24ヶ月間で業界に起こった最大の変化は何かと問われたら、私は間違いなく、大規模モデルによって錯覚がほぼ排除されたと答えるでしょう。質問に答える際の精度は飛躍的に向上し、AIは「全く意味不明な」ものから、実用的で信頼できるものへと変貌を遂げました。大規模モデルは確率モデルであり、生成されるコンテンツは不確実であることは周知の事実です。しかし、RAGテクノロジーを採用することで、大規模モデルは取得した情報に基づいてテキストや回答を生成するようになり、コンテンツの品質と精度が大幅に向上します。 現在、テキストベースのRAGはかなり優れていますが、画像などのマルチモーダルコンテンツとの統合はまだ不十分です。この画像を見てください。これはオープンソースモデルを使って生成された北京の天壇の写真です。確かに天壇に似ていますが、どこか違和感があります。 実際の天壇はこんな感じで、3層構造ですが、生成されたモデルは4層構造になっています。これはテキスト生成画像によく見られる錯視現象です。この錯視現象は今日でも非常に多く見られるため、マルチモーダル大規模モデルの大規模応用はそれほど多くありません。この錯視は、少なくともテキスト生成画像RAGほどには解明されていません。 今年の初め、私たちはこの問題を解決しようと決意しました。中国のインターネット全体がSORAの壊滅的な被害を嘆いていた時期だったことをお忘れなく。そこで、画像生成における錯視問題に取り組むことにしました。この問題は一見単純で、しかも非常に面倒に思えましたが、解決しなければ応用は生まれません。そこで私たちは、テキストベースの画像検索強化技術であるiRAG(image-based RAG)と呼ばれる革新的な技術を開発しました。 従来、大規模な言語モデルのみをベースとしたテキストベースの画像生成システムは、明らかに偽物、あるいは非論理的に見える画像を生成することが多かった。BaiduのiRAGは、Baidu Searchの膨大な画像リソース(数十億枚の画像)と強力な基盤モデル機能を組み合わせることで、非常にリアルな画像の生成を可能にしている。その全体的な効果は、ネイティブのテキストベースの画像生成システムをはるかに凌駕し、機械的な質感を排除している。以下のプロンプトが表示されているケースを見てみよう。 フォルクスワーゲン・レンジローバーが万里の長城を飛び越えるリアルなイメージを描いてください。(詳細はiRAGをご覧ください) ご覧の通り、この写真の車は写真通り本物そっくりです。ズームしてよく見てみましょう。 車のモデルもロゴも不正確さや歪みがなく、万里の長城の背景との融合が非常に高いです。この画像はiRAG技術を使用して作成されており、コンテンツ要素と雰囲気は非常にリアルで、まるで実物のポスターのようです。しかし、実際の写真では車は飛びません。まるでPhotoshopで加工されたかのようです。 もちろん、AIにこの車の画像を荒野や街中など、現実世界のあらゆる場面で生成させることもできます。AI生成画像の使い勝手が大幅に向上するにつれて、その応用範囲も広がります。例えば、ブランドプロモーションの場面では、このようなポスター一式の撮影にはかつては数万元から数十万元もの費用がかかっていましたが、今ではほぼゼロに近いコストで制作できます。 端的に言えば、 iRAGの商業的価値は、錯覚のなさ、ハイパーリアリズム、ゼロコスト、そして即時利用可能性にあります。もしフォルクスワーゲンのポスターからトヨタ車のような車が生成されたとしたら、それは悲惨な結果になるでしょう。 特定のアイテムだけでなく、特定の人物と任意の背景を組み合わせた写真も生成できます。例えば、アインシュタインを例に挙げて、天壇の前でポーズをとる彼の写真を生成してみましょう。とてもリアルに見えませんか?これはすべてiRAGテクノロジーを使って生成されました。 同じプロンプトを使い、オープンソースモデルを使って複数の画像を生成しました。比較してみてください。中にはアインシュタインに全く似ていないものもあり、唯一アインシュタインに似ている画像も、ご覧の通り天壇ではない背景を持っています。 BaiduのiRAG機能は、世界でも最も先進的なものの一つと言っても過言ではありません。シドニー・オペラハウス、イースター島のストーンヘンジ、万里の長城、そして鳥の巣(明らかにアインシュタインの死後に建てられたもの)といった場所を挙げながら、アインシュタインに世界を旅させることもできます。 iRAGは基盤技術として、多くの分野への優れた応用可能性を秘めています。例えば、映画・テレビ番組制作、コミック、絵本、ポスター制作などにおいて、AI生成画像を活用することでクリエイティブコストを大幅に削減できます。 今日、基盤となるモデル機能が整い、私たちはAIアプリケーションの集合体が輝きを放つ姿を目撃しようとしています。それぞれのアプリケーションは星であり、世界を変える力となるでしょう。 02 インテリジェントエージェントは、アプリケーションにおいて爆発的な成長が見込まれる次の分野です。では、AIアプリケーションはどこから来るのでしょうか?そして、どこへ向かうのでしょうか? 次に、 AI 応用の 2 つの主要分野、つまりインテリジェント エージェントと産業用アプリケーションについて説明します。 私たちは、インテリジェント エージェントが AI アプリケーションの最も主流の形態であり、爆発的な成長点に到達しようとしていると考えています。 今日、世界のトップテクノロジー企業は皆、インテリジェントエージェントに注目していますが、百度のようにそれを最重要戦略方針に据えている企業はほとんどありません。インテリジェントエージェントの開発は、PC時代のウェブサイト構築やモバイル時代のソーシャルメディアアカウント作成に似ていると私は考えています。違いは、インテリジェントエージェントはより人間に近く、より知的で、営業担当者、カスタマーサービス担当者、あるいはアシスタントのような存在であるということです。インテリジェントエージェントは、AIネイティブ時代において、コンテンツ、情報、そしてサービスの新たな担い手となる可能性があります。 なぜそう言うのか?それは、インテリジェントエージェントの開発への参入障壁が低いため、誰でも始めることができるからです。百度の文心インテリジェントエージェントプラットフォームでは、11歳の小学生がインテリジェントエージェントを開発し、検索などのチャネルを通じて配布している事例も見られます。一方で、インテリジェントエージェントの潜在能力は非常に高く、非常に強力なアプリケーションを開発できるほどです。複数のインテリジェントエージェントが連携することで、より複雑な問題も解決できます。本日の最後のセッションでは、複雑な問題解決におけるマルチエージェント連携の驚くべき事例をご紹介します。 次に、企業型インテリジェント エージェント、役割型インテリジェント エージェント、ツール型インテリジェント エージェント、業界型インテリジェント エージェントの 4 種類のインテリジェント エージェントを紹介します。 まず、最初のタイプである企業型インテリジェントエージェントについて見てみましょう。これはAI時代の企業ウェブサイトに相当します。企業型インテリジェントエージェントは、企業紹介、製品画像や仕様、オフライン店舗の所在地など、従来のウェブサイトが備えているすべての機能を備えています。さらに、プロアクティブなレコメンデーション、タイムリーな対応、個別のサービスなど、従来のウェブサイトにはない機能も提供します。 BYDのインテリジェントエージェントを例に、従来の公式サイトと比較してみましょう。(詳細は企業型インテリジェントエージェントをご覧ください) Baiduで「BYD」を検索すると、公式AIアシスタントが直接起動します。クリックすると、従来の公式サイトと同様に、まずBYDブランドの簡単な紹介が表示されます。 次に、バランスの取れた性能を持つ車種を推奨するように指示します。「バランスの取れた性能」とはどういう意味でしょうか?従来の公式サイトではバランスの取れた性能が何を意味するのか理解していないため、推奨できません。しかし、大規模モデル理解を備えたインテリジェントエージェントであれば、効果的にフィルタリング、提案、商品画像の表示を行うことができます。 複数の車種に興味があり、どれが購入に値するのか比較検討したい場合、従来の公式サイトではかなりの時間がかかります。これは、各モデルごとに個別の製品詳細ページがあり、ページ間を何度も切り替える必要があるためです。これは非常に不便です。しかし、インテリジェントアシスタントは、複数のモデルのパワートレイン、寸法、航続距離、加速性能を示す表を直接表示できるため、非常に直感的です。 実店舗で試乗したい場合はどうすればいいでしょうか?スマートアシスタントが地図に直接アクセスし、ワンクリックで目的地までナビゲートします。 インテリジェントエージェントと従来のウェブサイトのもう一つの重要な違いは、最新情報や個別の質問への対応能力にあります。従来のウェブサイトは外部の市場情報の変化に鈍感な場合が多く、カスタマーサービス担当者は個別の問い合わせに満足のいく回答を提供することに苦労しており、通常は情報を記録して電話でフォローアップするしかありませんでした。一方、インテリジェントエージェントは、大規模モデルの理解、生成、論理、記憶機能に加え、強化された検索機能を活用することで、インターネットから最新かつ最も正確な情報を迅速に取得し、1秒以内に満足のいく回答を提供します。 より複雑な質問がある場合、インテリジェント エージェントは継続的に説明し、対話し、質問することで、お客様のニーズを満たすこともできます。 BYDだけではありません。Lenovo、Vidal Sassoon、Yangheといった企業も、独自の公式AIエージェントを導入しています。従来のウェブサイトとは異なり、これらのAIエージェントはブランドコンサルタントとして、また一流の営業・カスタマーサービス担当者としての役割も担い、プロフェッショナルで丁寧なマンツーマンサービスを提供することで、インタラクティブマーケティングの効率を大幅に向上させます。BYDは公式AIエージェント導入後、リードコンバージョン率が119%増加しました。LenovoのAIPC AIエージェントは、9月にインタラクション率が89%、リードコンバージョン率が80%増加しました。 今後、同社の公式AIエージェントが公式サイトに取って代わり、消費者にとって最も直接的なインターフェースとなるだろう。 2つ目のタイプのインテリジェントエージェントを見てみましょう。役割について話すとき、人々はすぐにデジタルヒューマンを思い浮かべます。デジタルヒューマンは独自のペルソナと独自の知識ベースを持っており、これらはインテリジェントエージェントの典型的な基本要素です。 したがって、インテリジェントエージェントのメカニズムとマルチモーダルアプローチを効果的に組み合わせることで、形状、動作、そして動作と言語を一致させる能力を備えたデジタルヒューマンへと変貌します。これまでのデジタルヒューマンには明らかな欠点がありました。音声、体の動き、唇の動きは非常に機械的で硬直的でした。しかし、大規模モデルのサポートにより、デジタルヒューマンは徐々に高度に擬人化されたインテリジェントエージェントへと進化しました。より賢く、より感情的で、独自の態度を持つようになりました。彼らは、教育家庭教師、留学コンサルタント、心理学者、パーソナルトレーナーなど、あらゆる分野で活躍できる可能性があり、いずれも非常に需要の高い存在です。 今日、百度で「学習指導」などのキーワードを検索すると、検索結果にこれらのデジタルアバターが表示されます。従来のデジタルアバターよりも自然で動きが大きいだけでなく、ライブ配信中に適切なタイミングで一時停止して視聴者からの質問に答えることも可能です。これは、膨大なデータの蓄積と、ライブ配信におけるインタラクションパターンの要約と洗練化という、これまでは不可能だった機能によって実現されています。そのため、今日のデジタルアバターによるライブ配信は、多くの場合、生身の人間を上回るコンバージョン率を達成しています。 これらのデジタルヒューマンは、動き、話し方、リップシンクが非常に自然で、言われなければデジタルだとは気づかないでしょう。デジタルヒューマンの利点は、台本がすべてAIによって生成され、生身の人間がライブ配信中に記憶できないような詳細なデータが豊富に含まれていることです。そのため、彼らの知識と反応速度は、しばしば普通の人間を凌駕します。 私たちは、現実世界と仮想世界の人々の交流が、計り知れない産業的・社会的価値を生み出すと確信しています。これらの仮想世界の人々とは、著名な教師、一流の医師、一流の弁護士、あるいはトップセールスマンのデジタルアバターかもしれません。そして、あなたはかつてないほど彼らに近づきます。 3つ目にご紹介するインテリジェントエージェントは、ツール型です。ツール型インテリジェントエージェントは、実は非常にホットな市場です。例えば、PenSpirit AI Writing、Canva Design Assistant、ロゴジェネレーターなどは、いずれも典型的なツール型インテリジェントエージェントです。 次に、百度文庫と百度雲が共同開発した、全く新しいツール型インテリジェントエージェント「Free Canvas」のデモンストレーションを行います。業界アナリストが調査レポートを作成する例を用いて、Free Canvasを紹介します。業界調査レポートは、テキストとグラフィックだけのものだと認識している人が多いでしょう。しかし、今日では、従来のテキスト、グラフィック、表に加え、記者会見の動画や通話録音といった形式も取り入れ、より包括的なマルチモーダルレポートを作成できるようになりました。Free Canvasはまさにこれを実現します。それでは、Free Canvasとは何かを見ていきましょう。 まず、Baiduアプリを開き、「インテリジェントライティング」などのキーワードで検索して、「Free Canvas」というインテリジェントエージェントを見つけてください。情報の検索から編集、生成、共有まで、あらゆるタスクをサポートしてくれます。(詳細はFree Canvasエージェントをご覧ください) 最初のステップは、入力の自由です。Free Canvasは、パブリックドメインのデータとプライベートドメインのデータを連携させます。例えば、ドキュメントライブラリで公開されている高品質なドキュメントやその抜粋、あるいは外部ウェブサイトで公開されているコンテンツを、ワンクリックでFree Canvasに抽出できます。プライベートドメインのコンテンツ、例えばクラウドドライブに保存した複数の電話会議の音声録音、あるいはクラウドドライブに保存したプロフェッショナルな動画や詳細な調査レポートなどは、形式やソースを問わず、すべてキャンバスにドラッグ&ドロップできます。これが入力の自由です。 2つ目のステップは、編集の自由度です。中央揃え、フォントサイズの調整、書式設定といった、面倒で基本的な作業はもう必要ありません。今日、私たちは編集を再定義し、ユーザーが主導権を握れるようにしました。注釈を付けることで、AIに素材の活用方法、最も必要なコンテンツセグメントの選択、あるいは一部をそのまま再利用する方法を指示できます。これにより、生成されたコンテンツがあなたのオリジナルのアイデアに完全に一致することが保証されます。 3つ目のステップは、創造の自由です。重要なポイントをハイライトした後、必要な素材をすべて選択し、ワンクリックで生成します。AIは入力と要件に基づいて思考を開始し、対応する章の関連素材を使用して、構造化された最新のリッチメディアコンテンツを生成します。 もちろん、これらのドキュメントを開いて部分的な編集や、書き直し、拡張、ストーリーの続きなどを行うこともできます。これにより、キャンバス上で思考を整理し、下書きを作成しながら、ドキュメント上で推敲・詳細化していくことで、様々な問題をワンストップで解決できます。 最後のステップは、自由に共有することです。生成されたコンテンツは、ローカルに保存したり、ユーザーの個人用クラウドにアップロードしたり、リンクを介して共有したりできます。業界のチャットグループ、ソーシャルメディア、その他のプラットフォームなど、リンクを直接開いて視聴・再生できます。そのため、コンテンツの制作者であれ消費者であれ、ファイル形式、スマートフォンやパソコンに必要なアプリケーションのインストール、メモリ容量などを気にする必要がなくなります。 先ほど述べたオフィスでのシナリオに加えて、個人的な創作活動に重点を置いたもう一つの例をご紹介したいと思います。ご存知の通り、「Black Myth: Wukong」は今年大変人気を博しました。私たちはAIを活用して想像力を解き放ち、もし偉大な賢者が現代に来たらどうなるのかを検証したいと考えました。 Free Canvas は、私の要件に基づいてストーリーを生成しました。孫悟空が現代世界へ冒険の旅に出ます。(詳細は Free Canvas をご覧ください) では、この物語をベースに漫画を描いてみませんか?もちろんです!ご覧の通り、漫画の中で孫悟空は山西省の人気観光スポットをいくつか訪れ、最終的に上海に到着します。孫悟空は様々なイラストの中でも一貫しており、最初から最後まで同じ姿で描かれているだけでなく、ストーリーに沿ったアクションも取り入れられています。 この漫画はとても生き生きしていますね。AIで動画を生成できるでしょうか? 見てみましょう。 ご覧のとおり、漫画のオリジナルのセリフは字幕とナレーションに置き換えられ、ストーリーがより鮮明になっています。 想像力を自由に解き放ち、子供を花果山へ旅させたらどうでしょう? 実はとっても簡単です。子供の写真をアップロードするだけで、このオリジナルスケッチブックに組み込むことができます。無料のキャンバスに、子供の花果山への夢の旅のストーリーが既に作成されているのがお分かりいただけるでしょう。次に「スケッチブックを作成」をクリックするだけで、絵の中の子供の表情を実際の写真にとてもよく似たものにすることができます。 ご覧の通り、フリーキャンバスは文心マルチモーダルモデルを搭載した多用途のホワイトボードで、無限のインスピレーションと創造性を刺激します。フリーキャンバスがあれば、すべての子どもが物語の主人公になれるのです。フリーキャンバスがあれば、誰もが漫画家や短編動画の監督になれるのです。しかも、これは先物契約ではなく、すぐに使える製品です。まさに創造性を真に支援する、新しい生産性の形です!まもなく正式リリースいたします。 4つ目のタイプのインテリジェントエージェントは、「業界特化型インテリジェントエージェント」と呼ばれるものです。法律、医療、金融、スポーツ、旅行などの分野で、多くの有用なインテリジェントエージェントが登場しています。 法律業界のインテリジェントエージェントである Faxingbao を見てみましょう。 仕事や生活の中で、誰もが様々な法的問題に直面しますが、すぐに専門の弁護士に相談できる人はそう多くありません。そこで役立つのが、Faxingbaoです。Baiduのプラットフォーム上で1,660万件以上の質問に答えてきた人気のインテリジェントアシスタントです。 実際に何ができるのか見てみましょう。(詳細はFaxingbaoをご覧ください) 友人が昨日車にひかれ、今は入院中で、多額の治療費を支払っています。警察に通報したところ、相手側に全責任があると言われましたが、賠償金の支払いを拒否されています。どうすればいいでしょうか? このような状況に対応するため、Faxingbaoは4つのステップで対応策を示しています。まず、関連証拠を保全し、交通管理部門に調停を申し立てます。調停が失敗した場合は、民事訴訟を起こし、裁判所の強制執行を申し立てることができます。また、賠償を求める場合、どの程度の賠償金を受け取れるのかを確認することもできます。さらに詳しく問い合わせることもできます。「医師から、あと3ヶ月は普通に歩けないと言われました。交通事故の賠償金はどのように計算されるのですか?」 この時点で、補償金計算ツールが提供され、補償責任、事故の時間と場所、負傷者の仕事収入、障害評価などの詳細な情報を補足するように求められ、最終的に事故によって生じた総損失と補償額の計算が提供されます。 訴訟を通じて補償金を取り戻したい場合、Faxingbao は訴訟書類の作成もお手伝いします: 交通事故の訴訟書類の作成をお手伝いします。 これまでと同様に、身元や代理人などの詳細情報を尋ねられ、苦情が自動的に生成されます。苦情が記述されているのがわかります。事実の詳細を入力するだけで、すぐに利用できます。そのため、Faxingbaoは弁護士のような専門的な回答を提供するだけでなく、大規模モデルの生成能力を活用して苦情を生成することができます。 もちろん、より複雑な個人問題について本当に有名な弁護士に相談したい場合、Faxingbao は、さらなるサポートを提供するために、さまざまな分野の有名な弁護士を紹介することもできます。 6か月以上前にサービスを開始して以来、Faxingbaoは940万人以上の人々に効率的で信頼性の高い法律サービスを提供しており、あらゆる一般人にとって独占的な無料AI弁護士となっています。 現在、Wenxin Intelligent Agent プラットフォームは 15 万社の企業と 80 万人以上の開発者を魅了しており、幅広いアプリケーション シナリオをカバーしています。 現在、大画面に表示されているのは、文心インテリジェントエージェントプラットフォームのTOP100インテリジェントエージェントです。エージェントの配信量、平均対話ラウンド数、ユーザーの嗜好といった要素を総合的に評価し、選出されました。農学者インテリジェントエージェントのような役割ベースのエージェント、ツールベースや業界ベースのエージェント、そして職場、感情、エンターテインメントに特化したより特化したエージェントも存在します。 Baidu はまた、NVIDIA を技術パートナーとして招き、「Wenxin Intelligent Agent Innovation Competition」を共同で立ち上げ、多くの価値あるインテリジェント エージェント アプリケーションを生み出しました。 インテリジェントエージェントについては既に説明しました。次は、大規模モデルの産業応用についてお話しします。 大規模モデルを各産業にどのように導入できるのか?あらゆるセクターの企業に、どのように付加価値を創出できるのか?これらは私たちが探求してきた問いです。過去1年半にわたり、金融、エネルギー、教育、人材採用、公共サービスなど、様々な分野において、大規模モデルを具体的なシナリオと組み合わせることで、コスト削減と効率性向上の両面で目に見える成果が得られています。 Baidu AI Cloudは、当社のインテリジェント産業エコシステム構築における主要な基盤です。現在、Baidu AI Cloudの「千帆大型モデルプラットフォーム」では、3万3000の大型モデルの微調整と77万のエンタープライズレベルアプリケーションの開発を支援してきました。Baidu AI Cloudは中国最大規模の大型モデル産業アプリケーションを擁しており、中央政府および国有企業の半数以上と多くの民間企業がBaidu AI Cloudと連携してAIイノベーションを推進しています。 次の2つのケースを見てみましょう。 大企業の代表例として、Yum Chinaが挙げられます。ご存知の通り、中国最大のレストラン企業であり、私たちがよく利用するKFCやピザハットもYum傘下のブランドです。百度とYumは長年にわたり良好なパートナーシップを築いています。当初は「店舗立地評価」の分野で、Yum.comが数千もの新規店舗の立地選定を完了するのを支援し、選定プロセスの品質と効率を大幅に向上させました。カスタマーサービスの分野では、カスタマーサービス製品と大規模モデル機能を提供し、Yum.com傘下の複数のブランドにサービスを提供しています。特に、従来のカスタマーサービスロボットが顧客の真意を捉えにくく、情報と文脈を結び付けることができなかったという問題を解決しました。 現在、当社のカスタマーサービスアプリケーションとソリューションは、Yum! Brandsの全事業分野を網羅しており、大規模モデルへのピーク時の通話件数は1日あたり数百万件に達し、カスタマーサービスロボットの問題解決率は90%にまで向上しています。大規模モデルの時代において、Yum! Brandsは、社内の様々なブランドや事業分野のAIGCアプリケーションニーズを満たすために、安全で信頼性の高い大規模モデルサービスゾーンを構築する必要があります。 そこで、当社はYum!にQianfanプラットフォーム、Wenxin Speedモデル、基本的なクラウドコンピューティングサービスを提供し、完全かつ高品質な大規模モデル基盤を構築して、Yum!がより便利にAIアプリケーションを開発・展開できるように支援しました。 さらに、Yum! Brands と連携して、ASR、TTS、ビッグデータ、デジタル ヒューマン テクノロジーを組み合わせ、注文画面でビッグデータ注文を作成する機能を共同で検証しています。 今後も引き続き協力し、企業のデジタル化、インテリジェント化など、さまざまな可能性を模索してまいります。 次の例はインターネット業界の代表例です。Zhaopin.comは中国を代表する求人プラットフォームです。 採用プラットフォームの最も重要な役割は、適切な人材と適切な求人をマッチングさせることです。かつては、この作業は主に手作業で行われていました。求人ポジションのタグ付け、膨大な履歴書のスクリーニング、求職者とのやり取りの分析などです。これは時間と労力がかかるだけでなく、結果を保証するのも難しく、候補者の漏れやミスマッチが発生することも少なくありませんでした。 百度とZhaopin.comは提携し、大規模モデルを用いてこのコアプロセスを再構築しました。自然言語による対話と職務内容の説明を組み合わせることで、求職者と職種に正確にマッチするプロフィールを迅速に作成し、勤務時間、給与・福利厚生、勤務地など、求職者が関心を持つ質問に自動的に回答し、面接のスケジュール調整まで行います。これにより、求職者に適した職種を推奨するだけでなく、採用側が必要とする人材を正確に絞り込み、採用の効率と質を大幅に向上させます。現在、百度とZhaopin.comの提携により、数万件の実世界データポイントで検証された一連のプロンプトテンプレートの開発に成功し、平均で最大93%の求人と人材のマッチング精度を達成するとともに、大規模モデルの使用コストを約90%削減し、採用業界に革命的な変化をもたらしています。 让每一位求职者都能更轻松地找到心仪工作,让每一家企业都能更高效地获得所需人才。 今天,我在这里发布基于大模型的100大产业应用,它涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等众多行业,百度希望与更多合作伙伴和客户一起推动智能产业生态的建设,共同来加速国家“人工智能+”行动计划的落地。 发布这100大产业应用,其实也代表我们的认知和态度。百度不是要推出一个“超级应用”,而是要不断地帮助更多人、更多企业打造出数百万“超级有用”的应用。 03 “秒哒”发布不写代码就能实现任意想法今天,我们的确有条件让一行代码都看不懂的人具备程序员的能力,有让任何一个想法都能迅速地、低成本地变为现实的能力。当然,这需要工具,这个工具就是我为大家带来的、今天的One More Thing——秒哒! 一个不需要写代码就能够实现任意想法的软件,一个由大模型和智能体组成的全新的软件,我认为它是“迄今为止人类历史上最复杂的多智能体协作工具”,它包括无代码编程、多智能体协作以及规模化地调用各种的工具等能力。 注意,秒哒是跟任何辅助代码生成工具是完全不一样的,因为它根本不需要你能看懂代码,所以看直播的朋友们,如果你是程序员,那你现在可以不看了,这个软件是给非程序员来用的。 我用一个例子来给大家展示一下秒哒的能力(详见秒哒demo): 假设我们要为萝卜快跑开个新技术发布会。我需要打造一个活动邀请系统,把邀请函分享给其他人,并且收集他们的想法和反馈。首先,上传了一个有大会时间地点主题的文件给秒哒。 我们来看看,秒哒将如何满足我这个需求。接收到指令后,屏幕上出现了0号智能体,就是小组长。它是整个智能体团队的核心,负责规划调度。它将这个任务拆解成了需求确定、内容生产、工程开发三个步骤。并且告诉我,它会召唤各个智能体来协作完成任务。 首先召唤的是1号智能体,是策划智能体,负责活动邀请函的策划、设计解决方案。那1号智能体又将这个任务拆分成:核心需求、内容结构、开发需求、数据收集四个子任务。 接下来,2号智能体就被召唤出来了,即小编智能体,它的主要职责是编辑邀请函中的所有文字和媒体内容。邀请函需要在正文里包含一段发布展望,这个智能体通过全网搜索和总结,写出了一段关于萝卜快跑的精彩描述。它自动阅读上传文件后把时间地点等核心信息提取出来放到了合适的位置上。对于封面图,我提出新的需求,给智能体几张萝卜快跑六代车的照片,让它生成一个充满科技感的图片作为邀请函封面。我们看到智能体通过iRAG的能力,成功绘制出了一张带有RT6的封面图。 然后,3号智能体出场,它是程序员智能体,负责写代码,来制作和部署网页。大家看屏幕上,就是智能体在自动写代码。但你完全不需要看懂这一侧的东西,你只要看得懂那边人话就行了。 等它写完后,4号智能体质检员出场了,它发现了一个bug,所以把程序员智能体再叫回来,重新写、重新改代码。可以看到,质检员智能体会利用反思能力,运行测试代码,看看代码是不是跑得通。 现在智能体已经把代码修复好了,自动生成了邀请函,但我觉得这个画风不够好看,想再换一个更有科技感的。输入这个想法后,程序员智能体会再写一次代码,给出一个新版本,这次换成了一个更有科技感的色调,有邀请函、会议日程,最后还附上了参会报名的界面,通过调用地图的API,嘉宾就可以一键导航到达会场。我们输入个测试信息。 最后,可以在后台看到,这条报名信息已经在统计表格中了。 这样一个发布会的邀请系统,从你开始到最后结束,只需要3分钟,用户不用写一行代码,就可以完成。 整个过程体现了整个过程体现了秒哒的三个特性:第一是无代码编程,第二是多智能体协作,第三是多工具调用。无代码编程,是由大模型直接生成代码,不需要人写一行代码,所以门槛就大大降低了,每个人都可以去做,每个人都可上手;多智能体协作,是基于文心大模型思考、规划等能力,实现对不同类型智能体的调度、编排,这个任务中一共有5个智能体协作完成;多工具的调用,刚才这个例子当中,调用三个工具,一个是网页检索工具,他要到网上去找RT6各种各样的资料来进行创作;一个是iRAG,就是图片的检索生成,我们给了RT6图片之后,可以保持原来的精准度,生成相应的图片;还有地图的API调用。 有了秒哒,一个人通过自然语言交互,就可以完成一整套系统的搭建。 除了上面展示的邀请系统,秒哒还可以做任意场景下的各种应用,应用的复杂度也会随着我们技术的提升不断提升。最早开始的时候,它只能做一些比较简单的编程,比如说两三百行代码,以后随着基础模型能力提升,以及秒哒本身技术能力的演进,它就可以做越来越多的,越来越复杂的事情。这意味着什么?这意味着,你不需要去招募项目经理、设计人员、开发人员、测试人员等等,自己就可以指挥多个智能体来协同完成任务。也就是说,只要有想法,你就可以心想事成,我们将迎来一个前所未有的只靠想法就能赚钱的时代。以前有个想法,你还要去执行,把想法做出来。现在只要你有想法,秒哒就可以帮你做了。 我想,AI之所以被称为产业革命级的机会,就是因为它对于社会经济,带来了生产力的无限扩张。秒哒让每一个人都能具备程序员的能力,会说话就能做出应用来,它对于人类工作效率的提升怎么说都不为过。现在你就可以去排队预约,我们明年第一季度发布秒哒,大家就可以试用了。 今天,我们用大约一个小时的时间,回顾了过去24个月,全球生成式AI变革带来的应用大爆发,也发布了文心iRAG和无代码秒哒两大技术,展示了智能体、产业应用两大应用方向的案例。可以看出,AI应用的时代是真的来了! 当然,在人类信息技术变革的不同历史时期,应用出现的的样貌也不一样:在PC时期,它是一个个的软件和网站;在移动时期,它是一个个的APP和被关注的账号;在AI时代,应用最主要的形态就是智能体。随着大模型技术和能力的指数级跃迁,自然语言成为了这个时代最重要的编程语言。我们每一个人都能动手创造一个属于自己、也属于他人的AI应用,或者智能体。 我是软件工程师出身,国外有一种说法叫“软件吞噬世界”。但我认为,这个世界不应该被吞噬,而应该被创造。AI时代,应用创造世界。所以请大家和我一起见证,AI applications creating the world. *文章来源百度 |
Robin Li: AI アプリケーションの輝かしい瞬間が間もなく到来 | Wenxin iRAG とノーコードの「MiaoDa」がリリースされました!
関連するおすすめ記事
-
オープンソース ソフトウェアは著作権を放棄するものではなく、公共のリソースを私的目的で使用することは違法です。
-
ChatGPT の無料機能は有料版に切り替え可能。欧州の AI 新興企業が OpenAI に挑戦。
-
iPhone 16 シリーズのパフォーマンステスト: 最適化された放熱は少しは役立ちますが、ほんの少しだけです。
-
彼女にキャラクターが誕生!AIとのビデオ通話はほぼ遅延なし。SequoiaとY Combinatorが投資。
-
インテリジェントドライビング年次レポート: 2 つの「エンドツーエンド」テクノロジーが 3 つの階層を再編し、「ECUST Magic」が先頭に立つ
-
パーフェクトワールドは2024年第3四半期の財務報告を発表し、前四半期と比較してゲーム事業が改善したことを示した。