618ZXW

BaiduがiRAGを立ち上げた。ロビン・リー氏は、AI業界における最大の変化は、大規模モデルに対する幻想が大きく払拭されたことだと述べた。

「過去24ヶ月間のAI業界における最大の変化は何でしょうか?それは、大規模モデルによって錯覚が大きく解消されたことです。」11月12日、百度(バイドゥ)の創業者であるロビン・リー氏は、百度ワールド2024カンファレンスで「アプリケーションはここにある」と題した基調講演を行い、アプリケーションを強化する2つのAI技術、iRAG(Inspired Image Retrieval)とノーコードツール「Miaoda」を発表しました。iRAGは、大規模モデルによって引き起こされる画像生成の錯覚問題を解決し、ユーザビリティを大幅に向上させます。一方、ノーコードツール「Miaoda」は、誰もがプログラマーのスキルを習得できるようにし、数百万もの「超便利な」アプリケーションの作成を可能にします。

11月初旬の時点で、百度の文心ビッグデータモデルは1日あたり15億回以上のアクセスを記録しました。これは、 1年前に発表された5,000万回と比較して約30倍の増加です。ロビン・リー氏は、「この急激な成長曲線は、過去2年間における中国におけるビッグデータモデルの応用の爆発的な成長を表しています」と述べました。リー氏は講演の中で、インテリジェントエージェントはAI応用の最も主流の形態であり、爆発的な成長が見込まれており、AIネイティブ時代におけるコンテンツ、情報、サービスの新たな担い手となるだろうと改めて強調しました。

李延紅氏の要点は以下の通り。

文心大規模モデルの1日あたりの通話数は15億回に達し、過去2年間で中国における大規模モデルの応用が爆発的に増加したことを示しています。

過去24ヶ月間、大規模モデルをめぐる世界的な熱狂は、新たな技術革命だったのか、それとも単なるバブルだったのか。中国AI産業の牽引役として、私たちはこの問いに答える資格があると信じています。このグラフをご覧ください。これはWenxinの大規模モデルの1日平均利用数が15億を超えたことを示しています。これは非常に急激な成長曲線であり、過去2年間の中国における大規模モデル応用の爆発的な成長を示しています。正直に言って、この成長率は私の予想をはるかに上回っています。今年5月、わずか6ヶ月前、1日平均利用数が2億に達した時、私は幹部たちと大規模モデルの将来と成功の方法について話し合いました。当時、1年以内に1日平均利用数が2億から20億へと10倍に増加すれば成功と言えるだろう、真の需要があることを示すものだと述べました。それからわずか6ヶ月後の今、私たちはその数字にかなり近づいており、勢いは非常に強いです。

過去 24 か月間の AI 業界における最も大きな変化は、大規模モデルに対する幻想が大きく払拭されたことです。

昨年3月に文心易言が発表された際、百度のビッグデータモデルの特徴は知識強化と検索強化にあると説明しました。その後、検索強化は百度の機能ではなく、徐々に業界のコンセンサスへと発展していきました。検索強化手法はRAG(Retrieval-augmented Generation)と呼ばれ、Retrieval-augmented Generationの略です。もちろん、検索からスタートしたので、この分野では最高であるべきです。この手法の意義は何でしょうか?それは、ビッグデータモデルの幻想を根本的に排除することです。ビッグデータモデルに基づくアプリケーションを開発するには、幻想を排除することが不可欠です。モ​​デルが常に真面目なナンセンスを語っているようでは、誰も信じてくれず、アプリケーションも生まれません。モデルを使って小説を書けば、少しの幻想の方が面白く、人を惹きつけると言う人がいますが、それは違います!文学作品においても、ストーリーは一貫している必要があります。そうでなければ、それは知性ではなく、愚かさです!

過去24ヶ月間でこの業界に最も大きな変化があったと問われたら、間違いなくビッグモデルが錯覚をほぼ払拭したと答えるでしょう。質問への回答精度が劇的に向上し、AIは「全く意味不明」だったものから、実用的で信頼できるものへと進化しました。ビッグモデルは確率モデルであり、生成するコンテンツには不確実性があることは周知の事実です。RAGテクノロジーでは、ビッグモデルは取得した情報を用いてテキストや回答を生成するため、コンテンツの品質と精度が大幅に向上します。

検索機能が強化されたテキストベースの画像テクノロジである iRAG がリリースされ、ネイティブのテキストベースの画像システムをはるかに上回る全体的なパフォーマンスを提供します。

現在、テキストベースのRAGは非常に優れていますが、画像などのマルチモーダルコンテンツとRAGの統合はまだ不十分です。この画像を見てください。これはオープンソースモデルを使って生成された北京の天壇の写真です。確かに天壇に似ていますが、どこか違和感があります。実際の天壇はこのように3層構造ですが、このモデルは4層構造を生成しています。これはテキスト生成画像に見られる典型的な錯視現象です。この錯視現象は今日でも非常に一般的であるため、今日のマルチモーダルRAGの大規模な応用はそれほど多くありません。この錯視は未だ解決されておらず、少なくともテキスト生成RAGほどには解決されていません。

今年の初め、私たちは画像生成における錯覚の問題を解決することを決意しました。iRAG(image-based RAG)と呼ばれる画期的な技術を開発しました。これは、検索性を向上させるテキストベースの画像技術です。これまで、大規模な言語モデルのみに基づいたテキストベースの画像システムは、一見「偽物」に見える、あるいは非論理的に見える画像を生成することが多かったのです。BaiduのiRAGは、Baidu Searchが保有する数億点の画像リソースと強力な基本モデル機能を組み合わせることで、あらゆる種類の超リアルな画像を生成します。その全体的な効果は、従来のテキストベースの画像システムをはるかに凌駕し、機械的な印象を排除します。

AI生成画像の入手性が大幅に向上したため、その応用範囲も広がりました。例えば、ブランドプロモーションの場面では、かつてはこのようなポスター一式の撮影に数万元から数十万元もの費用がかかっていましたが、今では制作コストはほぼゼロです。つまり、iRAGの商業的価値は、錯覚がなく、超リアルで、コストがかからず、すぐに使えるという点に表れています。

基本的なモデル機能が整うと、素晴らしい AI アプリケーションの集合を目にすることになるでしょう。

基本的なモデル機能が整い、AIアプリケーションにとって輝かしい瞬間が到来しようとしています。それぞれのアプリケーションは星であり、世界を変える力となるでしょう。では、AIアプリケーションはどこから生まれ、どこへ向かうのでしょうか?AIアプリケーションには大きく分けて2つの方向性があります。1つはインテリジェントエージェント、もう1つは産業用アプリケーションです。

インテリジェント エージェントは AI アプリケーションの最も主流の形式であり、画期的な進歩を遂げようとしています。

インテリジェントエージェントはAIアプリケーションの最も主流であり、爆発的な成長期を迎えようとしています。現在、世界のトップテクノロジー企業は皆、インテリジェントエージェントに注目していますが、百度のようにインテリジェントエージェントを最重要戦略と位置付けている企業は多くありません。インテリジェントエージェントの開発は、PC時代のウェブサイト開発やモバイル時代のセルフメディアアカウント開発に似ていると思います。違いは、インテリジェントエージェントはより人間に近く、より知的で、営業担当者、カスタマーサービス担当者、アシスタントのような存在であるということです。インテリジェントエージェントは、AIネイティブ時代におけるコンテンツ、情報、そしてサービスの新たな担い手となる可能性があります。

なぜそう言うのか? 一方で、インテリジェントエージェントの開発への参入障壁は低く、誰でも始めることができます。百度の「文心インテリジェントエージェント」プラットフォームでは、11歳の小学生でさえインテリジェントエージェントを開発し、検索などのチャネルを通じて配布しています。一方で、インテリジェントエージェントの可能性は高く、非常に強力なアプリケーションを開発することも可能です。複数のインテリジェントエージェントを連携させることで、より複雑な問題を解決することも可能です。

現在、文心インテリジェントエージェントプラットフォームは15万社の企業と80万人の開発者を魅了し、幅広い応用シナリオをカバーしています。文心インテリジェントエージェントプラットフォームのTOP100インテリジェントエージェントは、配備されているインテリジェントエージェントの数、平均対話回数、ユーザーの嗜好といった指標を総合的に評価して選出されました。農学者インテリジェントエージェントなどの役割ベースのインテリジェントエージェントに加え、ツー​​ルベースや業界ベースのインテリジェントエージェント、さらには職場型、感情型、エンターテインメント型のインテリジェントエージェントも存在します。

同社の公式AIエージェントは、公式サイトに取って代わり、消費者にとって最も直接的なインターフェースになると思われます。

企業型インテリジェントエージェントは、AI時代の企業ウェブサイトに相当します。企業紹介、製品画像やパラメータ表示、オフライン店舗の所在地など、従来のウェブサイトが備えているすべての機能を備えています。さらに、従来のウェブサイトにはない、プロアクティブなレコメンデーション、タイムリーな対応、そしてマンツーマンのサービス機能も備えています。

インテリジェントエージェントは、最新の情報や最もパーソナライズされた質問に対応するという点で、従来の公式ウェブサイトとは大きく異なります。従来の公式ウェブサイトは、外部の市場情報の変化に鈍感であることが多く、カスタマーサービス担当者はパーソナライズされた質問に満足のいく回答を提供することに苦労し、情報を記録したり、フォローアップの電話をかけたりすることさえあります。一方、インテリジェントエージェントは、大規模モデルの理解、生成、論理、記憶機能に加え、強化された検索機能を活用することで、インターネットから最新かつ最も正確な情報を迅速に取得し、1秒以内に満足のいく回答を提供します。より複雑な質問がある場合でも、インテリジェントエージェントは継続的に対話し、質問を明確にし、フォローアップの質問をすることで、最終的にお客様のニーズを満たすことができます。

BYDだけでなく、Lenovo、Vidal Sassoon、Yangheといった企業も独自の公式AIエージェントを導入しています。従来のウェブサイトとは異なり、これらのAIエージェントはブランドコンサルタント、トップセールスマン、カスタマーサービス担当者といった役割を担い、プロフェッショナルで丁寧なマンツーマンサービスを提供することで、インタラクティブマーケティングの効率を大幅に向上させます。BYDの公式AIエージェント導入後、同社のセールスリードのコンバージョン率は119%増加しました。LenovoのAIPC AIエージェントは、9月にインタラクション率が89%、セールスリードのコンバージョン率が80%増加しました。

「将来的には、同社の公式AIエージェントが公式サイトに取って代わり、消費者にとって最も直接的なインターフェースとなるだろう。」

文鑫は、マルチモーダルな大型モデルを搭載した多機能ホワイトボード「Free Canvas」をリリースしました。

百度文庫と百度雲が共同開発した「フリーキャンバス」は、全く新しいツール型インテリジェントエージェントです。例えば、業界アナリストが調査レポートを作成する場合を考えてみましょう。多くの人は、業界調査レポートは単なるテキストとグラフィックの組み合わせだと考えています。しかし、今日では、従来のテキストとグラフィック、表に加え、記者会見の動画や通話記録など、様々な要素を盛り込み、より包括的なマルチモーダルレポートを作成できるようになりました。フリーキャンバスでは、こうしたニーズを的確に実現できます。

「フリー キャンバスは、情報の検索から編集、生成、共有まで、すべてのタスクを自由に入力、編集、作成、共有しながら完了するのに役立ちます。」

フリーダムキャンバスは、文心マルチモーダルモデルを搭載した多用途のホワイトボードで、人々の創造性を刺激します。フリーダムキャンバスがあれば、すべての子どもが物語の主人公になれる。フリーダムキャンバスがあれば、誰もが漫画家や短編動画の監督になれる。しかも、これは先物契約ではなく、すぐに使える商品であり、真に創造性に役立つ新しいタイプの生産性なのです!

目標は、1 つの「スーパー アプリ」を立ち上げることではなく、何百万もの「超便利な」アプリを作成することです。

本日、製造業、エネルギー、運輸、政府関係、金融、自動車、教育、インターネットなど、数多くの分野を網羅する100の主要産業アプリケーションの大規模モデルを公開します。百度は、より多くのパートナーやお客様と協力し、インテリジェント産業エコシステムの構築を推進し、国家の「AI+」行動計画の実施を共同で加速させたいと考えています。これらの100の主要産業アプリケーションの公開は、私たちの理解と姿勢を示すものでもあります。百度が目指すのは「スーパーアプリ」ではなく、より多くの人々、より多くの企業が何百万もの「超便利な」アプリケーションを開発できるよう、継続的に支援していくことです。

ノーコードツール「Miaoda」がリリースされ、「アイデアさえあれば稼げる」時代が到来。

「今日、私たちはコードを1行も理解できない人にプログラマーのスキルを身につけさせ、あらゆるアイデアを迅速かつコスト効率よく実現する能力を持っています。もちろん、これにはツールが必要です。そのツールこそがMiaodaです。」

Midaは、コードを書かずにあらゆるアイデアを実現できるソフトウェアです。大規模なモデルとインテリジェントエージェントで構成された全く新しいソフトウェアです。私はこれを『人類史上、最も複雑なマルチエージェント協働ツール』だと考えています。コードレスプログラミング、マルチエージェント協働、そして様々なツールを大規模に呼び出す機能を備えています。Miaodaは、コードを全く理解する必要がないため、他の補助的なコード生成ツールとは大きく異なります。

Miaodaを使えば、一人で自然言語によるインタラクションを通じてシステム全体を構築し、あらゆるシナリオに対応する多様なアプリケーションを作成できます。これらのアプリケーションの複雑さは、技術の向上に伴い増大していきます。当初は、200行から300行程度の比較的単純なプログラミングタスクしか実行できませんでした。その後、基本モデルの機能向上とMiaoda独自の技術進化に伴い、より複雑なタスクを処理できるようになりました。これは何を意味するのでしょうか?プロジェクトマネージャー、デザイナー、開発者、テスターなどを採用する必要がなく、複数のインテリジェントエージェントにタスクを共同で実行するよう指示できます。つまり、アイデアさえあれば、実現できるということです。アイデアさえあれば、収益を上げられるという、前例のない時代を私たちは切り開きます。かつては、アイデアがあれば、それを実行し、実現させる必要がありました。しかし、今はアイデアさえあれば、Miaodaが代わりに実行してくれます。

AIが産業革命のチャンスと言われるのは、社会経済に無限の生産性拡大をもたらすからだと思います。Miaodaは誰もがプログラマーの能力を持ち、話すだけでアプリケーションを作成できるようにします。人間の作業効率を向上させると言っても過言ではありません。

ソフトウェアが世界を飲み込んでいる?「AIアプリケーションが世界を創造している。」

人類の情報技術の変遷における歴史的に異なる時期において、アプリケーションの形態も多様化してきました。PC時代は個別のソフトウェアプログラムやウェブサイト、モバイル時代は個別のアプリやフォロー可能なアカウントでした。AI時代においては、アプリケーションの主な形態はインテリジェントエージェントです。大規模モデル技術と機能の飛躍的な進歩により、自然言語はこの時代において最も重要なプログラミング言語となりました。私たち一人ひとりが、自分自身や他者に属するAIアプリケーションやインテリジェントエージェントを作成できるのです。

私はソフトウェアエンジニアリングのバックグラウンドを持っていますが、海外では『ソフトウェアが世界を飲み込んでいる』という諺があります。しかし、私は世界は飲み込まれるものではなく、創造されるべきものだと考えています。AI時代は、アプリケーションが世界を創造します。ぜひ私と一緒に、AIアプリケーションが世界を創造するのを目撃してください。