618ZXW

国産AIが本日より人間と同じように携帯電話を操作可能に!実証実験結果はこちら。

クロードの衝撃的な『コンピュータ活用術』発表に続き、今度は国産AIが人間のように携帯電話を操作する能力を実現した!

さらに、リクエストを出すためにタイピングする必要があったクロードとは異なり、多くの機能が話すだけで実現できるため、携帯電話の「手」の機能はある程度排除できます。

たとえば、 WeChat Moments の投稿に「いいね!」やコメントをするには、携帯電話に向かって次の 1 つの文を言うだけで済みます。

ぜひWeChatを開いて、上司のMomentsの最初の投稿に「いいね!」して、「景色が本当にきれいですね」というコメントを書いてください。

すると、AI はすぐにそれを自ら実行し始めました。

00:03 / 00:57

動画リンク: https://mp.weixin.qq.com/s/vP...

△この動画内の操作は、プロンプトを除きすべてAIが行っています。

この AI にコマンドを与えると、AI が次の手順を自ら実行できることは簡単にわかります。

WeChatを開く→人を検索する→チャットに入る→プロフィール写真をタップ→Momentsを開く→投稿を見つける→いいねする→コメントする。

いくつかの重要かつ繊細なステップでは、AI が「実行を続行する」かどうかを通知し、失敗を回避するのに役立ちます。

こうすることで、ある程度私たちの手を解放し、その間の面倒なプロセスを AI に処理させることができます。

さらに、上司にWeChatメッセージを送信して休暇を申請することもできます。

高熱があるので休みたい旨を伝えるメッセージをWeChatで上司に送ってください。

00:00 / 00:33

動画リンク: https://mp.weixin.qq.com/s/vP...

ご覧のとおり、この AI は単に休暇を申請するだけでなく、私と論理的に話し合い、私の感情に訴えかけてテキスト メッセージを生成しました

なお、休暇申請書の内容は教科書的な例と言えるでしょう。

では、この国産AIの背景とは一体何なのでしょうか?

さっそく、 Zhipu がリリースしたばかりの新機能、 AutoGLMについてお話しします。これは、お使いの携帯電話を「自動操縦」モードにする機能です。

しかし、最も直感的に感じるのは、長らく普及してきた生成型AIが、もはや単なる生成にとどまらず、ハードウェアにまで浸透し、人間に代わって実行操作を行うようになってきているということだ。

しかし、徹底的なテストの結果、WeChat メッセージの送信や Moments の投稿への「いいね」は AutoGLM の機能のほんの一部に過ぎないことがわかりました。

ナビゲーションやテイクアウトの注文はすべて AI が行います。

まずはWeChatから始めましょう。AutoGLMはWeChat公式アカウントの記事を要約することもできます。

たとえば、音声を使用してリクエストしてみましょう。

00:00 / 01:04

動画リンク: https://mp.weixin.qq.com/s/vP...

デモからわかるように、AutoGLM がテキストの変換中に間違いを犯した場合は、手動で修正することもできます。

また、「最新の 3 つの記事には何が書かれていましたか?」などの一般的な質問など、それほど具体的ではない要件の場合でも、AutoGLM は対応できます。

しかし、WeChat以外にも、AutoGLMは実は私たちの「衣食住交通」に関わる携帯電話の隅々まで浸透しているのです。

会話でテイクアウトの注文もできます。

次に、 AutoGLM でテイクアウト注文をしてみて、それが処理できるかどうかを確認します。

美団のラッキンコーヒーでジャスミンラテを注文してください。

00:01 / 01:07

動画リンク: https://mp.weixin.qq.com/s/vP...

たった 1 つの文だけで、AutoGLM は携帯電話で次の操作を自動的に実行しました。

Meituanアプリを開く→「Luckin Coffee」を検索→最寄りの店舗を選択→「Jasmine Latte」を検索→「チェックアウトに進む」をクリック。

このプロセス中に、フレーバーを選択するときに音声で AutoGLM と通信することもできます。

こうすることで、テイクアウトの注文は「AIとの口頭でのコミュニケーション」+「手動での決済」という形になる。

ショッピングについてもご相談いただけます。

テイクアウトの注文と同様に、AutoGLM を搭載したスマートフォンを使用して、音声で買い物をすることもできるようになりました。

たとえば、アイテムを再購入したい場合は、次のリクエストを行うことができます。

先月タオバオでメガネを買ったのですが、また買ってください。

00:00 / 00:47

動画リンク: https://mp.weixin.qq.com/s/vP...

AutoGLM はユーザーの意図を理解した後、注文履歴の「先月」内に購入されたメガネを正確に特定し、ユーザーは支払いを完了するだけで済みました。

もちろん、AutoGLM は特定の衣料品のブランドを検索するなどのニーズにも簡単に対応できます。

たった一文で列車のチケットとホテルを予約できます。

「衣服」と「食料」をテストした後は、 「住居」「交通」における AutoGLM の機能をテストしてみましょう。

たとえば、 Ctripでホテルを予約する場合:

10月25日から30日まで、Ctripでユニバーサルスタジオ近くの最高評価のホテルを予約するのを手伝ってください。

00:00 / 01:02

動画リンク: https://mp.weixin.qq.com/s/vP...

ホテルの検索、日付の選択、評価による並び替え、ホテルの予約など、AutoGLM は支払いまでシームレスに動作します。

たとえば、 12306 で列車のチケットを予約する場合:

明日の朝、上海から北京までの12306番の高速鉄道のチケットを予約するのを手伝ってください。

00:01 / 00:56

動画リンク: https://mp.weixin.qq.com/s/vP...

これは、AutoGLM が携帯電話に追加されたことで、「衣・食・住・交通」のインタラクション方法が自動運転モデル​​に直接組み込まれたことを示しています。

今説明した機能に加えて、AutoGLM は現在、 DianpingXiaohongshuGaode Mapsなどのアプリもサポートしています。

しかし公平を期すために言うと、自動機能に関しては、Zhipu は携帯電話での取り組みに加えて、すでに自社の Web サイトでも紹介している。

コンピュータのウェブページも非常に自動化される

ウェブページを自動化するツールは、Zhipu がリリースしたプラグインQingyanです。

「Web ページの要約、単語の強調表示、ライティング アシスタント、翻訳、Q&A などの機能をまた導入するつもりではないのか?」と疑問に思う方も多いかもしれません。

確かに、Qingyan プラグインには、現在のすべての AI プラグインが備えていると思われる基本機能が含まれていますが、これは Qingyan の「一般モード」のみです。

ただし、その横にある「詳細モード」オプションをクリックすると、ゲームプレイはまったく異なります。

たとえば、 Xiaohongshu のWeb サイトで特定の旅行ガイドを探す場合、各投稿を読んで価格を比較する必要がなくなりました。

Qingyan プラグインの詳細モードでリクエストを入力するだけで、AI が自動的にフィルタリングして最適なソリューションを見つけます。

たとえば、Qingyan では、 「サイト内詳細検索」をクリックして次のように入力します。

過去 1 か月間の北京で最も人気のある旅行ガイド。

00:01 / 01:02

動画リンク: https://mp.weixin.qq.com/s/vP...

全体的なプロセスとしては、リクエストを送信した後に何もする必要はありません。

AutoGLM と同様に、Qingyan も一連の手順を自動的に実行します

  1. 「北京旅行ガイド」という検索語を入力してください
  2. 選択基準は「最新 + 最も人気」、つまり「組み合わせ」です。
  3. 検索語を「10月の北京旅行ガイド」に変更します。
  4. 上位 5 つの項目を 1 つずつ開き、画像とテキストの認識を実行します。
  5. 最終的な要約を提供します。

はい、考えるよりも間違いなく時間の節約になります。

この「高度なサイト検索」機能がCNKIのようなプラットフォームで利用可能であれば、学生や研究者にとって非常に便利になるでしょう。

2024 年の大規模言語モデルに関連するジャーナル記事を検索します。

同様に、検索とフィルタリングから最終的な結果の提供までのプロセス全体では、人間の介入は必要ありません。Qingyan のモデルは完全に自動化されています。

もちろん、AI によって編成されたコンテンツにまだ満足できない場合は、Qingyan は「人間と機械の融合」モードであるQuantum Speedも提供しています。

このモードをクリックすると、ウェブページ上の各サブアイテムの後に選択ボックスが表示されます。そこで、価値あるコンテンツや好みのコンテンツを選択し、Qingyanに処理を委ねることができます。

00:05 / 00:43

動画リンク: https://mp.weixin.qq.com/s/vP...

現在、Qingyan は、Xiaohongshu、CNKI、Zhihu などのコンピューター ウェブ ページでこの自動運転モードをサポートしていると理解されています。

それで次の質問です:

どうやってそれをやったんですか?

私たちがテストしたすべてのケースから、Zhipu の AutoGLM が実際に AI を「言語」段階から「実行」レベ​​ルに引き上げていることが明らかです。

AutoGLM は単なる質問に答える AI ではなく、コマンドを理解し、さまざまなアプリケーション シナリオで人間の操作をシミュレートできる AI です。

私たちが実証したように、Web ページの閲覧、e コマース プラットフォームでのショッピング、ホテルの予約、ソーシャル メディアの投稿へのいいね、WeChat メッセージの送信などが可能になり、AI をアシスタントとして使うというアイデアが現実のものになります。

その背後にあるコアテクノロジーは主に、AutoGLM のインテリジェントエージェント機能です。

単純な API 呼び出しのみを行う従来の AI とは異なり、AutoGLM は画面上の情報を理解し、タスクを自動で計画し、実行中に実際の状況に基づいて独自の判断と調整を行うことができます。

ユーザーは単純な言語コマンドで複雑な操作を実行できます。この機能は、強力なタスク計画および実行メカニズムによってサポートされています。

これは、Apple Intelligence のような主流の従来の AI エージェントとは一線を画すものです。

(追記: Apple が昨日リリースした iOS 向け AI 機能の第 2 波はまだ生成段階です。)

より具体的には、AutoGLM の背後にある自己進化型学習フレームワークも言及する価値があります。

この問題に対処するため、Zhipu は WEBRL と呼ばれるオンライン強化学習システムを開発しました。これは、トレーニング タスクの不足やフィードバック信号の不足などの問題を解決するために特別に設計されています。

適応型学習戦略を組み込むことで、AutoGLM は使用中に継続的に進化し、パフォーマンスと効率を常に向上させることができます。

この継続的な自己改善能力により、AutoGLM はよりスマートになり、人間のニーズにより適合したものになります。

Zhipuは「AIの新シーズン」をリードしています。

公平に言えば、これをアプリのみで実現するという点では、Zhipu の動きは非常に先進的です。

結局、数日前にクロードがComputer Useをリリースしたとき、 AI競争は新たなシーズンに入ったと多くの人が言いました。

これは、大規模モデル技術の開発における現在の傾向にも一致しています。

つまり、成熟した AI は、自分自身で物事を行うことを学習するはずです。

大規模モデルのコミュニティでは、昨年すでに、大規模言語モデル (LLM) -大規模アクションモデル(LAM) の「進化」の台頭が見られ始めていました。

その主な目的は、大規模モデルが生成タスクしか実行できないという現在の制限から解放され、さまざまな AI ハードウェアをキャリアとして使用して実行レベルに移行することです。

偶然にも、 AI PCAIスマートフォンの分野では、 LenovoHonorなどの大手企業もこの新しいパラダイムに注目しています。

このモデルでは、テキストまたは音声を介してデバイス上のネイティブ AI にタスクを引き渡し、AI が独自にタスクを処理できるようになります。

さらに、エッジ AI ハードウェア メーカーだけが追随しているのではなく、基盤となるコンピューティング パワーのプレーヤーもこれに適応しています。

たとえば、クアルコムは数日前に、デスクトップ グレードの CPU を携帯電話に直接搭載したことを発表しました。

しかし、ソフトウェアと音声コマンドさえあれば、AIは人間と同じように携帯電話上で完全に自動化された操作を行うことができます。Zhipuは今シーズンのプレイヤーの中で初めての存在と言えるでしょう。

大規模モデル開発において OpenAI と十分に競合できる数少ない国内プレーヤーの 1 つとして、Zhipu がこれを達成したことは驚くべきことではありません。

技術ロードマップの初期の展開から判断すると、Zhipu は大規模モデリングの分野で誰もが認める世界的リーダーである OpenAI に対抗して「追随者」となることを選択した。

プレーンテキストのダイアログから、テキストベースの画像、コード、検索、ビジョン、そして現在ではテキストベースのビデオやハイパーヒューマノイドの音声など、マルチモーダル テクノロジーまで多岐にわたります。

Zhipu はほぼすべての製品とモダリティで OpenAI と接続できますが、その基本的な技術的本質は最初から完全に異なります。

OpenAI の GPT シリーズは主に自己回帰モデルを使用します。これはテキスト生成において単方向であり、前の単語に基づいて次の単語を予測することしかできません。

ただし、この一方向性により、コンテキスト間の依存関係を完全に把握できないため、特定の自然言語理解 (NLU) タスクにおけるモデルのパフォーマンスが制限される可能性があります。

ZhipuのGLMは、自己回帰的空白補完を主な事前学習目標として採用しています。このアプローチにより、モデルはテキスト生成時に文脈情報を考慮することができ、言語構造の理解と生成能力が向上します。

さらに、両者は生態面でも大きく異なります。

例えば、よく知られているように、OpenAIは常にクローズドソースのアプローチを堅持してきましたが、Zhipu(智谱)はクローズドソースとオープンソースの両方のアプローチを追求しています。現在までに、Zhipuのオープンソースモデルは以下の表に示されています。

そして今回リードしたのはAutoGLMだけではありません。8月にはZhipuもOpenAIに先んじて、Qingyanアプリ上で同様の4o AIビデオ通話を開始しました。そして今、その背後にあるGLM-4-Voiceも正式にオープンソース化されました。

00:37 / 02:33

動画リンク: https://mp.weixin.qq.com/s/vP...

したがって、上記のすべてのノードを接続して時間のX軸に配置すると、Zhipuの技術開発の道筋が明らかになります。つまり、Zhipuは徐々にAGIに近づいているということです。

自動運転の分野における「L番号」の指定に従うと、ZhipuはAGI(自動誘導車両)への道はL1〜L5に分かれていると考えています。

その中で、L1言語能力、L2論理および思考能力、L3ツール能力は、現在業界で広く認識されている3つのAIレベルです。

ただし、L4 と L5 では Zhipu と OpenAI の間にはまだいくつかの違いがあります。

Zhipuによると、レベル4の人工知能とは、AIが自己学習、自己反省、自己改善を実現できることを意味します

レベル5は、人工知能が人間を完全に超え、科学法則や世界の起源といった究極の疑問を探求する能力を持つことを意味します。

しかし、人工知能は人間の脳と同等、あるいはそれ以上のレベルをどの程度まで達成できるのでしょうか?

この問題に関しては、Zhipu は、今後も相当の期間、 42% の水準に留まる可能性が高いと考えています。

(42という数字は、『銀河ヒッチハイク・ガイド』に由来しており、AGIへの旅は42%完了しています。これは、小説の中でスーパーコンピューター「ディープソート」が750万年もの計算を経て導き出した、生命、宇宙、そしてあらゆるものに関する究極の答えを指しています。)

脳は、聴覚、視覚、味覚、言語などの多様な知覚と理解能力、短期および長期の記憶、深い思考と推論の能力、感情と想像力などを含む非常に複雑なシステムです。

さらに、脳は体の司令器官として、体のさまざまな部分の動作を調整したり、さまざまな道具を使用する方法も知っています。

下の図に示すように、今日の大規模モデルでは、テキスト、ビジョン、サウンド、特定のロジックおよびツール使用機能など、一部の機能が既にロック解除されています。一部のモーダル機能ツリーはまだ有効化されていませんが、これらはZhipuが今後取り組んでいく方向性です。

数年前、Zhipu CEO の張鵬氏は次のように述べました。

やってみなければ、追いかけてみなければ、自分がどれだけ速く、どれだけ遠くまで走れるかは決して分からないでしょう。

今振り返ると、「どこまで走れるか」という期待が明確な結果を生み出していた。

行動を起こして追いついたZhipuは、すでにOpenAIを追い越し始めています。

最後に、新しい SmartSpectrum 機能へのリンクを示します。

AutoGLMブラウザプラグインのアドレス:
https://new-front.chatglm.cn/...\_news\_lzw

AutoGLM Android ベータ テスト アドレス: https://chatglm.cn/main/gdeta...