618ZXW

2025 年の AI 携帯電話インタラクション エクスペリエンス: 話す、見る、考えることが可能。よりスマートで理解力の高い AI パートナーです。

ついに2022年!モバイルアシスタントはAIの波に乗り、ますます使いやすくなっています!

超思考・対話機能を備えたマルチモーダル大型モデルの「頭脳」を内蔵しているだけでなく、画面内外の世界を見ることができる「目」も成長しました。

実際、これこそが AI フォンが現在求めている新しいインタラクションであり、人々とデバイスをより近づけ、インタラクションをより自然なものにすることを目的としています。

携帯電話が現在の形になったのは、主にマルチタッチ操作に適応するためであり、これはジョブズの時代やタッチスクリーンの誕生以来変わっていません。

しかし、人間の自然言語に応答し、人とコミュニケーションややり取りをし、指示を理解して実行できるアシスタントは、より自然なやり取りの方法です。

マルチモーダル機能が解放されることにより、この新しい技術の道筋が明らかになり、携帯電話のハードウェアとソフトウェアが再構築されるでしょう。

携帯電話をパーソナルアシスタントにする

「AIフォン」というコンセプトを初めて公に発表した企業、OPPOを例に挙げましょう。OPPOはXiaobuアシスタントにマルチモーダル機能を導入し、単なる会話マシンに留まらず、人間の意図をより包括的に理解・処理できるようになりました。

Xiaobu Assistant は、音声、電源ボタン、ナビゲーション バーの長押しの 3 つの方法で呼び出すことができ、話すだけで電話にコマンドを発行できます。

まずは「ワンクリックスクリーン質問」を使用して、Xiaobu Assistant の強力な視覚機能と思考能力を確認しましょう。

建物(上海タワー)を見てそれが何なのか知りたい場合は、アシスタント Xiao Bu を呼び出すことができます。

写真をアップロードしたり、詳しく説明したりする必要はありません。Xiaobu Assistant を呼び出して、これが何であるかを尋ねるだけで、満足のいく答えが得られます。

さらに、複数ラウンドのダイアログをサポートしており、その場所が訪問可能かどうか、見る価値のあるものは何があるかなどの質問をしたり、旅行ガイドを作成したりすることもできます。

[動画は公式WeChatアカウントからご覧ください]

さらに、Xiaobu Assistant の視覚機能は、画面上の物体を識別できるだけでなく、カメラの助けを借りて周囲のすべてを「見る」こともできます。

たくさんの植物(ケール)を見て、とても興味を持ったと想像してください。

カメラを開いて対象物に向けるだけで、シャオ・ブを呼び出し、教えてくれます。また、これは食べられるのか、どうやって食べるのかといった質問もできます。

[動画は公式WeChatアカウントからご覧ください]

ちなみに、Super Assistantはカメラインターフェース上で画面認識Q&Aをサポートした最初のスマートフォンでした。その後、多くの競合他社が同様の機能を導入し、Super AssistantのモデルがOPPOの戦略的な成功であったことを証明しました。

さらに、あえて自らをスーパー小夫アシスタントと呼ぶ理由は、2つの特別なスキルを持っているからです。見るための「目」と考えるための「脳」だけでなく、ユーザーのコマンドを実行するための「手と足」も生えています。

ワンクリック画面ナビゲーションの例をもう一度見てみましょう。QuantumBitが会社からMEETカンファレンス会場へ行きたい場合、Xiaobu Assistantに画面上のこの場所に行きたいと伝えるだけで、Xiaobu Assistantが自動的にナビゲーションを開始します。

宛先アドレスをコピーして貼り付けたり、手動で設定したりする必要はなく、たった 1 つの文だけで出発できます。

[動画は公式WeChatアカウントからご覧ください]

つまり、完全にアップグレードされたスーパーアシスタントは、携帯電話の使い方を確かに変えたのです。

Xiaobu Assistantを使ってスマートフォンを操作するユーザーが増えています。中でも、電源ボタンでXiaobu Assistantを起動するユーザーの数は、前世代と比べて30%増加しており、電源ボタンがXiaobu Assistantを起動する最大のエントリーポイントとなっています。

さらに、スーパーアシスタントは独自のスーパーパワーで「ユーザー教育」の波も起こしました。

Xiaobu Assistantの強力な機能は、ユーザーの需要を刺激し、画面認識機能だけでも百科事典や教育Q&Aの需要を直接的に押し上げました。

ユーザーデータによると、ワンクリック画面認識機能を使用するユーザーの約 30% が、認識したいコンテンツにカメラを向けた後、Xiaobu アシスタントを直接呼び出して質問や回答を行い、ユーザーの 70% がマルチモーダルインタラクションで一般的な質疑応答機能を使用しています。

では、スーパー リトル アシスタントの驚くべきスーパーパワーはどこから来るのでしょうか?

その背後には、独自に開発された大規模モデルとインテリジェント フレームワークがあります。

聞く、見る、話す、そして行動することができるSuper Xiaobuの背後には、言語、視覚、音声などの複数のモダリティを統合するOPPO SenseNowフレームワークがあります。

まずはリスニングから始めましょう。これはXiaobu Assistantとのインタラクションの第一歩です。SenseNowフレームワークは、OPPOが独自に開発したマルチレベル音声ウェイクアップとパーソナライズ認識技術を統合しており、音声ウェイクアップと認識の精度は97%以上に達します。

SenseNowフレームワークは、強化されたマルチモーダル理解技術を通じて「見る」能力を備え、SenseNowインテリジェントフレームワークの中核を成しています。これにより、スーパーアシスタントはテキストと画像を混在させた検索を実行し、1,000以上の対象物の認識をサポートします。

上記の一連のシナリオに見られるように、Super Xiaobu Assistant は、このマルチモーダル理解および検索機能のおかげで、見たものに基づいてあらゆる種類の質問に答えることができます。

SenseNow フレームワークには、生成音声合成フレームワークも統合されており、Super Assistant が人間の声色やリズムをシミュレートできるほか、20 種類以上のパーソナライズされた音声をサポートします。

OPPO SenseNow フレームワークにより、スーパー アシスタントは、見る、聞く、話すという点で実際の人間と同じように動作し、私たちが遭遇するあらゆる種類の質問に答えることができると言えます。

しかし、OPPO SenseNow フレームワークのもう 1 つのハイライトは、その実行能力です。

前述のように、コマンドを与えると、スーパーアシスタントは画像に表示されている住所に基づいてナビゲーションを起動し、時間情報に応じてスケジュールに追加します...

SenseNow インテリジェント フレームワークは、音声、テキスト、画像などのさまざまな種類の情報ソースを統合して、ユーザーの複雑な意図を理解し、アプリケーション間でシームレスな操作を完了できます。

Super Xiaobu は 1000 以上の音声コマンドをサポートしており、ユーザーは簡単な音声コマンドだけで対応する電話設定やアプリケーション操作を完了できます。

その優れた性能の背後には、OPPOの先進的なレイアウトとマルチモーダル分野における先見性があります。その結果、新しくアップグレードされたXiaobuは、モバイルアシスタントのマルチモーダル時代における地位を確立する上で、先導的な役割を果たしました。

マルチモーダル アシスタントは、携帯電話とのやり取り方法を変えています。

Xiaobu Assistant は縮図であり、それが代表するマルチモーダル モバイル アシスタントは、携帯電話の操作方法を変えています

例えば、カメラベースのリアルビュー連続質問応答では、ネットワーク速度の向上と大規模モデル機能の向上により、マルチモーダル大規模モデルは、リアルタイムのフレームごとの視覚認識と分析推論をサポートし、カメラが捉えたものに基づいて実際の人間のようにユーザーとコミュニケーションし、映画「her」のワンシーンを現実に再現します。

近年、大型モデルの分野で一般的に見られるマルチモーダル(テキスト、ビジョン、音声)技術に加え、スマートセンサーの技術も急速に発展しています。

カメラやマイクなどの一般的な機能に加えて、携帯電話は温度や気圧などのセンサー技術の面でも徐々に成熟しています。

より多様な環境情報を認識することで、インテリジェント アシスタントはユーザーの現在の状態をよりよく理解し、簡単なコマンドでユーザーのニーズを満たすことができます。

簡単な例を挙げると、ユーザーが「喉が痛い」と質問した場合、AIは体温、地理的位置、気象状況、センサーから取得した周囲の温度や湿度などをもとに総合的に判断し、加湿器を使うべきか、医師に相談すべきかなどの相談提案を行うことができます。

さらに、モバイルアシスタントの普及に伴い、マルチモーダル機能を備えたXiaobuのような音声アシスタントは、将来、人々がアプリとインタラクションする方法を変えるでしょう。より多くのアプリケーションやサービスAPIが統合されることで、音声アシスタントはより効率的かつスムーズにサービスを呼び出すことができるようになります。

さらに、将来的には、旅行ガイドに基づいて音声アシスタントがすべての旅程、宿泊施設、途中の観光スポットのチケットの予約を手伝うなど、複数のアプリにまたがる複雑な操作を実行できるようになります。

新しいインタラクションモデルでは、音声アシスタントはマルチモーダル情報を利用して人間の意図を推測し、適切なサービスを呼び出すことができるだけでなく、記憶機能を利用してユーザーの話し方、衣服、食べ物、住居、交通手段の好みを理解し、現在の状況に基づいてパーソナライズされたサービスの推奨を提供し、より特別でパーソナライズされたものになります。

スマートフォンを取り出すと、AIが簡単な一言ですべての手配をしてくれる未来を想像してみてください。スマートフォンはパーソナルアシスタントやパートナーのような存在になるでしょう。

その時までに、人とハードウェアの関係も変化するでしょう

現在に戻ると、OPPO の AI 戦略の重要な部分であるスーパー アシスタントは、よりインテリジェントな AI システムと AI フォンの作成への道を開き、マルチモーダル インテリジェント アシスタントの形で私たちのやりとりの方法を完全に変えます。

間違いなく、視覚認識とマルチモーダルインテリジェントインタラクションを備えた Super Xiaobu Assistant は、この方向から生まれた大きな成果です。

一方、Super Assistantは端末メーカーのOPPOが提供しているため、システムレベルのスケジュール設定機能を備えており、これはサードパーティのスマートアシスタント製品にはない利点です。

さらに、ユーザーデータは、スーパーアシスタントが技術の進歩を利用してユーザーに新たな要求を生み出させ、ユーザーの使用習慣を徐々に変えつつあることを証明しています。

OPPOは、Super Assistantが実用的でパーソナライズされたAIパートナーとなることを期待しています。そして、現在の市場での実績から判断すると、すでに初期の成功を収めていると言えます。

AI 搭載携帯電話を公に宣伝した最初の携帯電話メーカーの 1 つとして、OPPO はモバイル インタラクションの再定義を継続し、AI によって携帯電話の機能と限界を再構築できるようにしています。