618ZXW

iFlytek版「Her」は大成功!マルチモーダルバーチャルヒューマンの表情や動きは驚くほどリアルで、たった1枚の画像と1つの文章で自分だけのオリジナルを作れます。

iFlytek SparkのAI女神との対面ビデオチャットにより、国産の「彼女」に顔ができました!

フェイスクリームの説明、ドリンクやギフトのおすすめ、写真に基づいたストーリーの語りなど、彼女はすべてを簡単にこなすことができます。

ウルトラマン孫悟空が一緒に怪獣と戦うのを見たことがありますか? (doge)

あんなに荒唐無稽な「名シーン」でも、「彼女」は生き生きとした物語を紡ぎ出していた。うーん、物語りにかけてはAIこそ真のチャンピオンだ!

さらに、自分だけのバーチャルアバターも作成できます。写真と文章だけで、あなただけの「自分」を作り上げることができます。

(バイ・シャオジャオはついに顔を見せた)

この機能は、iFlytek Spark アプリで利用できるようになりました。

背後の台座に搭載された大型モデルも大幅なアップグレードを受け、iFlytek Spark 4.0 Turboが正式にリリースされました。7つのコア性能はGPT-4 Turboを、数学演算性能とコーディング性能はGPT-4oを上回りました。iFlytek Spark 4.0 Turboは、国内外で実施された中国語と英語の14の主要テストのうち9つで1位を獲得しました。

同時に、国産の超大規模インテリジェントコンピューティングプラットフォーム「飛星2号」が正式に発表された。

iFlytek Sparkとの対面ビデオチャット

この記者会見のハイライトは、iFlytek Spark のマルチモーダル ビジョンとハイパーヒューマノイド仮想人間におけるインタラクティブ機能の向上でした。

大規模モデルを基盤として、私たちはあらゆるものがインテリジェントに相互接続される新しい時代を切り開いています。iFlytekは、この新しい時代に向けた独自のインタラクション標準を定義しています。

劉清鋒会長は、遠距離高ノイズ、全二重、多言語サポートなどの既存の機能に加えて、マルチモダリティ、ハイパーヒューマナイゼーション、パーソナライゼーションなどの機能も含まれていると説明した。

実は、iFlytek版の『Her』は今年8月にすでにリリースされています。今回は、音声機能の強化に加え、ビジュアル面でも強化され、独自のキャラクターデザインも採用されています。

つまり、音声インタラクションから、オーディオおよびビデオ ストリームのリアルタイムのマルチモーダル インタラクションへの飛躍を実現し、より包括的な感情認識 (環境、テキスト、オブジェクト、姿勢、衣服などを含む) とより正確なタスク理解 (音声、ジェスチャー、動作、感情などを含む) を実現します。

イベントでは、iFlytek研究所所長の劉聡氏が音声機能のデモンストレーションを主導しました。よりリアルな音声と感情表現に加え、ユーザーと一緒にロールプレイングゲームをプレイすることも可能です。

孫悟空やペッパピッグをシミュレートするのは簡単です!

わたくし、老太陽は、道中で障害を乗り越え、魔物を倒すことだけを考えていました。何か楽しいことを探しているなら、一番楽しかったのは間違いなくあのバカな猪八戒をからかうことでした!

この基盤を基に、iFlytek 版の Her では、意味や会話のリズムに基づいて表情や動作を自動的に生成し、対面でチャットできるようになりました。

例えば、何百万人もの人々がオンラインでパフォーマンスを視聴していると聞いて、驚き、喜び、興奮を示す人もいました。

報道によれば、これは業界で初めて「唇、表情、動き」の意味的な整合と連続性を実現した超人的なデジタルヒューマンだという。

カメラをオンにすると、ダイナミックなビデオ映像に基づいて会話を行うこともできます。

たとえば、さまざまな物体、花、建物、小さなおもちゃを認識することです。

イクソラの花、よかった、よかった、新しいことを学んだよ。

さらに驚くべきは、アルコール飲料、ソフトドリンク、さまざまなブランドのローション、クリーム、フェイスクリームを区別できることです。

現場では、それが雪花秀の製品であると認識しただけでなく、具体的な成分や用途を説明し、さらに大きいボトルはアイクリームではなくフェイスクリームであると訂正までしたという...

新たに追加された視覚機能は、一般的な視覚知識に関する質問への回答精度が 90% を超え、シーンの画像とテキストの理解精度も 90% を超えています。

こうすることで、海外で買い物をするときにわからないことがあったらすぐに質問したり、食べ物を識別したり、ゲームをしたり、子供と一緒に絵本を読んだりすることができます。

QuantumBitもすぐに一連のテストを実施しました。現在、この機能はiFlytek Sparkアプリの右上にある「小星チャット」セクションにあります。右側の「カメラ」をクリックすることで会話を開始できます。

何気なく空の写真を撮りながら「今日はいい天気ですね」と言うと、それに合わせて合肥の楽しいスポットも教えてくれます。

1024 開発者フォーラムにカメラを向けると、情報を正確に解釈し、関連するコンテンツを推奨します。

ご覧のとおり、擬人化、感情表現、理解力といったインタラクティブ機能が大幅に向上しました。見たり、聞いたり、話したりできるだけでなく、自分だけのバーチャルアバターを作成することもできます。

同様に、iFlytek Spark APP の右上隅にある「インテリジェント エージェントの作成」をクリックします。

写真をアップロードするだけで、性格、キャリア情報、ペルソナなどのカスタム設定を含む独自のAIアバターを作成できます。その後、文章に基づいて音声を再現するだけで完了です。すでに1300以上のペルソナの作成をサポートしています。

このトーンとイメージは本当にデジタル時代の私のイメージに似ています。これからクライアントとのやり取りに活用できそうです。(冗談です。)

現在、iFlytekのハイパーヒューマノイドデジタルヒューマンは、音声の自然さスコアが4.2を誇っています。劉青鋒氏によると、最高の放送局は5.0程度を達成できる一方、平均的な人間の音声スコアは4.0程度だそうです。

ただし、これらの機能は iFlytek Spark ベースのアップグレードの一部にすぎません。

iFlytek Spark 4.0 Turboが正式リリース

今年、iFlytekのSpark大型モデルは大幅なアップグレードを受け、Spark 4.0 Turboがリリースされました。

基本的な能力面では、数学、コーディング、特定領域における長文テキスト処理など7つの主要分野でGPT-4 TUrboを上回り、効率も50%向上しました。

特に数学では、劉青鋒氏が超長思考連鎖、ツリー探索、自己反省評価などのアルゴリズム検証が完了したことを明らかにし、今年末までにO1級レベルの高難易度数学能力が大幅に向上すると期待されている。

コード機能に関しては、Spark 4.0 TurboはHumanEvalテストセットにおいてGPT-4oを上回りました。同時に、コード生成やコード補完などのタスクをサポートするコードバージョン7Bもリリースされました。

中国語と英語の両方で行われた 14 回のメインストリーム テストのうち、Spark 4.0 Turbo は 9 回で GPT-4o を上回りました。

さらに、英語、ロシア語、日本語、中国語、フランス語、スペイン語、ポルトガル語、ドイツ語など複数の言語を網羅した多言語認知モデルが初めて公開されました。

自動車、家電、事務用品、翻訳などの業界全体のタスク シナリオでは、多言語大規模モデルが GPT-4o よりも優れています。

一部の垂直分野では、今回、いくつかの大型モデルも発売またはアップグレードされました。

例えば、医療分野では、大規模な医療画像モデルにより、医師は画像写真に基づいて診断レポートを迅速に作成できるようになります。

また、インテリジェント車両向けの大規模オンデバイスモデル「Spark」は、車載アプリケーションのパフォーマンス低下が1%未満、応答時間が40ミリ秒未満という性能を誇ります。今年の第4四半期以降、Chery、GAC、Great Wallなどのメーカーから、この大規模オンデバイスモデルを搭載した複数のモデルが発売され、販売される予定です。

教育分野では、iFlytek Sparkが中国教育科学院と共同で、質問チェーンに基づいた数学教師アシスタントをリリースしました。このアシスタントは、コア質問、サブ質問、質問ユニットを含む質問チェーンを通じてロジックを展開し、段階的に学習を進めることで、生徒が主体的に考え、質問する力を養い、学習パラダイムを変革します。

現在、12の地域から50名を超える数学の教育・研究スタッフと400名を超える教師が人間とコンピュータの共創に参加しています。

この基盤となるインテリジェントコンピューティングプラットフォームでは、iFlytek、Huawei、Hefei Big Data Asset Operation Co., Ltd.が協力し、国産の超大規模インテリジェントコンピューティングプラットフォーム「Feixing-2」を開発し、正式にリリースされました。

昨年、飛星1号がデビューしました。劉青鋒氏によると、この1年間で飛星1号プラットフォームは500件以上の基本的なソフトウェアおよびハードウェア問題とモデル適応問題を解決しました。

大規模モデルは大規模アプリケーションの時代を切り開きます。

記者会見全体を通じて最も印象的だったのは、劉青鋒氏が述べたように、大規模モデルが大規模アプリケーションの時代に入りつつあるということだ。

発表イベントでは、マルチモーダルなバーチャル・ヒューマン・インタラクションが中心的な位置を占め、様々な垂直産業における大規模モデルの実機デモンストレーションが重要な焦点となりました。すべては、アプリケーションと業界のニーズを中心に展開されました。

ご覧のとおり、 iFlytek Sparkに代表される国内の大規模モデル応用エコシステムは、引き続き発展を続けています。記者会見の冒頭で、劉清鋒氏は過去1年間の「7つの初」の成果を発表しました。

  • 荀飛星火は中央企業および国有企業の中で大規模モデルプロジェクトの第一候補となり、落札件数で第1位となった。
  • 教育・ヘルスケア市場でナンバー1。
  • インテリジェント車両市場におけるナンバー1。
  • 最大のモデル開発者エコシステムがナンバーワンです。
  • スマートハードウェア市場でナンバー1。
  • 科学研究の応用を強化することが最優先事項です。
  • 産業用アプリケーションの強化は当社の最優先事項です。

iFlytekは今年10月現在、大手企業と共同で20以上の業界特化型大規模モデルを構築し、300以上の応用シナリオをカバーしています。カバーする業界とシナリオの数は中国でトップクラスです。

iFlytek Sparkは産業界を支援するだけでなく、科学研究分野の大学にもサービスを提供し続けていることも特筆に値します。今年はノーベル物理学賞と化学賞がAI研究者に授与されました。これについて、劉清鋒氏は次のように述べています。

AI for Science は科学研究のパラダイムに根本的な変化をもたらし、技術開発の新たな原動力になりつつあります。
人工知能が科学研究にどのように力を与えるかには、科学文献アシスタントとコードアシスタントに頼ることによって基本的な作業の効率を向上させること、ディープニューラルネットワークに基づいて科学的タスクを正確にモデル化すること、そして大規模な認知モデルを活用してドメイン知識を学習し、科学研究の実験計画の設計を支援することという 3 つの段階があります。

Spark Research Assistantを代表例として、昨年末のリリース以来、中国科学院傘下の116の研究所で利用されています。また、中国科学技術大学と共同で「大規模化学モデル」を開発し、中国科学院大連化学物理研究所と共同で「大規模化学工学モデル」を開発するなど、様々な分野で協力しています。

活気あるエコシステムだけが、継続的な技術進歩を促進できます。IDCの調査レポートと公開市場データによると、iFlytekは音声・セマンティック技術の市場シェアでトップにランクされており、大規模モデル開発者数は78万1,000社に達し、世界最大規模を誇ります。

iFlytekは今後、技術力からアプリケーションの実装まで、あらゆるシナリオにわたってリソースを開放する予定です。また、開発者の起業家精神を支援するために5億人民元を投じ、AIファンドの設立を主導します。

人工知能産業の今後の発展について、劉青鋒氏は、最先端かつ実用的、独立かつ制御可能、汎用技術と専門技術の融合、エッジクラウド連携、ハードウェアとソフトウェアの統合という5つのキーワードで構成された独自の業界参考資料を提示した。

これら 5 つの重要なポイントを把握することによってのみ、大規模モデルは真の生産性と想像力を解き放ち、業界全体にパラダイム シフトをもたらすことができます。