618ZXW

SenseTime のリアルタイム オーディオおよびビデオ インタラクション モデルの実際のテスト 5o: 偽の Qi Baishi のエビ画がすぐに発見されました。

AI とのやりとりに関して言えば、 SenseTimeの最新のビッグモデルはまさに「高速、正確、そして優れている」。

たとえば、次の図を見てみましょう。

この写真は、本物のエビを紙の上に置いて斉白石の有名な絵画を「偽造」したものであることが人間の目にはわかるが、多くのAIはそれを認識できない。

では、センスタイムの最新大型モデルは一目で見分けられるのでしょうか?

ビデオリンク: https://mp.weixin.qq.com/s/bE...\_CN

はい、AIは写真のエビが本物であると識別しただけでなく、別の可能性、つまり非常にリアルなモデルも推測しました。

この AI にもう一つの伝統的な中国書道を見せて、それが扱えるかどうか確認してみましょう。

ビデオリンク: https://mp.weixin.qq.com/s/bE...\_CN

AIは書道作品の内容が「寧静致远(ねいじょうしゅう)」であることを理解することに成功し、なぜ右から左に読むのかを尋ねると、 「これは書道作品だからです」と正確に答えました。

SenseTime がリリースした最新の大型モデルはSenseNova -5o (以下、「New 5o」と略す) と呼ばれ、最新のマルチモーダル機能を使用して AI インタラクションの品質を向上させることに重点を置いています。

実際、先ほど挙げた 2 つの例から、「新しい 50」にはいくつかのユニークなハイライトがあることが分かります。

たとえば、AI とのやり取りで多くの人が批判する遅延の問題は、「New 5o」によって 2 秒未満に短縮され、実際の人とのやり取りとほとんど区別がつかないほどの体験ができるようになりました。

たとえば、感嘆詞や擬人化された休止、感情の模倣など、コミュニケーションプロセスのリアリティはすべて非常にリアルです。

さらに、これまで AI が識別に苦労していたタスクも、今では「新しい 5o」によって簡単に処理できるようになりました。

これが可能な理由は、センスタイムが基盤技術に「新しいトリック」、つまり中国初のネイティブフュージョンマルチモーダルモデルを考案したからだ。

つまり、これは単純な統合ではなく、これまでの「見る」と「考える」こととも同じではありません。人類がより複雑な問題を解決するために真に役立つことができるのです。

なお、このアプリは現在、無制限に無料でお試しいただけます。

では、SenseTime の Daily New Integrated Model Interactive Edition では、どのような新しいゲームプレイが実現できるのでしょうか?

実際のテストを一巡します。さあ、始めましょう!

直接のテスト結果はこちら

AI と対話するプロセスにおいて、記憶は実際に体験に影響を与える重要な要素です。

したがって、最初のテストでは、「新しい 50」がどれだけよく記憶できるかを確認します。

記憶は少なくとも5分間持続する

料理や食材の写真をいくつか用意し、「New 5O」のメンバーに一人ずつ質問していきます。

ビデオリンク: https://mp.weixin.qq.com/s/bE...\_CN

ご覧のとおり、「New 5o」システムは名前を正確に識別し、最後の料理アナウンス部分では、先に見た料理と材料を順番に正確にアナウンスしました。

なお、プロセス中にいつでも「New 5o」を中断することができ、即座に応答したため、リアルタイム ダイアログ機能は非常に優れていると言えます。

「新50」の記憶がどのくらい持続するかについては、公式データによると、 5分以上の超長時間のマルチモーダルインタラクティブメモリをサポートできます。

この期間は間違いなく業界でもトップクラスです。

この能力を発揮するには、情報を保存する能力だけでなく、深い理解と想起能力もテストされます。

「New 5o」システムは、ユーザーからの詳細な質問や、コミュニケーションプロセス中に意図せず生じた情報を明確に保存し、いつでも関連コンテンツを素早く呼び出すことができます。

最も重要なのは、「新5o」の記憶範囲が短期的な会話内容に限定されず、ユーザーインタラクション情報を継続的に追跡・蓄積する機能を備えているため、ユーザーニーズの理解が常に向上し、最適化されることです。

「間違い探し」をプレイできますか?

記憶力をテストした後は、「新しい50代」の視力をテストしましょう。

今回は、まずは「間違い探し」ゲームから始めます。

「New 5O」のパフォーマンスを見てみましょう。

ビデオリンク: https://mp.weixin.qq.com/s/bE...\_CN

「ニュー50」は、まず写真の環境から1980年だと推測し、次にこの時代に合わない電化製品や物品を尋ねられると、次のような答えを出した。

洗濯機、炊飯器、LED照明、エアコン、ダウンジャケット、茅台酒、携帯電話、ポスター。

はい、彼らは「欠陥」のほとんどを合理的かつ根拠のある方法で発見したと言えます。

では、「ニュー50」がまだ特定していないものは他に何があると思いますか?ぜひ下のコメント欄にご意見をお寄せください!

問題を解決するときにも「質問」を使うことができます。

AI が話したり見たりできれば、物理学のようなテキストと画像を組み合わせた問題で AI をテストするのに最適です。

質問をご覧ください:

これは2024年度北京大学入学試験(高考)物理の多肢選択問題です。「新50」の受験生に見てもらい、次の問題を出題します。

この問題をどうやって解決すればいいでしょうか?

ビデオリンク: https://mp.weixin.qq.com/s/bE...\_CN

「New 5o」はまず、すべての回答を1つずつ確認し、選択肢A、C、Dを除外して、正解Bを選択しました。

さらに「なぜBなのか?」と質問すると、正解の詳細な分析が提供されます。

複雑なニューラル ネットワーク アーキテクチャ図であっても、「新しい 5O」を使用すると簡単に認識して説明できます。

ビデオリンク: https://mp.weixin.qq.com/s/bE...\_CN

「New 5o」とGPT-4oを対話させよう

最後にもう一つ興味深いテストをしてみましょう。

「女性の声 - New 5o」と「男性の声 - GPT-4o」という2つのAIシステム間で対話してみましょう。

ビデオリンク: https://mp.weixin.qq.com/s/bE...\_CN

この 2 つの AI 間の対話から、両方の AI の口調が非常に自然であることがはっきりとわかります。

「New 5o」はレイテンシに関して若干の優位性があり、一般的に 2 秒以内に抑えられていますが、GPT-4o には 4 秒程度のレイテンシ ポイントがいくつかあります。

結論として、さまざまなテストに基づくと、「新しい 5o」は、見る、話す、考えるという点で非常にスムーズなマルチモーダルインタラクション機能を実現しました。

それで次の質問です:

センスタイムの「New 5O」はどのように実現されたのでしょうか?

センスタイムの「新5o」が「日新統合モデルインタラクティブバージョン」と名付けられているように、その鍵は中国初のネイティブ統合マルチモーダルモデルを背後に搭載していることです。

では、ネイティブフュージョンマルチモーダルとは一体何でしょうか?

これは、モデルアーキテクチャとトレーニングプロセス中に複数のモーダル情報(テキスト、画像、ビデオ、オーディオなど)を深く統合できる AI モデルアーキテクチャです。

言語モデルとマルチモーダルモデルを分離する従来のアプローチとは異なり、モダリティ間の障壁を打ち破り、入力から出力までの統合処理を実現し、複雑な現実世界のタスクをより効果的に処理することを目的としています。

QuantumBitとSenseTimeの共同創設者であり、AIインフラストラクチャとビッグモデルの主任科学者であるLin Dahua氏との交流の中で、私たちはこの新しいモデルへの理解を深めることができました。

事前トレーニング段階では、SenseTime のネイティブ融合マルチモーダル大規模モデルは、自然に存在する大量のインターリーブされた画像とテキスト データを活用するだけでなく、逆レンダリングやハイブリッド セマンティクスに基づく画像生成などの方法を通じて、大量の融合モーダル データを合成します。

たとえば、Web ページのデータを処理する場合、テキストと画像のコンテンツが標準化され、高品質にクリーニングされ、既存のモデルを使用して Web ページのコンテンツが書き換えられ、再生成されて、より豊富なマルチモーダル データが得られます。

一方、大量の自然言語データから抽出された概念に基づいて、テキストから画像への合成などの方法を通じて新しい画像が合成され、テキストと組み合わせられることで、データソースがさらに拡張され、テキストと画像モダリティ間の多数のインタラクティブなブリッジが確立され、モデルベースがモダリティ間の豊富な関係をより適切に把握できるようになります。

トレーニング後の段階では、幅広いビジネスシナリオ(ビデオインタラクション、マルチモーダルドキュメント分析、都市シーンの理解、車両シーンの理解など)の知識に基づいて、多数のクロスモーダルタスクが構築されます。

これらのタスクは単純な数学の問題や質疑応答セッションではなく、現実世界のシナリオにおける複雑な問題解決プロセスをシミュレートし、インタラクティブな問題解決データのチェーンを形成します。

このようにして、モデルはトレーニング プロセス中にマルチモーダル情報を統合、理解、分析し、ビジネス シナリオに対する効果的な応答機能を形成するように促され、その結果、基本モデルの反復にフィードバックされるアプリケーション実装の閉ループが実現されます。

このネイティブのマルチモーダル統合アプローチのおかげで、「New 5O」は実際のパフォーマンスが大幅に向上しただけでなく、権威ある評価リストでも傑出した結果を達成したことは特筆に値します。

1 つのモデルが 2 つのリーダーボードを突破しました。

これら 2 つのリストは、 SuperCLUEOpenCompassです。

SuperCLUE評価では、人文科学課題が81.8点を獲得し、世界1位となり、科学課題は金メダルを獲得しました。また、計算科学課題は78.2点を獲得し、中国1位となりました。

OpenCompass のマルチモーダル評価では、平均スコア 77.4 を達成し、多くの国内外のモデルを上回りました。

これは、SenseTime の新しいモデルが言語、推論、マルチモーダル情報処理において高いレベルを達成し、純粋言語タスク (指示に従うタスクや推論タスクなど) におけるマルチモーダル モデルの重大なパフォーマンス低下の問題を効果的に回避できることを示しています。

その結果、テキストや画像の処理、純粋言語処理、推論などのさまざまなシナリオで優れたパフォーマンスを実現し、総合的なパフォーマンスの面でもネイティブに統合されたマルチモーダル大規模モデルの利点を反映しています。

最後に、技術開発のトレンドの観点から見ると、SenseTime のマルチモーダル アプローチのネイティブ融合は避けられない道であるはずです。

例えば、自動運転では、ネイティブに統合されたマルチモーダル大規模モデルにより、車内音声、車内外の画像や動画、車両の状態などの情報を統合できるため、車載インテリジェントエージェントは環境やニーズをより深く理解し、交通状況を正確に判断してタイムリーな意思決定を行うことができ、運転の安全性と信頼性が向上します。

具現化された知能の観点から見ると、インテリジェントエージェントの環境認識と理解を強化し、マルチモーダル認識を通じて自然な知的インタラクションを実現します。また、マルチモーダルデータを活用して学習と進化を促進し、タスク遂行能力を向上させ、開発と応用を推進します。

つまり、これは仁経と杜経を開き、大規模モデルの推論機能とこれらの新しい形式のデータを組み合わせるためのチャネルをクリアするようなものです。

この新しいインタラクションモードを試してみませんか?下のリンクから、興味のある方はぜひお試しください!

公式 API と統合ソリューションについては、https://sensenova5o_doc.sensetime.com/introduction/intro.html を参照してください。