618ZXW

ワースバイテクノロジーと中国人民大学ヒルハウス人工知能学院によるマルチモーダル分野における初の共同研究成果がCNCC2024で発表されました。

10月24日から26日にかけて、横店市で2024年中国全国コンピュータ大会(CNCC2024)が開催されました。24日の「AI+映画創作スーパーフォーラム」では、中国人民大学高陵人工知能学院の終身在職権准教授である宋瑞華氏が、知徳邁科技との共同研究による初の成果である「TiVA:時間同期型ビデオ・オーディオ生成」について基調講演を行いました。宋氏は、この技術がコンテンツ制作にもたらす画期的な進歩について詳しく説明しました。AIGCコンテンツ生成、特に音声生成における品質とインテリジェンスを向上させるだけでなく、AIGCコンテンツ生成により豊かなモダリティと想像力豊かな可能性をもたらす可能性を秘めています。

中国コンピュータ連盟が主催するこの会議は、中国のコンピュータ分野における最も包括的、最大規模、そして最も影響力のある学術、技術、教育、そして産業イベントです。「新たな生産性の開発、未来をリードするコンピューティング」をテーマに、チューリング賞受賞者、国内外の学者、コンピュータサイエンス分野の著名な専門家や教育者、起業家、そして専門家が一堂に会し、最新の学術的進歩、応用技術、革新的なコンセプトを共有するとともに、最先端の動向について議論します。

研究成果「TiVA:時間整合型ビデオ・オーディオ生成」は、今年7月に開催されたACM国際マルチメディア会議2024(ACM MM 2024)に採択され、口頭発表に採択されたと報じられています。この会議は、米国計算機学会(ACM)が主催するマルチメディア処理、分析、コンピューティング分野において最も影響力のある国際会議です。また、この研究成果は、国家発明特許(特許名称:音声生成方法、映像生成方法、装置、設備、媒体、公開番号 ZL 202410613827.3)を取得しました。

2023年6月、知徳舞科技は中国人民大学高陵人工知能学院の宋瑞華教授のチームと提携し、大規模モデルとAIコンテンツ作成に関する研究に注力しました。TiVAに加え、両社は近々、eコマース分野向けの共有ベース検索強化アーキテクチャ(BSharedRAG)やマルチモーダル知識強化視覚情報クエリ(MuKA)など、複数のAI研究成果を発表する予定です。

TiVAに関する研究は、主にマルチモーダルコンテンツの作成とインタラクションの分野に焦点を当てています。現在、マルチモーダルコンテンツ生成において、ビデオとオーディオの同期生成は依然として技術的な課題です。既存の方法の多くは、主に視覚と聴覚のモダリティの意味を一致させることに焦点を当てており、時間調整の点で正確な同期を実現できていません。Zhidemai Technologyは、中国人民大学のSong Ruihuaチームと共同で、新しい時間同期型ビデオからオーディオへの生成フレームワークであるTiVAを提案しました。このフレームワークは、オーディオレイアウトの概念を通じて、ビデオコンテンツから高品質のオーディオ生成を実現します。その中核は、オーディオレイアウトの革新的な使用にあります。低解像度のメルスペクトログラムを使用して大まかなオーディオ構造レイアウトを提供することで、モデルがサウンドの開始時間と終了時間をよりよく理解および予測できるようにし、より正確な時間調整を実現します。

(TiVAアーキテクチャ図と生成された結果の例)

宋瑞華氏はTiVAの実装手順について詳しく説明しました。TiVAは、音声情報表現形式として、極めて低解像度のメルスペクトルであるAudio Layout(オーディオレイアウト)を採用し、音声における粗粒度のセマンティック情報と時間情報を表現します。無音の動画では、まず視覚的なセマンティクスがエンコードされ、Audio Layoutが予測されます。次に、セマンティックにエンコードされ予測されたAudio Layoutを条件情報として用い、拡散モデルを学習して音声を生成します。「様々な客観的および主観的な実験により、私たちの手法は、生成品質、セマンティックマッチング、時間同期精度において、既存の最先端手法よりも優れていることが示されています」と宋瑞華氏は説明しました。

革新的なフレームワークTiVA、BSharedRAG、MuKAを用いた研究プロセス全体を通して、Zhidemai Technologyは不可欠なクラスターコンピューティング能力と高品質で匿名化されたデータサポートを提供しました。プラットフォームに蓄積された膨大な実ユーザー画像、動画、そして包括的なユーザー行動データは、研究者が現実世界の消費者によるインターネット検証シナリオを取得する上で役立ちました。実験結果では、TiVAはセマンティックマッチングと正確な時間同期を向上させ、生成速度を約40%高速化することが示されました。

イベントで宋瑞華氏は、この共同研究プロジェクトが技術的なブレークスルーを達成しただけでなく、学術研究と実用化の架け橋を築いたと述べました。この成功は、研究者の専門性と厳格さ、そして知徳邁科技による学術研究への支援と切り離せないものです。宋瑞華氏は、これが産学連携の模範となると確信しており、「双方が引き続き協力し、AIの新たなフロンティアを開拓し、学術研究と革新的な応用にさらなる価値をもたらすことを期待しています」と付け加えました。

テクノロジー主導型企業である志徳舞科技は、先進技術を駆使し、需要と供給の繋がりを効率化することに尽力しています。志徳舞科技は、高品質なコンテンツにはかけがえのない価値があり、消費者セクターにおいて、消費者の効率的な意思決定を支援するだけでなく、ブランドやプラットフォームのユーザー認知度向上にも効果的に貢献すると確信しています。そのため、志徳舞科技はテクノロジー主導のコンテンツ中心のアプローチを一貫して堅持しており、今回の提携は、AI技術を活用したコンテンツ制作の強化という有機的な組み合わせを表しています。

今年5月、知徳邁科技は包括的なAI戦略を正式に発表し、AIを基盤として既存の事業と製品を刷新・再構築しました。また、AIを活用してコンテンツ制作プロセスを刷新し、コンテンツ制作能力と品質を継続的に向上させています。知徳邁科技は独自のAI機能を構築するにあたり、「1つの大規模モデル、2つのデータベース、3つのエンジン、4種類のアプリケーション」からなるAI製品マトリックスを構築しました。さらに、「What's Worth Buying APP」を「AIネイティブ What's Worth Buying GEN2」にアップグレードし、「AI技術を用いてユーザーの個別化された興味関心に基づいてオンライン消費者コンテンツを収集、分析、精緻化、推奨する消費者コンテンツプラットフォーム」を構築しました。コンテンツ、製品、価格などの消費者情報を積極的に抽出・理解することで、消費者の興味関心に基づいた真の「答え」を提供します。すでに提供されているAIショッピングアシスタント「Xiao Zhi」は、ユーザーの意図を深く理解し、リアルタイムのオンライン消費者体験と電子商取引情報を要約し、評判の要約、製品比較、製品の推奨、オンライン価格比較などのサービスを提供することができます。

ワースバイテクノロジーは、自社のAI能力を継続的に向上させるだけでなく、多分野の外部パートナーとの連携にも注力し、「AI + Interest」を原動力とする消費者エコシステムを共同で構築しています。AIエコシステムでは、Lunar Dark Side、Zhipu Huazhang、iFlytek Spark、MiniMax、Tencent Cloud、Baidu Cloudなどの総合大型モデル企業と提携しています。コンテンツエコシステムでは、36Kr、Autohome、Guangdong Advertising Groupと提携しています。産学研連携では、中国人民大学、南開大学、CEIBS、中央財経大学ビジネス学院などの大学と連携し、AIイノベーション連携の新たな道を共同で模索しています。中国人民大学と共同研究した2つのAIイノベーション成果がまもなく発表されます。

今後、ワースバイテクノロジーは包括的なAI戦略を堅持し、より多くの分野の幅広いパートナーと協力して、学術、技術、商業におけるAIの革新と応用を探求し、AIエコシステムの革新的かつ協調的な開発を共同で推進し、消費者の情報が自由に流れるより良い世界の創造に貢献していきます。