|
Volcano Engineは10月15日、ビデオクラウドテクノロジーカンファレンスにおいて、大規模モデル学習のための動画前処理ソリューションを発表しました。このソリューションは、大規模動画モデルの学習におけるコスト、品質、パフォーマンスといった技術的課題の解決に貢献します。現在、このソリューションはDoubao動画生成モデルに適用されています。 イベントでの挨拶で、Volcano Engine社長のタン・ダイ氏は、AIGCやマルチモーダルコンピューティングといった技術の推進により、ユーザーエクスペリエンスは多方面にわたって大きな変化を遂げていると述べました。「Douyinのビジネスプラクティスと業界顧客との共創に基づき、Volcano Engine Video CloudはAIビッグデータモデルとビデオ技術の深層統合を積極的に模索し、技術基盤、処理リンク、そしてビジネス成長の面で企業向けのソリューションを模索しています」とタン・ダイ氏は述べました。 自社開発のマルチメディア処理フレームワーク BMF は、Doubao のビデオ生成モデルが業界の課題を克服するのに役立ちます。前述の通り、学習動画の前処理は、大規模モデルの学習効果を確保するための重要な前提条件です。前処理プロセスでは、動画データ形式の標準化、データ品質の向上、データの標準化、データ量の削減、ラベル情報の処理などを行います。これにより、モデルは動画から特徴や知識をより効率的に学習できるようになり、学習効果と効率が向上します。 Douyinグループのビデオアーキテクチャ責任者である王悦氏は、大手モデルメーカーは上記のプロセスで多くの課題に直面していると述べた。 「まず、膨大なビデオトレーニングデータセットは、コンピューティングと処理コストの急増につながります」とWang Yue氏は述べています。「次に、ビデオサンプルデータの品質は一定ではありません。さらに、処理チェーンには多くのリンクがあり、エンジニアリングは複雑です。最後に、GPU、CPU、ARMなど、さまざまな異種コンピューティングリソースのスケジュール設定と展開という課題があります。」 Douyin Group のビデオ アーキテクチャ責任者である Wang Yue 氏は、Volcano Engine を使用して大規模モデルをトレーニングするためのビデオ前処理ソリューションを紹介しました。 Volcano Engineが新たにリリースした大規模モデルトレーニング用ビデオ前処理ソリューションは、IntelのCPUなどのリソースを活用し、自社開発のマルチメディア処理フレームワークBMFをベースとしており、モデルトレーニングにおける計算コストの課題を効果的に解決します。さらに、このソリューションはアルゴリズムとエンジニアリングの面で最適化されており、膨大な量のビデオデータを高品質に前処理し、処理チェーン全体で短時間で効率的な連携を実現することで、モデルトレーニングの効率を向上させます。注目すべきことに、Volcano Engineはモバイル後処理ソリューションであるBMF liteもリリースし、オープンソース化しました。BMF liteは、クライアント側での大規模モデルアクセスとオペレーターアクセラレーションをサポートし、より軽量で汎用性に優れています。 Bytedance Researchの責任者であるLi Hang氏は、PixelDanceの動画生成モデルは、トレーニング時にVolcano Engineの大規模モデルトレーニング用動画前処理ソリューションを活用し、豊富な潮汐リソースを最大限に活用することで、モデルのトレーニングを強力にサポートしていると説明しました。Volcano Engineの動画クラウドチームが提供するオンデマンドソリューションは、PixelDanceの動画の編集、アップロード、トランスコード、配信、再生まで、動画ライフサイクル全体にわたるワンストップサービスを提供し、モデルの商業的応用を確実なものにしています。 Doubao動画生成モデル「PixelDance」が9月24日にリリースされたと報じられています。このモデルはDiTアーキテクチャを採用し、効率的なDiT融合コンピューティングユニットと新設計の拡散モデル学習法によって、複数の動被写体を含む複雑なインタラクションや複数のカメラショットにわたるコンテンツの一貫性といった課題を克服しており、業界で大きな注目を集めています。現在、Doubao動画生成モデルはVolcano Engineを通じて企業向けテストに公開されています。 複数の「オーディオ・ビデオ + AI」テクノロジーソリューションは、企業がバリューチェーン全体にわたって AIGC 時代に適応するのに役立ちます。このイベントで、Volcano Engine は、多言語同時音声複製ライブストリーミングソリューション、マルチモーダルビデオ理解および生成ソリューション、会話型 AI リアルタイムインタラクションソリューション、AIG3D および大規模シーン再構築ソリューションもリリースし、ビデオ制作、インタラクション、消費チェーン全体にわたって AI 機能を統合しました。 Volcano Engine Video Cloudの責任者であるYongyuan氏は、AIビデオの時代には、人間とAIの相互作用がよりダイナミックで鮮明になり、処理リンクがよりインテリジェントでインタラクティブになる必要があると指摘した。 会話型AIリアルタイムインタラクションソリューションを例に挙げると、Volcano EngineはDoubaoビッグモデルとVolcano Engineビデオクラウドによって開発された複数のアルゴリズムを活用し、ユーザーにインテリジェントな対話と自然言語処理の強力な機能を提供し、ミリ秒レベルの人間の音声検出と中断応答、そしてスムーズで安定したエンドツーエンドの応答エクスペリエンスを実現します。 没入型の消費体験という点では、Volcano EngineはAIを活用した3Dコンテンツ生成と大規模なシーン再構築ソリューションによって、山西省高平市二朗寺の金朝舞台と北京市政益寺という2つの貴重な歴史的建造物の3Dデジタルアセットを作成しました。これらのアセットは、仮想ライブストリーミングルームの形でDouyinのオペラライブストリーミングシナリオに適用されました。 カンファレンスで、王悦氏はByteDanceが自社開発したビデオコーデックチップの最新開発状況も発表しました。Douyinグループ内での実用検証の結果、このチップはビデオ圧縮効率を維持しながら95%以上のコスト削減を実現しました。また、2024年MSU世界エンコーダーコンペティションで最優秀ASICエンコーダー賞を受賞しました。 王悦氏は、このチップはまもなく正式にテスト用に公開され、最初のシードユーザーを募集して共同でその商業的価値の再現性を探る予定だと述べた。 Volcano Engine Video Cloud チームは、ByteDance にオーディオおよびビデオ テクノロジーを提供し、Volcano Engine を通じて外部クライアントにサービスを提供しています。 |
Volcano Engineは、大規模モデルトレーニング用のビデオ前処理ソリューションをリリースし、Doubaoビデオ生成モデルに適用しました。
関連するおすすめ記事
-
アマチュアが 40 年前のチューリング マシンの問題を解決する; テレンス タオ: ソフトウェア支援による証明がルールを変える。
-
結局のところ、自動車製造は誰が最も良いコネを持っているかにかかっている。アビタは親会社3社とともに110億元を簡単に調達したが、2社間の取引はあっという間に破綻した。
-
TeleAI の「複雑推論大規模モデル」は、O1 プレビューよりも高いスコアを獲得し、競争レベルの数学的パフォーマンスを達成しました。
-
アルトマン氏は株式取得を否定している!しかし、OpenAIの投資家たちは、CEOの利益と会社の利益を一致させるため、アルトマン氏への株式譲渡を主張している。
-
LLMで100万レベルのドメイン知識グラフをワンクリックで生成!USTCの新しいフレームワークがACL 2024に選出
-
たった 2 行のコードで、DeepSeek との音声対話が可能になり、1 分あたり 1 セント未満のコストで、あらゆる大規模モデルが話せるようになります。