世界最大のオープンソースビデオモデルが、Jieyue によって中国で作成されました。

ちょうど今、Jieyue Xingchen は Geely Automobile Group と協力して、2 つのマルチモーダル大型モデルをオープンソース化しました。

新しいモデルは全部で 2 つあります。

パラメータの点から世界最大のオープンソースビデオ生成モデルである Step-Video-T2V 。
業界初の製品レベルのオープンソース大規模音声インタラクションモデル「Step-Audio」

Multimodal Volume King は、マルチモーダルモデルのオープンソース化を開始しました。Step-Video-T2V は、最もオープンで寛容な MIT オープンソースライセンスを使用しており、自由な編集と商用アプリケーションが可能です。

(いつものように、GitHub、Hugface、Moda Express は記事の最後で入手できます。)

2つの大規模モデルの開発中、両者はコンピューティング能力アルゴリズムやシーントレーニングなどの分野で互いの強みを補完し、「マルチモーダル大規模モデルのパフォーマンスを大幅に向上させた」という。

公式技術レポートによると、2 つのオープンソースモデルはベンチマークで優れたパフォーマンスを発揮し、国内外の同様のオープンソースモデルを上回りました。

ハグフェイスの公式アカウントも中国地域責任者による絶賛のコメントをリポストした。

重要なポイント: 「次の DeepSeek」と「巨大な SoTA」。

まあ、本当に？

この記事では、QuantumBit が技術レポートを分析し、その評判通りであるかどうかを直接テストします。

QuantumBit は、新しいオープンソースモデルの両方が Yuewen アプリに統合され、誰でも体験できるようになったことを確認しました。

マルチモーダルボリュームキングがマルチモーダルモデルを初めてオープンソース化

Step-Video-T2V と Step-Audio は、StepStar の最初のオープンソースマルチモーダルモデルです。

ステップビデオT2V

まず、ビデオ生成モデル Step-Video-T2V を見てみましょう。

30 バイトのパラメータを持ち、世界的に知られている最大のオープンソースビデオ生成モデルであり、中国語と英語の両方の入力をネイティブにサポートします。

公式紹介によると、Step-Video-T2V には主に 4 つの技術的特徴があります。

まず、最大フレームレート 204 フレーム、解像度 540P のビデオを直接生成できるため、生成されたビデオコンテンツの一貫性と情報密度が極めて高くなります。

第二に、高圧縮のVideo-VAEを設計し、動画生成タスク向けに学習させました。動画再構成の品質を確保しながら、空間次元で16×16倍、時間次元で8倍の圧縮率を実現します。

現在市場に出回っているほとんどのVAEモデルの圧縮率は8x8x4です。Video-VAEは同じビデオフレーム数でさらに8倍の圧縮率を実現し、学習と生成の効率を64倍向上させます。

3 つ目に、Step-Video-T2V は、DiT モデルのハイパーパラメータ設定、モデル構造、トレーニング効率に関して徹底的なシステム最適化を実施し、トレーニングプロセスの効率と安定性を確保しました。

4 番目に、トレーニング前とトレーニング後を含む完全なトレーニング戦略の詳細を示し、トレーニングタスク、学習目標、各段階でのデータ構築と選択方法を網羅しています。

さらに、 Step-Video-T2V は、トレーニングの最終段階で、ビデオ生成の品質をさらに向上させ、生成されたビデオの合理性と安定性を高めることができるビデオ生成用の RL 最適化アルゴリズムである Video-DPO (ビデオ設定最適化) を導入しています。

最終的な目標は、生成されたビデオの動きをよりスムーズにし、詳細をより豊かにし、コマンドの配置をより正確にすることです。

オープンソースのビデオ生成モデルの性能を総合的に評価するため、テキストベースのビデオの品質を評価するための新しいベンチマークデータセットであるStep-Video-T2V-Evalもリリースされました。

データセットもオープンソース化されています。

実際のユーザーからの 128 の中国語のレビュー質問が含まれており、スポーツ、風景、動物、複合概念、シュールレアリズムなど、11 のコンテンツカテゴリにわたって生成されたビデオの品質を評価するように設計されています。

Step-Video-T2V-Eval による評価結果を次の図に示します。

ご覧のとおり、Step-Video-T2V は、命令のコンプライアンス、動きの滑らかさ、物理的な妥当性、美しさの点で、これまでの最高のオープンソースビデオモデルを上回っています。

つまり、この新しい最も強力な基本モデルに基づいて、ビデオ生成の分野全体を研究し、革新できるということです。

実際の効果については、StepLeap からの公式説明は次のとおりです。

生成効果の面では、Step-Video-T2Vは、複雑なモーション、美しい文字、視覚的な想像力、基本的なテキスト生成、ネイティブの中国語と英語のバイリンガル入力、カメラ言語など、強力な生成機能を備えています。また、優れた意味理解能力と指示遵守能力を備えており、ビデオクリエイターが正確でクリエイティブなプレゼンテーションを効率的に実現できるよう支援します。

何を待っていますか？実際のテストを始めましょう！

公式の説明に従って、最初のテストでは、Step-Video-T2V が複雑な動きを処理できるかどうかを確認します。

以前のビデオ生成モデルでは、バレエ、社交ダンス、中国舞踊、新体操、空手、格闘技などの複雑なスポーツクリップを生成するときに、奇妙で異常なビジュアルが生成されることが多くありました。

例えば、突然3本目の足が現れたり、腕が交差して合体したりと、かなり怖いです。

このような状況に対処するために、Step-Video-T2V にプロンプトを送信して対象を絞ったテストを実施しました。

屋内バドミントンコートを目線の高さから撮影し、固定カメラでバドミントンをする男性の様子を捉えている。赤い半袖シャツと黒いショートパンツを着た男性が、緑色のバドミントンコートの中央に立ち、ラケットを持っている。コートにはネットが張られており、2つのエリアに分かれている。男性はラケットを振り、シャトルコックを反対側に向けて打ち出している。照明は明るく均一で、鮮明な映像となっている。

すると次のようになります:

シーン、登場人物、カメラアングル、照明、動きがすべて完璧に一致しています。

QuantumBit が Step-Video-T2V に課した 2 番目の課題は、「美的に魅力的な文字」を含む画像を生成することでした。

正直に言うと、テキストベースの画像処理モデルによる画像生成の現在のレベルは非常に高いため、静止画像や局所的な詳細に関しては人々を完全に騙すことができます。

ただし、ビデオ生成中にキャラクターが動くと、識別可能な物理的または論理的な欠陥が依然として残ります。

Step-Video-T2Vのパフォーマンスに関しては、

プロンプト：黒いスーツ、黒いネクタイ、白いシャツを着た男性。顔には傷があり、陰鬱な表情をしている。クローズアップショット。

「あまりAIっぽい感じがしません。」

これは、QuantumBit編集チームが動画を一通り読んだ後の、小帥に対する満場一致の評価です。

顔の特徴は整っており、肌の質感もリアルで、顔には傷跡がはっきりと見えるため、「あまり AI らしくない」とのこと。

リアルではあるが、主人公は虚ろな目と硬い表情で「AI感がない」わけではない。

上記の両方のテストでは、Step-Video-T2V を固定カメラ位置に維持します。

では、押されたり、引っ張られたり、揺らされたり、傾けられたりしたとき、どのように動作するのでしょうか?

3 番目のチャレンジでは、パン、チルト、回転、追跡などのカメラの動きに対する Step-Video-T2V の習熟度がテストされます。

回転させたい場合は、回転します。

動いて追従するように指示すると、自動的に動いて追従します。

全然悪くない！ステディカムを肩に担いで、撮影現場でカメラワークの達人になれる（実際はそうでもないけど）。

いくつかのテストを行った後、生成された結果から答えがわかります。

評価結果が示すように、Step-Video-T2V は意味理解と指示遵守に優れています。

基本的なテキスト生成も簡単に処理できます。

ステップオーディオ

もう 1 つのオープンソースモデルである Step-Audio は、業界初の製品グレードのオープンソース音声インタラクションモデルです。

StepEval が構築しオープンソース化した多次元評価システムである StepEval-Audio-360 ベンチマークにおいて、Step-Audio は、論理的推論、創造力、コマンド制御、言語能力、ロールプレイング、ワードゲーム、感情的価値など、すべての側面で最高の結果を達成しました。

LlaMA Questions や Web Questions を含む 5 つの主要な公開ベンチマークデータセットにおいて、Step-Audio は業界の同様のオープンソースモデルを上回り、第 1 位にランクされました。

ご覧のとおり、HSK-6（中国語能力検定6級）の評価におけるパフォーマンスは特に優れています。

実際の測定値は次のとおりです。

Step-Audioチームは、Step-Audioはさまざまなシナリオのニーズに応じて感情、方言、言語、歌、パーソナライズされたスタイルで表現を生成し、ユーザーと自然で高品質な会話をすることができると説明しました。

同時に、それによって生成される音声は、リアルで自然、高い感情知能を備えているという特徴があるだけでなく、高品質の音色の再現とロールプレイングも実現できます。

つまり、Step-Audio は、映画やエンターテインメント、ソーシャルネットワーキング、ゲームなどの業界におけるアプリケーションのニーズを完全に満たします。

オープンソースのエコシステムは急速に拡大しています。

まあ、一言でまとめると、「抜け目がない」です。

ステップ遷移は、特にその得意分野であるマルチモーダルモデルにおいて、実に印象的です。

Step シリーズのマルチモーダルモデルは、発売以来、国内外の主要な権威あるレビューコレクションやアリーナで常にトップパフォーマーとして評価されてきました。

過去 3 か月だけを見ても、この国は何度もトップに立っています。

昨年11月22日、大型モデルアリーナの最新ランキングで、マルチモーダル理解大型モデルStep-1Vがランクインし、総合得点はGemini-1.5-Flash-8B-Exp-0827と同等となり、視野分野における中国大型モデルのトップにランクインした。
今年1月、新発売のStep-1oシリーズモデルが、国内大型モデル評価プラットフォーム「Sinan」（OpenCompass）におけるマルチモーダルモデル評価リアルタイムランキングで1位を獲得しました。
同日、大型モデルアリーナの最新ランキングでは、マルチモーダルモデルのStep-1o-visionが国内大型モデル視覚分野で1位を獲得した。

第二に、ステップベースのマルチモーダルモデルは、高いパフォーマンスと品質を誇るだけでなく、研究開発の反復頻度も高いという特徴があります。

これまでに、LeapStar は 11 種類のマルチモーダル大型モデルをリリースしました。

先月、言語、会話、視覚、推論の全トラックを網羅した6つのモデルが6日間で発表され、マルチモーダルテストの王者としての地位をさらに確固たるものにしました。

今月、さらに 2 つのマルチモーダルモデルがオープンソース化されました。

このリズムが維持され続ける限り、「完全なスキルを備えたマルチモーダルプレーヤー」としての地位を証明し続けることができる。

強力なマルチモーダル機能を備えたStep APIは、2024年以降、市場や開発者に広く認知され、採用され、巨大なユーザーベースを形成しています。

茶白道などの大衆消費財については、全国の数千の店舗がStep-1Vマルチモーダル理解ビッグデータモデルに接続され、茶飲料業界でのビッグデータモデル技術の応用を模索し、インテリジェント検査とAIGCマーケティングを実施しています。

公開データによれば、大規模なインテリジェント検査システムの保護の下、平均して毎日数百万杯のお茶飲料が消費者に届けられています。

Step-1V により、Tea Hundreds の監督者は毎日の自己検査と検証の時間を平均 75% 節約でき、お茶飲料の消費者にさらに安心できる高品質のサービスを提供できます。

人気AIアプリ「胃之図鑑」やAI心理ヒーリングアプリ「森の雑談室」などの独立系開発者は、国内のほとんどのモデルでA/Bテストを行った結果、最終的にStep Multimodal Model APIを選択しました。

（ひそひそ話：有料コンバージョン率が最も高いから）

具体的なデータによると、2024 年後半には、Step Multimodal Large Model API の呼び出し回数が 45 倍以上増加しました。

さらに、このオープンソースリリースは、マルチモーダルモデルに関する Step 独自の専門知識に基づいています。

同社は既に高い評価と多数の開発者を抱えていることが分かりました。このオープンソースプロジェクトは、モデル側からの将来的なより深い統合を既に検討しています。

一方、Step-Video-T2V は、最もオープンで寛容な MIT オープンソースライセンスを採用しており、自由な編集と商用アプリケーションが可能です。

「何も隠すことはない」とも言える。

一方、Jieyueは「業界へのアクセス障壁を下げるためにあらゆる努力をしている」と述べた。

Step-Audioを例に挙げましょう。市場に出回っている他のオープンソースソリューションは再導入や再開発が必要ですが、Step-Audioはリアルタイムダイアログを簡単に導入できる完全なリアルタイムダイアログソリューションです。

1 秒あたり 0 フレームからのエンドツーエンドのエクスペリエンスをお楽しみください。

この一連の取り組みを通じて、StepStar とそのマルチモーダルモデルの切り札を中心に、独自のオープンソーステクノロジーエコシステムが初めて形成されました。

このエコシステムでは、テクノロジー、創造性、商業的価値が絡み合い、マルチモーダルテクノロジーの開発を共同で推進します。

さらに、ステップモデルの継続的な研究開発と反復、開発者の迅速かつ継続的な統合、エコシステムパートナーの支援と相乗効果により、ステップエコシステムの「雪だるま効果」はすでに発生しており、成長を続けています。

中国のオープンソース勢力は肩を並べて立ち、その強さを自ら証明している。

かつて、大規模モデルの主要なオープンソースプロジェクトといえば、Meta の LLaMA や Albert Gu の Mamba が思い浮かびました。

今、中国の大型模型産業におけるオープンソースの能力が世界の舞台で輝き、その力で「ステレオタイプ」を書き換えていることは疑いの余地がない。

巳年の旧正月前夜である1月20日は、国内外の一流模型メーカーが競い合う日だった。

最も注目すべきは、この日にDeepSeek-R1が打ち上げられたことです。その推論性能はOpenAI o1に匹敵しますが、コストは後者の3分の1しかありません。

その影響は非常に大きく、NVIDIAは一夜にして5,890億ドル（約4兆2,400億人民元）の損失を出し、米国株の1日あたりの下落率としては過去最大を記録した。

さらに重要で、さらに驚くべきことは、R1 が何億人もの人々を興奮させるレベルにまで上り詰めた理由は、その優れた推論能力と手頃な価格だけではなく、そのオープンソースの性質によるところもあるということです。

これは大きな議論の波を引き起こし、長らく「もはやオープンではない」と揶揄されてきたOpenAIでさえ、CEOのアルトマン氏が何度か公の場で声明を発表した。

アルトマン氏は、「オープンソースの重み付けAIモデルの問題に関しては、（私の意見では）我々は歴史の間違った側にいる」と述べた。

彼はさらに、「世界には人々に多くの価値を提供できるオープンソースモデルが本当に必要です。世界にはすでに優れたオープンソースモデルがいくつか存在していることを嬉しく思います」と語った。

現在、StepLeap は新たな切り札のオープンソース化も開始しています。

そしてオープンソースこそが本来の意図でした。

公式声明によると、Step-Video-T2VとStep-Audioをオープンソース化する目的は、大規模モデル技術の共有と革新を促進し、人工知能の包括的な発展を推進することだという。

オープンソースは、デビューと同時に、複数のベンチマークデータセットでその強さを示しました。

現在のオープンソースの大規模モデルの分野では、強力な推論機能を備えた DeepSeek、マルチモーダルアプローチを備えた Step、そしてその他さまざまな継続的に進化するプレーヤーが存在します...

彼らの強さはオープンソースコミュニティーにおいて傑出しているだけでなく、モデルコミュニティー全体においても非常に印象的です。

—中国のオープンソース能力は、当初台頭した後、現在さらに進歩しています。

StepLeap のオープンソースリリースを例に挙げると、これはマルチモーダル技術における画期的な進歩であり、世界中の開発者の選択ロジックを変えています。

Eleuther AIなど、オープンソースコミュニティで活躍する多くの影響力のある技術者が、オープンソースに対する中国への感謝の意を表し、ステップモデルのテストを自主的に行っています。

Hugface Chinaの責任者である王鉄真氏は、StepLeapが次の「DeepSeek」になると明言した。

「技術革新」から「生態学的開放」まで、中国の壮大なモデルはますます着実に前進している。

とはいえ、StepLeap によるこのオープンソースのデュアルモデルアプローチは、2025 年の AI 競争における単なる脚注に過ぎないかもしれません。

より深いレベルでは、これは中国のオープンソース能力に対する技術的な自信を示し、次のようなシグナルを送っています。

大規模 AI モデルの将来の世界では、中国の強さが発揮され、他国に遅れをとることは決してないでしょう。

【ステップビデオT2V】

GitHub:
https://github.com/stepfun-ai... （ハグ顔）
https://huggingface.co/stepfu... モデル範囲:

https://modelscope.cn/models/... からの技術レポート

ビデオはこちらからアクセスしてください: https://arxiv.org/abs/2502.10248 (ビデオへのリンク: https://yuewen.cn/videos)

【ステップオーディオ】

GitHub:
https://github.com/stepfun-ai... （ハグ顔）
https://huggingface.co/collec... モデル範囲:
https://modelscope.cn/collect... 技術レポート:
https://github.com/stepfun-ai...

618ZXW

世界最大のオープンソースビデオモデルが、Jieyue によって中国で作成されました。

マルチモーダルボリュームキングがマルチモーダルモデルを初めてオープンソース化

ステップビデオT2V

ステップオーディオ

オープンソースのエコシステムは急速に拡大しています。

中国のオープンソース勢力は肩を並べて立ち、その強さを自ら証明している。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ