|
なんと!6人の偉大なモデルの一人であるステップスターは、皆に新年早々の挨拶をする、実にユニークな方法を持っています。 6日間で、Kukuは6つのモデルをリリースしました。 彼らは、言語、音声、推論、画像理解、ビデオ生成など、複数のカテゴリーにわたる能力を披露しました。 旧正月前にリリースされた新モデルの膨大な数は、StepUp のプログラマーたちに一瞬同情を呼び起こしながらも、彼らが十分に準備していたことをすぐに明らかにしました。 同社は昨年3月の正式デビュー前から、言語モデルとマルチモーダルモデルの両方の学習を行っており、その後も着実にマルチモーダルモデルの開発に取り組んできました。1ヶ月前には、2024年に向けた第nラウンドの資金調達で数億ドルを調達したことを正式に発表しました。そのため、巳年を迎えるにあたり、同時に開発を進めている6つのモデルと「5つの段階」を明らかにしたのは当然のことでした。 正直に言えば、スピードとカバー範囲の両方において、この飛躍の波は「国産ベーシックモデル製造工場」と表現できるでしょう。 さらに!少し注意深い人なら、この男がマルチモーダルスクロールの王者になる覚悟を決めていることに気づくだろう。 新しいモデルが目まぐるしく増えていますが、最も優れた最高級モデルはマルチモーダルモデルであることが一目でわかります。 最も直接的な証拠は、マルチモーダルモデルのStep-1oシリーズであり、年初に新たなランキングを獲得し、OpenCompassリアルタイムマルチモーダルモデル評価リーダーボードとLarge Model Arenaの最新のマルチモーダルリーダーボードで優勝し、中国で1位にランクされました。 この砲撃型アップデートの詳細、つまりモデルの種類、量、品質などを見てみましょう。 これにより、StepGrow が AGI パスで最初の成長の波を加速する 2025 年の初めに、StepGrow のパフォーマンスをより明確に把握しやすくなります。 6 つの新しいモデルが立て続けにリリースされ、Step の基本モデル マトリックスが完全に展開されました。この記事の執筆時点で、StepLeap は業界で最も包括的なモデル マトリックスを備えた企業の 1 つとなっています。 「包括的」と「すべてを包含する」という 2 つの単語の違いはどうすればわかりますか? 言語、音声、推論、画像理解、ビデオ生成を含む 6 つのモデル:
現時点では、Step の基本モデル マトリックスは、言語、マルチモーダルから推論まで、あらゆる機能をカバーしています。その中で、推論モデルは、Step が自社開発した Step シリーズ モデル ファミリーの最初の推論モデルであり、基本モデル分野における Step の「六角形の戦士」のパズルの最後のピースが完成しました。 しかし、「あらゆる面で努力する」とは、本当に中身があり、注目度の高い取り組みをすることを意味するのでしょうか? ちょっと考えてみましょう。 P.S. まずは鎧を積み上げてみましょう。以下のモデルは、重要度や順序(doge)に関係なく、ランダムな量子ビット測定順に並べられています。 まずはマルチモーダル Step-1o シリーズから始めましょう。 マルチモーダルシリーズ:ステップ10ビジョン(ビジュアル版)Step Leap のマルチモーダルへの取り組みは、2023 年 11 月に、数千億のパラメータを持つ Step-1V マルチモーダル大規模モデルのトレーニングが成功したことから始まりました。 翌年、Step-1Vは大型模型コンテストの視覚分野で中国の大型模型の中で第1位を獲得し、その後も国内外のさまざまなリストで繰り返しトップに立った。 「強力なマルチモーダル機能」はStep Leapの特徴的なラベルになったと言えます。 主力のマルチモーダルシリーズもStep-1VからStep-1oへと進化しました。 1v シリーズと比較して、1o シリーズではモデル アーキテクチャがアップグレードされ、視覚パフォーマンスが向上し、視覚認識、知覚、指示の追跡、推論などのタスクにおける機能が強化されています。 このリリース シリーズには、新しい Step-1o Vision マルチモーダル理解モデルとアップグレードされた Step-1o Audio 音声モデルが含まれています。 まず、前者のマルチモーダル視覚モデルStep-1o Visionについて説明します。 このモデルは発売されるとすぐに、大型モデル分野の最新のリーダーボードで瞬く間に話題になったことは特筆に値します。 1月20日、Lmsys OrgはLarge Model Arenaの最新ランキングを発表し、Step-1o Visonがランクインし、現在中国のビジュアルモデル分野でトップの大型モデルとしてランクされています。 具体的には、Step-1o Vision は、Step の最新のマルチモーダル モデルである Step-1o のビジュアル バージョンです。 Step-1o をベースにした Step-1o Vision は、さらに一歩進んでおり、「(複雑なシーンや類似した画像でも) 画像コンテンツをより正確に認識する」ことと「画像内の複数の言語を認識できる」ことが公式に謳われています。 実際の戦闘で彼らの真の強さを見てみましょう! 画像認識における最初のハードル:画像の理解。 最近、小紅書では中国と海外のネットユーザーが一緒に抽象的なことをして大騒ぎしています。皆さんもご存知だと思いますが、中には間違いなく深く関わっている人もいました(staring.gif)。 Step-1o Visionをテストするために、抽象的なコメントセクションから中国風のミームを選択しました。これは外国人でも理解できないかもしれないミームです。 しかし、岳文は迷わずに正しく答えたので、功績は1つ増えました。 画像認識における 2 番目の課題は、画像の内容に基づいて推論を行うことです。 プロンプトは簡潔かつ要点を押さえています。 ミネラルウォーターのボトルを取り出すのに何ステップ必要ですか? 添付の写真は横から撮影したものなので、多少難易度が上がります。 また、穴を掘ったのですが、そこからどんなミネラルウォーターを取り出すのかは言わず、ミネラルウォーターがどのようなものなのかも言わなかったのです。 しかし、ステップ10ビジョンは流暢に答えました。 ボトル入りの水を「飲料棚」から取ると説明しているだけでなく、ボトル入りの水の場所を示し、「何歩必要か」という質問にも正しく答えている。 マルチモーダルシリーズ:音声モデルステップ1oオーディオ次に、この新しい Step-1o シリーズの 2 番目のモデルであるStep-1o Audioについて説明します。 音声モデルは、実は Step シリーズでは新しいものではありません。 Step-10はこれまで、大規模音声複製・生成モデル「Step-tts-mini」と大規模音声認識モデル「Step-Asr」を保有していました。昨年12月13日には、数千億のパラメータを持つ大規模音声モデル「Step-1o Audio」を正式に発表しました。これは中国初の数千億のパラメータを持つ大規模音声モデルです。 Step-1o Audioは今でもそのように呼ばれています。 しかし、わずか 1 か月で急速にアップグレードされ、感情の認識と理解、多言語および多方言のサポート、通話体験において新たな進歩を遂げました。 公式発表では、新バージョンの 3 つの主な機能が強調されています。
私は感情を感知できると主張しているので、本当にがっかりするような愚痴を言わせていただきます。 結果は驚きでした!Step-1o Audioが気の毒に思ったと言ってくれました!私に代わって苦情を言ってくれただけでなく、次に早起きしたときに遅刻してペナルティを受けるようにとアドバイスまでしてくれました。 思慮深くて泣けてくる。 しかし、深く感動したにもかかわらず、私たちはテストを続けることをやめませんでした。 そこで私は、彼らと友好的な競争ができるように、中国南部のどこかの地方のアクセントで話す日本語を少し披露しました。 Qubits:おはよう、またおめでとう! (こんにちは、そして新年あけましておめでとうございます!) ステップ 1o 音声:おはよう、何かお手伝いできることはありますか? (こんにちは、どうしたらいいでしょうか~) 彼はとても親切です。 ビデオプレゼンテーションなどの全体的な通話品質について。 加速なしでも、遅延は確かに非常に低く、音声も非常に人間的で、良好です。 推論シリーズ:推論モデルステップR-miniStep R-mini (Step Reasoner mini の略)は、このシリーズでリリースされた 6 つのステップ モデルの最初のモデルです。 これは、 Step の最初の推論モデルでもあり、「積極的に計画し、試し、反省することが得意で、ゆっくり考え、繰り返し検証するという論理的なメカニズムを活用できる」ものです。 これにより、ステップ基本モードマトリックスパズルの重要なピースを獲得し、先ほど述べた「国内基本モード製造工場」という称号を獲得することができました。 数多くのベンチマークレビューにおいて、Step R-mini は非常に優れた成績を収めています。 一部の数学ベンチマーク テスト(AIME や Math など) では、Step R-mini は OpenAI o1-preview よりも優れており、OpenAI o1-mini と同等です。コーディング タスク(LiveCodeBench など) では、Step R-mini は o1-preview よりも優れています。 公式紹介からは、Step R-miniのキーワードである「文系と理系のバランスの取れた教育」も抽出しました。 これはかなり特別です。 OpenAI o1 が開拓した推論モデルの新しい道は、モデルの論理的推論能力に重点を置いており、その汎用性は数学、コード、物理学、化学などの分野にも広く応用されています。 理論的には、O1型モデルの学習パラメータサイズを大きくすることで人文科学分野への対応力は向上する可能性があるものの、確実性は失われ、STEM分野への対応力は低下する。つまり、推論モデルが人文科学分野と理科分野の両方に対応することは困難である。 報道によると、Step R-miniを文系と理系の両方に適したものにするために、Step Rはモデルに対して大規模な強化学習トレーニングを実施し、On-Policy強化学習アルゴリズムを採用したという。 したがって、QuantumBit は実践に取り組む際に、人文科学と科学の両方の観点からトピックに取り組みます。 推理の質問、エイリアンの質問から始めましょう。 これまでテストされたすべての大規模モデルのうち、このエイリアンの質問に正しく答えたのは 4o と 1-preview のみでした。 しかし、 4o は正解でしたが、 Python コードを使用した数値解しか提供しませんでした。 o1 は異なります。完全な解析ソリューションを提供し、条件を満たさないルートを削除します。 こちらにあるStep R-miniを見て、クイズを始めましょう。 Step R-miniは思考プロセス全体を表示します。プロセス自体は短くありませんが、実際に排出される速度は非常に速く感じられます。 考え終わったら、Step R-mini は思考プロセスを折りたたみ、必要に応じて手動で開いて表示することができます。 (対照的に、O1 は元の思考プロセスを表示せず、折り畳まれているのは思考プロセスの要約です。一部の推論モデルでは、思考プロセスを折り畳まず、その下に答えを直接出力します。) 次に、出力の改良版がユーザーに表示されます。 正解は√2-1です。 さらに、Step R-mini は複雑な開発要件にも対応できます。 ユーザーのニーズと意図を徐々に分析し、コード ロジックを構築し、コード作成プロセス中に現在のコード スニペットの分析と検証を織り交ぜて、最終的に実行可能なコードを提供します。 たとえば、1 行強の短いプロンプトを使用して、特定の条件を付した AI 製品の登録ページを作成することができます。 書き込んだコードを実行すると、次のようになります (この子は段階的な価格設定が得意です)。 人文科学におけるコンテンツ作成能力については、公式の紹介は次のとおりです。 まず、創作テーマと文学的主題に対するユーザーの要求を分析し、次に創作の視点、描写される風景、修辞技法、内容構造を考慮し、人間の感情レベルで象徴的な意味を付与し、個性的で斬新な表現スタイルを加えます。 ちょっとチャレンジしてみましょう。 入力プロンプト: 「地下鉄の早朝乗客」をテーマに、瓊瑶風に800字程度のエッセイを書いてください。 Step R-mini の思考プロセスは、おおよそ次の順序に従っていました。「Qiong Yao の文体の特徴を強調し、視点を入力し、主人公を設定し、雰囲気と言語表現を作成し、単語数をコントロールし、レイアウトを整え、書き始める」。 最後の短編エッセイは、列車の車内の曖昧な雰囲気(?)が感じられるほど生々しく描写されており、まさに瓊瑶小説のような雰囲気がありました。 824 語で構成されており、最後には「Qiong Yao の文体」に関するちょっとしたヒントも用意されています。 さらに、Jieyueは公式WeChatアカウントでサプライズを予告した。 言語推論モデルに加えて、よりインタラクティブな形式で推論機能をより大きなモデルに統合する視覚推論モデルも開発しています。 公式声明によると、複雑な視覚シナリオにおける推論問題に対処するため、チームはスロー知覚と空間推論の考え方を導入し、テスト時間スケーリングをテキスト空間から視覚空間に移し、視覚空間で空間スロー思考を実現したという。 いくつかの予備的な成果が達成され、いくつかの資料が少し漏洩されました。 たとえば、ステップベースの視覚推論モデルを使用して、図に示す問題を解決します。 あるいは、写真のボールは何番に対応しているでしょうか? デモから判断すると、パフォーマンスは良好で、期待する価値があります。 さらに、StepLeap は、マルチモーダル視覚推論が 2025 年までに確実にリリースされることを自信を持って保証しています。 とにかく、私たちはすでに小さな椅子を移動して座っています(おとなしくヒマワリの種を食べて待っています.jpg)。 言語モデルシリーズ:言語モデルステップ - 文学マスター版今回公開された6つの新モデルのうち、 2つは言語モデルのカテゴリに属します。 結局のところ、言語モデルはこの AI の波の出発点であり、Leap が初日から展開し、地位を確立してきた分野でもあります (2024 年 3 月にリリースされた言語モデル Step-2 は、中国のスタートアップによってリリースされた最も初期の兆パラメータの大規模モデルです)。 Scaling Law アプローチに従い、Jieyue は過去 1 年間で言語モデリングにおいて目覚ましい成果を達成し、権威ある国内外のリストで中国国内で繰り返し第 1 位を獲得しました。 現在までに、言語モデリングは Steph のもう一つの伝統的な強みだと考えられます(冗談です)。 アップグレードされた Step Literary Master Edition と Step-2 mini はどちらも Step-2 から派生したものですが、それぞれに独自の長所があります。 Step Literary Master Edition は、文学創作の垂直分野においてより強力な機能を発揮するエディションです。 「数字+アルファベット」というネーミングの他のモデルと比べて、これは本当にユニークな名前ですね!まさに「創造のために生まれた」という名にふさわしいこのモデルは、 Yuewenアプリですでに発売中です。 まずコンテンツを確認し、次にプロンプトを表示して関連性があるかどうかを確認しましょう。 答えが明らかになる瞬間! 文学修士のステップ氏に執筆を依頼した際、私たちは「明書太祖実録の内容を取り入れ、自然災害、地震、クトゥルフなどの要素を盛り込んだ、明代を舞台にしたサスペンス小説を一人称で書いてください」と依頼しました。 実は、ステップの「文豪版」の文学的才能と、文系・理系両方に精通したステップR-miniの人文科学的な才能は、その源が異なっています。 Step Literary Master Edition が高度な文学的教養と強力な創造力を備えているのは、兆パラメータ言語モデル Step-2 の知識蓄積と言語生成の制御を継承しているためです。 AI を使用する多くの人が共通の不満を抱いています。それは、AI によって生成されたテキストに、説明のつかない AI 風味が残ることがあるということです。 これに対して、この思考の飛躍の根底にある論理は、それらのモデルによって作成されたコンテンツには鋭さや独創性が欠けており、社会的な出来事に対する真の感情や描写や反映が欠けているというものです。 優れたコンテンツ作成モデルには、ユーザーの創造的なニーズを完全に理解し、論理的に厳密で、言語が簡潔で、コンテンツが充実し、ペースが速く、深いアイデアと独自のスタイルを備えている必要があります... (聞けば聞くほど、QuantumBitの編集長が編集者に要求しているように聞こえます、笑) したがって、Step-2 の機能を「継承」する Step Literature Master Edition は、実際には 1 兆パラメータ言語モデルのスケーリング法則の恩恵を受けており、それによって言語とライティング スキルの基礎が強化されます。 言語モデルシリーズ:言語モデルステップ2ミニ言語モデル シリーズの 2 番目の新製品は、 Step-2 ミニ言語モデルです。 Step Literature Master Edition と比較すると、コストパフォーマンスに優れており、商業的に実現可能です。 名前の通り、「ミニ」は機敏で軽量なことを意味します。StepLeapの公式説明では、「非常に高速なレスポンスと高いコストパフォーマンス」とされています。 軽量であることは、Step-2 mini が 1 兆パラメータの Step-2 モデルのパラメータの約 3% しか持たないにもかかわらず、モデル パフォーマンスの 80% 以上を保持していることからも明らかです。 極めて高速な応答は、以前のステップ モデルと比較して Step-2 mini の生成速度が高速であることに反映されており、4000 トークンを入力する際の平均最初のワードの待ち時間はわずか 0.17 秒です。 高い費用対効果は価格に直接反映されます。入力は 100 万トークンあたり 1 元、出力は 100 万トークンあたり 2 元です。 前述の利点は、技術的な実装にまで遡ると、Step-2 mini がStep が独自に開発した新しいアテンション メカニズム アーキテクチャである MFA (Multi-matrix Factorization Attention)とそのバリエーションである MFA-Key-Reuse を採用したことに由来しています。 一般的に使用されている MHA (Multi-Head Attention) アーキテクチャと比較して、 MFA は KV キャッシュ オーバーヘッドを約 94% 節約し、推論速度の向上と推論コストの大幅な削減を実現します。 Step-2 mini は、そのスピードとコスト効率により、類似の競合製品と比べて商業シナリオでより幅広く適用できます。 お知らせ: すべての開発者は、Step-2 Starry Sky Open Platform で Step-2 mini API を呼び出すことができるようになりました。 ビデオモデルシリーズ:ステップビデオビデオ生成モデル最後に、ビデオ生成モデル Step-Video です。 11月末、多くのネットユーザーがJieyue傘下の「Yuewen」ウェブバージョンに突然「Yuewen Video」に切り替えるオプションが追加されたことに気づいた。 しかし、これは Jie Yue の通常のやり方と非常によく合った方法で静かに行われました。 意外なことに、この 6 回連続のリリースにより、元のビデオ生成モデルのアップグレード バージョンである Step-Video が Web 上で直接利用できるようになりました。 基盤モデルのアップグレードポイントは明確に示されており、複雑な動作、美観、文字、シンプルなテキスト生成、中国語と英語のバイリンガル入力、カメラ言語などの生成能力が強化されています。 ログインすると、インターフェースは非常にシンプルで、手動で調整できるさまざまなパラメータはなく、中国語/英語のプロンプトを入力するだけです。 入力ボックスの右上に「説明の最適化」ボタンがあります。 最適化はおおよそ次のようになります。元のプロンプトは次のようになります。 海外のチャイナタウンでは、春節の華やかな雰囲気が溢れています。中国人や外国人の顔を持つ人々が街を歩き回り、道端ではサンザシの砂糖漬けを売るおじいさんもいます。 最適化されたプロンプトは次のようになります。 春節の祝祭ムードに包まれたチャイナタウンでは、中国人や外国人といった様々な人々が行き交っていました。赤いシャツにグレーのズボンを履いた年配の男性が、道端でサンザシの砂糖漬けを売る屋台を構え、笑顔で道行く人に手招きしていました。チャイナタウンに差し込む陽光が、赤い提灯や色とりどりの旗を照らし、人々は食べ物を楽しみ、笑い声で溢れていました。このシーンはスタビライザーを使用して撮影され、ドキュメンタリー調の滑らかな映像となりました。 最適化された詳細には、キャラクターの外観、顔の表情、環境の背景、キャラクターの動き、カメラテクニック、ビジュアルスタイルなどの詳細が含まれますが、これらに限定されません。 その後、QuantumBit は簡単なテストを行い、主にキャラクター画像がより安定しているかどうか、複雑な動きの生成がより自然かどうかを調べました。 テストプロンプトは次のとおりです。 動画では、淡い色の衣装に花冠をかぶった女性が、太陽の光を浴びながらバイオリンを熱心に弾いている様子が映し出されています。背景には、木々が陽光に照らされています。クローズアップで撮影されたこの動画は、演奏する女性の集中した表情を捉え、木漏れ日が降り注ぎ、静謐で美しい雰囲気を醸し出しています。全体の映像は鮮明で臨場感に溢れ、女性と周囲の自然が調和した美しさを際立たせています。 しばらくして、次のビデオを入手しました。 ビデオの被写体の性別、服装、表情、動作、背景、照明はすべてプロンプトの要件を満たしています。 映像のクオリティも素晴らしく、キャラクターも安定しており、バイオリンも正確で、バグの原因になりがちな手の動きもしっかり再現されています。 最後に、6 つのモデルのすべてのテストを終了するために、もう 1 つのビデオ クエリを提示します。 また、心が職場から離れてしまった皆様にも、幸せで実りある蛇年をお祈りします。 プロンプト:夕暮れ時、中国の伝統的な四合院の中庭の真ん中に、小さな女の子が線香花火を手に立っています。火花が彼女の期待に満ちた顔を照らしています。彼女の後ろには、春聯が描かれた門と、高く吊るされた赤い提灯があります。温かみのある黄色の光が窓から地面に差し込み、心地よい雰囲気を醸し出しています。 差別化が生き残りの鍵となりますが、Jieyue は依然として AGI を目指しています。要約すると、StepLeap が最近発売した、品質と量の両方に重点を置いた 6 つのモデルは、次のように明確にまとめることができます。 包括的なレイアウト、優れた機能、迅速な反復を誇ります。 これら 12 文字は、Jieyue のオープニング戦略を簡潔にまとめたものであるだけでなく、ポーカー テーブルでの彼の安定した信頼できるパフォーマンスの鍵でもあります。 特に旧正月を前に、同社はマルチモーダルボリュームの王者としての実力を改めて証明し、マルチモーダル技術分野における継続的な技術的リーダーシップを誇示した。 さらに、QuantumBit は過去 1 年間で、市場と開発者が依然としてステップ マルチモーダル通信の機能を高く評価していることを学びました。 例えば、小規模ながらも優れた AI アプリケーション「Stomach Book」の開発者である Zhao Chunxiang 氏は、A/B テストの結果、ステップ モデルが最も高い有料コンバージョン率を示したと述べています。他の人気 AI アプリケーションも、ステップ マルチモーダル モデル API にアクセスすることで、ユーザーの有料コンバージョン率の向上を実現したことを明らかにしています。 2025 年に向けての基盤としてこのような技術力と業界での評判を備えた Leapmotor は、業界で静かに形成されたコンセンサスを恐れることはありません。 つまり、2024年末から2025年初頭を境に、大型モデル競争におけるベースモデル陣営は新たな章に入り、再編合戦の後半戦が始まったというわけだ。 詳しく見てみると、この点を裏付ける数多くの変化が明らかになります。 例えば、台座模型愛好家の中には、独創性で勝つことを目指して、特定の垂直分野の模型開発に注力し始めた人もいます。 中には、超大規模モデルのトレーニングへの執着を捨て、より現実的に、中程度のトレーニングパラメータを持つより高速で安価なモデルを選択し、それに基づいて収益を上げるためのアプリケーションを作成した人もいます。 一部のペデスタルモデルプレイヤーは、ユーザー数の増加を追求することから、モデルと技術力の向上を重視することに重点を移し、戦略的な方向性を調整し始めています。 これは、昨年広まった「 6つの小規模な既存企業が生き残るための鍵は、差別化にある」という言葉を思い出させます。 しかし、この劇的な変化のさなかでも、Jie Yue 氏は揺るぎない姿勢を保ち、昨年 3 月に公表した道を着実に前進し続けました。 つまり、ユニモーダル -> マルチモーダル -> マルチモーダル モデルの統一的な理解と生成 -> 世界モデル -> AGI です。 嵐が吹き荒れようとも、私は釣り台の上にしっかりと留まります。 |
6 日連続で 6 つのモデルが発売された Step は、マルチモーダル ボリュームの王者として常に君臨しています。
関連するおすすめ記事
-
awesome-ai4s がオープンソースになりました!科学のためのAIに関する200以上の最先端の学術論文を中国語訳付きでまとめたもので、継続的に更新されています。
-
OpenAI o1 モデルの最も包括的なガイドがここにあります。
-
GPT-4o は、追加料金を支払うことでさらに高速化できます。新機能では、以前の 23 秒に比べて 7 秒でタスクを完了します。
-
インテリジェント運転を標準装備としたBYDの時価総額は1兆元を超える。
-
ユニツリーのヒューマノイドロボットが9万9000元から量産開始!360度ジャンプを披露し、その能力を披露。NVIDIAの科学者は「欲しい!」と絶賛している。
-
新興テクノロジー大手がまたもや苦境に陥っている!給与削減、レイオフ、給与支払いの遅延といった対策が実施されている。同社はファーウェイの技術統合を試みたものの、成果は限定的だった。