618ZXW

国産模型コマンドランキング世界一!LeCun直々のおすすめ、“チートが難しい”大型模型を新ランキングで発表!

何?

これまで目立たなかった国内の新興企業が、ひっそりと台頭し、自社のモデルでは中国で第 1 位、世界でも第 5 位(O1 シリーズと Claude 3.5 に次ぐ) に躍り出ました。

また、トップ10社の中では唯一の国内企業です。

(リストの中で2番目に優れた国内製品は、アリババのオープンソース プロジェクトである qwen2.5-72b-instruct で、総合順位は 13 位です。)

さらに、このツールが掲載されている LiveBench のランキング リストは、LMSYS Chatboat Arena ほど広く知られてはいませんが、非常に優れています。

チューリング賞受賞者であり、Metaの主任AI科学者であるヤン・ルカン氏は、ニューヨーク大学などと共同で、今年6月にこのプロジェクトを立ち上げた。

これは「不正のできない世界初のLLMベンチマーク」と謳われています。

突如現れたダークホースは、実は中国の大型模型製造の競争環境をよく知る者なら、すでに予想していたものだった。

ステップシリーズは、大型モデルの6匹の子虎のうちの1匹であるステップスターを背面にあしらっています。

彼は指示に従い、高得点を獲得し、世界一になった。

LiveBench リーダーボードでは、Jieyue Xingchen が開発した数兆個のパラメータを持つ大規模言語モデル Step-2-16k-202411 が、グローバル平均で 57.68 ポイントを獲得しました。

総合では5位、国内ブランドでは1位となった。

このリストはこれまであまり登場してこなかったが、それは今年 6 月に発表されたばかりで非常に新しいからであり、より現実的な理由としては、これまで国産の大型モデルがこのリストの上位にランクインするという目立った成果を上げていなかったからである。

これによってリスト自体の強みが減るわけではありません。

LeCun やニューヨーク大学などの機関と共同で開始されたこのプログラムは、大規模なモデル向けに設計されており、現在 6 つのカテゴリに 17 の異なるタスクが含まれており、毎月新しい問題が更新されます。

目標は、リストが簡単に汚染されず、簡単に、正確に、公平に評価できるようにすることです。

汚染に対する耐性に重点が置かれているのは、トレーニング データに大量のインターネット コンテンツが含まれており、多くのベンチマークが汚染の影響を受けやすいという事実に起因しています。

例えば、多くの人に馴染みのあるGSM8K数学テストセットは、最近、いくつかのモデルで過学習を引き起こすことが示されました。これは明らかに、モデルの能力評価において課題となります。

ベンチマークの汚染に注意することに加えて、評価方法が公平かつ偏りのないものであることを確認することも重要です。

一般的には、LLMメンバーが審査員を務めるか、人間が審判を務めるかの2つの方法が使用されます。しかし、LiveBenchでは、各質問を評価する際に客観的かつ事実に基づいた判断を採用しています。

では、このリストを初めて見たとき、他に何がわかるのでしょうか?

まずは、優れた結果が得られたステップ2から始めましょう。

指導のフォロースルースコアであるIF Average部門では世界最高得点を獲得し、1位となった。

このプロジェクトには、ガーディアン紙の最近の記事を書き直したり、簡素化したり、要約したり、ストーリーを生成したりすることが含まれます。

86.57 というスコアは実に例外的に高いものです。リーダーボード上のチームの残り (OpenAI と Anthropic のモデルも含む) のスコアは 70 ~ 80 で、2 位の Meta-LLaMA-3.1-405b-instruct-turbo のスコアは 8 ポイント以上低いものでした。

これは、Step-2 が言語生成の詳細を強力に制御し、最大限の理解能力を持ち、人間の指示により適切に従うことができることを意味します。

具体的には、一般人が、逆さになったり、不明瞭だったり、曖昧だったりする、専門家ではないごく普通の指示を入力すると、ステップ 2 は、文脈と具体的な状況を組み合わせてユーザーの具体的なニーズを推測し、「360p」から「1080p」までの漠然とした指示を理解して、漠然とした指示の背後にある真意を正確に捉えます。

これは、コンテンツ作成能力が優れていることも意味します。例えば、古典詩を作成するように依頼された場合、文字数、韻律、押韻、そして芸術的概念を精密に制御できます。

完全に独自に開発されたMoEアーキテクチャ、数兆個のパラメータ

このLiveBench事件が新たなセンセーションを巻き起こす前、Step-2の最も記憶に残る特徴は間違いなく「中国でスタートアップ企業が立ち上げた最初の兆パラメータ大規模モデル」というステータスでした。

これはある意味、ステップのスタイルを体現していると言えるでしょう。6大プラモデルの中で、ステップのステップシリーズは最も遅く発売されましたが、決して物足りないということはありません。

今年 3 月、Step-2 は Global Developer Pioneer Conference の開会式でプレビューデビューを果たし、前身の Step-1 の規模が数千億のパラメータから数兆のパラメータへと瞬時に拡大しました。

期待が高まった後、Step-2は夏のWAIC 2024で正式にリリースされました。

このモデルはMoEアーキテクチャを採用しています。

一般的に言えば、MoE モデルをトレーニングするには、アップサイクルを通じて既存のモデルに基づいてトレーニングを開始するか、最初からトレーニングを開始するかという 2 つの主な方法があります。

Upcycle 方式では、必要な計算能力が比較的少なく、トレーニング効率が高くなりますが、すぐに限界に達します。

たとえば、コピーによって取得された MoE モデルは、専門家による深刻な均質化を受けやすい傾向があります。

MoE モデルを最初からトレーニングすることを選択すると、モデルの上限をさらに探索できますが、トレーニングの難易度が増すという代償を伴います。

しかし、Step Leap チームは後者を選択し、完全に独立した研究開発を選択し、トレーニングをゼロから開始しました

このプロセスでは、一部のエキスパート間でのパラメータ共有や異種エキスパート設計などの革新的な MoE アーキテクチャ設計を通じて、ステップ 2 ハイブリッド エキスパート モデルの各エキスパートが完全にトレーニングされました。

したがって、Step-2には合計で数兆個のパラメータがあり、各トレーニングまたは推論セッションでアクティブ化されるパラメータの数は、市場にあるほとんどの Dense モデルのパラメータの数を上回ります。

さらに、Step-2のトレーニングプロセス中に、Step-Leapシステムチームは、6D並列処理、極限メモリ管理、完全に自動化された運用とメンテナンスなどの重要なテクノロジーで画期的な進歩を遂げ、モデル全体の効率的なトレーニングをサポートしました。

StepLeap が初めて登場したとき、公式には次のように述べていました。

ステップ 2 は、数学的論理、プログラミング、中国語の知識、英語の知識、および指示の遵守に関して、GPT-4 によく似た包括的なエクスペリエンスを提供します。

この LiveBench AI テストの結果から判断すると、チームは Step-2 の位置付けと利点を非常に明確に理解しています。

ベースモデルは技術的に優れていますが、重要なのはそれを使いやすくすることです。

公式筋によると、Step-2は消費者向けスマートリビングアシスタントであるYuewenと統合されており、ユーザーはWebとアプリの両方のプラットフォームで試用できるとのこと。

開発者の場合は、Step-Star Open Platform 上の API を介して Step-2 にアクセスして使用できます。

言語モデルとマルチモーダルモデルの両方が必要です。

冒頭で述べたように、Step モデルはシリーズであり、Step-2 はその言語モデルの強力な代表例です。

このシリーズでは、言語モデルの他に、跳躍星のマルチモーダルモデルも非常に興味深いです

Step-1.5Vは、Step Starのマルチモーダル理解モデルであり、このモデルには3つの点で優れた利点があります。

まず、認識能力があります。テキストと画像が混在するレイアウトに対する革新的なトレーニング方法により、Step-1.5Vは複雑な図やフローチャートを理解し、物理空間における複雑な幾何学的位置を正確に認識し、極端なアスペクト比を持つ高解像度画像を処理できます。

2つ目は推論能力です。これには、数学の問題を解いたり、コードを書いたり、詩を作ったりするなど、画像コンテンツに基づいた様々な高度な推論タスクを実行することが含まれます。

3つ目は、動画理解能力です。動画内の物体、人物、環境を正確に識別できるだけでなく、全体的な雰囲気や登場人物の感情も理解できます。

生成の面ではStep-1X は大規模な画像生成モデルを持っています

Step-1X は、600M、2B、8B の 3 つの異なるパラメータ値を持つ DiT (トランスフォーマー付き拡散モデル) アーキテクチャを採用し、意味理解と画像クリエイティブ実装を同時に実現します。

具体的には、単一のオブジェクトを描画する場合でも、多層の複雑なシーンを描画する場合でも、単純なテキスト指示と複雑なテキスト指示の両方をカバーできます。

さらに、このモデルは中国語の要素に対する詳細な最適化もサポートしており、生成されたコンテンツは中国人の美的スタイルにより適したものになります。

言語モデルとマルチモーダル モデルの両方が必要であることについては、Step 独自の理由があります。

LeapStar は創業以来、AGI へのロードマップを明確に定義してきました。

ユニモーダル – マルチモーダル – マルチモーダルの統一的な理解と生成 – 世界モデル – AGI。

つまり、StepLeap の目標は、AGI を実現できるマルチモーダルな大規模モデルを開発し、自社開発した大規模モデルを使って新世代の AI アプリケーションを作成することです。

過去 1 年ほどの間に、Jieyue はこの目標に対する独自の答えを書き上げました。

研究開発の反復速度は非常に速く、ステップ1からステップ2へ、あるいはステップ1Vからステップ1.5Vへ、1年足らずで全体的な進歩が継続的に行われます。

この製品は独自のアイデアを持っており、チャットボットに限定されません。Step-2が国内チャートで1位になったのと同じ日に、Jieyue傘下の製品であるYuewenも新機能をリリースしました。

簡単な設定で、iPhone 16 の右下にある「カメラコントロール」ボタンをワンクリックするだけで、「カメラ Q&A」機能にアクセスできます。

iPhone 16を持っていないAppleユーザーは、システムをiOS 18にアップグレードすることで、国産AIにアクセスできるようになります。

すでに6匹の小虎の1頭として位置を確保しているが、最近のパフォーマンスから判断すると、私はまだダークホースと呼ぶだろう。

技術力と実力の面から、ステップ2は中国の権威ある業界ランキングで一気にトップに躍り出て、世界ランキングのトップ10にランクインした唯一の中国企業となった。

大規模モデリングの波は、ここ 2 年近く押し寄せています。

過去 2 年間、参加している技術専門家たちは (一見ばらばらのように見えても、実際には団結して) ビジョンを構築してきました。そのビジョンは、多くの人が参加して共感できるものです。

卓越した技術力と絶え間ない革新の追求により、Step シリーズだけでなく中国の大型モデルも今後ますます輝きを増していくと確信できる。

もう一つ

北京人工知能研究院は先月、モデル討論の競争メカニズムを導入することで大規模モデルの能力を評価するための新たなベンチマークを提供することを目的とした討論プラットフォーム「FlagEval Debate」を立ち上げた。

これは、大規模なモデルアリーナのゲームプレイに似ており、賛成と反対の 2 つのモデルを使用して二重盲検テストを行い、討論の後にユーザー投票が行われます。

そうして初めて、対立する側が誰であるかが明らかになるだろう。

モデル討論は主に、情報の理解、知識の統合、論理的推論、言語の生成、対話スキルに依存します。

もちろん、複雑な状況における情報処理の深さや適応性も測定でき、学習と推論の進歩のレベルを反映します。

簡単に試してみましたが、いくつかのトピックは非常に興味深いものでした。

たとえば、「美術館が火事になって、1人しか救えないとしたら、猫とモナ・リザのどちらを救うべきか?」というテーマがあります。

二人のモデルは口論が激しくなり、「猫には9つの命がある」などと言い出すなど、面白かったです。

数回の繰り返し投げの末、Step-2 が O1 に圧勝しました。

議論するのはかなり得意みたいですが…

リーダーボードの公式サイト: https://livebench.ai/#/blog

岳文リンク: https://yuewen.cn

FlagEval ディベート公式ウェブサイト: https://flageval.baai.org/#/d...