618ZXW

「天宮モデル4.0」O1および4Oバージョンが正式にリリースされ、天宮アプリおよびウェブサイトで無料で使用できます。

2024年11月、崑崙科技は「天宮ビッグモデル4.0」O1と4Oバージョンを正式にリリースし、招待制のテストを開始しました。

本日2025年1月6日、「天宮ビッグモデル4.0」O1バージョンと4Oバージョンを同時に正式にリリースし、天宮ウェブサイトとアプリで誰でも無料で利用できるようにしました。

中国初の中国語論理推論モデル(Skywork o1)は、リリース時にオープンソースモデルが付属するだけでなく、より強力な専用バージョンが2つ含まれています。Kunlun Techが開発したSkywork o1シリーズは、包括的なテクノロジースタックのアップグレードとモデルの最適化により、数学、コーディング、論理、常識、倫理的意思決定など、様々な推論課題を巧みに処理できます。

Skywork 4.0は、Kunlun Techが開発したマルチモーダルモデルです。リアルタイム音声対話アシスタント「Skyo」は、感情表現能力、迅速な応答能力、スムーズな多言語切り替え機能を備えたインテリジェントな音声対話ツールで、ユーザーに温かく思いやりのある、スムーズでリアルタイムな対話体験を提供します。

現在、これら 2 つのモデルは Kunlun Tech の Tiangong ウェブおよび APP プラットフォームで正式にリリースされており、ユーザーが自由に利用できます。

Tiangong AI公式サイト:https://www.tiangong.cn/(バージョンo1を直接体験するには入力してください)

01.

Skywork o1 はユーザーにさらに強力な推論機能をもたらし、Skywork Web プラットフォームで正式にリリースされました。

Skywork o1 の論理的推論タスクにおけるパフォーマンスの大幅な向上は、Skywork が独自に開発した 3 段階のトレーニング スキームによるものです。

推論能力と反省能力のトレーニング: Skywork o1は、自社開発のマルチエージェントシステムを通じて、高品質な段階的な思考、反省、検証データを構築します。高品質で多様な長期思考データは、ベースモデルの事前学習と教師あり学習による微調整に活用されます。さらに、バージョンアップの反復において、自己蒸留と棄却サンプリングを広範に活用することで、モデルの学習効率と論理的推論能力を大幅に向上させました。

推論能力強化学習: Skywork o1チームは、段階的な推論強化に適応した最新のSkywork o1プロセス報酬モデル(PRM)を開発しました。実験では、Skywork-PRMが複雑な推論課題において、中間段階と思考段階が最終解答に与える影響を効果的に捉えられることが実証されています。独自に開発した段階的な推論強化アルゴリズムと組み合わせることで、モデルの推論能力と思考能力がさらに強化されます。

推論計画: Tiangongが独自に開発したQ*オンライン推論アルゴリズムに基づき、モデルはオンラインで思考し、最適な推論パスを見つけます。これは、Q*アルゴリズムの実装と公開が世界初となるものです。Q*アルゴリズムの実装により、モデルのオンライン推論能力が大幅に向上しました。

本日正式に発売された Skywork o1 は、以前のバージョンと比較して、主に次の 3 つの点で大幅にアップグレードされています。

1. PRMの最適化

Skywork-Reward-27B報酬モデル(RM)は、効率的なデータフィルタリング戦略を採用し、オープンソースの半順序データセットのみを利用することで、RewardBenchにおいてそれまでトップだったNvidia-340Bモデルを凌駕し、RewardBenchから公式認定と再掲載を獲得しました。さらに、報酬モデルの最適化関数に関する詳細な拡張実験が行われ、Bradley-Terry損失関数がほとんどのシナリオにおいて優れた適応性を示すことが明らかになりました。

図1 | 天宮が独自に開発した技術「Skywork-Reward」

(論文リンク:https://arxiv.org/abs/2410.18451)

PRMの適用シナリオの拡張:数学とコードに重点を置いた以前のバージョンと比較して、新バージョンのPRMでは、常識推論、論理的トラップ、倫理的意思決定など、より一般的な推論領域のサポートが追加されました。推論領域に加えて、一般的な領域(文章作成、チャット)やマルチターン対話に対応したトレーニングデータも構築し、あらゆるシナリオをカバーします。

PRM モジュラー評価機能: Skywork-PRM は、O1 スタイルの思考チェーンの試行錯誤と反射検証機能のサポートを最適化することに重点を置いており、強化学習と検索のためのより正確な報酬信号をより細かい粒度で提供します。

2. Q*アルゴリズムに基づく推論システムの最適化

Q*は、人間の脳の「システム2」思考を借用したフレームワークです。大規模言語モデル(LLM)の多段階推論をヒューリスティック探索問題として扱い、モデルがオンラインで思考できるようにQ*オンライン推論フレームワークを提案します。これにより、推論プロセスにおいて綿密な計画を行い、LLMのデコードプロセスをガイドすることができます。

具体的には、Q*はQ値モデルをヒューリスティック関数として学習し、将来の期待報酬を推定します。これにより、LLMを現在のタスクに合わせて微調整することなく、LLMが最も有望な次の推論ステップを選択できるように効果的に誘導します。Tiangongが独自に開発したQ*オンライン推論アルゴリズムとオンラインモデル思考を組み合わせることで、大幅な計算オーバーヘッドを回避するだけでなく、他のタスクにおけるパフォーマンス低下のリスクも軽減します。

図2 | 天宮が独自に開発したQ*

(論文リンク:https://arxiv.org/abs/2406.14283)

モジュール型ツリー構造推論:高品質で多様な長期思考データを用いたベースモデルの事前学習と教師あり微調整により、Skywork o1は構造化された応答を出力する能力を獲得しました。これは、推論プロセスを包括的に計画し、プロセス全体を通して反省と検証を組み込むことで、階層的な応答を自動的に出力することを意味します。o1形式の応答は通常、従来のモデルの長さをはるかに超えるため、文章をステップとして用いる既存の計画方法は非効率的で、考えすぎに陥りがちです。これを解決するために、Skywork o1はモジュールベースの計画アプローチを採用し、計画効率をある程度向上させると同時に、PRMがより完全なモジュール型応答を認識できるようにすることで、より正確な判断を行い、LLM推論を導きます。

適応型検索リソース割り当て:既存のオープンソースO1スタイルのモデルは、単純な問題を扱う際に過剰な思考傾向を示し、単純な問題を複雑化し、繰り返し検証が必要となるため、計算リソースの無駄が生じることがよくあります。Skywork O1は、適応型検索リソース割り当てアプローチを採用しています。検索開始前にユーザーのクエリの難易度を推定し、検索ツリーの幅と深さを適応的に制御します。これにより、単純な質問には迅速に回答し、複雑な問題には繰り返し検証を行うことで、回答の精度を向上させることができます。

3. 不安定なトレーニング結果や過剰な計算リソースの消費などの問題に対処するために、革新的な Step-DAPO アルゴリズムが提案されています。

既存のRLHFアルゴリズムにおける、スパースな報酬信号、不安定な学習結果、そして導入時の過剰な計算リソース消費といった問題に対処するため、崑崙万為天宮チームは、新たなステップレベルオフライン強化学習アルゴリズムであるDAPOを提案しました。DAPOはまず評価関数を用いて各ステップの推論精度を予測し、生成されるポリシーを最適化するための高密度な信号を提供します。次に、DAPOは各状態-行動ペアの強度に基づいてポリシー比率を調整することで、推論ステップの生成を最適化します。さらに、DAPOのActorコンポーネントとCriticコンポーネントは独立して学習されるため、PPOなどのアルゴリズムでよく見られる「Actor-Critic」共学習の不安定性の問題を回避できます。

図3 | 天宮が独自開発したStep-DAPO

(論文リンク:https://arxiv.org/abs/2412.18279)

Skywork o1 に関するさらなる技術レポートは近日中に公開される予定ですので、どうぞお楽しみに。

完全アップグレードされ正式にリリースされたSkywork o1 Lite / Skywork o1 Previewは、数学、コーディング、論理的推論能力を大幅に向上させます。Skywork o1のコーディング能力は、標準的な数学ベンチマーク(GSM8k、MATH、OlympiadBench、AIME-24、AMC-23など)と4つのコーディングベンチマーク(HumanEval、MBPP、LiveCodeBench、BigCodeBench)で評価されました。

表1 | 数学ベンチマークにおけるSkywork o1のパフォーマンス

表2 | Skywork o1のコードベンチマークにおけるパフォーマンス

*注: BigCodeBench の場合、テストには命令のサブセットを使用します。

数学的およびコードベンチマークテストでは、Skywork o1 のパフォーマンスは o1-mini に近く、業界の従来の大型モデルよりも大幅に優れていることがわかります。

一方、論理的推論テストについては、O1モデルの思考力、計画力、そして反省力をより適切に評価するため、非公開の評価セットを作成しました。この非公開の評価セットには、20種類の問題タイプと、それぞれの問題タイプごとに難易度や制約が異なる30個の問題サンプルが含まれています(注:この評価に使用した論理的推論データセットは、Skywork O1技術レポートとともに近日中にオープンソース化されます)。

評価セットに含まれるすべての問題タイプとサンプルは、選択され、手動で検証されており、一般的に、それらの解決には人間のような強力な論理的推論能力を備えたモデルが必要です。検証の結果、現在の評価セットに含まれるほとんどの問題は、業界標準のTier 1汎用モデル(GPT-4oやClaude-sonnetなど)にとっても非常に困難であることが示されています。

私たちはいくつかの典型的な問題タイプを評価しました:

計算 24:複数の数値と目標が与えられた場合、特定の制約の下で、与えられた数値を使用して目標を計算する方法。

条件付き論理:これは、既知の条件に基づいた論理的推論によって制約充足問題を解決します。目標は、制約間の関係(排他性、数量など)を分析し、すべての制約を満たす唯一の解を見つけることです。

暗号化:特定の方法を使用して暗号化された平文のサンプルが与えられ、それを暗号文に変換して、新しい暗号文に対応する平文を推測します。

最小の合計:複数の整数の積が与えられた場合、これらの整数が達成できる最小の合計を見つけます。

数独: 9x9 の数字グリッドで、各行、各列、および各 3x3 のサブグリッドには 9 つの異なる数字が含まれます。

問題タイプには、その問題の複数のバリエーションが含まれます。「24を計算する」を例に挙げると、この問題タイプに含まれるバリエーションは以下のとおりです。

典型的な例:算術演算によって 5、5、5、1 を使用して 24 を取得する方法。

バリエーション 1 (ターゲット変更): 4、3、5、7 を算術演算して 36 を取得する方法。

バリエーション 2 (追加の制約): 数字の順序を変更したり括弧を使用したりせずに、算術演算によって 4、3、5、7 を使用して 36 を取得する方法。

バリアント 3 (追加の制約): 4、5、10 を使用して算術演算を実行し、24 を取得します。3 つの数値のうち 1 つを 2 回使用する必要があります。

バリエーション 4 (数字は自由に使用できます): 8 個を使って 1000 を得る方法。

以下の表は、当社独自のベンチマークセットにおけるSkywork o1と主流の大型モデルのパフォーマンスの違いを示しています。同様に、Skywork o1は従来の汎用大型モデルを大幅に上回り、o1-miniに次ぐ性能を発揮します。

表3 | Skywork o1の論理的推論評価におけるパフォーマンス

*注: API タイムアウトのため、OpenAI の o1 の公式バージョンの有効な評価結果はありません。

次に、Skywork o1の数学、コーディング、論理的推論の強みにおける実際のパフォーマンスを簡単に見てみましょう。まずは、サンプル数が約40の「標準偏差を計算する」問題でテストしてみましょう。このサンプル数は、o1にとって「簡単な」計算プロセスではありません。

5分間の思考と要約の後、Skywork o1はスムーズに正解を導き出しました。計算プロセスを示すだけでなく、6つの主要な計算ステップを要約してくれました。次は、間違えやすい数独パズルでその推論能力を試してみましょう。

Skywork o1はわずか45秒で人間の思考をシミュレートし、最終的な答えを提示すると同時に、論理的推論プロセスを検証し、何も見逃していないことを確認しました。さらに、長文の推論問題を入力することで、その論理的能力と応答性能をテストしました。

予想通り、Skywork o1 は難しい質問に直面しても冷静さを保ち、思考プロセスと推論ロジックを秩序だった方法で示し、正しい答えを提供しました。

02.

Skywork 4o を搭載した Skyo が、Skywork APP で完全に利用できるようになりました。

図4 | 天宮アプリにおけるSkyoのエントリとインターフェース(出典:Kunlun Wanwei)

一般的に、インテリジェントな音声対話システムを使用する際のユーザーエクスペリエンスに影響を与える要素は2つあります。それは、応答速度と、返答の自然さと流暢さです。これら2つの要素によって、AI音声対話のエクスペリエンスが実際の人間にどれだけ近いかが決まります。

従来の音声アシスタントは、音声認識、コンテンツ理解、音声合成といった段階的なアプローチを採用するのが一般的です。業界では広く利用されていますが、複数のモデルモジュールが相互接続されているため、コミュニケーション中に情報が失われ、モデルがユーザーの真意を正確に理解できない場合があります。さらに、モジュール間の制約によってシステムの最適化が妨げられ、1つのモジュールの変更がシステム全体に影響を及ぼし、パフォーマンスと応答速度が最適とは言えない状態になるというドミノ効果が発生します。最終的には、応答遅延の最適化が困難になり、応答の自然さが制限され、音声AIとの会話は、実際の人間との対話というより、コマンドで機械を操作しているような感覚になります。

Skyo は、「本物の人間のように話したりチャットしたりする」効果を実現するために、マルチモーダル LLM エンドツーエンド モデリングを使用してこの問題を解決する、より高度で革新的なアプローチを採用することを主張しています。

図5 | Skyo が使用する音声対話フレームワーク (出典: Kunlun Wanwei)

Skyoは、チームが独自に開発したマルチモーダルなエンドツーエンドのトレーニングソリューションにより、従来のソリューションのパフォーマンス限界を真に打ち破りました。フレームワーク全体は、以下のプロセスに分けられます。

1. 音声入力(音声クエリ) :ユーザーが質問やリクエストを話し、この音声コンテンツが初期入力信号としてシステムに入力されます。

2. 音声エンコーダー: システム内の音声エンコーダーは、音声を意味的特徴を持つ表現ベクトルに変換します。

3. アダプタ: 次に、セマンティック表現はアダプタ モジュールを介して LLM が理解可能な入力空間にマッピングされ、コア インテリジェント モデル (LLM) によって理解できることが保証され、音声からテキスト セマンティクスへのシームレスな変換が実現されます。

4. 大規模言語モデル (LLM) : 適応された音声表現は大規模言語モデルに入力され、LLM はマルチモーダル処理機能を通じてタスクを完了するための応答を生成します。

5. 音声出力(音声トークン) :このフレームワークは音声トークンの直接出力をサポートし、モダリティを横断したエンドツーエンドの出力を実現します。さらに、拡散モデルを用いて、システムは音声トークンをリアルな音声応答に再構成します。

このエンドツーエンドのフレームワークにより、システムはユーザーの音声を人間のように理解し、自然でスムーズなインタラクティブ体験を提供します。このエンドツーエンドのフレームワークには、以下の明確な特徴があります。

1. 極めて低い応答遅延とリアルタイムの中断:エンドツーエンドのモデリングにより、Skyoはセマンティクスに基づいてユーザーが意図を完全に表現したかどうかを判断できます。さらに、極めて低い応答遅延の最適化により、Skyoの応答速度は実際の人間とほぼ区別がつきません。

2. 多次元音声理解:Skyo は、音声からテキスト コンテンツを書き起こすだけでなく、入力された音声の発話速度、トーン、感情などの情報も理解できるため、ユーザーの感情に反応し、思慮深く自然な感情的な応答を提供します。

3. リアルで自然な応答:Skyoの応答は、自然なチャットのような制御技術によって「人間味」のある内容を備えています。音声表現力に関しては、Skyoは100万時間を超える音声データを用いた大規模な事前学習を実施し、現実世界の様々な話し方やシナリオを学習しました。マルチモーダル理解機能と組み合わせることで、Skyoが生成する応答音声はユーザーの感情や会話の状況に適応し、多様でリアルな音声表現を実現します。

これらの成果を踏まえ、Skyo の発売は、当社にとって、インテリジェント音声インタラクション テクノロジーの分野において「機械を操作する」ことから「実際の人とコミュニケーションをとる」ことへと進む重要な一歩となります。

人間のようなスムーズなインタラクティブ効果を実現するために、崑崙科技はSkyoの独自開発にこだわりました。R&Dチームは膨大な音声データを蓄積し、大規模な音声・音楽モデルにおける深い技術的経験を駆使して、エンドツーエンドの自社開発による高度なリンクを構築しました。これにより、Skyoはマルチタスク、特に高強度のマルチターン対話インタラクションにおいて、安定性とスムーズさを維持しながら優れたパフォーマンスを発揮します。

Skyoの研究開発チームは、大規模で高品質、文脈化され、感情的かつ多様性に富んだ音声対話コーパスを構築することで、対話シナリオにおけるモデルの文脈認識、感情理解、知識推論能力を大幅に強化しました。また、高度なディープラーニングと大規模言語モデル技術に基づき、コーパスの事前学習と微調整を行い、モデル全体の対話の一貫性、論理的一貫性、そして知能レベルを向上させました。

03.

継続的な努力により、私たちは着実に AGI 時代へと進んでいます。

AGI の実現は技術革新における大きな飛躍となり、私たちの能力の限界を大きく広げ、人間の潜在能力を解き放つことになると私たちは信じています。

2024年初頭、崑崙科技の創業者である周亜輝氏は、崑崙科技の使命は汎用人工知能を実現し、誰もがより良く自分を形作り、表現できるようにすることだと提唱しました。過去2年間で、同社は「コンピューティングインフラから大規模モデルアルゴリズム、AIアプリケーションまで」の産業チェーン全体のレイアウトを完成させ、AI大規模モデル、AI検索、AIゲーム、AI音楽、AIソーシャルネットワーキング、AI短編ドラマなどからなる多様なAIビジネスマトリックスを構築しました。

私たちは、モデルと製品の進化におけるあらゆる小さなステップが、汎用人工知能の実現に向けた大きな飛躍であると固く信じています。

新たな道を切り開き、未来に向かって自信を持って歩み続ける Kunlun Tech は、今後も技術基盤と製品主導のアプローチを堅持し、ユーザーにより良い体験を提供し、人工知能技術の開発と応用に貢献し、小規模ながらも成長を続ける国際的な AI 企業となることを目指します。

すべてのユーザーは、Tiangong ウェブにログインするか、Tiangong APP をダウンロードして、最新の「Tiangong Large Model 4.0」バージョン 1 および 40 を体験できます。