|
最近、中国電信のTeleAI研究所は、完全国産のマルチカードクラスター(カード1万枚、パラメータ1万個)でトレーニングした数兆個のパラメータを持つ国産初大規模モデルの開発に成功し、完全国産のマルチカードクラスターと国産ディープラーニングフレームワークでトレーニングした数千億個のパラメータを持つ国産初大規模モデル「TeleChat2-115B Star Semantic Large Model」を正式にオープンソース化した。 これは、中国電信グループCTO兼チーフサイエンティストであり、中国電信人工知能研究所(TeleAI)所長でもある李雪龍教授と彼のチームによって達成された、もう一つの画期的な科学研究成果です。これは、国内における大規模モデルトレーニングの完全な国産化を真に実現し、完全な国産自主革新、安全性、制御性の新たな段階に正式に参入したことを意味します。 TeleChat2-115Bは、中国電信が自社開発した天一クラウド「西朗統合知能コンピューティングサービスプラットフォーム」と人工知能企業「星海AIプラットフォーム」を用いてトレーニングされました。トレーニング精度を確保しながら、様々な最適化手法を用いてモデルのトレーニング効率と安定性を向上させ、GPU相当のコンピューティングパワーの93%以上の計算効率を達成し、モデルの有効トレーニング時間は98%以上を占めました。 TeleChat-52B は OpenCampass 推論リーダーボードで 1 位にランクされました。 今年5月のOpenCampassベンチマークランキングにおいて、TeleChatシリーズモデルはオープンソースの大規模モデルの中で論理的推論能力において1位を獲得しました。次世代版となるTeleChat2-115Bは、9月に発表された最新のC-Eval Open Accessモデル総合ランキングで86.9点を獲得し、1位を獲得しました。その総合能力はTeleChatシリーズモデルと比較して30%近く向上しており、特にツールの使用、論理的推論、数学的計算、コード生成、長文ライティングなどの分野で顕著な向上が見られました。 C-EvalオープンアクセスモデルのTeleChat2-115B 総合ランキング1位 TeleChat2のモデルトレーニングとデータ構築に関する研究経験 非常に大きなパラメータを持つモデルの学習においては、TeleAIは多数の小規模モデルを用いてスケーリングを行い、様々なモデル構造の有効性を検証しました。一方、データ割り当てに関しては、小規模モデル実験からのフィードバックに基づき、回帰予測モデルを用いて最適なデータ割り当てを導き出しました。 上記の戦略に基づき、大規模パラメータモデルにおける最適解の探索効率を大幅に向上させることができます。さらに、トレーニング後のアニーリング段階では、TeleAIは広範な実験を通じて、最適なアニーリングデータの量と比率、および学習率の変化方法を探求・検証し、モデルのトレーニング効果をさらに向上させました。 事後学習では、TeleAIはまず、数学、コード、論理的推論に関する大量の質疑応答データを合成し、これをSFT(教師あり微調整)モデル学習の第1段階に使用しました。次に、反復更新戦略を採用し、モデルを用いてプロンプトデータ内の指示の複雑さと多様性を高めました。モデル合成と手動アノテーションにより、回答の品質が向上しました。SFT学習、DPO(選好アライメント)学習、およびモデルパフォーマンスの反復のための高品質なSFTデータと代表的なRM(報酬モデル)データを取得するために、拒否サンプリングが使用されました。 TeleAI が独自に開発したセマンティック大規模モデルが、複数の権威あるコンテストで 1 位を獲得しました。 TeleAIは、中国計算言語学会議(CCL2024)において、中国語の空間意味理解評価と中国古典史事型抽出評価の両方で優勝しました。特に、中国古典史事型抽出評価チャレンジでは、全てのサブタスクで1位を獲得し、総合1位を獲得しました。 中国計算言語学会議(CCL2024)におけるTeleAIテストセット 総合1位 TeleAIセマンティックチームは、NLPCC2024 Chinese Argumentative Paper Mining (Shared Task 5) Challenge で優勝しました。彼らはコンテキスト学習戦略に基づいて大規模モデルを最適化し、粗粒度から細粒度へと変化するPrompt設計と複数モデル間の投票メカニズムを用いることで、モデルの精度と堅牢性をさらに向上させました。最終的に、彼らは2位に約3ポイントの絶対的優位性を保ち、1位を獲得しました。 TeleAIがNLPCC2024中国語論説エッセイマイニング(共有タスク5)チャレンジで優勝 オープンソースの共有はイノベーションにつながる TeleChat2-115Bのオープンソース化は、大規模モデル技術のローカライズにおける新たなマイルストーンとなります。大規模モデルの導入とオープンソース化をいち早く開始した国有企業の一つとして、TeleAIはオープンソースを通じて大規模モデル技術の継続的な発展を積極的に推進し、技術革新から産業応用への急速な飛躍を継続的に推進・先導しています。 オープンソースアドレス GitHub : https://github.com/Tele-AI/Te... ギティー: https://gitee.com/Tele-AI/tel... モデルスコープ: https://modelscope.cn/models/... モデラー: https://modelers.cn/models/Te... |
TeleAIは、初の完全国産の高性能、高パラメータモデルのトレーニングを完了し、正式にオープンソース化されたTeleChat2-115Bをリリースしました。
関連するおすすめ記事
-
Qujing Technology は、大規模な知識推論オールインワンマシンをリリースし、企業が効率的な推論を実現できるようにするための「フルシステム推論アーキテクチャ」の先駆者となりました。
-
脳には、レム睡眠中に作動する内部の「世界モデル」があります。
-
AMD は O1 を研究アシスタントに変え、研究資金を自動的に 84% 節約しました。
-
3秒でマルチボイスミキシングとクローン作成を実現!F5/E2 TTSチュートリアルを公開。心理療法士の言語スタイルを正確にシミュレートするPsyDTCorpus 5k心理対話データセットを公開。
-
Nvidia の Sora バージョンは大量のデータを違法に収集したとして非難されており、同社は不満を表明している。
-
【縁起の良い蛇は幸運をもたらす】 | 2024年中国オープンソース年次報告書が正式に発表されました!