618ZXW

Doubao の大規模モデル チームと HKU の新しい成果 ByteCheckpoint により、10,000 カロリーで LLM トレーニングの効率が向上します。

最近、ByteDanceのDoubao大規模モデルチームは香港大学と共同で、大規模モデルのトレーニング効率を向上させ、トレーニングの進捗損失を減らすことを目指したByteCheckpoint大規模モデルチェックポイントシステムを提案しました。

トレーニングの規模とモデルの大型化に伴い、ハードウェアとソフトウェアの障害を克服し、トレーニング効率を向上させることが、大規模モデルの反復処理に影響を与える重要な要素となっています。最近、Metaレポートは、数万基のGPUを搭載した大規模モデルクラスターのトレーニングにおける障害率に関するデータを公開し、業界で大きな注目を集めています。このデータによると、16,384基のGPUを搭載したH100 80GBトレーニングクラスターでLlama3 405Bをトレーニングしたところ、わずか54日間で419回の停止が発生し、平均3時間に1回のクラッシュが発生しました。レポートではまた、高い障害率に対抗するために、トレーニング中に頻繁にチェックポイントを設定してモデル、オプティマイザー、データリーダーの状態を保存し、トレーニングの進捗損失を減らす必要があると述べています。チェックポイント設定は、トレーニング効率向上の鍵となっていると言えます。

しかし、既存のチェックポイント テクノロジには、システム設計上の欠陥によって I/O オーバーヘッドが増加したり、異なるトレーニング フレームワークのチェックポイント モジュールが断片化されたりするなど、多くの問題があります。

Doubao Big Modelチームと香港大学が共同で提案したByteCheckpoint法は、前述の問題を効果的に解決します。ByteCheckpointはPyTorchネイティブで、複数の学習フレームワークと互換性があり、効率的なチェックポイントの読み書きと自動再分割をサポートしています。ベースライン手法と比較して、ByteCheckpointはチェックポイントの保存で最大529.22倍、読み込みで最大3.51倍の性能向上を実現します。非常にシンプルなユーザーインターフェースと自動チェックポイント再分割により、ユーザーの学習曲線と使いやすさが大幅に短縮され、システムのユーザビリティが向上します。この論文の結果は現在公開されています。

• ByteCheckpoint: LLM開発のための統合チェックポイントシステム

• 論文リンク: https://team.doubao.com/zh/pu..._from=research

2023年に設立されたByteDanceの豆宝(Doubao)大規模モデルチームは、業界最先端のAI大規模モデル技術の開発に注力し、世界クラスの研究チームとなり、技術と社会の発展に貢献することを目指しています。現在、豆宝大規模モデルチームは優秀な人材を継続的に獲得しており、革新的で責任感のある技術者と協力し、大規模モデルのトレーニング効率向上においてさらなる進歩と成果を達成することを目指しています。

豆宝ビッグモデルは2024年5月に正式にリリースされ、現在はByteDanceのクラウドサービスプラットフォーム「Volcano Engine」を通じて企業に提供されていると理解されている。7月時点で、豆宝ビッグモデルの1日あたりのトークン使用量は5000億を超え、外部の企業クライアントの1日あたりのトークン使用量は、モデルリリース日の5月15日と比較して22倍に増加した。豆宝ビッグモデルをベースに構築された同名のAIアシスタント「豆宝」は、主要アプリストアのAI製品の中でダウンロード数1位を獲得している。