618ZXW

アリババクラウドと清華大学は、オープンソースAI大規模モデル推論プロジェクト「Mooncake」を正式に発表した。

2024年6月、中国を代表する大規模モデルアプリケーションであるKimiと清華大学のMADSys Lab(機械学習、AI、ビッグデータシステムラボ)は共同で、KVCacheを中心とした大規模モデル推論アーキテクチャであるMooncakeをリリースしました。KVCacheを中心としたPD分離と計算用ストレージアーキテクチャを使用することで、MooncakeはKimiインテリジェントアシスタントアプリケーションの推論スループットを大幅に向上させるとともに、推論コストを効果的に削減し、リリース以来、業界から広く注目を集めています。最近、清華大学と研究機関9#AISoftは、Alibaba Cloudを含むいくつかの企業や研究機関と共同で、大規模モデルリソースプーリングプロジェクトMooncakeを正式にオープンソース化しました。彼らは、より多くのベンダーと開発者が協力して、高性能推論フレームワークの基盤となるインフラストラクチャのためのオープンソースエコシステムを構築することを期待しています。
月餅の建築図

清華大学とのイノベーション研究プログラム(AIR)プロジェクトに基づき、アリババクラウドと清華大学は共同で大規模モデルリソースプーリング技術を実際の産業アプリケーションに適用する方法を探求し、数多くの技術的成果を積み重ねてきました。その中でも、大規模モデル推論技術、特に推論インスタンスを共有するためのキャッシュプーリング層の標準化の開発を加速するため、アリババクラウドと清華大学は共同でMooncakeプロジェクトを構築しました。このプロジェクトは、主流の大規模モデル推論フレームワークを組み合わせ、キャッシュプーリング層の基盤となるインターフェースを抽象化し、高効率な分散リソース分離アーキテクチャを実現しています。大規模モデルシナリオ向けに深い最適化を実行することで、非常に長いコンテキストを持つ大規模モデルの推論性能を向上させます。

AIインフラサービスプロバイダーとして、アリババクラウドは転送エンジン、P2Pストア、高性能メモリストレージなど、Mooncakeプロジェクトの主要コンポーネントにコードを提供しました。推論フレームワークレベルでは、広く普及している大規模モデル推論フレームワークvLLMへの適応を完了し、推論性能を大幅に向上させるとともに、他の大規模モデル推論フレームワークとの統合のためのリファレンス実装を提供し、業界における大規模モデルリソースプーリング技術の採用を促進しました。転送エンジンレベルでは、アリババクラウドが独自に開発したeRDMAネットワークの基盤となる伝送パスを提供し、CXLのサポートも提供予定で、ユーザーがクラウド上で迅速に大規模に展開できるようにします。

清華大学MADSysラボの張明星教授は、MooncakeはAIインフラストラクチャのCPU、メモリ、SSDリソースを最大限に活用し、推論リクエストの処理速度を向上させることができると述べました。リソース分離アーキテクチャにより、異なる推論インスタンス間でキャッシュを共有できるため、リソースの無駄を削減できます。Alibaba Cloudとの協力によりMooncakeプロジェクトをオープンソース化することで、産業界、学界、研究機関の連携を促進し、オープンソースコミュニティを構築し、大規模モデル推論システムの迅速な開発を促進することを目指しています。

今後、アリババクラウドはムーンケーキプロジェクトの共同構築にさらに深く関与し、より多くの企業、機関、大学と手を携えて、より効率的で高度なモデル推論システムアーキテクチャの革新を継続的に模索し、大規模モデル技術が真にすべての業界に利益をもたらすようにします。

Mooncake プロジェクトは、https://github.com/kvcache-ai/mooncake で入手できます。