|
2017年、Googleは論文「Attention Is All You Need(注意さえあればすべて)」を発表し、Transformerアーキテクチャを初めて提案しました。この論文は、自然言語処理(NLP)における人工知能の発展に新たな一章を開きました。ニューラルネットワーク学習における最も重要なアーキテクチャであるTransformerアーキテクチャは、ChatGPTやGeminiなど、世界を席巻した一連の汎用大規模モデルを支える基盤技術となりました。Transformerの運用効率の向上も、人工知能分野の研究のホットスポットとなっています。2024年4月、GoogleはTransformerアーキテクチャをアップデートし、Mixture-of-Depths(MoD)方式を提案しました。この方式は、トレーニング後のサンプリングプロセスを50%高速化し、Transformerアーキテクチャの高速化とアップグレードにおける新たな重要な出来事となりました。 また今年、中国のAI企業であるCaiyun Technologyは、機械学習分野のトップ国際会議であるICML(International Conference on Machine Learning)において、「動的に構成可能なマルチヘッドアテンションによるTransformersの改良」と題した新しい論文を発表しました。この論文で、Caiyun TechnologyチームはDCFormerアーキテクチャを初めて公開し、DCFormer上に構築されたモデルDCPythia-6.9Bにおいて、事前学習のパープレキシティと下流タスク評価の両方において、オープンソースのPythia-12Bよりも優れた性能を達成しました。これは、DCFormerモデルがTransformerモデルと比較して1.7~2倍の性能向上を達成したことを意味します。 11月13日、Caiyun Technologyは北京本社で「紙からアプリへ」をテーマにしたメディア向けコミュニケーションミーティングを開催しました。ミーティングでは、Caiyun Technologyの袁星源CEOが、汎用大規模モデルの今後の進化や人工知能の応用シナリオといった注目の話題について語りました。また、同社はDCFormerアーキテクチャをベースとした初の汎用大規模モデル「雲金天章」を正式に発表しました。同時に、Caiyun TechnologyのAI RPGプラットフォーム「Caiyun Xiaomeng」は、DCFormerアーキテクチャをベースとした初のAI製品となりました。 モデルの効率性とインテリジェンスを向上させることによってのみ、真の AGI を実現できます。 コミュニケーション会議では、まず袁星源氏がChatGPT o1からの質疑応答を参加者に紹介しました。「ChatGPT4が毎日約2億件のユーザーリクエストに応答し、50万キロワット時以上の電力を消費すると仮定します。全世界のネットワークがChatGPTをアクセスポイントとして使用すると仮定すると、ChatGPTは毎日どれくらいの電力を消費するでしょうか?さらに、この発展速度で進むと、2050年までに人工知能の世界の電力消費量は現在の地球の発電能力の何倍になるでしょうか?」ChatGPT o1の答えは、「2050年までに、人工知能の世界の電力消費量は現在の地球の発電能力の8倍に達する可能性があります。」でした。 今年2月に開催された世界政府サミットにおいて、NVIDIAのCEOであるジェンスン・フアン氏は、同じ問題についてより誇張した発言をしました。「コンピューターがこれ以上高速化しないと仮定すると、AIを動かすには14個の惑星、3個の恒星系、そして4つの太陽が必要になるかもしれません」。業界はすでにAIの膨大なエネルギー需要を認識しており、NVIDIAはハードウェアの強化を通じてAIの効率向上とエネルギー消費量の削減に取り組んでいます。一方、袁星源氏は、大規模モデルの基盤となるアーキテクチャを改善し、人工知能の運用効率を向上させることが、AIのエネルギージレンマを解決するためのより良い道だと考えています。 「スケーリング則によれば、計算能力が増加するとモデルは大規模になり、データも豊富になり、モデルの性能は向上します。しかし、それに応じてエネルギー消費も増加します。スケーリング則が破綻し、人工知能が実現する前に、地球のエネルギー資源はすでにそれを支えるのに不足しているかもしれません」と袁星源氏は述べた。「効率性の向上がなければ、AIは単なる幻想に過ぎません。」 Caiyun TechnologyチームはDCFormerフレームワークを構築し、TransformerのコアコンポーネントであるMulti-Head Attentionモジュール(MHA)に代わるDynamically Combinable Multi-Head Attention(DCMHA)を提案しました。これにより、MHAアテンションヘッドの検索・選択ループと変換ループ間の固定的な結合がなくなり、入力に応じて動的に組み合わせることができるようになります。これにより、モデルの表現力が根本的に向上し、Transformerアーキテクチャと比較して1.7~2倍のパフォーマンス向上を実現します。 今年のICMLカンファレンスにおいて、Caiyun Technologyの3本の論文は、平均採択スコア4.25~6.33点中、平均スコア7点を獲得しました。同社は、ウィーンで開催されるICML 2024に招待講演する中国企業2社のうちの1社となり、もう1社はHuawei社です。 袁星源氏は次のように述べています。「私たちの研究は、Transformerアーキテクチャが『理想的なモデルアーキテクチャ』と比較して、依然として大きな改善の余地があることを示しています。単に計算能力とデータを積み重ねるという『より大きな善』のアプローチを超えて、モデルアーキテクチャにも大きな革新の可能性があります。より小規模な大規模モデルの領域では、より効率的なモデルアーキテクチャを活用することで、小規模な企業が世界トップクラスのAI企業との競争で優位に立つことができます。より大規模なレベルでは、モデル効率を向上させることで、AIのアップグレードと反復にかかるコストを効果的に削減し、AI時代の到来を加速させることができます。」 Yunjin Tianzhang モデルは、DCFormer アーキテクチャに基づく最初の汎用大規模モデルです。 中国で最も早くLLM(大規模言語モデル)を開発した企業の1つであるCaiyun Technologyは、早くも2017年にNLPと大規模モデル技術の取り組みを始めました。現在、Caiyun Technologyは、エンドユーザー向けにCaiyun Weather、Caiyun Xiaomeng、Caiyun Xiaoyiという3つのAI製品を提供しており、中国で数少ない収益性の高いAI企業の1つとなっています。 「小説の続きを書くための、世界最強の汎用モデル」。袁星源氏はコミュニケーションミーティングで、DCFormerアーキテクチャをベースとした初の汎用大規模モデル「雲金天張」を披露した。「この表現は、非常に優雅で美しい文章を表現する際に用いられ、私たちの大規模モデルが目指す効果と共通点があります」と袁星源氏は説明した。雲金天張は、架空の世界観に基づいて、小説の登場人物にプログラミングや数学といった基本的な能力を付与することができる。大量のテキストを迅速に拡張・短縮し、文体を大幅に変更することができるだけでなく、質問応答、数学、プログラミングといった他のモデルの基本機能も備えている。 アプリケーション面では、400万人のユーザーを抱える彩雲小萌(Caiyun Xiaomeng)が、新しいDCFormerアーキテクチャをベースにしたバージョンV.3.5をリリースしました。前バージョンと比較して、彩雲小萌V.3.5は全体的な滑らかさと一貫性が20%向上し、前文は最大1万語、ストーリー背景設定も最大1万語までサポートしています。「これは、ストーリー作成や人工知能との対話において、AIが過去の出来事や過去のストーリーの詳細を記憶し、登場人物が明確な目的を記憶していることを意味します。また、プロットに合わせて適時に自己反省・修正を行います。自律的な創作を実現すると同時に、発散的思考を収束させ、妄想の暴走を防ぎ、キャラクターの個性の一貫性を保ち、ストーリーをより論理的にします。」 「深い対話、長い記憶、そして明確なロジック」。袁星源氏は彩雲小萌V3.5の特徴をこうまとめた。「私たちの目標は、ユーザーの指先に寄り添う、カスタマイズされた夢の世界を創造することです。」袁星源氏は、彩雲小萌の単回使用時間と累計使用時間は、類似製品をはるかに上回っていると述べた。「400以上の対話を通して、彩雲小萌の真の魅力を発見していただけるでしょう。」 袁星源氏は、同社がDCFormerへの研究と投資を継続的に増やしていく理由について、「一方では、『技術層は海外、応用層は国内』という固定観念を打ち破りたいという思いがあり、他方では、自社製品が市場競争に対応し、迅速な反復とアップグレードを実現し、主導的な能力を維持するという実際的なニーズもある」と説明した。 |
Caiyun Xiaomeng V3.5がオンラインになりました!DCFormerアーキテクチャに基づく初の汎用大型モデルがリリースされました。
関連するおすすめ記事
-
王海峰: Wenxin Yiyan のユーザーベースは 4 億 3,000 万人に達しました。
-
Qujing Technology は、大規模な知識推論オールインワンマシンをリリースし、企業が効率的な推論を実現できるようにするための「フルシステム推論アーキテクチャ」の先駆者となりました。
-
AI タンパク質設計に関する最先端のチュートリアル: AAAI '25 の 3 つの主要機関による 4 時間にわたる包括的な分析。
-
Baidu は、Extreme Pro 所有者のインテリジェント運転およびマップ サービスに関する懸念に応答します。
-
人気ランキング1位を獲得したあのパンダモデルがAI製品化!わずか3ステップ、10秒でポスターを生成。商用利用も無料です。
-
AI 2025!AIグラスから推論スケーリングまで、注目の8つのトラックをプレビュー