618ZXW

インターネット上で精査されているDeepSeekチームは、清華大学と北京大学の最近の卒業生で構成されている。

非常に高度なモデルである DeepSeek-v3 の登場は、わずか 1/11 の計算能力で Llama 3 405B を上回るオープンソース モデルをトレーニングしたことで、AI コミュニティ全体に衝撃を与えました。

これに続いて、「雷軍がディープシークの研究員羅富里を引き抜くために数百万ドルの年俸を提示した」という噂も、ディープシークの人材プールに注目を集めた。

今では、テクノロジー業界だけでなく、インターネット全体が興味を持ち、小紅書(リトルレッドブック)のユーザーまでが、これはどのようなチームなのかと質問を投稿している。

海外では、創業者の梁文鋒氏のインタビューを英語に翻訳し、注釈を加え、同社の台頭の手がかりを見つけようとしている人もいる。

QuantumBit がまとめたさまざまな情報源によると、DeepSeek チームの最も注目すべき特徴はその若さです。

最近の卒業生や在校生、特に清華大学や北京大学の卒業生は、この分野で非常に活躍しています。

彼らの中には、2024年にDeepSeekで研究を行っており、ちょうど博士論文が賞を受賞したばかりの人もいました。

彼らの中には、DeepSeek LLM v1 から DeepSeek-v3 までの全プロセスに参加した人もいれば、一定期間のみインターンとして参加しながらも大きな成果を上げた人もいます。

DeepSeek が提案した主要なイノベーション、たとえば MLA の新しい注目メカニズムや GRPO 強化学習アライメント アルゴリズムなどは、ほぼすべて若者によって生み出されました。

DeepSeekコアメンバーが秘密を明かす

2024年5月にリリースされたDeepSeek-V2は、この大規模モデル企業が主流に躍り出る上で重要な要素となりました。

最も重要な革新は、新しいタイプのアテンションの導入です。これは、Transformer アーキテクチャに基づいて、従来のマルチヘッド アテンションをMLA (Multi-head Latent Attention) に置き換え、計算量と推論メモリの量を大幅に削減します。

貢献者の中で、 Gao Huazuo 氏Zeng Wangding 氏は MLA アーキテクチャに重要な革新をもたらしました。

高華左氏は非常に控えめな人物で、これまでにわかっているのは北京大学の物理学科を卒業したということだけだ。

なお、この名前は「大型模型業界の6つの小さな強豪新興企業」の1社であるJieyue Xingchenの特許情報にも記載されていますが、同一人物であるかどうかは現時点では不明です。

Zeng Wangding 氏は北京郵電大学 (BUPT) 出身で、大学院の指導教員は BUPT の人工知能および Web 検索教育研究センター所長の Zhang Honggang 氏です。

DeepSeek-V2 プロジェクトにおけるもう 1 つの重要な成果はGRPOです。

DeepSeek-V2 のリリースの 3 か月前に、GRPO (Group Relative Policy Optimization) を導入した DeepSeek-Math がリリースされました。

GRPO は PPO の変種であり、批評家モデルを放棄し、代わりにグループ スコアからベースラインを推定する RL アルゴリズムであり、トレーニング リソースの必要性を大幅に削減します。

GRPOは業界内で広く注目を集めており、別の国産オープンソース大規模モデルであるアリババのQwen 2.5の技術レポートでもその使用が明らかにされました。

DeepSeekMath の中心的な著者 3 名は、DeepSeek でのインターンシップ中に研究を完了しました。

中心著者の一人であるShao Zhihong氏は、清華大学の CoAI (Co-AI) 研究グループの博士課程の学生であり、Huang Minlie 教授の指導を受けています。

彼の研究分野には自然言語処理とディープラーニングが含まれており、多様なスキルを使用して異種の情報を統合し、さまざまな複雑な自然言語の質問に正確に答えることができる堅牢でスケーラブルな AI システムを構築する方法に特に興味を持っています。

Shao Zhihong 氏は以前、Microsoft Research に勤務していました。

DeepSeekMathの後、DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1などのプロジェクトにも参加しました。

もう一人の主要著者である朱奇豪(Zhu Qihao )は、北京大学コンピュータサイエンス学院ソフトウェア研究所の2024年博士課程修了者です。彼は熊英飛(Xiong Yingfei)准教授と張陸(Zhang Lu)教授の指導を受け、深層コード学習を研究の中心としています。

北京大学コンピュータサイエンス学院の公式紹介によると、朱其豪氏はCCF-Aレベルの論文を16本発表しています。ASEでACM SIGSOFT優秀論文賞を1回受賞し、ESEC/FSEでも1回ノミネートされています。同氏の論文のうち1本は、同年のESEC/FSEカンファレンスで引用数上位3位にランクインしました。

DeepSeek チームでは、Zhu Qihao 氏が博士論文に基づいて DeepSeek-Coder-V1 の開発も主導しました。

彼の博士論文「言語定義を考慮したディープコード学習技術とアプリケーション」は、2024 CCF ソフトウェアエンジニアリング専門委員会博士論文奨励プログラムにも選出されました。

△画像出典:北京大学コンピュータ科学技術学院公式WeChatアカウント

もう一人の中心的な著者も北京大学出身です。

北京大学の博士課程学生である王培宜さんは、北京大学教育部計算言語学重点実験室の隋志芳教授の指導を受けています。

DeepSeek-V2 MLA と DeepSeekMath GRPO の 2 つの重要な進歩に加えて、一部のメンバーが v1 から v3 までずっとプロジェクトに参加したことも言及する価値があります。

重要人物の一人は、2024年に北京大学コンピュータサイエンス学院で計算言語学の博士号を取得した戴達麻氏です。彼の指導教官も隋志芳教授でした。

△画像出典:北京大学コンピュータ科学技術学院公式WeChatアカウント

戴珠麻氏は、EMNLP 2023で最優秀長編論文賞、CCL 2021で最優秀中国論文賞を受賞するなど、目覚ましい学術成果を上げており、主要な会議で20本以上の学術論文を発表しています。

2024年、中国情報処理学会の「博士論文奨励プログラム」は、中国本土の大学から10件の博士論文を選出したが、その中には彼の「事前学習済み言語モデルにおける知識記憶のメカニズム分析と能力向上のためのキーテクノロジーの研究」も含まれていた。

そして北京大学元北学院の王秉軒さん

王秉軒さんは山東省煙台市出身で、2017年に北京大学に入学した。

修士号を取得後、DeepSeek に入社し、DeepSeek LLM v1 から始まる一連の重要なプロジェクトに参加しました。

清華大学のもう一人の代表的人物は趙成剛である。

趙成剛さんは、衡水高校の情報科学競技クラスに在籍し、CCF NOI 2016で銀メダルを獲得しました。

趙成剛はその後、清華大学に入学し、2年生の時に清華大学の学生スーパーコンピューティング チームの正式なメンバーとなり、世界学部生スーパーコンピューティング コンテストで 3 回優勝しました。

Zhao Chenggang は、DeepSeek でトレーニング/推論インフラストラクチャ エンジニアとして働いており、NVIDIA でのインターンシップ経験があります。

△画像出典:清華新聞網

DeepSeek はどのようなチームですか?

これらの活気に満ちた個人は賞賛を呼び起こすのに十分です。

しかし、これではまだ最初の疑問「DeepSeek とはどのようなチームなのか?組織構造はどうなっているのか?」には答えられません。

その答えは創設者の梁文鋒氏にあるのかもしれない。

2023年5月、DeepSeekが大規模モデル開発への参入を発表したばかりで、まだ成果を発表していなかった頃、梁文鋒は36Krの「Dark Surge」のインタビューで採用基準を明らかにした。

経験ではなく能力を見てください。

当社の中核技術職は主に新卒者、または卒業して 1 ~ 2 年経った人によって占められています。

これは事実であり、その後 1 年半にわたって発表された論文の寄稿者リストを見ると、博士課程の学生、最近卒業した学生、1 ~ 2 年前に卒業した学生が多数含まれていることが分かります。

チームリーダーも比較的若く、主に4〜6年前に卒業した人たちです。

たとえば、DeepSeek でトレーニング後のチームを率いるWu Yu氏は、2019 年に北京航空航天大学で博士号を取得し、Microsoft MSRA で Xiaoice および Bing 百科事典プロジェクトに参加しました。

研究中、呉宇博士は北京航空航天大学の李周軍教授とMSRA元副学部長の周明博士から共同で指導を受けました。

彼の指導者は郭大雅氏で、中山大学の殷建教授とMSRAの周明博士の共同指導を受けました。彼は2023年に博士号を取得しました。

彼は 2024 年 7 月に DeepSeek に入社し、そこで主に一連の大規模な数学およびコード モデリング プロジェクトに携わりました。

郭大雅氏の在学中のもう一つの功績は、学部生時代にMSRAで1年間インターンシップをし、2本の主要学会論文を発表したことです。彼は冗談めかしてこう言いました。「入学3日目で、香港中文大学の博士課程の卒業要件を満たしたんです。」

DeepSeek は、若いチームメンバーに加え、モデルアルゴリズムとハードウェアエンジニアリングの連携を重視している点でも国内 AI 企業の中で際立っています。

DeepSeek v3 の論文には合計 200 人の著者がいますが、その全員が AI アルゴリズムやデータを担当しているわけではありません。

DeepSeek LLM v1からv3の初期段階から関わってきたグループがあります。彼らはコンピューティング能力の側面に重点を置いており、ハードウェアの最適化を担当しています。

彼らは、ハードウェアとソフトウェアの共同設計を通じてトレーニング コストを削減し、AI トレーニングのニーズを満たす従来のスーパーコンピューティング アーキテクチャの欠点を解決する「Fire-Flyer AI-HPC」というタイトルの論文を DeepSeek AI という名前で発表しました。

Magic Square AI が構築したFirefly 2 Wanka Cluster としても知られる Fire-Flyer は、NVIDIA A100 GPU を使用していますが、NVIDIA の公式 DGX-A100 サーバーに比べてコストとエネルギー効率の面で優れています。

このチームのメンバーには、NVIDIA で働いたりインターンシップをしたりした経験のあるメンバーや、同じく杭州にある Alibaba Cloud から来たメンバー、そして Magic Square AI から出向したり DeepSeek に異動したりして、あらゆる主要なモデル プロジェクトに参加したメンバーもいます。

ハードウェアとソフトウェアの連携に重点を置いた結果、より高性能な DeepSeek-v3 が、Llama 3 405B のわずか 1/11 の計算能力でトレーニングされました。

最後に、DeepSeek オープンソース プロジェクトにはユニークな要素があることも発見しました。それは言語モデリングではなく、 3D 生成に関連した要素でした。

この成果は、清華大学の博士課程の学生であるSun Jingxiangが、DeepSeek でのインターンシップ中に、指導教官の Liu Yebin および他の DeepSeek メンバーと共同で達成しました。

DeepSeek に多大な貢献をしたもう一人のインターンは、中山大学で論理学を専攻する Xin Huajian です

DeepSeek でのインターンシップ中、彼は大規模なモデルを使用して数学の定理を証明する DeepSeek-Prover に参加し、現在はエディンバラ大学で博士号取得を目指しています。

これらの例を見た上で、梁文鋒のインタビューに戻ると、チームの運営構造をより深く理解できるかもしれない。

  • 事前に割り当てられた職務ではなく、分業が自然に行われます。
  • 各人が使用できるカードの数や人数に制限はありません。トレーニング クラスターには誰でもいつでもアクセスでき、数人の興味があればプロジェクトを開始できます。
  • アイデアに可能性がある場合、上から下までリソースが割り当てられます。

必然的に、AIの世界で無視できないもう一つの勢力、つまりOpenAIが思い浮かびます。

同様に、採用の際に経験は考慮しません。能力があれば、学部生や中退者でも採用します。

同様に、新入社員を有効活用することで、新卒者や2000年代生まれの人材を動員し、ソラをゼロから開発することができます。

同様に、潜在的な方向性に直面したときも、会社全体でトップダウンで設計、計画し、リソースを割り当てます。

DeepSeek はおそらく、組織構造が OpenAI に最も似ている中国の AI 企業です。

参考リンク:[1]https://mp.weixin.qq.com/s/Ca... [2]https://mp.weixin.qq.com/s/r9...\_lml\_fOEZmjg [3]https://mp.weixin.qq.com/s/9A...\_1HAK1V3t1MZXOw [4]https://mp.weixin.qq.com/s/y4... [5]https://mp.weixin.qq.com/s/C9...\_LVQ