618ZXW

Li Mu: ビジネスの世界での 1 年は、現実世界での 3 年と同じくらいの気分です!

データホエール

Datawhaleのヒント

著者: Li Mu CMU、BosonAI 共同創設者

ここでは、LLM 起業家としての私の 1 年目の進捗状況、苦労、そして感想を同僚に報告します。

アマゾンで5年目の頃、起業を考えていましたが、パンデミックの影響で延期になりました。7年半経った頃には、どうしてもやりたいという気持ちが強くなり、退職しました。今振り返ってみると、人生で何かに挑戦したいと思ったら、早く始めるべきだと思います。なぜなら、一度始めれば、学ぶべきことがたくさんあり、もっと早く始めていればよかったと後悔することになるからです。

名称:BosonAIの由来

起業する前、私は「Gluon」という一連のプロジェクトに携わっていました。量子物理学において、Gluonとはクォークを結合させるボソンのことで、このプロジェクトが当初AmazonとMicrosoftの共同プロジェクトであったことを象徴しています。プロジェクトマネージャーは思いつきでこの名前を思いつきましたが、プログラマーにとって名前を付けるのは難しく、私たちは毎日ファイル名や変数名に悩みました。最終的に、新しい会社の名前はBosonに決まりました。「ボソンとフェルミオンが世界を構成する」という表現の意味を理解して、皆が「Boson」と知って微笑んでくれることを願っています。ただ、Bostonと間違える人が多いとは思っていませんでした。

「ボストンにいるんだけど、いつか会わない?」「え?でも、ベイエリアにいるんだけど😅」

資金調達: リード投資家が署名前日に逃亡。

2022年末、大規模言語モデル(LLM)を使って生産性向上ツールを作るという2つのアイデアを思いつきました。偶然、張一鳴(Zhang Yiming)氏に出会ったので相談しました。話し合いの後、彼は私にこう尋ねました。「LLM自体を作ればいいじゃないか」。私はすぐに諦めようと思いました。Amazonのチームは何年もこの作業に取り組んでおり、何万枚ものカードやその他多くの困難に直面していました。一鳴氏はくすくす笑いながらこう言いました。「これらはすべて短期的な問題です。長期的な視点で考える必要があります。」

私の強みは、アドバイスに耳を傾け、実際に行動に移すことです。データ分析、事前トレーニング、事後トレーニング、アーキテクチャの各分野のリーダーからなる創業チームを編成し、資金調達に着手しました。幸運にも、シードラウンドはすぐに資金を確保できました。しかし、必要なライセンスを購入するには資金が足りず、第2ラウンドに踏み切らざるを得ませんでした。このラウンドは大規模な機関投資家が主導し、私たちは数ヶ月かけて条件の策定と交渉を行いました。しかし、契約締結の前日にリード投資家が投資を見送ると表明し、他の投資家数名が撤退する事態となりました。残りの投資家の方々には大変感謝しています。おかげでこのラウンドを完了することができ、私は法学修士号(LLM)取得の道を選ぶことができました。

今振り返ってみると、資本市場がまだ活況を呈していた頃であれば、資金調達を続け、競合他社のように10億ドルの現金を保有していた可能性もあったでしょう。当時は、資金調達をしすぎると事業撤退が難しくなったり、経営が危うくなったりするのではないかと懸念していました。しかし今では、起業家精神とは運命に抗うことだと理解しています。なぜ代替案など考える必要があるのでしょうか?

機械:新しいことに挑戦する最初の人々

お金が貯まったら、GPUを買いに行きました。色々なサプライヤーに連絡してみましたが、H100はあと1年は納品されないという意見が一致していました。そこで、ふと思いついてNvidia(Huang氏)にメールを送ってみました。するとすぐに返信があり、見てみるとのことでした。1時間後、AMDのCEOから電話がありました。少し余分にお金を出して順番を待たずに購入し、20日後にマシンを受け取りました。この技術をいち早く体験できた幸運な人でした。

あまりにも多くのカニを食べすぎて、自分たちの存在意義を疑うほどでした。ありとあらゆる奇妙なバグに遭遇し、例えばGPUパワー不足が不安定な状態を引き起こしましたが、これは後にSupermicroのエンジニアがBIOSコードを修正することで修正されました。光ファイバーケーブルの切断角度が間違っていたため通信が不安定になったり、NVIDIAが推奨するネットワークレイアウトが最適ではなかったため、新しいソリューションを開発し、後にNVIDIAに採用されたりしました。今でも理解できません。私たちは1000枚にも満たないカードしか購入していなかったので、小規模な購入者だったのです。大規模な購入者はこうした問題に遭遇しなかったのでしょうか?なぜ私たちのデバッグが必要だったのでしょうか?

一方で、私たちも同数のH100サーバーをレンタルしていましたが、様々なバグに遭遇しました。GPUは毎日のように故障し、クラウドでこのようなことを試しているのは私たちだけなのではないかとさえ思っていました。その後、Llama 3社からH100に切り替えた後、モデルの学習が1セッションあたり数百回も中断されたという技術レポートを目にしました。レポートに記されていた苦労に、深く共感しました。

自作GPUとレンタルGPUを比較すると、レンタルの場合の3年間のコストは自作とほぼ同じです。レンタルのメリットは利便性です。自作には2つのメリットがあります。1つ目は、Nvidiaの技術が3年後も依然として大きくリードしている場合、価格をコントロールしてGPUの価値を維持できることです。2つ目は、自作のデータストレージコストが低いことです。ストレージはGPUの近くに設置する必要があり、大規模クラウドでも小規模GPUクラウドでも、ストレージの価格は高額です。しかし、1回のモデルトレーニングセッションでは、チェックポイントを保存するために数テラバイトのスペースが必要になることがあり、トレーニングデータのストレージは10PBから始まります。AWS S3を使用する場合、10PBで年間200万のコストがかかります。そのお金で、最大100PBまで構築できます。

事業内容:お客様に感謝し、初年度で損益分岐点を達成。

幸いなことに、初年度で損益分岐点を達成できました。主な費用は人件費とコンピューティングパワーで、Openaiの財政支援とNvidiaのこの分野における卓越した専門知識に感謝しています。どちらもかなりの額でした😭。収益は、大手クライアント向けに構築したカスタムモデルから得られました。LLMを早期に導入した企業は、強力な意思決定能力を持つCEOが主導するケースがほとんどでした。彼らはコンピューティングパワーと人件費の高騰にもめげず、社内チームに新しい技術を試すよう果敢に促しました。クライアントの皆様には、私たちに息抜きの時間を与えていただき、大変感謝しています。そうでなければ、この数ヶ月間、私は投資家を訪ね回らざるを得なかったでしょう。

業界全体と資本は依然として焦りを隠せません。10億人民元を超える資金調達を行ったものの、設立からわずか1年しか経っていない企業が、今年中に撤退を決断しました。技術から製品化までのプロセスは長く、2~3年かかるのは当たり前です。しかし、新たなユーザーニーズの出現を考えると、さらに長い時間がかかるかもしれません。私たちは現状の霧の中を進むことに集中していますが、将来については楽観的な見通しを保っています。

テクノロジー:LLM認知の4つの段階

LLM の理解は 4 つの段階を経てきました。

最初のフェーズは、BERTからGPT3への移行でした。新しいアーキテクチャとビッグデータという印象があり、将来性を感じました。Amazonに在籍していた当時、私たちは大規模なトレーニングと製品展開をいち早く実装した企業の1つでした。

第二段階は、スタートアップの初期段階でGPT-4がリリースされた時です。これは大きな衝撃でした。その大きな要因は、当時この技術が一般公開されていなかったことです。噂によると、1つのモデルの学習に1億単位の費用がかかり、データのラベル付けにも数千万単位の費用がかかるとのことでした。多くの投資家からGPT-4の再現にはどれくらいの費用がかかるのかと尋ねられ、私は3億から4億単位だと答えました。その後、実際に数億単位の投資をしてくれた投資家がいました。

第三段階は、スタートアップの最初の6ヶ月間でした。GPT4を扱うことができなかったため、具体的な問題から始めることにしました。そこで、ゲーム、教育、販売、金融、保険などの分野のクライアントを探し始めました。それぞれのニーズに合わせてモデルをトレーニングしました。当初は優れたオープンソースモデルが見つからなかったため、ゼロからトレーニングしました。その後、多くの優れたモデルが登場し、コスト削減につながりました。そして、様々なビジネスシナリオに合わせた評価手法を設計し、データにラベルを付け、モデルの弱点を特定し、的を絞った改善を行いました。

2023年末、当社のPhoton(Bosonアルゴリズムの一種)シリーズモデルが顧客アプリケーションにおいてGPT4を上回る性能を示したことを大変嬉しく思います。カスタムモデルの利点は、推論コストがAPI呼び出しの1/10に抑えられることです。現在ではAPIは大幅に安価になっていますが、当社の技術も向上し、1/10のコストを維持しています。さらに、QPSとレイテンシの制御も容易になりました。この段階で、特定のアプリケーションにおいては、市場最高のモデルを上回る性能を発揮できると確信しました。

第4フェーズは、スタートアップ後半の6ヶ月間でした。クライアントは契約書に記載されたモデルを受け取りましたが、GPT-4だけでは到底不十分であり、クライアントが思い描いていたものとは異なっていました。年初には、単一のアプリケーションのためのトレーニングでは、モデルのさらなる飛躍的進歩が困難であることがわかりました。振り返ってみると、AGIが平均的な人間のレベルに到達することを目指すのであれば、クライアントはプロフェッショナルのレベルを求めていました。ゲームにはプロのデザイナーや俳優、教育には一流の教師、営業には一流の営業マン、金融・保険にはシニアアナリストが必要です。これらすべてには、業界固有の専門知識と組み合わせたAGIが必要です。当時、私たちはAGIに畏敬の念を抱いていましたが、避けられないものだと感じていました。

今年の初めに、ヒッグス(神の粒子、ボソンの一種)シリーズのモデルを設計しました。主な焦点は、最高のモデルに近い汎用能力を備えつつ、特定の能力に重点を置くことでした。私たちが選んだ能力は、ロールプレイング、つまり仮想的な役割、教師、営業担当者、アナリストなどを演じることでした。2024年半ばまでに、第2世代へのイテレーションを行いました。汎用能力をテストするArena-HardとAlpacaEval 2.0では、V2は最高のモデルに対して優れたパフォーマンスを発揮し、知識をテストするMMLU-Proでもそれほど劣りませんでした。

Higgs-V2はLlama3をベースにしており、完全な事後学習を行います。Metaのようなラベル付きデータに多額の費用をかける余裕はないため、主にアルゴリズムの革新性により、V2はLlama3 Instructionよりも優れています。

次に、キャラクター設定に基づくロールプレイングとシナリオに基づくロールプレイングを含む、ロールプレイングの評価データセットを作成しました。私たちのモデルが独自のリーダーボードで1位になったのは少し恥ずかしいことですが、モデルは評価データセットで学習したわけではありません。この評価データセットは当初、モデルの性能を正確に反映することを目指し、私たち自身での使用を目的としていました。そのため、モデルがデータセットに過学習することを避けたかったのです。しかし、評価を行ったチームが技術レポートを書きたいと言い出したため、公開することにしました。興味深いことに、ロールプレイングのテストサンプルはc.aiから提供されたのですが、そのモデルの性能は最下位でした。

理解の第4段階は、優れた垂直モデルは汎用性が弱くてはいけないということです。例えば、推論や指示に従う能力は垂直的にも必要です。長期的には、汎用モデルと垂直モデルの両方がAGI(Advanced Governance Index)へと進化していく必要があります。しかし、垂直モデルはコアコースで高いスコアを獲得し、汎用コースでもまずまずの成績を収めることで、より特化させることができ、開発コストを若干削減し、開発手法も変化させることができます。

理解の第5段階についてはどうですか?まだ進行中ですが、近いうちに皆さんにシェアしたいと思っています。

ビジョン:人間の友情

恥ずかしながら、私たちはテクノロジーにばかり気を取られ、クライアントに合わせてプロジェクトをカスタマイズし、それからゆっくりと自分たちのビジョンを熟考していました。クライアントが何を求めているのか、自分たちが何を求めているのか、そして未来に何が待ち受けているのかを見つめていました。何年も前、私はロボット乳母が子育てを手伝い、一緒に過ごしてくれることを夢見ていました。それはとても難しいと感じていたし、子供たちの認知能力や知的発達の現状をまだよく理解していなかったからです。将来は、私と一緒に新しいものを発明してくれる、非常に有能なバーチャルアシスタントが職場にいてくれることを願っています。そして、老後は、私に付き添ってくれる面白いロボットが欲しいと思っています。私の未来予測は、生産ツールがますます進化するにつれて、以前はチームでなければ達成できなかったことを一人で達成できるようになり、個人主義が進むということです。誰もが自分の目標の追求に追われ、結果として孤独感が増すのです。

これらすべての要素が組み合わさり、私たちはビジョンを「人間らしい伴侶を提供するインテリジェントエージェント」と定義しました。これは、高い感情知能と強力な認知能力を備えたエージェントを意味します。現実世界で言えば、これはプロのチームと言えるでしょう。例えば、一緒に遊びたいなら、プロのプランナー兼俳優のような存在になります。一緒に運動したいなら、モチベーター兼プロのスポーツコーチのような存在になります。学習をサポートしたいなら、わからないことを説明してくれるでしょう。このモデルのメリットは、長期的な伴侶となり、あなたを真に理解し、心から寄り添ってくれることです。

しかし、現状の技術はビジョンから程遠いものです。現状では、技術は議論の出発点を提供するに過ぎません。多くの場面において、議論は効果的ではなく、内容が不足していたり​​、知的・感情的な知性が十分でなかったりするケースもあります。これらはまさに今解決すべき問題です。この分野で海外向けアプリケーションを開発されている方がいらっしゃいましたら、お気軽にお問い合わせください。

チーム: 困難なタスクにはチームワークが必要です。

起業して初めて、チームの大切さを真に実感しました。大企業では、自分が歯車のようで、チームメンバーも歯車、そしてチーム自体も歯車のようでした。しかし、スタートアップのチームはまるで車のようです。小さくても、走り、重い荷物を運び、機敏に方向転換し、どんな角にも行けます。創業後間もなく、miHoYoの創業者である蔡英文が訪ねてきて、皆が一つの部屋に詰め込まれているのを見て、「小さなチームの素晴らしさ」と感嘆しました。

もちろん、不便な点もあります。燃料残量を常に確認し、荒れた路面では車を壊さないように注意しなければなりません。メンバー全員が重要で、スペアタイヤはありません。誰か一人が調子を崩せば、タイヤがパンクする可能性もあります。人もまた貴重で、誰か一人が辞めれば、タイヤが1本減ってしまうかもしれません。

以前は、自分が開発をリードできるプロジェクトを選んでいました。しかし、それは同時に、問題がそれほど難しくないことも意味していました。起業は大きな問題に取り組むことなので、チームに全面的に頼らなければなりません。この記事では「私」という言葉を何度も使っていますが、実際にはチームが仕事をしています。チームなしでは、転職してコースを販売せざるを得なくなるかもしれません。

個人的な追求:名声か富か?

これまで、私は自分の内なる声に従って決断を下してきました。博士号取得前に働くこと、動画制作、そして起業です。起業には、尽きることのない困難を乗り越えるための強いモチベーションが必要です。そのためには、自分自身のモチベーションをより深く分析する必要があります。

モチベーションは欲望か恐怖から生まれる。10年前なら、名声や富に突き動かされていたかもしれない。しかし今、この歳になると、金銭の限界効用は減少し、名声の感情的な価値も微々たるものになっていると感じている。私の根底にあるモチベーションは、人生が無意味なのかもしれないという恐怖から来ている。宇宙の広大さはさておき、人類史という長い流れの中でさえ、一人の人間は砂粒に過ぎない。突然現れ、あっという間に消えていく。地球上には1000億の人々が暮らしてきたが、その大半は歴史に痕跡を残さない。私の家系図に載っている名前に、見覚えのあるものはほとんどいない。

では、人間の存在意義とは何でしょうか?子供の頃、私はその意味が分からず落ち込んでいました。だからこそ、潜在意識の中で価値を創造し、自分の存在に意味を見出そうとしていたのです。価値創造能力を高めるために「進歩を目指す」ことを選びました。教育的価値を生み出すために、長編動画の撮影や教科書の執筆を選びました。博士課程、仕事、そして起業の要約を書き、その苦労や困難を綴り、貴重なケーススタディを作成しました。そして、多くの人々の力を結集し、より大きな価値を創造するために起業することを選びました。

追記

昨年、私はスタンフォード大学で蘇華と歩いていた時、彼が私の肩を軽く叩きながら「正直に言って、なぜ起業しようと思ったのですか?」と尋ねました。その時は深く考えず、「ただ何か違うことをしたいだけなんです」と答えました。すると蘇華は微笑みました。

「起業の紆余曲折を経験した彼だからこそ、今なら理解できます。もし今、この質問をもう一度聞かれたら、『正気を失っていた』と答えるでしょう。でも、当時はこんなに大変だとは思っていなかったので、思い切って飛び込んで良かったと思っています。そうでなければ、『10年間の振り返り』と捉えられていたかもしれません。今書いているストーリーの方が、より興味深いものになっていると思います。」

「すべての起業家への賛辞。」

-終わり-

(最後に、Bosonの求人情報(ベイエリアとバンクーバー)へのリンクはこちらです:https://jobs.lever.co/bosonai。海外アプリケーションの開発経験がある方は、[email protected]までBosonにお問い合わせください。)