|
(編集者注:AI専門家の李牧氏が最近、再び注目を集めています。昨年、彼は退職し、大規模モデルのスタートアップを立ち上げました。そして今、起業1年目の進捗と反省を共有しています。また、最近ビリビリに復帰し、引き続き読者に古典的な学術論文を解説しています。この記事は、李牧氏の知乎コラムの許可を得て掲載しています。) ここでは、LLM 起業家としての私の 1 年目の進捗状況、苦労、そして感想を同僚に報告します。 アマゾンで5年目の頃、起業を考えていましたが、パンデミックの影響で延期になりました。7年半経った頃には、どうしてもやりたいという気持ちが強くなり、退職しました。今振り返ってみると、人生で何かに挑戦したいと思ったら、早く始めるべきだと思います。なぜなら、一度始めれば、学ぶべきことがたくさんあり、もっと早く始めていればよかったと後悔することになるからです。 名称:BosonAIの由来起業する前、私は「Gluon」という一連のプロジェクトに携わっていました。量子物理学において、Gluonとはクォークを結合させるボソンのことで、このプロジェクトが当初AmazonとMicrosoftの共同プロジェクトであったことを象徴しています。プロジェクトマネージャーは思いつきでこの名前を思いつきましたが、プログラマーにとって名前を付けるのは難しく、私たちは毎日ファイル名や変数名に悩みました。最終的に、新しい会社の名前はBosonに決まりました。「ボソンとフェルミオンが世界を構成する」という表現の意味を理解して、皆が「Boson」と知って微笑んでくれることを願っています。ただ、Bostonと間違える人が多いとは思っていませんでした。 今ボストンにいます。いつか会ってみませんか? 資金調達: リード投資家が署名前日に逃亡。2022年末、大規模言語モデル(LLM)を使って生産性向上ツールを作るという2つのアイデアを思いつきました。偶然、張一鳴(Zhang Yiming)氏に出会ったので相談しました。話し合いの後、彼は私にこう尋ねました。「LLM自体を作ればいいじゃないか」。私はすぐに諦めようと思いました。Amazonのチームは何年もこの作業に取り組んでおり、何万枚ものカードやその他多くの困難に直面していました。一鳴氏はくすくす笑いながらこう言いました。「これらはすべて短期的な問題です。長期的な視点で考える必要があります。」 私の強みは、アドバイスに耳を傾け、実際に行動に移すことです。データ分析、事前トレーニング、事後トレーニング、アーキテクチャの各分野のリーダーからなる創業チームを編成し、資金調達に着手しました。幸運にも、シードラウンドはすぐに資金を確保できました。しかし、必要なライセンスを購入するには資金が足りず、第2ラウンドに踏み切らざるを得ませんでした。このラウンドは大規模な機関投資家が主導し、私たちは数ヶ月かけて条件の策定と交渉を行いました。しかし、契約締結の前日にリード投資家が投資を見送ると表明し、他の投資家数名が撤退する事態となりました。残りの投資家の方々には大変感謝しています。おかげでこのラウンドを完了することができ、私は法学修士号(LLM)取得の道を選ぶことができました。 今振り返ってみると、資本市場がまだ活況を呈していた頃であれば、資金調達を続け、競合他社のように10億ドルの現金を保有していた可能性もあったでしょう。当時は、資金調達をしすぎると事業撤退が難しくなったり、経営が危うくなったりするのではないかと懸念していました。しかし今では、起業家精神とは運命に抗うことだと理解しています。なぜ代替案など考える必要があるのでしょうか? 機械:新しいことに挑戦する最初の人々お金が貯まったら、GPUを買いに行きました。色々なサプライヤーに連絡してみましたが、H100はあと1年は納品されないという意見が一致していました。そこで、ふと思いついてNvidia(Huang氏)にメールを送ってみました。するとすぐに返信があり、見てみるとのことでした。1時間後、AMDのCEOから電話がありました。少し余分にお金を出して順番を待たずに購入し、20日後にマシンを受け取りました。この技術をいち早く体験できた幸運な人でした。 あまりにも多くのカニを食べすぎて、自分たちの存在意義を疑うほどでした。ありとあらゆる奇妙なバグに遭遇し、例えばGPUパワー不足が不安定な状態を引き起こしましたが、これは後にSupermicroのエンジニアがBIOSコードを修正することで修正されました。光ファイバーケーブルの切断角度が間違っていたため通信が不安定になったり、NVIDIAが推奨するネットワークレイアウトが最適ではなかったため、新しいソリューションを開発し、後にNVIDIAに採用されたりしました。今でも理解できません。私たちは1000枚にも満たないカードしか購入していなかったので、小規模な購入者だったのです。大規模な購入者はこうした問題に遭遇しなかったのでしょうか?なぜ私たちのデバッグが必要だったのでしょうか? 一方で、私たちも同数のH100サーバーをレンタルしていましたが、様々なバグに遭遇しました。GPUは毎日のように故障し、クラウドでこのようなことを試しているのは私たちだけなのではないかとさえ思っていました。その後、Llama 3社からH100に切り替えた後、モデルの学習が1セッションあたり数百回も中断されたという技術レポートを目にしました。レポートに記されていた苦労に、深く共感しました。 自作GPUとリースGPUを比較すると、3年間のリース費用は自作とほぼ同じです。リースの利点は利便性です。自作には2つの利点があります。1つ目は、Nvidiaの技術が3年後も依然として大きくリードしている場合、価格を抑制でき、GPUの価値を維持できることです。2つ目は、自作のデータストレージコストが低いことです。ストレージはGPUの近くに設置する必要があり、GPUクラウドの規模に関わらず、ストレージ価格は高額です。しかし、1回のモデルトレーニングセッションでは、チェックポイントを保存するために数テラバイトの容量が必要になることがあり、トレーニングデータのストレージは10PBから始まります。AWS S3を使用すると、10PBのコストは年間200万です。この金額で、自作ストレージは100PBに達する可能性があります。 事業内容:お客様に感謝し、初年度で損益分岐点を達成。幸いにも、初年度で損益分岐点を達成できました。OpenAIの資金力とNvidiaの圧倒的な優位性のおかげで、経費は主に人件費と計算能力に費やされました。どちらもかなりの額でした。収益は、大手クライアント向けに開発したカスタムモデルから得られました。LLMを早期に導入した企業の多くは、強力な意思決定力を持つCEOが主導していました。彼らは計算能力や人件費の高騰にもめげず、社内チームに新しい技術の導入を積極的に促しました。クライアントの皆様には、私たちに息抜きの時間を与えていただき、大変感謝しています。そうでなければ、この数ヶ月間、私は投資家を訪ね回らざるを得なかったでしょう。 今後、より多くの企業が、製品のアップグレード、コスト削減、効率性向上のためにLLMの活用を検討するようになるでしょう。これは、技術コストが低下していることに加え、業界リーダー(当社のクライアントなど)がLLMベースの製品を段階的にリリースし、業界を活性化させるためです。 LLMのコンシューマー市場への応用も注視しています。c.aiやPerplexityといった過去のトップ企業はまだビジネスモデルを模索している一方で、約12のネイティブLLMアプリケーションがまともな収益を上げています。私たちは、奥深いゲームプレイに重点を置き、収益と費用のバランスをうまく取っているロールプレイングゲームのスタートアップにモデルを提供しました。これは非常に印象的です。モデルの機能は現在も進化を続けており、音声、音楽、画像、動画など、より多くのモダリティが統合されています。今後、さらに独創的なアプリケーションが登場することを期待しています。 業界全体と資本は依然として焦りを隠せません。10億人民元を超える資金調達を行ったものの、設立からわずか1年しか経っていない企業が、今年中に撤退を決断したケースもいくつかあります。技術から製品化までのプロセスは非常に長く、2~3年かかるのは当たり前です。しかし、新たなユーザーニーズの出現を考えると、さらに長い時間がかかる可能性があります。私たちは現状の霧の中を進むことに集中していますが、将来については楽観的な見通しを保っています。 テクノロジー:LLM認知の4つの段階LLMに対する私の理解は4つの段階を経てきました。最初の段階はBERTからGPT3への移行で、新しいアーキテクチャ、ビッグデータ、そして実現可能な何かだと感じていました。Amazonにいた頃は、大規模なトレーニングと製品実装をいち早く実施した企業の一つでもありました。 第二段階は、スタートアップの初期段階でGPT-4がリリースされた時です。これは大きな衝撃でした。その大きな要因は、当時この技術が一般公開されていなかったことです。噂によると、1つのモデルの学習に1億単位の費用がかかり、データのラベル付けにも数千万単位の費用がかかるとのことでした。多くの投資家からGPT-4の再現にはどれくらいの費用がかかるのかと尋ねられ、私は3億から4億かかると答えました。その後、実際に数億単位の投資をしてくれた投資家がいました。 第三段階は、スタートアップの最初の6ヶ月間でした。GPT4を扱うことができなかったため、具体的な問題から始めることにしました。そこで、ゲーム、教育、販売、金融、保険などの分野のクライアントを探し始めました。それぞれのニーズに合わせてモデルをトレーニングしました。当初は優れたオープンソースモデルがなかったため、ゼロからトレーニングしました。その後、多くの優れたモデルが登場し、コスト削減につながりました。そして、様々なビジネスシナリオに合わせた評価手法を設計し、データにラベルを付け、モデルの弱点を特定し、的を絞った改善を行いました。 2023年末、当社のPhoton(Bosonモデルの一種)シリーズが顧客アプリケーションにおいてGPT4を上回る性能を発揮したことを大変嬉しく思います。カスタムモデルの利点は、推論コストがAPI呼び出しの1/10に抑えられることです。現在ではAPIははるかに安価になっていますが、当社の技術も向上し、1/10のコストを維持しています。さらに、レイテンシなどの要素をより適切に制御できるようになりました。この段階で、特定のアプリケーションにおいては、市場最高のモデルを上回る性能を発揮できると確信しました。 第4フェーズは、スタートアップの後半6か月間でした。クライアントは契約で指定されたモデルを受け取りましたが、GPT-4では到底不十分であり、彼らが思い描いていたものとは異なっていました。年初には、単一のアプリケーションのトレーニングでは、モデルがさらなるブレークスルーを達成することが困難であることがわかりました。振り返ってみると、AGIが平均的な人間のレベルに到達することを目指すのであれば、クライアントはプロのレベルを求めていました。ゲームにはプロのデザイナーと俳優が必要であり、教育には一流の教師が必要であり、販売には一流の営業マンが必要であり、金融と保険には上級アナリストが必要です。これらすべてには、業界固有の専門知識と組み合わせたAGIが必要です。当時、私たちはAGIに畏敬の念を抱いていましたが、避けられないと感じていました。 今年初めに、ヒッグス(神の粒子、ボソンの一種)シリーズのモデルを設計しました。主な特徴は、一般的な能力は最高のモデルにほぼ従っていますが、特定の能力に優れています。私たちが選んだ能力はロールプレイングです。仮想の役割を演じる、教師を演じる、販売員を演じる、アナリストを演じるなどです。2024年半ばには、第2世代に反復されました[1]。一般的な能力をテストするArena-HardとAlpacaEval 2.0では、V2は最高のモデルと同等であり、知識をテストするMMLU-Proでもそれほど遅れていません。 Higgs-V2はLlama3をベースにしており、完全な事後学習を実行します。Metaのようなデータのラベル付けに多額の費用を費やすリソースがないため、主にアルゴリズムの革新性により、V2はLlama3 Instructionよりも優れています。 そこで、キャラクター設定に沿ったロールプレイングとシナリオに沿ったロールプレイングを収録したロールプレイング用の評価セット[2]を作成しました。自分たちのモデルが自社のリーダーボードで1位になったのは少し恥ずかしいのですが、モデルの学習には評価データを使用していませんでした。この評価セットは自分たちで使うことを想定していたため、モデルの能力を真に反映させたかったため、モデルがデータセットに過剰適合することを避けたかったのです。しかし、評価セットを作成した人が技術レポートを書きたいと言っていたので、そのまま公開してしまいました。興味深いことに、ロールプレイングのテストサンプルはc.aiから提供されたのですが、そのモデルの能力は最も低かったのです。 理解の第4段階は、優れた垂直モデルは、一般能力が弱くてはいけないということです。例えば、推論や指示に従うといった能力は、垂直的にも必要です。長期的には、一般モデルと垂直モデルの両方がAGI(Advanced Governance Index)に向かって進化していく必要があります。しかし、垂直モデルは、コア科目で高いスコアを獲得し、一般科目でもまずまずの成績を収めることで、より特化することができ、その結果、研究開発コストが若干削減され、研究開発手法も多様化します。 理解の第5段階についてはどうですか?まだ進行中ですが、近いうちに皆さんにシェアしたいと思っています。 ビジョン:人間の友情恥ずかしながら、私たちはテクノロジーにばかり気を取られ、クライアントに合わせてプロジェクトをカスタマイズし、それからゆっくりと自分たちのビジョンを熟考していました。クライアントが何を求めているのか、自分たちが何を求めているのか、そして未来に何が待ち受けているのかを見つめていました。何年も前、私はロボット乳母が子育てを手伝い、一緒に過ごしてくれることを夢見ていました。それはとても難しいと感じていたし、子供たちの認知能力や知的発達の現状をまだよく理解していなかったからです。将来は、私と一緒に新しいものを発明してくれる、非常に有能なバーチャルアシスタントが職場にいてくれることを願っています。そして、老後は、私に付き添ってくれる面白いロボットが欲しいと思っています。私の未来予測は、生産ツールがますます進化するにつれて、以前はチームでなければ達成できなかったことを一人で達成できるようになり、個人主義が進むということです。誰もが自分の目標の追求に追われ、結果として孤独感が増すのです。 これらすべての要素が組み合わさり、私たちはビジョンを「人間らしい伴侶を提供するインテリジェントエージェント」と定義しました。これは、高い感情知能と強力な認知能力を備えたエージェントを意味します。現実世界で言えば、これはプロのチームと言えるでしょう。例えば、一緒に遊びたいなら、プロのプランナー兼俳優のような存在になります。一緒に運動したいなら、モチベーター兼プロのスポーツコーチのような存在になります。学習をサポートしたいなら、わからないことを説明してくれるでしょう。このモデルのメリットは、長期的な伴侶となり、あなたを真に理解し、心から寄り添ってくれることです。 しかし、現状の技術はビジョンから程遠いものです。現状では、技術は議論の出発点を提供するに過ぎません。多くの場面において、議論は効果的ではなく、内容が不足していたり、知的・感情的な知性が十分でなかったりするケースもあります。これらはまさに今解決すべき問題です。この分野で海外向けアプリケーションを開発されている方がいらっしゃいましたら、お気軽にお問い合わせください。 チーム: 困難なタスクにはチームワークが必要です。起業して初めて、チームの大切さを真に実感しました。大企業では、自分が歯車のようで、チームメンバーも歯車、そしてチーム自体も歯車のようでした。しかし、スタートアップのチームはまるで車のようです。小さくても、走り、重い荷物を運び、機敏に方向転換し、どんな角にも行けます。創業後間もなく、miHoYoの創業者である蔡英文が訪ねてきて、皆が一つの部屋に詰め込まれているのを見て、「小さなチームの素晴らしさ」と感嘆しました。 もちろん、不便な点もあります。燃料残量を常に確認し、荒れた路面では車を壊さないように注意しなければなりません。メンバー全員が重要で、スペアタイヤはありません。誰か一人が調子を崩せば、タイヤがパンクする可能性もあります。人もまた貴重で、誰か一人が辞めれば、タイヤが1本減ってしまうかもしれません。 以前は、自分が開発をリードできるプロジェクトを選んでいました。しかし、それは同時に、問題が自分の能力をはるかに超えるものではないことを意味していました。起業は非常に大きな問題に取り組むことになるため、チームに全面的に頼らなければなりません。この記事では「私」という言葉を何度も使っていますが、実際にはチームが仕事をしています。チームなしでは、転職してコースを販売せざるを得なくなるかもしれません(拍手は不要です)。 個人的な追求:名声か富か?これまで、私は自分の内なる声に従って決断を下してきました。博士号取得前に働くこと、動画制作、そして起業です。起業には、尽きることのない困難を乗り越えるための強いモチベーションが必要です。そのためには、自分自身のモチベーションをより深く分析する必要があります。 モチベーションは欲望か恐怖から生まれる。10年前なら、名声や富に突き動かされていたかもしれない。しかし今、この歳になると、金銭の限界効用は減少し、名声の感情的な価値も微々たるものになっていると感じている。私の根底にあるモチベーションは、人生が無意味なのかもしれないという恐怖から来ている。宇宙の広大さはさておき、人類史という長い流れの中でさえ、一人の人間は砂粒に過ぎない。予期せぬ到来と、あっけないほどの忽然と消え去る。地球上には1000億もの人々が生きてきたが、その大半は歴史に痕跡を残さない。私の家系図に刻まれた何千もの名前のうち、見覚えのある人はほとんどいない。 では、人間の存在意義とは何でしょうか?子供の頃、私はその意味が分からず落ち込んでいました。だからこそ、価値を創造し、自分の存在意義を見つけたいのです。価値創造能力を高めるために「進歩を目指す」ことを選びました。教育的価値を生み出すために、長編動画の撮影や教科書の執筆を選びました。博士課程、仕事、そして起業の要約を書き、その過程における苦労や困難を描写し、貴重な実例を挙げました。そして、多くの人々の力を結集してより大きな価値を創造するために、起業を選びました。 追記昨年、私はスタンフォード大学で蘇華と歩いていた時、彼が私の肩を軽く叩きながら「正直に言って、なぜ起業しようと思ったのですか?」と尋ねました。その時は深く考えず、「ただ何か違うことをしたいだけなんです」と答えました。すると蘇華は微笑みました。 すべての起業家に敬意を表します。 (弊社の採用情報(ベイエリア・バンクーバー)は下記に掲載しております:https://jobs.lever.co/bosonai) 海外向けアプリケーションを開発されている方は、下記までご連絡ください: mailto:[email protected] 記事内のリンク: [1]https://boson.ai/higgs-v2/ [2]https://boson.ai/rpbench-blog/ 10 年間の作業を振り返る: https://zhuanlan.zhihu.com/p/... |
Li Mu: ビジネスの世界での 1 年は、現実世界での 3 年と同じくらいの感じがします。
関連するおすすめ記事
-
Baidu Search × DeepSeek!統合が正式に発表され、わずか24時間以内にフルバージョンがリリースされました。実際のテストはここから開始されます。
-
文化遺産を深く育みながら、杭州はまさにAI主導の都市です!2024年杭州文化産業博覧会の「AIGC文化産業イノベーションカンファレンス」では、AIと文化、そしてクリエイティブなビジネスモデルを探求する場をご提供します。
-
DeepSeek-R1搭載国産AI検索エンジン徹底検証レポート初見:公式オンライン検索エンジンが使えなくて不安だった矢先に…
-
Alibaba の Sora のオープンソース バージョンはリリース後すぐにチャートのトップに躍り出て、4070 プロセッサ上で動作し、商用利用は無料です。
-
オープンソース オペレーティング システム HarmonyOS 5.0 が正式にリリースされ、あらゆるものがインテリジェントに接続される未来が到来しました。
-
最も優秀なAIプログラマーが職を失いつつある。彼は84秒でコードを実行し、人間のように考えることができるのだ!彼のチームはたった5人しかいない。