|
クオッカ・データホエール データホエールの共有 著者:Quokka、編集者:Datawhale 著作権に関するお知らせ:著作権は原著者に帰属します。本記事は学術的な共有のみを目的としています。著作権侵害に該当する場合は、削除いたしますのでご連絡ください。
私は1年半かけて大きな模型を作り、数え切れないほどのインタビューを受けました。 経験 応募者(特に学生)からよく聞かれるのは、「大規模なモデルの経験がありません。チャンスをいただけますか?」というものです。 答えは、候補者の大規模モデルのトレーニング経験を重視していないということです。これは経験が重要ではないという意味ではなく、むしろほとんどの人にとって経験は無意味だということです。大手モデル企業のコアメンバーの経験だけが重要であり、これは大多数の候補者にとって無関係です(例えば、キャンパスリクルートメントやインターンシップの履歴書にはLLaMA 7Bの微調整に関する記述がよく見られますが、経験豊富な採用担当者の履歴書には様々な企業が所有する大規模モデルに関する記述がよく見られます)。 実際、大規模モデルの経験が目立たないことは減点ポイントになります。候補者が大規模モデルの学習経験があると言った場合、私はこう尋ねます。「1000kcalでXX Bのモデルを学習した経験があるとのことですが、どのような並列構成を使用し、DP/PP/TPをどのように分割しましたか?」多くの場合、私が得る答えは「わかりません」です。時には候補者からDPとは何ですかと聞かれることさえありますが、私は本当に答えられません。CVを行う候補者は、DPとDDPの違いについて8行の公式のうち数行を暗唱できますが、最も並列性が求められる研究分野のNLPを行う候補者は、DPが何であるかを知りません。同様に、候補者が大規模モデルの学習を行ったことがあるが、MFUが何であるかを知らず、Megatron[1]を起動するためのコマンドラインパラメータの意味を知らない場合、これらはすべてマイナスの経験です。 紙 今は以前とは状況が違います。多くの人が一流の学会論文を発表しています。よく言われるように、論文の90%は価値がありません。PEFT(パラメータ効率の良いファインチューニング)分野のように、非常に優れた論文は当然プラスになります。最近のLoRA-GAやLoRA-proといった論文は、非常に優れています。しかし、ネットワーク構造を改変して物語を語るだけの、ありきたりな論文の多くは、付加価値がありません。論文があるということは、基礎研究の訓練を受けているということであり、それ以上のものではありません。MSRAはかつて、研究経験のないインターン生を好んで採用することさえありました。短期間の研究経験が、彼らのセンスを歪め、信頼できない人材にしてしまうことを懸念したからです。 経験や論文のほかに、他に何を探せばいいのでしょうか? 一言で表すなら「可能性」です。でも「可能性」だけでは抽象的すぎるので、「基盤」と「好奇心」という二つの言葉で表したいと思います。 基礎とは何でしょうか?学生にとって、当然のことながら、主な焦点は学業です。どのような学校の経歴を持っていますか?専攻科目の成績はどうですか?基礎知識はしっかりしていますか?面接では、学生との気まずい状況によく遭遇します。数学の質問(微積分/線形代数/確率と統計)では、1年目に学んだことを忘れてしまったと答えます。プログラミングの質問(LeetCode 簡単/中程度の難易度)では、練習していないのでコードが書けないと答えます。モデル構造(LLaMAを参照)について質問されると、通常はChatGPT APIのみを使用しており、知らないと答えます。かなりの数の応募者がトランスフォーマーモデル構造に関する質問に答えることができません。半数は詳細を知らないと認め、残りの半分の90%は知っていると思っているが、実際には知らないのです。 ほとんどの研究者はコーディングスキルが非常に低く、ChatGPT API を呼び出したり、torch.nn.Module を変更したり、オープンソースフレームワークを使用して SFT/RLHF を実行したりすることしかできません。プロセスとスレッドを区別できず、オペレーティングシステムを覚えてもすぐに忘れてしまいます。基本的な Python プログラミング言語しか知らず、他の言語には全く精通していません。もちろん、これが論文発表や卒業に影響しないことは承知しています。オープンソースコードを複製して数行変更するだけでニーズを満たすことができます。しかし、世界を変えるような研究をしたい場合はどうでしょうか?例えば、2016 年にタイムスリップして AlphaGo のアイデアを思いつき、十分なコンピューティングリソースが与えられたとしたら、自分でそれを実装する自信はありますか? 好奇心とは何でしょうか?大規模モデルの経験がなくても構いませんが、積極的に学ぶ意欲はありますか?大規模モデルに関する論文を積極的に読みますか?残念ながら、多くの候補者はそうしません。大規模モデルに切り替えたい人の中には、大規模モデルを使っていない人もいます。ChatGPTはどのような問題を解決でき、どのような問題を解決できないのでしょうか?その限界は何でしょうか?彼らに聞いても、彼らは知らないでしょう。時には候補者と何ヶ月も連絡を取り合っているのに、大規模モデルへの理解が全く向上していないこともあり、それは本当に残念です。100B以上のモデル、あるいは7Bのモデルをトレーニングする機会がないのであれば、事前トレーニング済みの7B、あるいは1Bのモデルをダウンロードして分析し、重みの分布のパターンを確認する意欲はありますか?このような細部への細心の注意を払えるのであれば、すでにモデル量子化において優れた成果を上げているかもしれません。 時には、強固な基礎と好奇心が互いに補完し合うこともあります。例えば、モデル学習開始時のおおよその損失はどれくらいでしょうか?しっかりとした数学的基礎があれば、合理的な仮定を立ててそれを導き出すことができます。一方、強い好奇心があれば、あらゆる細部に注意を払い、質問に正しく答えることができるでしょう。 最後に、通常の大規模モデルのトレーニング経験や論文よりも価値のある経験の具体的な例をいくつか紹介します。 A. 異なるパイプライン アルゴリズムのパフォーマンスが 2 つの 2080Ti カードに実装され、比較されました。 B. Triton を使用していくつかの演算子を自分で実装しました。 C. さまざまな大規模モデルで使用されるトークナイザーの違いを説明できる。 D. Python以外の言語でも優れた開発スキルを有している(例:いくつかのオープンソースプロジェクトで承認されている)。 E. 高性能な五目並べ AI を実装しました (プル アルゴリズムを使用することが望ましい)。 参照する 1. ^これは、候補者がトレーニングにメガトロンを使用したと言っているものの、会社のグループ内の上級同僚/メンターが起動コマンドを与えたが、各パラメータの意味がわからないという状況を指します。 |
大型モデルの経験はありませんが、チャンスをいただけますか?
関連するおすすめ記事
-
2024年のトップ10インテリジェント車両技術ソリューション/製品
-
「オープンソースの大規模モデル使用ガイド」: 大規模モデルをすぐにマスターしましょう! ベストプラクティスの新しい例!
-
MWC 2025 ライブ: Lenovo が、初の外側に折りたためる画面や太陽光発電のノートパソコンなど、新しい PC イノベーションを展示します。
-
「DJIのゴッドファーザー」は、香港証券取引所に上場する初の自動運転トラック企業となることを目指しており、7年間で8回の資金調達を実施し、評価額は90億元に達している。株主には百度(バイドゥ)とセコイア・キャピタルも名を連ねている。
-
Andrew Ng は OpenAI と協力して、新しい O1 推論コースを開始しました。しかも無料です!
-
大手配車サービス会社は、ロボタクシー専用の滴滴出行の自動運転プログラムにさらに21億元を投資する。