618ZXW

賈陽清氏:大規模モデルはCNNの誤りを繰り返している。マスク氏:テスラでも同じだ。

Transformer モデルの大規模なサイズ変更は、CNN の古い道をたどっています。

LLaMA 3.1 に皆の注目が集まっているのを見て、 Jia Yangqing は次のように発言しました。

大規模モデルの開発と CNN の開発を比較すると、明確な傾向と現象が明らかになります。

ImageNet の時代、研究者や技術実務家はパラメータのサイズが急速に増加したことを目の当たりにし、より小さく効率的なモデルへと移行し始めました。

これは、GPT がモデル パラメーターをスケールアップする方法とまったく同じではないでしょうか。業界ではスケーリング法則が一般的に受け入れられ、GPT-4o mini、Apple DCLM-7B、Google Gemma 2B などのモデルが生まれています。

賈陽青は「これは大型模型の時代以前に起こったことなので、あまり覚えていない人も多いでしょう:)」と冗談めかして語った。

さらに、これに気づいたのは賈陽青氏だけではなく、 AI専門家のカパシ氏もそう考えている

大型モデルをめぐる競争は激化の一途…だが、傾向は逆転!

モデルは、まず「小さく」なることを目指す前に「大きく」なることを目指す必要があります。これは、トレーニング データを理想的な合成形式に再構築するためにこのプロセスが必要だからです。

彼は、思考において優れていて信頼できるモデルが我々の目に映るだろうと自信を持ってさえ主張した。

さらに、パラメータのサイズは非常に小さいです。

マスク氏もカパシ氏のコメント欄で繰り返し同意した。

上記はおそらく「偉大な心は同じように考える」と説明できるでしょう。

詳しく説明しましょう。

Jia Yangqing 氏の回想は、最強プレイヤーの座を 1 日だけ短期間だけ保持した LLaMA 3.1 から始まりました。

まさに「最強のオープンソースモデル=最強のモデル」が初めて実現され、当然ながら大きな注目を集めました。

しかし、賈陽清はこの時、ある点を指摘した。

「しかし、私は、この業界が本当に繁栄するのは、小規模で垂直的なモデルだと信じている。」

小型垂直モデルとは何かについて、賈陽青氏は、Patronus AI の Iynx (同社の幻覚検出モデルで、幻覚タスクでは GPT-4o を上回る) やその他の優れた中小型モデルを例に挙げて、非常にわかりやすく説明しました。

賈陽青氏は、個人的には兆パラメータモデルが非常に好きだと述べました。

しかし、実際には、パラメータスケールが 7B から 70B の大型モデルの方がユーザーにとって使いやすいことがわかりました。

  • ホスティングが簡単で、大量のトラフィックを必要とせずに収益を生み出すことができます。
  • 明確な質問をする限り、以前の見解とは反対に、適切な出力を得ることができます。

同時に、OpenAI の最新の高速モデルも、「最先端」の大規模モデルよりも小型化し始めていると聞きました。

「私の理解が正しければ、これは間違いなく業界のトレンドを示しています」と賈陽青氏は明言した。「つまり、現実世界では、適用可能で、費用対効果が高く、なおかつ堅牢なモデルを使用するということです。」

そこで、賈陽清氏はCNNの発展の歴史を簡単に概説しました。

まず、CNNが台頭した時代がありました。

AlexNet (2012) から始まり、モデル サイズの成長期間は約 3 年間続きました。

2014年に登場したVGGNetは、非常に強力なパフォーマンスとスケーラビリティを備えたモデルです。

第二に、人員削減の時期です。

2015 年に、GoogleNet はモデル サイズを「GB」から「MB」に 100 分の 1 に削減しましたが、その結果モデルのパフォーマンスは大幅に低下せず、むしろ良好なパフォーマンスを維持しました。

2015 年にリリースされた SqueezeNet などのモデルでも同様の傾向が見られます。

その後しばらくの間、開発の焦点はバランスの追求に置かれました。

ResNet (2015) や ResNeXT (2016) などのその後の研究では、中程度のモデル サイズが維持されています。

モデル サイズを制御しても計算負荷が軽減されないことは注目に値します。実際、誰もが「同じパラメータでより高い効率」の状態を実現するために、より多くの計算リソースを投資する意思があります。

その後、CNN がエッジ コンピューティング分野を独占する時期が続きました。

たとえば、MobileNet は Google が 2017 年に開始した興味深いプロジェクトです。

興味深いのは、使用するリソースが非常に少ないにもかかわらず、パフォーマンスが優れていることです。

先週、誰かが Jia Yangqing にこう言いました。「すごいですね。MobileNet はデバイス上で実行でき、優れた機能埋め込みの汎用性を備えているため、私たちはまだ MobileNet を使用しています。」

最後に、Jia Yangqing 氏は Ghimire 氏らの「効率的な畳み込みニューラル ネットワークとハードウェア アクセラレーションに関する調査」から図を借用しました。

そして再び、彼は疑問を呈した。

大型モデルはCNN時代と同じトレンドを辿るのでしょうか?

ネットユーザーはどう思うでしょうか?

実際、GPT-4o miniのように、大規模モデル開発の道を辿りながらも、小型化していく例は少なくありません。

前述の人々がこの見解を述べた後、他の人々も即座に同意してうなずき、同じ傾向を観察していたことを証明する同様の例を挙げました。

すぐに誰かがそれに倣いました。

新たな好例をご紹介します!Gemma-2 は、27B パラメータサイズのモデルの知識をより小さなバージョンに凝縮しました。

一部のネットユーザーは、より大きなモデルを開発するということは、次の世代においてより小さく、より特化したモデルのトレーニングを「強化」できるようになることを意味するとも指摘した。

この反復プロセスにより、最終的に「完璧なトレーニング セット」と呼ばれるものが生成されます。

このように、特定のドメインでは、より小規模な大規模モデルが、膨大なパラメータを持つ現在の大規模モデルと同等か、あるいはそれ以上にスマートになることがあります。

つまり、モデルのサイズを縮小する前に、まずモデルを拡大する必要があります。

この観点について議論している人のほとんどはこの傾向に同意しており、中には「これは良いことであり、『私のモデルはあなたのモデルより大きい』というパラメータ競争よりも実用的で有用だ」と述べる人もいます。

もちろんですよ!

オンラインのコメント欄を徹底的に調査したところ、さまざまな意見が明らかになった。

例えば、賈陽青のツイートには次のようなコメントが残されていた。

最も競争力のあるモデルを持つ企業である Mistral Large (Mistral AI が支援)、LLaMA 3.1 (Meta が支援)、OpenAI は現在、さらに大規模なモデルをトレーニングしていると思われます。

「小型モデルで技術革新を達成する」というトレンドには気付いていません。

賈陽清はこの質問にすぐに答えた。

彼はこう言いました。「その通りです!大規模なモデルサイズがCNNの古い道をたどっているかもしれないと言ったとき、それは私がすべての人に大規模モデルのトレーニングをやめるように呼びかけているわけではありません。」

さらに彼は、CNN や大規模モデルなどのテクノロジーが実際に実装されるケースが増えるにつれて、コスト効率の高いモデルに人々が注目し始めているというのが彼の主張だと説明しました。

したがって、おそらく、より効率的な小規模から大規模へのモデルは、AI の「知性」を再定義し、「大きいほど良い」という仮定に挑戦する可能性があります。

あなたはこの見解に同意しますか?

参考リンク:
[1]https://x.com/jiayq/status/18... [2]https://x.com/fun000001/statu... [3]https://www.patronus.ai/ [4]https://twitter.com/karpathy/...