|
Transformer に挑戦しようとする新しいアーキテクチャは数多くありますが、Google の「正統派」後継であるTitanアーキテクチャがより注目を集めています。 NVIDIA は、テスト時間コンピューティングを大規模モデルの 3 番目のスケーリング法則と呼んでいます。 OpenAI はこれを推論に使用し、Google は現在これを記憶に使用しています。 第一著者のアリ・ベロウズ氏は次のように述べています。 Titan は、Transformer や最新の線形 RNN よりも効率的で、200 万を超えるコンテキスト ウィンドウに効果的に拡張でき、GPT4 や Llama3 などの大規模モデルよりも優れたパフォーマンスを発揮します。 彼はまた、研究の背景にある動機についても説明した。研究チームは、トランスフォーマーの注意メカニズムは短期記憶として現れるため、ずっと昔の情報を記憶できる神経記憶モジュールも必要だと考えた。 新しい長期記憶モジュール記憶に関して言えば、LSTM や Transformer などの古典的なモデルを思い浮かべる人もいるかもしれません。これらはさまざまな観点から人間の記憶をシミュレートしますが、それでも限界があります。
さらに、テスト データが分布外にある可能性があるため、トレーニング データを単に記憶するだけでは実際の使用には役立たない可能性があります。 この目的のために、Titans チームは過去の情報をニューラル ネットワークのパラメータにエンコードすることを計画し、テスト中に特定のデータを記憶/忘れる方法を学習するオンライン メタモデルをトレーニングしました。 彼らは神経心理学からインスピレーションを得て、人間の脳の原理を借用した神経長期記憶モジュールを設計しました。
このオンライン メタ学習パラダイムは、モデルが無駄なトレーニング データの詳細を記憶することを回避し、代わりに新しいデータに基づいて自身を調整する方法を学習することで、一般化能力を向上させます。 さらに、チームはこのモジュールが並列計算を実行できることを確認しました。 この強力なメモリ モジュールをディープラーニング アーキテクチャにどのように統合できるでしょうか? この目的のために、Titans は次の 3 つのバリエーションを提案しました。 MAC、コンテキストとしてのメモリ 長期記憶と持続記憶(タスクの知識をエンコードする不変パラメータ)は、現在の入力のコンテキストとして一緒に注意に送られます。 MAG、記憶は門である ゲーティング フュージョンは、メモリ モジュールとスライディング ウィンドウ アテンション ブランチの両方で実行されます。 MAL、層としての記憶 メモリ モジュールは別のレイヤーとして扱われ、履歴情報はアテンションに入力される前に圧縮されます。 実験の結果、それぞれの方法には長所と短所があることが明らかになりました。 Titans は、言語モデリング、常識的推論、時系列予測などのタスクにおいて、Transformer や Mamba などのさまざまなアーキテクチャの最先端 (SOTA) モデルよりも優れたパフォーマンスを発揮します。 さらに、長期記憶モジュール (LMM) のみを通じて、複数のタスクでベースラインを上回るパフォーマンスを実現します。 これは、このメカニズムが短期記憶(つまり注意)がなくても独立して学習する能力を持っていることを示しています。 長いテキストから細かい手がかりを見つける「干し草の山の中の針」テストでは、シーケンスの長さが 2k から 16k に増加しても、精度は約 90% を維持しました。 しかし、研究チームは、これらの一般的なテストでは、長文においてタイタンが優位に立つことはもはや示されていないと考えています。 非常に長い文書に分散された事実について推論する必要がある別のタスクでは、Titans は GPT4、Mamba、Llama3.1 + RAG システムよりも優れたパフォーマンスを発揮しました。 さらに、Titans は時系列予測や DNA 配列モデリングなどの特定のタスクでも優れたパフォーマンスを実現しています。 3 人の著者は、Google Research NYC アルゴリズムおよび最適化チームに所属していますが、このチームはまだ Google DeepMind に統合されていません。 第一著者はコーネル大学のインターンであるAli Behrouz 氏です。 鍾培霖は清華大学姚クラスの卒業生で、コロンビア大学で博士号を取得しました。2021年にGoogleのリサーチサイエンティストとして入社しました。 2016年、鍾培林が学部時代に筆頭著者として発表した論文がトップカンファレンスSTOC 2016に採択され、中国の学部生がSTOCで筆頭著者として論文を発表したのはこれが初めてとなった。 チームリーダーのVahab Mirrokni 氏は、 Google フェロー兼 VP です。 チームによれば、Titians は PyTorch と Jax で実装されており、モデルのトレーニングと評価用のコードを近日中に提供する予定だという。 論文の宛先: 参考リンク: |
Googleの新しいアーキテクチャは、Transformerのメモリボトルネックを突破し、注目を集めています。これは、Yao Classの卒業生であるZhong Peilin氏による最新作です。
関連するおすすめ記事
-
ドイツ・ミュンヘンに研究開発センターを建設中!中国のスマートビークル、ノルマンディー上陸作戦開始。
-
GMI Cloud は、NVIDIA H200 をベースにした DeepSeek シリーズ モデルの提供を開始しました。
-
OpenAI初の無料推論モデル「o3-mini」がリリースされました!DeepSeekがウルトラマンに考え直させる:オープンソース化しなかったのは間違いだった。
-
新しいオープンソース ライフスタイルを取り入れて、活気のあるコミュニティを楽しみましょう。COSCon'24 のコミュニティ コラボレーションとオープンソース マーケットプレイスの募集が進行中です。コミュニティの皆様のご参加を心よりお待ちしております。
-
エンドツーエンドのソリューションに全面的に注力した結果、Yuanrong Capitalは7億人民元の資金調達に成功しました。報道によると、唯一の投資家はGreat Wall Motorsとのことです。RobotaxisへのL2+直接アクセスを提供します。
-
低高度経済企業の60%以上がDingTalkを採用しており、DingTalkとそのエコシステムパートナーは低高度産業ソリューションをリリースしています。