618ZXW

LoRA よりも効率的!上海交通大学とハーバード大学が、特定のミッション方向をターゲットとした、微調整された新しいフレームワークを立ち上げました。

LoRAよりも効率的なモデルの微調整方法が登場しました—

常識的推論を例にとると、パラメータの数を 8 ~ 16 倍削減すると、どちらの方法でも同じ効果が得られます。

LoRA-Dashと呼ばれるこの新しい手法は、上海交通大学とハーバード大学の研究者によって提案されました。この手法は主に、特定のタスク向けにモデルを微調整する際に大量の計算リソースが必要になるという問題点に対処します。

研究で完了した主な作業は次のとおりです。

効率的な微調整プロセスにおける TSD (Task- Specific Directions) が厳密に定義され、その特性が詳細に分析されます。

下流タスクにおける TSD の潜在能力をさらに引き出すために、新しい効率的な微調整方法である LoRA-Dash が提案されています。

詳細を見てみましょう。

特定のタスクのフレームワークをゼロから構築します。

大規模言語モデルの開発に伴い、特定のタスクに合わせてモデルを微調整するには、多くの場合、大量のコンピューティング リソースが必要になります。

この問題に対処するために、パラメータ効率的な微調整 (PEFT) 戦略が登場し、LoRA などの方法が広く使用されています。

LoRA では、一連の実験を通じて、LoRA は本質的に、事前トレーニングで学習されたが重要ではないいくつかの方向をキャプチャし、これらの方向に対応する特徴は、後続の下流タスクで LoRA によって増幅されることを著者らは発見しました

LoRA では、これらの指示を「タスク固有の指示」(TSD) と定義しています。

ただし、元の LoRA 論文の TSD の説明にはいくつかの矛盾と衝突が見られます。

例えば、著者はTSDが∆tの最大特異値に対応する特異ベクトルであると考えています。

しかし、∆iから得られるこれらの特異ベクトルは、iの特異ベクトルと同一である可能性は低い。

こうした矛盾により、研究者の間では TSD に対する理解が曖昧になっており、これらのアプローチをどのように活用するかについても不明瞭になっています。

これらの問題に対処するために、論文の著者らは、効率的な微調整プロセスにおける TSD の厳密な定義を示し、その特性を詳細に分析しました。

TSDの定義

まず、行列の基底と方向は次のように定義されます

定義1 :行列𝐀の左特異ベクトルと右特異ベクトルは、それぞれ行列𝐔と𝐕で表される。行列𝐀の基底は以下のように定義される。

コア基底:行列𝐀のコア基底は次のように定義されます。

それぞれ

これは、特異ベクトル 𝓤𝓲 と 𝐕𝓲 で構成される階数1 の行列です。

大域基底: 行列𝐀の大域基底は次のように定義される。

すべての𝓲、𝐣について、左特異ベクトルと右特異ベクトルのすべての組み合わせをカバーします。

定義 2 : 行列 𝐀 ∈ ℝ𝑛x𝑚 (ただし 𝑛 < 𝑚) の方向は、その特異値 ​​∑ の拡張セットを取り、ゼロで埋められた、そのグローバル基底の定義に基づいています。

具体的には、(𝛔1, 0, ..., 0,𝛔2, 0, ..., 0,𝛔n, ..., 0) ∈ ℝ𝑛x𝑚と表され、行平坦化により∑になります。

研究者は、あらゆるグローバル基底は、その方向がワンホットベクトルであるため、単位方向として見ることができると警告しています。

具体的なタスクの方向性については、著者らは以下の前提に基づいて研究を行った。

任意のタスクに対して、行列空間 ℝ𝑛x𝑚 に最適な行列 𝐖 が存在します

事前トレーニング済みの重み行列𝐖の場合、このタスクに対する最適な調整は∆𝐖=𝐖-𝐖です。

PEFT では、研究者は 𝐖 とその方向に関する情報のみを取得できます。

∆𝐖と𝐖*の方向はそれぞれの基底に基づいているため、まず𝐖のグローバル基底に投影されます。

定義3 :𝚰𝚰·(·)を、ある座標系の方向を別の座標系に投影する投影演算子として定義します。

具体的には、𝚰𝚰𝐖(𝐀) = (𝒑11, ..., 𝒑𝑛𝑚) ∈ ℝ𝑛𝑚 は、行列 𝐀 ∈ ℝ𝑛x𝑚 の方向を行列 𝐖 ∈ ℝ𝑛x𝑚 のグローバル基底に投影したものです。

行列𝐖のグローバル基底に基づいて、𝚰𝚰𝐖(𝐖*)は𝐖が進化する必要がある方向を表します。

𝐖は𝑛コア塩基しか利用できないため、その向きの𝑛値のみを変更できます。

したがって、コアとなる方向性の変化に重点を置く必要があります。

変換プロセス中、異なるコア方向の座標値はそれぞれ異なる程度に変化します。下流タスクの多様性により、一部のコア方向は大きく変化する一方で、他のコア方向は変化が小さい場合があります。

定義された変化率 φ は、 φ コア方向の変化の度合いを測定します。

したがって、研究者はTSDを次のように定義しています。

特定のタスクと事前トレーニング済みの重み行列𝐖について、タスクの最適な重みが𝐖であると仮定すると、𝐖上のタスクのTSDは、𝐖から𝐖への遷移中に座標値が著しく高い変化率𝛅を示すコア方向を指します。

TSDを使用する際の特性と課題

一連の実験を通じて、著者らは TSD の2 つの特性を導き出しました。

  • TSD は主に、𝐖 が小さいが最小ではない特異値相関のコア方向に対応します。
  • TSD は、𝐖 から𝐖* への遷移において大きな変化率を持ついくつかの方向のみをカバーしますが、他のほとんどのコア方向の変化率は小さいか無視できます。

TSD の定義と特性は徹底的に調査されてきましたが、微調整を行う前に ∆i と α が不明であるため、実際には TSD 情報を事前に利用することはほとんど不可能です

この課題に対処するために、著者らは、LoRA の ∆t によって予測されるコア方向の変化率の高さが TSD と密接に関連しているという仮説を立てています。

広範囲にわたる実験により、予測された方向と実際の TSD の間に高い重複があることが明らかになり、重要な結論に至りました。

LoRA のランク設定、トレーニング手順、モデル レベルに関係なく、LoRA の Δt はタスク固有の方向で一貫して情報をキャプチャします。

これは、TSD が不明な場合でも、LoRA トレーニング中に取得された ∆k を通じてこれらの重要な情報を取得できることを示しています。

TSD の可能性を解き放つ: LoRA-Dash

下流タスクにおける TSD の潜在能力をさらに引き出すために、研究者はLoRA-Dash と呼ばれる新しい効率的な微調整方法を提案しました。

LoRA-Dash は主に 2 つのフェーズで構成されます。

1つ目は「リリース前フェーズ」です。このフェーズでは、タスク固有の方向性を特定します。これはモデル最適化において非常に重要な部分であり、最も調整が必要な方向性を確実に特定します。

具体的には、この段階では、LoRA-Dashはtの更新後に得られた∆tを使用してTSDを予測し、次の段階で調整する必要がある方向を決定します。

2つ目は「スプリントフェーズ」です。このフェーズでは、以前に特定されたTSDのポテンシャルを活用してモデルを微調整・最適化し、事前トレーニング済みモデルが特定のタスクにより適切に適応できるようにします。

具体的には、著者らは TSD の座標変更を直接シミュレートしてモデルの適応調整を加速し、それによって新しいタスクでのパフォーマンスを向上させました。

LoRA-Dash の疑似コードを図に示します。

実験

著者らは常識的推論、自然言語理解、主題主導型生成タスクに関する実験を行った。

実験結果によると、LoRA-Dash はすべてのタスクにおいて LoRA よりも大幅に優れたパフォーマンスを実現します。

常識的推論(LLAMA-7B、LLAMA2-7B、およびLLAMA3-8Bを使用して微調整):

自然言語理解(DeBERTaV3-base と DeBERTaV3-large を使用して微調整):

被写体駆動型生成(SDXLを用いて微調整)。LoRAと比較して、LoRA-Dashは画像内の犬や花瓶など、元の画像との整合性が高い。

実験結果は、TSDが下流タスクに有効であることを実証しました。LoRA-DashはTSDの潜在能力を最大限に引き出し、効率的な微調整のパフォーマンスレベルをさらに向上させることができます。

関連する論文が公開されており、コードもオープンソース化されています。

論文: https://arxiv.org/pdf/2409.01035 コード: https://github.com/Chongjie-S... プロジェクトのホームページ: https://chongjiesi.site/proje...