618ZXW

Bengio は従来の RNN を合理化し、Transformer に匹敵するパフォーマンスを実現します。

ディープラーニングの三大巨頭の一人、ヨシュア・ベンジオ氏が興味深い新しい論文を発表しました。

必要なのは RNN だけですか?
RNN だけで十分だったのでしょうか?

論文のタイトルが興味深いだけでなく、その結論も素晴らしい。

研究によれば、10 年以上前に簡素化された RNN は、最近のシーケンス モデル (Transformer など) と同等のパフォーマンスを発揮できることがわかっています。

具体的には、Bengio らは LSTM (1997) や GRU (2014) などの従来の RNN を再検討し、これらのモデルの欠点はバックプロパゲーション (BPTT) に必要な時間による速度の遅さであると主張しました。

そのため、 LSTM と GRU の隠れた状態の依存関係を大幅に排除し、BPTT の必要性を排除して効率的な並列トレーニングを可能にしました。

RNN の簡略化されたバージョンと改良されたバージョンは、それぞれminLSTMminGRUと呼ばれます。

従来の RNN と比較すると、トレーニング中に必要なパラメータの数が大幅に削減されるだけでなく、完全に並列化も可能です。

はい、究極の洗練さであるシンプルさを感じます。

では、ベンジオ氏らは具体的にどのようにこれを達成したのでしょうか?続きを読んでみましょう。

簡略化されたRNN

Transformer とその派生は近年非常に人気のあるアーキテクチャとなっていますが、同時に、長いシーケンスを処理する際の計算の複雑さの問題など、欠点も明らかです。

具体的には、シーケンスの長さに関する Transformer モデルの計算の複雑さは 2 次的であるため、長いシーケンスを処理するときには比較的多くのリソースが必要になります。

したがって、推論中に高いパフォーマンスを維持しながら、トレーニング中に長いシーケンスを効果的に処理できる代​​替手段、つまり RNN の簡易バージョンが必要です。

このプロセスの鍵となるのは、状態の依存関係を非表示にして、BPTT が不要になり、効率が直接的に向上することです。

minGRU

まず、2 つのステップで構成される、GRU に対する Bengio チームのアプローチ、つまりminGRUを見てみましょう。

最初のステップは、以前は非表示になっていた依存関係を削除することです。

従来のGRUモデルでは、更新ゲートztと候補隠れ状態h~tの計算は、前のタイムステップの隠れ状態ht-1に依存します。そのため、各タイムステップの計算は前のタイムステップの結果に依存するため、モデル学習中に並列処理を実現することは不可能です。

この問題に対処するために、minGRU は GRU を変更し、更新ゲートと候補の隠れ状態の計算が ht-1 ではなく現在の入力 xt のみに依存するようにします。

このようにして、各タイムステップでの minGRU の計算は、他のタイムステップとは独立して並列に実行できます。

2 番目のステップは、候補状態の範囲制限を削除することです。

最初のステップでは、候補となる隠れ状態h~tは、双曲線正接関数(tanh)を用いて、その値を[−1,1][−1,1]の範囲に制限します。これはモデルの安定性を高めるのに役立ちますが、並列化には必要ありません。

minGRUは、h~tの範囲制限を削除し、活性化関数を必要としない線形変換に置き換えることで、モデルをさらに簡素化します。

この方法では、候補となる隠れ状態の計算が簡単になり、範囲の制限がなくなります。

この構造では、minGRU はモデルパラメータの数を削減するだけでなく、並列スキャンアルゴリズムを使用してトレーニング中に並列化を可能にし、長いシーケンスの処理速度を大幅に向上させます。

さらに、minGRUの出力スケールは時間に依存しないため、最適化プロセス中の数値安定性が向上します。全体的な変更点は以下のとおりです。

最小LSTM

次に、3 つのステップで構成される Bengio チームによる LSTM の処理、つまりminLSTMを見てみましょう。

最初のステップは、以前は非表示になっていた依存関係を削除することです。

従来の LSTM モデルでは、忘却ゲート ft、入力ゲート it、候補セル状態 c~t の計算は、前の時間ステップの隠し状態 ht-1 に依存します。

これにより、各タイム ステップでの計算が前のタイム ステップの結果に依存するため、モデルが並列でトレーニングされることが防止されます。

この問題に対処するために、minLSTM は LSTM を変更し、忘却ゲート、入力ゲート、候補セル状態の計算が ht-1 ではなく現在の入力 xt のみに依存するようにします。

このようにして、各タイムステップでの minLSTM の計算は、他のタイムステップとは独立して並列に実行できます。

2 番目のステップは、候補状態の範囲制限を削除することです。

最初のステップでは、候補セルの状態 c~t は、双曲線正接関数 (tanh) を用いて [-1,1] の範囲に制約されます。これはモデルの安定性に貢献しますが、並列化には必要ありません。

minLSTMはc~tの範囲制限を削除し、活性化関数を必要としない線形変換に置き換えることでモデルをさらに簡素化します。

この方法では、候補セル状態の計算が簡単になり、範囲の制限がなくなります。

3 番目のステップは、出力が時間的に独立していることを確認することです。

多くのシーケンス モデリング設定 (テキスト生成など) では、最適化の目的/出力は時間に依存しません。

LSTM の出力が時間に依存しないことを保証するために、minLSTM は忘却ゲートと入力ゲートを正規化して、それらの合計が 1 になり、セル状態のスケールが時間に依存しないことを保証します。

このようにして、minLSTM は出力が時間に依存しないことを保証し、最適化プロセス中の数値安定性に役立ちます。

minLSTM の最終形式は次のようになります。

RNN だけで十分だったのでしょうか?

RNN を合理化した後、Bengio 氏のチームは実験結果も発表しました。

たとえば、次の図は、minGRU、minLSTM、Mamba モデルのトレーニング効率の比較を示しています。具体的には、トレーニングの実行時間、高速化、メモリ使用量などです。

これらのメトリックは、バッチ サイズ 64 の T4 GPU で測定されました。

下の図は、シェイクスピア言語モデリング タスクにおけるさまざまなモデルの学習曲線も示しています。

このタスクでは、文字レベルの生成的敵対的トレーニングを使用して、テキスト生成タスクにおけるモデルのパフォーマンスを評価し、言語モデリング タスク (特に迅速なトレーニングと展開を必要とするアプリケーション) における RNN モデルの有効性と効率性を簡素化します。

結論として、ベンジオのチームは、特にリソースが制限されたシナリオでは、単純化された RNN が長いシーケンスのタスクの処理に依然として理想的である可能性があると考えており、「RNN だけで十分だったのか?」という疑問が生じています。

中国の作家

この研究において、ベンジオ氏のほかに注目すべきもう一人の著者は中国人のレオ・フェン氏である。

公開されている個人ウェブサイトによると、レオ・フェン氏はモントリオール大学の博士課程の学生で、現在はボレアリス AI で研究インターンシップを行っています。

レオ・フェンの研究分野は、メタ学習と効率的なモデルの設計です。彼はオックスフォード大学で学士号を取得しています。

RNN研究のこの簡略版についてどう思いますか?ぜひ下のコメント欄にご意見をお寄せください。

論文の宛先:
https://arxiv.org/abs/2410.01201