618ZXW

Transformer を置き換えると、7B オープンソースモデルが即座にトップの座を獲得します。任意の長さのシーケンスを処理できます。

Transformer のアーキテクチャを変更するだけで、パフォーマンスが全面的に即座に向上し、同規模のオープンソース モデルとしては最高のものになります。

(注意メカニズムはもはや存在しない)

これは最新のFalcon Mamba 7Bモデルです。

さまざまなテキスト生成タスクを処理するために、 Mamba 状態空間言語モデル アーキテクチャを採用しています。

従来の注意メカニズムを排除することで、モデルが長いシーケンスを処理する際の計算効率の低下の問題が効果的に改善されます。

メモリ要件を増やすことなく、無限に長いシーケンスを処理できます。

コンテキストの長さに関係なく、各トークンの生成にかかる時間は基本的に同じです

その結果、Falcon Mamba モデルのパフォーマンスが全面的に向上し、Llama-3.1 (8B)、Mistral (7B)、Falcon-2 (11B) などの多くの Transformer アーキテクチャ モデルを上回りました。

上記の成果は、ファルコンモデルの開発チームであるアラブ首長国連邦アブダビのテクノロジーイノベーション研究所(TII)によって達成されました。

このシリーズには、基本版、命令微調整版、4 ビット版、命令微調整 4 ビット版の 4 つのモデルがあります。

最新モデルは、Apache 2.0 ライセンスの下にある TII Falcon License 2.0 オープン ライセンスに準拠しています。

ネットユーザーたちは叫んだ。「ゲームのルールを変える必要がある!」

世界初のオープンソースSSLM

パフォーマンスの面では、Falcon Mamba 7B は多くのオープンソース モデルを全面的に上回っています。

これは第一世代のMambaをベースにしています。

Mambaは状態空間モデル(SSM)です。RNNとCNNの特徴を組み合わせ、選択メカニズムを導入することで、現在の入力に基づいてモデルが情報を選択的に伝播または忘却することを可能にし、テキスト情報の処理効率を向上させます。

同時に、再帰モードで実行されるハードウェア対応の並列アルゴリズムを設計し、GPU メモリ レベル間の I/O アクセスを回避して計算効率を向上させました。

最後に、SSM アーキテクチャと Transformer 内の MLP ブロックを 1 つのブロックに統合することで、アーキテクチャも簡素化されます。

TransformerからMambaに切り替えることで、Falconモデルはメモリを増やすことなく、任意の長さのシーケンスを処理できるようになります。これは特に、単一のA10 24GB GPUに適しています。

この研究では、シーケンスを処理するための 2 つの異なる方法についても説明しました。

並列事前充填方式は GPU 並列処理に適していますが、メモリ要件が高くなります。一方、順次充填方式は SSM モデルに適しており、任意の長さのシーケンスを処理できるため、メモリによる制限を受けません。

大規模なトレーニング中の安定性を確保するために、Falcon Mamba モデルは追加の RMS 正規化レイヤーを使用します。

RMS 正規化レイヤーは、LayerNorm の計算プロセスを簡素化し、計算量を削減します。

このモデルは、主にReferredWebデータセットと公開データから得られた5500GTのデータを用いて学習されました。学習は比較的一定のペースで進められ、最終的な最適化段階を支援するために、学習プロセスの後半で、厳選された高品質の少量データが追加されました。

H100において、バッチサイズ1、プロンプトワード長1~130kのトークン生成テストにおいて、Falcon Mambaは新しいトークンを生成する際に安定したスループットを維持できました。これは、テキスト長の影響を受けず、パフォーマンスを低下させることなく長いシーケンスを安定して処理できることを意味します。

Falcon Mamba は、AutoModelForCausalLM やパイプラインなど、複数の Hugging Face API をサポートしています。

また、モデルの精度を向上させるために微調整にさらに 50 億トークンを使用する、命令を最適化したバージョンもリリースしました。

最新モデルはHugging FaceとGitHubで入手できます。

参考リンク:
https://huggingface.co/blog/f...