清華大学の Tang Jie チームによる新しい研究: 一度に 20,000 語を生成する、長期的な出力のための大規模モデル。

清華大学とZhipu AIの最新の研究により、GLM-4とLlama-3.1の出力長が飛躍的に増加することに成功しました。

同じ問題に対して、出力は 1,800 文字から 7,800 文字に増加し、 4 倍に増加しました。

現在、大規模モデルで生成されるデータ長は一般的に2K未満であることを認識することが重要です。これはコンテンツ作成や質問への回答に影響を及ぼし、回答が不完全になったり、創造性が低下したりする可能性があります。

この研究は、Zhipu AIの創設者で清華大学教授のLi Juanzi氏とTang Jie氏が共同で主導した。

論文とコードは GitHub でオープンソースとして公開されています。

すでに何人かのユーザーが試用しています。LongWriter-llama 3.1-8bは、「ローマ帝国衰退史」という10,000語の記事を生成でき、MacBook Pro 2018 (32GB) で動作しました。

出力は正確で、A++ と評価できます。

9B モデルは 10,000 語の出力を処理できます。

この研究には主に3つの側面が含まれます。

まず、研究者たちはLongWrite-Rulerと呼ばれるテストツールを構築しました。複数の大規模モデルをテストした結果、すべてのモデルが2,000語を超えるテキストを生成するのに困難をきたすことが分かりました。

ユーザーと大規模モデルのインタラクションログをさらに分析したところ、2,000 語を超えるテキストの生成を明示的に言及しているユーザーリクエストはわずか 1% 強であることがわかりました。

これを解決するために、研究者らは、教師あり微調整 (SFT) フェーズ中にモデルが使用するデータセットの最大出力長を変更しました。

結果は、モデルの最大出力長が SFT データセットの最大出力長と有意に正の相関関係にあることを示しました。

したがって、出力の長さに関する既存モデルの制限は、主にSFT データセットに長い出力サンプルが不足していることに起因すると結論付けることができます。

モデルが事前トレーニングフェーズでより長いシーケンスを認識していたとしても、SFT フェーズでの長いテキストサンプルの不足は出力の長さに影響します。

この制限を克服するために、研究者はAgentWrite を提案しました。

これはエージェントベースのパイプラインです。

これにより、非常に長いテキストを生成するタスクを複数のサブタスクに分割し、各サブタスクでテキストのセグメントを処理できるようになります。

具体的なプロセスとしては、まずAgentWriteがユーザーの指示に基づいて詳細なライティングプランを作成します。このプランには、主要なコンテンツポイントと各段落の目標語数が含まれます。プランに従って、AgentWriteはモデルに各段落のコンテンツを生成するよう指示します。

チームはAgentWriteをベースに、GPT-4oを用いて、出力長が2,000語から32,000語までの範囲の6,000個の長出力SFTデータセットを生成し、LongWriter-6kデータセットを形成しました。このデータはその後、学習プロセスに追加されました。

この手法の有効性を検証するため、研究チームはLongBench-Writeも提案しました。このLongBench-Writeには、出力長を0～500語、500～2000語、2000～4000語、4000語以上と指定できる、多様なユーザー書き込み指示が含まれています。

評価結果によると、AgentWrite を使用するとモデル出力の長さが大幅に増加します。

GLM-4-9B は、Direct Preference Optimization (DPO) により、すべてのモデルの中で最高のパフォーマンスを実現します。

手先の器用なネットユーザーはすでにそれを試している。

Reddit ユーザーは LongWriter-llama 3.1-8b を使用してローマ帝国の衰退の歴史を生成しましたが、これには 22 分 (ハードウェアによって異なります) かかり、1 秒あたり平均 3.34 トークンが生成されました。

生成されたコンテンツはかなり定型化されており、さまざまな質問に答える際に同様の構造とリズムが採用されています。

いずれにせよ、これは良いスタートであり、それがもたらす改善は明らかです。

研究チームは今後、モデルの出力長と出力品質をさらに拡大し、生成される出力の品質を犠牲にすることなく効率を向上させる方法についても研究を開始すると述べました。

参考リンク:
https://github.com/THUDM/Long...