|
近年、大規模言語モデル (LLM) は、最大 100,000 トークンの入力を処理し、複雑なテキストを理解および生成する強力な機能を発揮していますが、2,000 語を超える一貫した出力を生成する際には困難に直面することがよくあります。 主な理由の一つは、SFT(教師ありファインチューニング)データセットにおける長い出力サンプルの不足です。研究によると、モデルの最大出力長は、SFT段階で遭遇するサンプルの長さと有意に正の相関関係にあることが示されています。つまり、モデルは長いテキストを理解し処理する方法を学習しているものの、同じ長さのテキストを生成する方法はまだ完全には学習していないということです。 この問題に対処するため、清華大学はZhipu AIと共同で、AgentWrite技術に基づくLongWriter-6kというデータセットを構築しました。このデータセットには、出力長が2k語から32k語までの範囲の6,000個のSFTデータサンプルが含まれています。現在、HyperAIウェブサイトのデータセットセクションで公開されており、ワンクリック入力をサポートしています。 データセットアドレス: https://go.hyper.ai/77byR その後、研究チームはGLM-4-9Bで学習させたLongWriter-6kを用いて、1万語以上の一貫性のあるテキストを生成できるモデルLongWriter-glm4-9bを構築しました。これにより、大規模言語モデルの出力ポテンシャルが大幅に向上し、文学作品の創作やニュース報道といった実用的なアプリケーションにおいて高い汎用性を発揮することが実証されました。 現在、HyperAIチュートリアルセクションに「LongWriter-glm4-9bのワンクリックデプロイ」が公開されており、クローン作成によりワンクリックで会話を開始できます。 チュートリアルアドレス: https://go.hyper.ai/p6SiO デモ実行中
HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください): https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej
プレビュー
|
オンライン チュートリアル | 1 分で 10,000 語のサスペンス小説を生成する: LongWriter-glm4-9b は長いテキスト出力のボトルネックを打破します。
関連するおすすめ記事
-
テレンス・タオは AI を使って方程式理論を証明し、19 日間で 99.99% の進捗を達成しました。論文はまもなくオンラインで公開されます。
-
たった今、AIのゴッドファーザーにノーベル物理学賞が授与されました!
-
ストーリーやキャラクターを自由にカスタマイズできる、大規模モデル生成RPGゲーム!Googleが開発し、作者の一人は上海交通大学の卒業生です。
-
1日あたりのトークンが320倍に増加、MaaSが業界モデルを席巻、Volcano EngineがGenAIからMaaS加速をリード | 大規模商用化2024
-
Aitomatic は、Meta、東京エレクトロン、FPT ソフトウェアなどの協力を得て、半導体業界向けの最初のオープンソースの大規模モデルをリリースし、企業の技術的自立性を効果的に「確保」しました。
-
2024年度AIアニュアルアワードがスタートしました!AI時代の業界の先駆者を表彰するため、3つの分野にわたる5つの部門で表彰を行います。