618ZXW

Alibaba Cloud はトップカンファレンス ACL に 38 件の論文が採択され、Tongyi チームは大規模モデル向けの最先端技術をいくつか公開しました。

8月14日、計算言語学と自然言語処理のトップ学術会議であるACL 2024が今週タイで開催されたことが発表されました。アリババクラウドは、この会議で38本のハイレベル論文を採択しました。その中には、大規模モデルSFT技術、LLMロールプレイング機能、マルチモーダルモデル評価ベンチマークなど、大規模モデルに関連するTongyi Qianwenチームによる複数の論文も含まれています。バンコクで開催された会議のTongyiブースには、世界中から多くのNLP研究者や開発者が集まり、Tongyiは同イベントで最も注目を集めた中国の大規模モデルとなりました。

計算言語学会(ACL)が主催するACL年次総会は、計算言語学と自然言語処理の分野における最高峰の学術会議です。ACL 2024はACLにとって62回目の開催となり、今年の会議では「オープンサイエンス、オープンデータ、オープンモデルによる再現性の高い自然言語処理研究の促進」というテーマに焦点を当てています。

アリババクラウドは、ACLに採択された論文数において常に最多を誇るテクノロジー企業の一つであり、今年は主要会議論文16件を含む計38件の論文が採択されました。中国の大規模モデリングにおける「オープンソース」の力の代表として、同義大規模モデリングチームは今回の会議で大規模モデルに関する複数の最先端技術を公開し、世界中のNLP研究者や開発者と直接意見交換を行いました。

「大規模言語モデルはすべての文字の重ね合わせである:自己アライメントによる任意のロールプレイの実現」は、大規模言語モデルロールプレイングのためのDITTO自己アライメント戦略を初めて提案し、LLMのロールプレイング能力を大幅に向上させました。TongyiチームはDITTOをオープンソース化しています。「AIR-Bench:生成的理解による大規模音声言語モデルのベンチマーク」は、Tongyiチームが立ち上げた音声言語理解モデル向けのAIR-Benchベンチマークを紹介し、モデルの生成的指示追従能力を評価するために使用され、業界のギャップを埋めています。「大規模言語モデルの能力は教師あり微調整データ構成によってどのように影響を受けるか」は、一連の実験を通して、SFTデータがLLMの数学的、コード的、および人間によるアライメント能力にどのように影響するかを示し、研究者や開発者のSFT研究の参考資料となります。

海外の開発者はQwenをベースにタイ語や東南アジアの言語向けの大規模モデルを学習した。

2023年8月以来、Tongyi Qianwenは数十のLLM、マルチモーダル、特殊能力モデルをオープンソース化しており、Qwenシリーズのオープンソースモデルは2,000万回以上ダウンロードされています。

東南アジアでは、Qwenオープンソースモデルにも多くの忠実なユーザーがおり、タイ語、ベトナム語、その他の東南アジア言語の大規模モデルがQwenで学習され、オープンソースコミュニティで頻繁に見られます。例えば、シンガポールのエンジニアLiu Qian氏は、人気の東南アジア言語モデルSailorをQwen 1.5で学習させ、0.5B、1.8B、4B、7B、14Bといった幅広いサイズをカバーしました。また、ベトナム語エンジニアNguyen Quan氏は、ベトナム語の大規模モデルを開発し、「社内ベンチマークテストによると、Qwen2ベースモデルは現在市場で入手可能なすべてのクローズドソース大規模言語モデルを凌駕しています」と述べています。

付録:ACL 2024に採択されたAlibaba Cloud論文リスト