618ZXW

多様なアプリケーションのニーズを満たすために、Shusheng·Puyu 2.5 は、複数のパラメータを備えたオープンソース、超軽量、高性能バージョンです。

上海人工知能研究所は、2024年7月4日に開催されたWAICサイエンスフロンティアメインフォーラムにおいて、Shusheng・Puyuシリーズモデルの新バージョンであるInternLM2.5を発表しました。前世代と比較して、InternLM2.5は複雑なシナリオにおける推論能力を全面的に強化し、最大100万の超長コンテキストをサポートし、自律的にインターネット検索を実行し、数百のウェブページから情報を統合することができます。

これまで、幅広いアプリケーション向けに設計された軽量版のInternLM2.5-7Bがオープンソース化されていました。より多様なアプリケーションシナリオと様々な開発者のニーズに対応するため、InternLM2.5はパラメータバージョン1.8Bと20Bで再びオープンソース化されました。

  • InternLM2.5-1.8B:高品質と高い適応性・柔軟性を兼ね備えた高性能・超軽量モデル。
  • InternLM2.5-20B: 全体的なパフォーマンスが強化され、より複雑な実用的なシナリオを効果的にサポートできます。

InternLM2.5モデルの3つの異なるサイズがすべてオープンソースになりました。こちらからすぐに体験できます。

学者のぷゆシリーズ大型模型ホームページ:

https://internlm.intern-ai.org.cn

ハギングフェイスホームページ:

https://huggingface.co/internlmModelScope ホームページ: https://www.modelscope.cn/organization/Shanghai_AI_Laboratory... オープンソースリンク: https://github.com/InternLM/InternLM (記事の最後にある「原文を読む」をクリックすると、直接リンクに移動します。役に立ったと思われる場合は、星を付けてください!)

InternLM2.5のハイライト

InternLM2.5は、様々なデータ統合技術を採用し、複数回の反復開発を経てきました。各反復開発では、最新の主要モデルに基づいて構築されたマルチエージェントモデルに基づくデータのフィルタリング、拡張、最適化が行われ、複雑なシナリオにおけるモデルの推論能力が包括的に強化されています。特に、競技問題で構成されるMATH数学評価セットにおいて、InternLM2.5-20Bモデルの性能は前世代のほぼ2倍となり、精度は64.7%に達しました。

長いドキュメントの理解や複雑なエージェントとのやり取りなど、テキスト処理機能に依存するアプリケーションの場合、InternLM2.5 は、事前トレーニング段階で 256K のトークン長を使用して効率的なトレーニングを実行し、コンテキスト長を前世代のモデル InternLM2 の 200K から 1M (約 120 万の中国語文字) に増やすことで、超長テキスト アプリケーションにおけるモデルの潜在能力をさらに引き出します。

大規模で複雑な情報の検索と統合という課題に対処するため、InternLM2.5は微調整段階で人間の思考プロセスを学習しました。チームが提案したMindSearchマルチエージェントフレームワークとの統合に成功し、タスク計画、タスク分解、大規模Webページ検索、複数ソースの情報要約といったステップを導入しました。これにより、オンライン情報を効果的に統合し、数百ものWebページからの情報のフィルタリング、閲覧、統合が可能になりました。

主導的な推論能力

汎用人工知能の開発は、強力な推論能力に依存しています。InternLM2.5シリーズは推論能力の最適化に重点を置き、複雑なシナリオにおける大規模モデルの適用のための強固な基盤を提供します。

研究チームは、Sinan OpenCompassオープンソース評価フレームワークを基盤とし、統一性と再現性に優れた評価手法を用いて、複数の権威ある推論能力評価セットでモデルを評価しました。前世代モデルと比較して、InternLM2.5は複数の権威ある推論能力評価セットにおいて大幅な性能向上を達成しました。特に、競争問題で構成されるMATH数学評価セットでは、InternLM2.5は200億個のパラメータで64.7%の精度を達成し、ほぼ2倍の性能を達成しました。また、同規模の他のオープンソースモデルと比較しても、高い競争力を示しました。

アプリケーションエクスペリエンス

複数ステップの複雑な推論も問題ありません。

複数ターンの対話の意図を正確に理解する

柔軟なフォーマット制御と操作

複雑な指示に従う

推論と微調整による迅速なスタート

InternLM2.5シリーズのモデルは、上海人工知能研究所が独自に開発した高性能大規模言語モデル(LLM)微調整フレームワークであるXTuner、推論フレームワークLMDeploy、コミュニティで幅広いユーザーベースを持つvLLM、Ollama、llama.cppなどの下流の推論および微調整フレームワークとのシームレスな統合を実現します。

次のセクションでは、20B モデルを例に、XTuner を使用してモデルを微調整する方法と、LMDeploy、vLLM、Ollam を使用してモデル サービスを構築する方法を紹介します。

Xチューナー

pip install -U 'xtuner[deepspeed]>=0.1.23'# 单卡QLoRA 微调,24GB 显存xtuner train internlm2_5_chat_20b_qlora_alpaca_e3 --deepspeed deepspeed_zero1# 8 卡全量微调NPROC_PER_NODE=8 xtuner train internlm2_5_chat_20b_alpaca_e3 --deepspeed deepspeed_zero3

LMデプロイ

pip install lmdeploylmdeploy server api_server internlm/internlm2_5-20b-chat --server-port 8000

vLLM

 pip install vllmpython -m vllm.entrypoints.openai.api_server internlm/internlm2_5-20b-chat --dtype auto --port 8000 --trust-remote-code

オラマ

# 安装ollama curl -fsSL https://ollama.com/install.sh | sh # 下载模型ollama pull internlm/internlm2.5:20b-chat # 运行ollama run internlm/internlm2.5:20b-chat # 开启服务(另起一个终端) OLLAMA_HOST=0.0.0.0:8000 ollama serve
 from openai import OpenAI client = OpenAI( api_key='YOUR_API_KEY', # required but unused base_url="http://0.0.0.0:8000/v1" ) model_name = client.models.list().data[0].id response = client.chat.completions.create( model=model_name, messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": " provide three suggestions about time management"}, ], temperature=0.8, top_p=0.8, max_tokens=100 ) print(response)