618ZXW

上海 AI ラボは、700 万の質問と回答のデータ ポイントをカバーし、GPT-4 に匹敵する専門的な機能を誇る ChemLLM をリリースしました。

人工知能技術の急速な発展に伴い、大規模言語モデル(LLM)は、その強力な自然言語処理能力により、生命科学、海洋学、材料化学などの科学研究において広く利用されています。LLMは、分子特性予測、分子生成、実験設計といった化学関連タスクにおいては優れた性能を発揮しますが、下流の様々な化学タスクの処理においては性能が不十分です。

その主な理由は3つあります。第一に、化学情報と知識のほとんどは構造化データベースに保存されており、これらのデータを直接LLMの学習に用いると、モデルの自然言語処理能力が低下し、対話機能や論理的推論機能が低下する可能性があります。第二に、ケモインフォマティクスでは、分子はSMILESなどの特殊な記号で表現されます。しかし、この種のデータは自然言語の規範に準拠していないことが多く、従来の言語モデルではこれらの記号を正しく理解・生成することが困難です。最後に、化学データとタスクの多様性により、複数の化学タスクに一般化できる柔軟な学習プロセスの設計が極めて困難になっています。

これを受けて、上海人工知能研究所は化学向けの大規模言語モデル「ChemmLLM」をリリースしました。ChemmLLMは、流暢な対話を通じて化学分野の様々なタスクを遂行することに優れており、コアタスクではGPT-4に匹敵する性能を達成し、一般的なシナリオでは同規模のLLMに匹敵する性能を発揮します。ChemmLLMは化学研究における新たな探究の道を切り開き、構造化された化学知識を対話システムに統合する研究チームの手法は、様々な科学分野におけるLLM開発の新たな基準を確立しました。

関連研究「ChemLLM:化学大規模言語モデル」はarXivで公開されており、オープンソースであるため商用利用は無料です。HyperAIウェブサイト(hyper.ai)では、「化学大規模言語モデルChemLLM-7B-chatのワンクリックデプロイ」機能をご利用いただけます。ステップバイステップのチュートリアルについては、この記事の最後に記載されています。

研究のハイライト:

  • 私たちは、大規模な化学データセットChemData、ChemPref-10Kの英語版と中国語版、C-MHChemデータセット、ChemBench4K化学能力ベンチマークデータセットを作成し、オープンソース化しました。
  • 4,100 個の複数選択問題と 9 つの特定のタスクを含む大規模な化学ベンチマークである ChemBench を作成し、オープンソース化しました。
  • ChemLLM は、定量的および定性的な評価テストを通じて、優れた化学的特化性と汎用性を実証しました。

論文の宛先:
https://arxiv.org/abs/2402.06852

大規模化学モデルのChemLLM-7B-chatチュートリアルがhyper.aiで公開されました。リンクをクリックすると、ワンクリックでデプロイできます。
https://go.hyper.ai/r31KV

ChemData 化学タスクデータセットのダウンロードリンク:
https://go.hyper.ai/zMJEl

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。
https://github.com/hyperai/awesome-ai4s

ChemData データセット: 700 万の質問と回答のデータ ポイントを含む大規模な化学データセット。

研究者らは、PubChem、ChEMBL、ChEBI、ZINC などの多数のオンライン リポジトリから化学データを収集し、ChemLM を微調整するための大規模データセット ChemData を作成しました。

ChemDataデータセットは、テンプレートベースの指示構築手法を用いて、構造化された化学データをLLMの学習に適した自然な対話形式に変換します。このデータセットには、指示の微調整に使用できる700万通りの質問と回答のペアが含まれており、幅広い化学知識を網羅しています。また、質問と回答のデータカテゴリは、分子、反応、その他の化学関連タスクカテゴリと一致しています。

このうち、分子関連のタスクには、名前変換、Caption2Mol、Mol2Caption、分子特性予測などがあり、主な目的は言語モデルの化学分子の認識を調整することです。

反応関連タスクは、逆合成、生成物予測、収率予測、温度予測、溶媒予測など、化学反応のあらゆる側面を網羅しています。明確に分類できるデータを除き、その他のすべてのデータは特定のタスクタイプに分類され、ChemLLMによる化学空間全体の理解を深めています。下の図は、これら3つのタスクカテゴリに含まれるデータの割合を示しています。

ChemDataデータセットの構成割合

ChemLLM モデル アーキテクチャ: InternLM2-Base-7B に基づいており、2 段階の命令微調整が行われています。

大規模化学言語モデルであるChemLLMは、InterLM2-Base-7Bモデルをベースに、2段階の命令微調整手法を用いて学習されました。多様な化学機能を実現するだけでなく、自然言語機能も完全に保持しています。

下の図に示すように、第一段階では研究チームはMulti-Corpus(Hugging Faceから収集された170万の質問と回答のペアの包括的なコーパス)を使用してモデルの一般的な言語機能を向上させ、第一段階で得られたモデルをInternLM2-Chat-7Bと名付けました。

ChemLLM 2段階命令微調整フローチャート

第2段階では、研究チームはChemDataとMulti-Corpusのハイブリッドデータセットを用いてモデルの微調整を行いました。ChemDataはモデルの化学知識を強化するために、Multi-Corpusはモデルの一般性を維持するために使用されました。この2段階の微調整により、化学分野におけるChemLMの一般化可能性が向上しました。

ChemBenchベンチマーク: 言語モデルの出力スタイルが評価結果に与える影響を軽減する

大規模化学モデルを対象とした既存のベンチマークテストは、BLEUとROUGEを評価基準とした質疑応答形式で提示されることがほとんどです。しかし、このような評価は言語モデルの出力スタイルの影響を受けやすく、科学的事実の正確性を重視するシナリオには適していません。

これに基づき、研究チームは、現在主流の評価ツールであるMMLUとC-Evalに類似した化学ベンチマークツールであるChemBenchを構築しました。ChemBenchには、ChemDataデータセットに含まれるものと同一の、化学分子と反応に関する9つのタスクが含まれています。さらに、ChemBenchには4,100個の多肢選択式問題が含まれており、それぞれに1つの正解が設定されています。これは、言語モデルの出力スタイルが評価結果に与える影響を最小限に抑えることを目的としているためです。

このベンチマークテストは、OpenCompassオープンソースプロジェクトで既に公開されている点に注目すべきです。次の図は、ChemBenchベンチマークテストにおける9つのタスクの分布を示しています。

ChemBenchベンチマークテストにおける9つのタスクの分布

結果: ChemLLM のモデル化学専門知識は GPT-4 に匹敵し、同様の規模の一般的な LLM よりも大幅に優れています。

研究チームは、大規模化学言語モデルであるChemmLMの性能を定量的および定性的な両面から評価しました。定量的評価では化学能力と一般能力の評価が含まれ、定性評価では主に化学関連のNLP(自然言語処理)タスクにおける性能を評価しました。

化学能力評価では、 ChemBenchをコア化学能力評価のベンチマークとして使用し、9つの異なるタスクにおけるモデルの専門性をテストしました。下図に示すように、ChemLMは同規模の一般的な大規模言語モデル(LLM)を大幅に上回り、GPT-3.5を総合的に上回っています。InternLM2-Chat-7Bと比較すると、ChemLMは化学能力において大幅な向上を示しており、第2段階の化学能力トレーニングが大きな効果を発揮していることを示しています。GPT-4と比較すると、ChemLMは9つのタスクのうち6つのタスクでGPT-4を上回りました。

ChemLLM化学性能評価スコア

総合的な能力評価では、研究チームは4つのデータセット(MMLU、C-Eval、GSM8K、C-MHChem)を用いてChemmLLMを評価した。MMLUは、STEM(科学、技術、工学、数学)、人文科学、社会科学などの学際的な科目を網羅したベンチマークテストであり、学際的な知識を幅広く評価する。C-Evalは、複数の科目を網羅し、4つの難易度に分かれた包括的な中国語ベンチマークテストである。GSM8Kは、言語モデルの数学的能力を評価するためのベンチマークテストであり、2~8ステップの基本的な数学演算による問題解決を要求している。C-MHChemは、モデルにおける基本的な化学概念を評価するためのデータセットであり、主に中学校と高校の化学テストを対象としている。

下の図に示すように、ChemLLM は英語の MMLU ベンチマークで 65.6%、中国語の C-Eval ベンチマークで 64.1% の精度を達成し、より広範な分野と多言語のシナリオにわたって優れたパフォーマンスを発揮することが実証されました。

GSM8K データセットのテストでは、ChemLLM は 67.2% の精度を達成し、化学データの微調整によってモデルの推論能力がある程度向上することを実証しました。

C-MHChemデータセットテストでは、ChemLMはGPT-4を上回る76.4の精度を達成し、中国の中学校および高校の試験におけるChemLMの能力を実証しました。

ChemLLM 総合パフォーマンス評価スコア

定性評価では、研究チームは化学詩の作成、テキスト抽出、化学文献の翻訳、倫理的回答といった化学関連のNLP(自然言語処理)タスクを通じてChemLMを評価しました。その結果、ChemLMは様々なNLPタスクにおいて、化学知識のより深い理解と創造的な応用を示したことが示されました。以下の図は、いくつかのNLPタスクにおけるChemLMのパフォーマンスを示しています。

ChemLLM 化学詩の創作

ChemLLM 化学情報抽出

上記の研究結果から、ChemLLM はリアルタイムの対話を通じてさまざまな化学タスクを処理でき、その化学能力は GPT-4 に匹敵し、他の分野でも優れたパフォーマンスを発揮することがわかります。

ChemLLMは最新のアップグレードを完了し、ChemLM-1.5にRAG機能が統合されました。これにより、化学文献やオンライン検索の詳細な分析と理解がサポートされるだけでなく、ChemLMと直接やり取りして論文の内容について議論することが可能になります。ChemLMの開発は、科学分野におけるLLM(法学修士)の先例となり、AI時代における化学研究の進歩をさらに加速させるでしょう。

HyperAIの公式サイト(hyper.ai)で、「大規模化学モデルChemmLM-7B-chatのワンクリックデプロイ」が公開されました。以下に、ステップバイステップのチュートリアルと結果のデモを掲載しています。ぜひ一緒に探索してみましょう!

大規模化学モデルChemLM-7B-chatのワンクリック展開

デモ実行中

  1. hyper.ai にログインし、「チュートリアル」ページで「Pudong Chemical Large Model ChemLLM-7B-chat デモのワンクリック展開」を選択し、「このチュートリアルをオンラインで実行」をクリックします。

  1. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

  1. 右下にある「次へ: コンピューティング能力の選択」をクリックします。

  1. ページがリダイレクトされたら、「NVIDIA GeForce RTX 4090」を選択し、「次へ:レビュー」をクリックしてください。下記の招待リンクから新規登録された方は、RTX 4090テスト4時間分とCPUテスト5時間分を無料でご利用いただけます。

HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください):
https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

  1. 「続行」をクリックし、リソースの割り当てをお待ちください。最初のクローン作成には約2分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックして、「Pudong Chemical Large Model ChemLLM-7B-chatデモのワンクリックデプロイ」ページに移動します。APIアドレスアクセス機能を使用する前に、実名認証を完了する必要がありますのでご注意ください。

コンテナが「リソース割り当て中」の状態が10分以上続く場合は、コンテナを停止して再起動してみてください。再起動しても問題が解決しない場合は、公式サイトのプラットフォームカスタマーサービスまでお問い合わせください。

プレビュー

医薬品開発における倫理的ジレンマの検証

参考文献:
1. https://mp.weixin.qq.com/s/C_aFYbzLlQySmTDarWWRkA
2. https://mp.weixin.qq.com/s/b9T9LxAkv4gnJMfBs2AW5Q