|
外国人の友達に「元気?」と挨拶されたら、あなたの最初の反応は何ですか? それは古典的な「私は元気です、ありがとう。あなたは」ではありませんか? 実際、この教科書的な質問と回答は、英語の学習やコミュニケーションだけでなく、大規模な言語モデルのトレーニングとテストにも存在します。 現在、生物学、海洋科学、材料科学などの分野において、大規模言語モデル(LLM)とLLM拡張システムを適用し、研究効率と成果を向上させることが、多くの科学者にとって重要な焦点となっています。例えば、浙江大学のチームは海洋分野で大規模言語モデルOceanGPTを発表し、マイクロソフトは生物医学分野で大規模言語モデルBioGPTを開発し、上海交通大学は地球科学分野で大規模言語モデルK2を提案しています。 研究分野で LLM の人気が高まるにつれ、高品質で専門的な評価ベンチマークを確立することが重要になっていることは注目に値します。 しかし、既存のベンチマークの多くは、法学修士(LLM)の教科書的な科学的問題に関する知識と推論能力の評価に焦点を当てており、文献検索、プログラム計画、データ分析といった現実世界の研究課題におけるパフォーマンスの評価には苦労しています。その結果、現実世界の科学的課題に対処する際のモデルの柔軟性と専門性に重大な欠陥が生じています。 生物学分野におけるAIシステムの効果的な開発を促進するため、 FutureHouse Inc.の研究者は、Language Agent Biology Benchmark(LAB-Bench)データセットを公開しました。LAB-Benchには、文献検索と推論(LitQA2およびSuppQA)、図解(FigQA)、表解読(TableQA)、データベースアクセス(DbQA)、プロトコル作成(ProtocolQA)、DNAおよびタンパク質配列の理解と処理(SeqQA)、クローニングシナリオなど、実際の生物学研究シナリオにおけるAIシステムのパフォーマンスを評価するための2,400以上の多肢選択式問題が含まれています。 「生物学研究のための言語モデルのLABベンチ測定機能」と題されたこの研究は、最高峰のカンファレンスNeurlPS 2024に提出されました。 LAB Bench 言語モデル生物学ベンチマークデータセット: 論文の責任著者であるサミュエル・G・ロドリゲス氏は、モデルとエージェントが科学的研究を行うことができるかどうかを評価することに焦点を当てた最初の評価セットであるLAB-Benchは、複雑なタスクに対する手順的な評価方法により、将来非常に重要になると強調しました。 画像出典: サム・ロドリゲスのソーシャルメディアプラットフォーム さまざまなカテゴリの LAB-Bench サンプル問題は次のとおりです。 各カテゴリーのサンプル問題 ドキュメントを検索して推論するモデルの能力の詳細な分析と評価。科学文献における様々なモデルの検索能力と推論能力を評価するために、 LitQA2、SuppQA、DbQAタスクに対応するLAB-Benchサブセットが一般的に用いられます。これら3つのタイプは、科学的検索強化生成(RAG)の様々な側面に適用可能です。 *検索強化生成 (RAG) は、プライベートまたは独自のデータ ソースからの情報を活用してテキスト生成を支援する手法です。 LitQA2ベンチマークは、科学文献から情報を検索するモデルの能力を測定します。このベンチマークは多肢選択式の質問で構成されており、その回答は通常、科学文献に一度しか出現せず、抽象的な情報(つまり、科学文献が比較的最近のもの)からは回答できません。このプロセスにおいて、研究者はモデルに対し、トレーニングデータを想起して質問に答えるだけでなく、文献へのアクセス能力と推論能力も要求します。 SuppQAでは、モデルが論文の補足資料に含まれる情報を見つけ出し、解釈することが求められます。研究者は、これらの質問に答えるためには、モデルが特定の補足資料の情報にアクセスする必要があることを規定しています。 DbQAの質問では、モデルが生物学に特化した一般的なデータベースにアクセスし、情報を取得する必要があります。これらの質問は幅広いデータソースをカバーするように設計されており、モデルまたはエージェントが単一のAPIを使用してすべての質問に答えることはできません。 下の図に示すように、研究者らは、上記3種類の生物学的ベンチマークタスクにおける人間、ランダム、claude-3-5-sonnet-20240620、claude-3-opus-20240229、gemini-1.5-pro-001、gpt-4o、gpt-4-turbo、claude-3-haiku-20240307、meta-llama-3-70B-Instructのパフォーマンスを評価し、その正確性、精度、カバレッジを比較しました。 LAB-Benchタスクにおけるさまざまなモデルの精度、精密度、カバレッジ LitQA2テストでは、すべてのモデルがLitQA2文献想起カテゴリで同様のパフォーマンスを示し、ランダムな期待値を大幅に上回る40%を超えるスコアを記録しました。しかし、主流のモデルは頻繁に回答を拒否し、中には20%未満のケースでしか回答しなかったものもあり、結果として精度はランダムなレベルをはるかに下回りました。 各質問に対して、モデルには、情報不足のため回答を拒否するという特定のオプションがあります。 SuppQAテストでは、すべてのモデルのパフォーマンスが悪く、全体的なカバレッジが最も低かった。これは、モデルが補足資料から情報を取得する必要があったためであり、論文内の補足情報がモデルのトレーニングセットに含まれる本文ほど代表的ではない可能性があることを示している。 DbQA の問題では、モデル カバレッジがランダム期待値よりも一貫して低く、モデルが DbQA の質問への回答を頻繁に拒否し、結果として精度が低下したことを示しています。 SeqQA: 生物学的配列解釈における AI の実用性を調査するためのベンチマーク。モデルの生物学的配列解釈能力を評価するために、 LAB-Benchベンチマークデータセットの対応するSeqQAタスクを使用しました。このタスクは、様々な配列特性、分子生物学ワークフローにおける一般的な実用タスク、そしてDNA、RNA、タンパク質配列間の関係性の理解と解釈を網羅しています。 SeqQAタスク(人間、ランダム、ランダム)における様々なモデルの評価では、モデルがSeqQAのほとんどの質問に答えることができ、各モデルの精度は40%から50%の範囲で、ランダムな期待値よりもはるかに高いことが示されました。これは、モデルがDNA、タンパク質配列、そして分子生物学のタスクについて推論する能力を持っていることを示しています。 SeqQAサブタスク精度 さらに、SeqQA の特定のサブタスクにおけるパフォーマンスを詳細に分析した結果、モデルの精度はサブタスクごとに大きく異なり、一部のタスクでは 90% を超える精度が達成されていることが研究者によって発見されました。 グラフからプロトコルへ: モデルの基本的な推論能力の評価FigQA、TableQA、およびProtocolQAを使用して、モデルの基本的な推論能力を評価しました。 FigQAは、法学修士(LLM)が科学的な図表を理解し、推論する能力を測定します。FigQAの設問には図表の画像のみが含まれ、図表のタイトル、論文本文、その他の情報は含まれていません。ほとんどの設問では、モデルが図表の複数の要素を統合する必要があるため、マルチモーダル機能が必要となります。 TableQAは、論文内の表からデータを解釈する能力を測定します。この課題では、論文から表を抽出する画像のみが必要であり、図や表のタイトル、論文タイトルなどの他の情報は不要です。この課題では、モデルは表内の情報を見つけるだけでなく、その情報を推論または処理することも求められ、モデルにはマルチモーダルな能力が求められます。 プロトコルQAの問題は、公開されているプロトコルを修正したり、手順を省略したりすることでエラーが発生したりした例に基づいて作成されます。問題は、修正されたプロトコルの仮説的な結果を提示し、期待される出力を得るためにプロトコルを「修正」するためにどの手順を修正または追加する必要があるかを問うものです。 人間、ランダム、およびさまざまなモデルの評価により、Claude 3.5 Sonnet モデルは FigQA テストで他のモデルよりも優れており、画像コンテンツを解釈して推論する能力が優れていることが示されました。 TableQAテストでは、すべてのモデルが高いカバレッジを達成し、TableQAが最も単純なタスクであることが示されました。さらに、Claude 3.5 Sonnetは今回も非常に優れたパフォーマンスを発揮し、人間のパフォーマンスを凌駕する精度を達成し、同等の精度を達成しました。 ProtocolQAタスクでは、モデルは50~60%程度の精度で良好なパフォーマンスを示しました。明示的な検索を行う必要がなく、トレーニングデータに基づいて解決策を提案するだけで済むため、モデルはプロトコルに関する質問にかなり高いカバレッジで回答しました。 41のクローンシナリオテストセット:AIが生物学者の将来の探索を支援研究者らは、モデルと人間の難解なタスクにおけるパフォーマンスを比較するため、複数のプラスミド、DNA断片、多段階のワークフローを含む41のクローニングシナリオからなるテストセットを導入しました。これらのシナリオは、人間にとって難しい多段階・多肢選択問題を表しています。AIシステムがクローニングシナリオのテストで高い精度を達成すれば、人間の分子生物学者にとって優れたアシスタントとなる可能性があります。 人間、ランダム、そして様々なモデルを評価した結果、クローン作成シナリオにおいて、モデルのパフォーマンスは人間よりも著しく劣ることが明らかになりました。特に、Gemini 1.5 ProとGPT-4-turboはカバレッジが低いことが分かりました。さらに、モデルが質問に正しく答えた場合でも、誤答を排除した上で推測することで正解に至ったと考えられました。 まとめると、LAB-Benchタスクではモデルによってパフォーマンスに大きなばらつきが見られ、特に情報検索を明示的に要求するタスクでは、情報不足のために質問に回答できないことがよくあります。さらに、DNAやタンパク質の配列(特にサブシーケンスや長いシーケンス)の処理を伴うタスクでは、モデルのパフォーマンスは低くなります。実際の研究タスクでは、人間が常にモデルを上回るパフォーマンスを示しています。 LAB Bench 言語モデル生物学ベンチマークデータセット: https://go.hyper.ai/kMe1e これらは、HyperAIが今号で推奨するデータセットです。他に高品質なデータセットを見つけた方は、ぜひコメントを残していただくか、ご自身の作品を投稿してください。 https://www.elastic.co/cn/what-is/r |
画期的なLAB-Bench生物学的ベンチマークデータセットがオープンソースとしてリリースされました!8つのタスクをカバーし、2,400問以上の多肢選択式問題が含まれています。
関連するおすすめ記事
-
Llama が使用する RoPE にビデオ バージョンが追加され、長いビデオを理解して検索するための優れたパートナーになりました。
-
NVIDIA H800をたったの9.99円でレンタル! Double Elevenのコンピューティングパワーのお得なプランは驚きの価格!アイドル状態のカードでも、アイドル状態のまま運用すれば収益化できます。
-
完璧な CVPR 論文: 上海交通大学の「最年少博士課程指導者」の研究グループによる、GPU 使用量がわずか 2GB の 2080Ti 1 台で処理されたデータ蒸留。
-
CNKIがAI検索エンジンを提訴:「私の論文のタイトルと概要を見つけたことで著作権を侵害した!」
-
Google はインターネット全体から 1,000 億の画像とテキストのペアを収集。VitT 幹部がこの取り組みを監督。データ拡張にはまだ可能性がある。
-
100校とAIが参加するオフライン協働学習活動の登録受付を開始しました。