|
自分のビジョン、思考、あるいは夢さえも視覚化されるところを想像できますか?これは単なる空想ではありません。2008年、カリフォルニア大学バークレー校の神経科学者、ジャック・ギャラント氏がNature誌に独自の仮説を提唱しました。彼らは機能的磁気共鳴画像法(fMRI)という非侵襲的な脳画像化技術を用いて、被験者の脳の視覚野の活動を「読み取り」、被験者が見た画像を視覚再構成によって視覚化しました。これは、世界中の科学者が脳の解読に取り組むための号砲となりました。 侵襲的な脳デコード技術と比較すると、fMRI に代表される非侵襲的な脳デコード技術は、脳デコードに対するよりシンプルで安全なアプローチとして高く評価されており、認知神経科学研究、脳コンピューターインターフェースアプリケーション、臨床医療診断など、多くの分野で大きな応用の可能性を秘めています。 しかし、個人差や神経信号表現の複雑さのため、非侵襲的な脳信号のデコードは、脳デコードプロセスにおける依然として重要な課題です。従来の方法は、カスタマイズされたモデルと多数の高価な実験に依存している一方で、正確なセマンティクスと解釈可能性の欠如により、視覚再構成タスクにおいて個人の視覚体験を正確に再現することが困難です。 これに対し、中国科学院自動化研究所のZeng Yi教授率いるチームは、fMRI特徴抽出器と大規模言語モデルを組み合わせた革新的なマルチモーダル統合フレームワークを設計し、脳活動の視覚的再構成という課題に取り組みました。Vision Transformer 3D(ViT3D)を用いて、研究者らは3次元脳構造と視覚セマンティクスを組み合わせ、効率的で統合された特徴抽出器によってfMRI特徴を多段階の視覚的埋め込みと整合させ、特定のモデルを必要とせずに単一実験データから情報を抽出しました。さらに、この抽出器は多段階の視覚的特徴を統合し、大規模言語モデル(LLM)との統合を簡素化しました。fMRIデータセットとfMRI画像に関連付けられたテキストデータを強化することで、マルチモーダルな大規模モデルを開発できます。 「神経視覚から言語へ:脳記録に基づく視覚再構成と言語インタラクションの強化」と題されたこの研究は、NeurIPS 2024に採択されました。 研究のハイライト:
論文の宛先: オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 https://github.com/hyperai/awesome-ai4s データセット: 自然シーンのデータセットに基づいて、テストの信頼性を厳密に評価します。実験に使用されたデータセットには、自然風景データセット(NSD)とCOCOデータセットが含まれていました。NSDデータセットには、8人の健康な成人被験者から収集された高解像度7テスラfMRIスキャンが含まれていましたが、具体的な実験分析では、研究者は主にすべてのデータ取得を完了した4人の被験者のデータを分析しました。 研究者らはまた、NSDデータセットを前処理し、スライス間の時間的な差異を生じさせる時間的リサンプリングを補正し、空間補間を用いて頭部の動きと空間的な歪みを調整しました。切り取りなどの変更は、下図に示すように、元のキャプションとインスタンスのバウンディングボックスとの間に不一致を引き起こす可能性があります。データの一貫性を確保するため、研究者らは切り取った画像に再アノテーションを施し、BLIP2を用いて各画像に8つのキャプションを生成し、DETTRを用いてこれらの画像のバウンディングボックスを生成しました。 NSDデータセットの画像と対応するキャプションの例。画像の一部加工とトリミングにより、元のキャプションとインスタンスの境界ボックスが一致しない場合があります。 さらに、fMRI データと LLM 間の互換性を確保し、指示の遵守と多様なインタラクションを可能にするために、チームは NSD に自然言語で注釈を付ける際の対話タイプを、簡単な説明、詳細な説明、継続的な対話、複雑な推論タスク、指示の再構築、概念のローカリゼーションまで拡張しました。 最後に、データの標準化を確実にするために、研究者らは三線補間法を使用してデータを均一な寸法に調整し、fMRI標準化を83 × 104 × 81に設定しました。エッジにゼロパディングを適用した後、ローカル情報を保持するためにデータを14 × 14 × 14のパッチに分割しました。 モデルアーキテクチャ: マルチモーダル統合フレームワーク fMRI 特徴抽出と LLM脳活動の視覚的再構築に取り組み、LLMとマルチモーダルデータを統合する際の課題を克服するために、研究チームは、fMRI特徴抽出と大規模言語モデルを融合したマルチモーダル統合フレームワークを革新的に設計しました。(下図参照) fMRI特徴抽出と大規模言語モデルを組み合わせたマルチモーダル統合フレームワーク 具体的には、図(a)は変分オートエンコーダ(VAE)とCLIP埋め込みを用いた特徴アライメントのための2ストリームパスを示しています。実験セットアップでは、画像特徴抽出器としてCLIP ViT-L/14とAutocoderKLを統合し、それぞれ1024の隠れ次元を持つ2層パーセプトロンfwcとfwvを、それぞれVAE (zv = Ev)とCLIP (zc = Ec)による特徴アライメントに使用します。 上図(b)は、3D fMRIプリプロセッサpとfMRI特徴抽出器pを部分的に示しています。fMRIデータの場合、隠れ層サイズ768の16層Transform Encoderを用いて特徴を抽出し、最終層のクラスラベルを出力として使用します。その後、図(a)との位置合わせを行うことで、高品質な視覚的再構成を実現します。 上の図(c)は、fMRIと統合されたマルチモーダルLLM、特にLLMを介したマルチモーダルインタラクションを示しています。主なプロセスは、抽出された特徴量をLLMに入力して自然言語コマンドを処理し、応答または視覚的再構成を生成することです。この部分では、ネットワークの最後から2番目の隠れ状態hᴺᵇ⁻¹をfMRIデータのマルチモーダルラベルとして利用します。ここで、fₜは2層パーセプトロンです。「Instruction」は自然言語コマンドを表し、「Answer」はLLMによって生成された応答を表します。 指示に基づいて微調整を行った後、モデルは自然言語を介して直接コミュニケーションできるようになり、自然言語で表現された概念の視覚的再構成と位置認識をサポートします。視覚的再構成はUnCLIPによって、概念の局所化はGradCAMによって実行されます。図中のDは、固定されたUnCLIPを表しています。 実験結果: 3 つの主要な実験と複数の比較により、新しいフレームワークが脳信号のデコードにおいて非常に優れたパフォーマンスを発揮することが示されました。提案されたフレームワークのパフォーマンスを評価するために、研究者は字幕と質問応答、視覚的再構成、概念のローカリゼーションを含むさまざまな種類の実験を実施し、他のさまざまな方法と比較して、フレームワークの実現可能性と効率性を検証しました。 下図に示すように、提案されたフレームワークは、ブレインキャプションタスクのほとんどの指標において優れた性能を示しています。さらに、このフレームワークは優れた汎化能力を示しており、被験者ごとに個別のモデルを学習させたり、被験者固有のパラメータを導入したりする必要性を排除しています。研究者らはまた、このフレームワークを詳細な説明と複雑な推論のタスクと組み合わせ、両方のタスクにおいて最先端の性能を達成し、単純なキャプションだけでなく詳細な説明も生成し、複雑な推論も実行できることを実証しました。 脳のキャプション、詳細な説明、複雑な推論タスクの定量分析 視覚再構成実験では、下図に示すように、提案手法は高レベルの特徴マッチングにおいて優れた性能を示し、LLMを効果的に活用して複雑な視覚データを解釈できることを証明しました。様々な視覚刺激に対する堅牢性は、提案手法によるfMRIデータの包括的な理解を裏付けました。LLMやVAE特徴といった主要構成要素を欠いた実験ではスコアが低下し、最先端の結果を得るために不可欠な、手法の各要素の重要性が浮き彫りになりました。 視覚再構成の定量的評価 さらに、研究者らは、MindEyeのアプローチと同様に、最初の視覚刺激のみを用いた単一テスト検証を実施しました。その結果、より厳しい条件下でも、提案手法はわずかな性能低下しか示さず、実用化への可能性を示しました。 概念の局所化実験では、まずLLMを微調整し、自然言語から対象概念を抽出しました。これらの概念は、CLIPテキストエンコーダーによってエンコードされた後、GradCAMのターゲットとなります。局所化精度を向上させるため、研究者はパッチサイズ(14、12、10)の異なる3つのモデルを学習し、すべてのモデルの最後から2番目の層を用いて意味的特徴を抽出しました。下の図に示すように、提案手法は、同一の視覚刺激に対する脳信号における様々な意味的要素の位置を識別できることを示しています。 同じ視覚刺激に対して異なる意味情報を与えた場合の神経活動の違いを示すヒートマップ この手法の有効性を検証するため、研究者らは意味概念のアブレーション研究を実施しました。元の脳信号から概念を特定した後、特定されたボクセルの信号をゼロにし、修正された脳信号を用いて特徴抽出と画像再構成を行いました。下図に示すように、特定の意味概念に関連する特定の脳領域の神経活動を除去すると、画像再構成において対応する意味が無視されます。これは、脳信号における概念局在化手法の有効性を確認するものであり、脳活動から意味情報を抽出・修正する能力を実証しています。これは、脳における意味情報処理の理解に不可欠です。 意味的信号ゼロ化の概念的定位検証と視覚再構成への影響 要約すると、Vision Transformer 3DとfMRIデータの機能を活用し、LLMの統合によって強化されたこのフレームワークは、脳信号からの視覚刺激の再構成を大幅に改善し、その根底にある神経メカニズムをより正確かつ解釈可能な形で理解することを可能にします。この成果は、脳活動の解読と解釈のための新たな研究経路を提供し、神経科学および脳コンピューターインターフェースにおいて大きな意義を有します。 人間の脳の働きの真実を解き明かし、自然界の最も神秘的な器官を探る脳は、人間にとって最も重要な生物学的器官であり、自然界で最も洗練された器官でもあります。数千億個の神経細胞と数兆個のシナプスが、様々な脳機能を制御する神経ネットワークと神経回路を形成しています。生命科学と人工知能の継続的な発展により、脳の働きに関する真実はますます明らかになりつつあります。 本論文が発表された中国科学院自動化研究所は、我が国における人工知能開発のリーダーであり、長年にわたり脳科学、特に人間の脳における視覚情報の符号化と復号化の研究に携わってきたことは特筆に値します。前述の曽毅教授のチームに加え、同研究所は脳科学に関する多くの高水準の論文を発表しており、それらは国際的に著名な学術誌に掲載されています。 例えば、2008年末には、同大学の何恵光教授率いるチームの研究成果「ベイジアン・ディープ・マルチビュー学習による人間の脳活動からの知覚画像の再構築」が、ニューラルネットワークと機械学習の分野で国際的に権威のある雑誌『IEEE Transactions on Neural Networks and Learning Systems』に掲載されました。 本研究において、研究チームは視覚画像と脳反応の間に科学的に健全な関係性を確立し、視覚画像再構成問題を、多視点潜在変数モデルにおける欠損視点を含むベイズ推論問題へと変換しました。この研究は、脳の視覚情報処理メカニズムを探求するための強力なツールを提供するだけでなく、脳コンピュータインターフェースや脳に着想を得た知能の発展にも貢献します。 中国科学院自動化研究所に加え、シンガポール国立大学の研究チームも、被験者が見た画像をfMRIで記録し、機械学習アルゴリズムを用いて再構成する方法について研究しています。「脳の向こう側を見る:視覚デコーディングのためのスパースマスクモデリングを用いた条件付き拡散モデル」と題された研究成果は、arXivに掲載されています。 さらに、多くの民間企業も「脳の世界」の探求に競い合っています。つい最近、イーロン・マスク氏は2024年の神経外科医会議で、自身の脳コンピューターインターフェース企業Neuralinkと脳コンピューターインターフェース技術に関する知見を共有し、脳コンピューターインターフェースのコストは高くなりすぎないようにすべきだとさえ示唆しました。 結論として、脳の解読技術は継続的かつ急速に進化しているプロセスです。研究機関と民間企業の両方によって推進され、人工知能と機械学習の波に乗り、インテリジェント・ブレイン時代の到来を加速させています。科学の進歩は、脳コンピューター・インターフェースの開発や、神経系に損傷を受けた患者への機器の活用など、様々な応用分野に必然的に反映されると考えられます。 |
NeurIPS 2024に選出されました!中国科学院のチームが、脳デコーディングのための新しい非侵襲的フレームワークを提案し、脳コンピューターインターフェースと認知モデルの開発の基盤を築きました。
関連するおすすめ記事
-
AIの巨匠、ヤン・シュイチェン氏が学界に復帰!シンガポール国立大学の特別教授としてe-AGI研究に注力します。
-
具現化された知能と触覚革命の未来!TactEdgeセンサーは、ロボットが正確な触覚認識を持つことを可能にし、布地の欠陥検出と器用な操作制御を実現します。
-
中国電信の邵光禄氏:大規模AIモデル向けインテリジェントコンピューティングクラスタとネットワークの実践と展望
-
ChatGPT はマイナーアップデートを受けましたが、アプリ全体の使いやすさが向上しました。
-
清華大学のオープンソース混合精度推論システム MixQ は、大規模モデルのほぼロスレスな量子化を実現し、推論スループットを向上させます。
-
XPengは純電気自動車の開発も放棄しました!初登場となるレンジエクステンダー付き電気自動車は1400kmの航続距離を誇り、自社開発のインテリジェントドライビングチップを披露。さらに既存ユーザー向けにハードウェアのアップグレードも提供しています。