非外科的AIによる心を読む技術の飛躍的進歩！メタ脳コンピュータインターフェース研究：ユーザーは寝ながらスマホを使い、投稿することが可能に

言語モデルのサポートにより、脳コンピューターインターフェースは、脳手術を必要とせずに非侵襲的な方法 (MEG) を通じて現在利用可能な最も正確な結果を達成しました。

つまり、AIモデルBrain2Qwertyのみを使用して、脳波（EEG）または脳磁図（MEG）の電気信号の高解像度を実現したのです。

具体的な結果は何でしょうか?

論文によると、Brain2QwertyはMEGを用いて平均文字誤り率（CER） 32%を達成した。Metaによると、これはフルアルファベットキーボードと頭蓋骨外で収集された信号を用いた脳内タイピングにおいて、現在入手可能な最も正確な結果だという。

最良のシナリオでは、モデルは19% のCER も達成し、トレーニングセット外のさまざまな文を完璧にデコードすることができました。

このテクノロジーをより直感的に理解するには、以下の画像をご覧ください。

元 Google 社員は、これは新しいレイバンのメガネと全く同じだと冗談を言っていました。(doge)

さらに独創的なアイデアを思いついた人もいます。寝ている間にも自動的に投稿できるようになりました。

脳手術を必要としない非侵襲性脳コンピューターインターフェース

現在の理解によれば、脳コンピュータインターフェースは、人間の脳とコンピュータまたは他のデバイスとの間の直接的な通信を確立する技術です。

この通信は双方向であり、人間が思考プロセスを通じて外部デバイスを制御することを可能にするとともに、外部デバイスが脳信号を解釈して対話することを可能にする。

種類としては、侵襲性と非侵襲性の2種類があります。

前者の代表的な例は、イーロン・マスク氏が所有するNeuralinkです。これらのインターフェースは、脳にセンサーや電極を埋め込むことで実現され、パーキンソン病やてんかんの治療、脳深部刺激療法など、医療分野で広く利用されています。

後者は、通常、脳波（EEG）センサーを頭皮に装着するなど、外部デバイスを用いて脳活動をモニタリングします。この方法は、リスクが低く、使いやすさから、多くのアプリケーションで広く使用されています。

次に、MetaがAIと非侵襲性脳コンピューターインターフェースをどのように組み合わせているかに焦点を当てます。その答えは、Metaが今回発表した2つの論文にあります。

最初の論文では、Meta は Brain2Qwerty システムのアーキテクチャと実験プロセスについて詳しく説明しました。

研究者らは、神経疾患や精神疾患の病歴がなく、タイピングが堪能でスペイン語を母国語とする右利きのボランティア35名を募集した。男性は23%、女性は77%で、平均年齢は31.6±5.2歳だった。

このグループに割り当てられた課題は、脳の活動を EEG または MEG で記録しながら、キーボードで記憶した短い文章を入力することでした。

各試行は、読む、待つ、そして入力するという3つのステップで構成されます。文章（例：el procesador ejecuta la instrucción）は単語ごとに表示され、各単語は465～665ミリ秒表示されます。読んだ後、1.5秒間の一時停止があり、「ブラインドタイピング」が始まります。

同時に、ボランティアの脳の電気信号がBrain2Qwertyシステムに入力されました。

このシステムは主に 3 つのモジュールで構成されています。

畳み込みモジュール: 500 ミリ秒のウィンドウを持つ M/EEG 信号を入力として受け取り、脳信号の予備処理と特徴抽出を実行します。
Transformer モジュール: 文レベルでトレーニングされ、文の全体的な意味と構造の情報を取得し、畳み込みモジュールによって出力された特徴をさらに処理できます。
言語モジュール: 事前トレーニング済みの言語モデルを使用して Transformer モジュールの出力を修正し、言語と文法規則に関する事前知識を活用することでテキスト出力の精度を向上させます。

最終的に、彼らは文レベルの文字エラー率（CER）を用いてモデルの性能を評価しました。これは、予測テキストとターゲットテキスト間の文字の差異を計算し、エラー率をパーセンテージで表示するものです。

結果によると、Brain2Qwertyの文字誤り率は、磁気脳波（MEG）を用いた場合は32±0.6% 、脳波（EEG）を用いた場合は67±1.5%でした。この結果は、異なる記録装置間で大きな差があることを反映しています。

最良のシナリオでは、モデルは19%の CER も達成しました (つまり、新しい文の最大 80% をデコードできるということです)。

2 番目の論文では、Meta は脳内の言語生成の神経メカニズムを調査し、言語生成は階層的な処理手順に従うという理論的予測をさらに確認しました。

言語生成は階層的なプロセスであるという理論が広く受け入れられています。つまり、人が言語を生成する際、脳は特定の階層的順序に従って言語情報を処理します。

上記の 35 人のボランティアの神経活動を観察することにより、この研究では次のような結果が得られました。

各単語が生成される前に、神経活動は特定のパターンを示し、具体的には文脈、単語、音節、文字の順序で言語表現が生成され、上昇と下降の変化が見られます。

これは間違いなく前述の理論を裏付けるものである。

さらに、この研究では、脳の各レベルにおける神経表現の持続時間が異なることが明らかになりました。一般的に、高レベルの文脈表現はより長く持続し、低レベルのアルファベット表現は比較的短く持続します。

同時に、これらの異なる表現レベルは時間的に重なり合っており、脳活動には複数の連続した言語表現が同時に存在しますが、それらは動的な神経符号化メカニズムを通じて異なる神経サブスペースで表現されるため、相互干渉が回避されます。

これは、言語理論における階層的予測をさらに裏付けるだけでなく、言語生成プロセスにおけるさまざまな表現レベル間の複雑かつ秩序ある時間的関係と神経メカニズムを実証しています。