618ZXW

MIT/CETIチームが機械学習を用いてマッコウクジラの音声アルファベットを解読しました!人間の言語システムに非常によく似ており、情報伝達能力がはるかに高いことが分かりました!

海洋生態学研究において、生物音響学は海洋生物に関する情報を得るための重要な手段です。その名の通り、生物音響学は主に動物の音の発生、伝播、そして受信を研究します。技術の発展により、研究者は動物の鳴き声を解読することで、その種、性別、個体識別、あるいは健康状態を把握することが可能になりました。

しかし、個体群モニタリングのための従来の生物音響学では、現場での録音処理と分析に多大な人手が必要となり、時間とコストがかかります。音声認識におけるAIの飛躍的進歩は、この課題に対する理想的な解決策となります。自動処理と自己学習機能を備えた機械学習は、生物音響学の分野で既に大きな進歩を遂げています。

今日、海洋生物の発声に対する機械学習による分析は成功を収めています。海洋生物の中でも、クジラ、イルカ、その他の鯨類は、人間社会と非常に類似した複雑な社会的・協力的な行動を示すため、研究上の価値が非常に高いとされています。

なかでもマッコウクジラは、その言語体系が人間社会と非常に類似していることから、研究の対象となっている。

マッコウクジラは高度に社会的な哺乳類であり、複雑な社会構造を持つ家族単位で生活しています。群れの意思決定を行うために、彼らは主に連続的な「クリック音」によってコミュニケーションをとります。クリック音はわずか10秒から30分以上続くこともあります。彼らのコミュニケーションシステムは一見シンプルに見えますが、実際には複雑な協調行動を連続的に可能にしており、その矛盾が研究者にとって「パズル」となっています。これまでの研究でマッコウクジラの発声の複雑さは実証されていますが、尾部の音の具体的な特徴や構造は未だ解明されていません。

これに対し、MITとCETIの研究者プラティュシャ・シャルマ氏は、機械学習を用いてマッコウクジラの録音を分析し、マッコウクジラの発する音は構造的であり、様々な特徴の組み合わせによって形成されていることを確認しました。また、機械学習技術を用いてマッコウクジラの音声アルファベットを分離し、その言語表現システムは人間のものと非常に類似しており、より多くの情報を含んでいることを発見しました。

「マッコウクジラの発声における文脈的および組み合わせ的構造」と題された関連研究が『ネイチャー・コミュニケーションズ』誌に掲載された。

研究のハイライト:

  • この研究では、これまでで最大のマッコウクジラデータベースであるドミニカマッコウクジラプロジェクト(DSWP)のデータを使用し、東カリブ海のマッコウクジラの群れの約60頭の異なるマッコウクジラの8,719の尾鳴きを分析し、「マッコウクジラ音韻アルファベット」を定義しました。
  • マッコウクジラの言語には組み合わせ構造があり、さまざまな「クリック」音とリズムを組み合わせて調整することで、人間の言語に非常によく似た複雑な発声を作り出すことができる。

論文の宛先:
https://www.nature.com/articles/s41467-024-47221-8

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。
https://github.com/hyperai/awesome-ai4s

データセット: 大容量データ、長期にわたる

本研究で使用されたデータセットは、現在最大のマッコウクジラデータリポジトリであるドミニカ・マッコウクジラ・プロジェクト(DSWP)から提供されたものです。研究者らは、東カリブ海マッコウクジラ族(EC-1)に生息する60頭のマッコウクジラの記録を分析に使用しました。これには合計8,719個の尾部データポイントが含まれています。

このデータセットには、2005年から2018年までのさまざまなプラットフォームや記録システムから手動でラベル付けされた尾のデータだけでなく、2014年から2018年までマッコウクジラに取り付けられたセンサー(DTags)から記録されたデータも含まれていることは特筆に値します。

マッコウクジラの尾の音には、豊富な特徴の組み合わせがある

マッコウクジラのコミュニケーション中のコーダ音の変化と長期的な傾向を明確に観察するため、研究者たちはこれらの音を視覚化して表現しました。下の図をご覧ください。図Aは、DSWPデータセットから抽出した、2頭のクジラ間の2分間のコミュニケーションにおけるコーダ音を示しています。クジラのコーダ音はそれぞれ青とオレンジで表されています。

続いて、研究者らはこれらの尾音を時間軸プロットに投影し、マッコウクジラの尾音の変化を2分間にわたって観察しました。図BとCに示すように、横軸はコミュニケーション開始からの経過時間、縦軸は尾音開始からの時間を表しています。図Cでは、隣接する尾音間の対応するクリック音も接続しています。コミュニケーション中、尾音は持続時間中に滑らかに変化し、追加のクリック音が現れていることがわかります。これは、尾音構造における複雑で文脈的な変化を示しており、マッコウクジラがこれまで報告されていたよりも優れた情報伝達能力を持っていることを示しています。

これまで、マッコウクジラの尾音は21種類あると考えられていました。しかし、本研究では、それぞれの尾音の種類が、文脈に依存しない2つの特徴(テンポとリズム)と、文脈に依存する2つの特徴(ルバートと装飾音)から構成されていることが示されました。

下の図に示すように、研究者たちは、一定時間内に有限のパターンに分布する尾の音の特徴を「テンポ」と名付けました。左の図は、マッコウクジラの尾の音の合計持続時間がクリック間隔の合計であることを示しています。右の図は、異なるテンポの種類における尾の音の変化を示しています。

マッコウクジラの尾の音の特徴マップ - Tempo

図 B では、研究者らは合計継続時間を使用して ICI ベクトルを正規化し、継続時間に依存しないテール表現を取得して、これを「リズム」と名付けました。

マッコウクジラの尾の音の特徴マップ - リズム

図 C では、研究者らはマッコウクジラの連続した尾の持続時間をゆっくりと段階的に調整することを震え (rubato) と名付け、震えが段階的であることに注目しました。つまり、マッコウクジラのコミュニケーションでは、隣接する尾の持続時間が他の場所の同様の尾よりも短いということです。

マッコウクジラの尾の音の特徴マップ - Rubato

図Dでは、研究者たちはマッコウクジラの尾の最後のクリック音を装飾と定義しました。装飾はランダムに分布しているのではなく、長いコミュニケーションの中で特定の場所に現れます。
研究では、(1) 1頭のクジラの発声シーケンスでは、シーケンスの始めに現れる装飾音の割合が、装飾されていない音の割合よりも有意に高いこと、(2) 発声シーケンスの終わりに現れる装飾音の割合も、装飾されていない音の割合よりも有意に高いことがわかりました。

装飾音(マッコウクジラの尾の音の特徴マップ)

研究者たちは、音声コミュニケーションを行うクジラはこれら4つの特徴すべてを知覚・受信し、対応する行動をとるよう促すと指摘しています。したがって、これらはクジラのコミュニケーションシステムにおける意識的な要素を構成しています。リズム、イントネーション、ビブラート、装飾音は自由に組み合わせることができ、クジラは識別可能な多数のコーダを体系的に合成することができます。

研究結果: マッコウクジラのアルファベットの発音は人間の言語データベースと非常に類似している。

研究者たちは、上記の可視化分析を通して、機械学習の手法を用いて、人間の言語データベースと非常に類似したマッコウクジラの音声アルファベットを分離しました。下の図をご覧ください。

マッコウクジラの発音アルファベット

横軸はコーダの韻律タイプ、縦軸はコーダのリズムタイプを表します。各セルの色は、DSWPデータセットにおけるそのリズム/韻律の組み合わせの頻度を示しています。各セル内の円グラフは、各特徴の組み合わせにおけるコーダにおけるビブラートと装飾音の使用頻度に関する情報を示しています。左の円グラフは、ビブラート付きコーダとビブラートなしコーダの比率を示し、右の円グラフは、その特徴の組み合わせに出現するすべての装飾音の割合を示しています。

研究者らは、尾の特徴がすべて組み合わされているわけではないものの、マッコウクジラの尾の豊富な組み合わせ構造には離散的パラメータと連続的パラメータの両方があり、少なくとも143の組み合わせが尾に頻繁に現れ、これまで特定されていた21の離散的尾のタイプをはるかに上回っていると指摘した。

プロジェクト CETI: 機械学習を使用して異種間の対話を可能にすることに専念します。

このプロジェクトでMITと共同研究を行っているCETIは、マッコウクジラの尾部エコー研究において重要な発言力を持っています。CETIは、高度な機械学習とロボット工学を駆使してマッコウクジラのコミュニケーションを聴取し、その解釈を行う非営利団体です。 2020年に設立されたCETIは、マッコウクジラのコミュニケーションシステムを理解し、解釈することで、マッコウクジラの個体群を効果的に保護することを目指しています。

CETIチームは、人工知能と自然言語処理、暗号学者、言語学者、海洋生物学者、ロボット工学の専門家、そして様々な大学出身の水中音響学者といった、世界をリードする専門家で構成されています。チームの主な研究地域は東カリブ海のドミニカ共和国であり、すべての研究と成果はオープンソースとなります。

前述のマッコウクジラの発声アルファベットに加えて、研究チームはマッコウクジラの発声に関する他の多くの研究を行ってきました。

2019年8月29日、CETIはScientific Reports誌に「マッコウクジラの生物音響の検出と分類のためのディープラーニング技術」と題する研究論文を発表しました。この論文では、機械学習(ML)技術をマッコウクジラの生物音響に適用する実現可能性を実証し、クジラの発声の意味のある表現を学習するためのニューラルネットワーク構築の有効性を確立しました。
論文の宛先:
https://www.nature.com/articles/s41598-019-48909-4

2022年6月17日、CETIはサイエンス誌に「マッコウクジラのコミュニケーションの理解に向けて」を発表し、以下の重要なステップを含むマッコウクジラのコミュニケーションの記録と分析の方法を強調しました。

記録: さまざまなセンサーから収集されたクジラのコミュニケーションと行動のデータの大規模な縦断的マルチモーダル データセット。

処理: 複数のセンサー データを調整および処理します。

デコード: 機械学習技術を使用して、クジラのコミュニケーション モデルを作成し、その構造を特徴付けて行動に関連付けます。

エンコードと再生: インタラクティブな再生実験を実施し、クジラの言語モデルを改良します。

マッコウクジラ研究の手順図

論文の宛先:
https://www.sciencedirect.com/science/article/pii/S2589004222006642

2023年12月4日、 CETIは機械学習技術を使用して、マッコウクジラの尾の音に母音と二重母音があることを発見し、両方のタイプの尾の音が異なる伝統的な尾の音の種類に現れる可能性があることを発見しました

2024年3月24日、研究チームはマッコウクジラが水中を移動する際に、一連の衝撃的な「クリック音」を発することを発見しました。この音はエコーロケーションクリックと名付けられました。また、騒音環境下でもマッコウクジラのエコーロケーションクリックが検出されました。

マッコウクジラは高度な知能を持つ哺乳類として、人間の言語システムと驚くほど類似した言語システムを有していることが示されています。機械学習技術が急速に進歩する現代において、マッコウクジラの発声研究プロジェクトに参加する専門家はますます増えています。研究が進むにつれて、人間とクジラの対話が現実のものとなるかもしれません。

参考文献:

1.https://www.projectceti.org/news-research-insights#publications

2.https://36kr.com/p/146986007629