|
クジラの音認識は海洋生態系の保護にとって極めて重要です。科学者はクジラの音を分析することで、クジラの種類、回遊経路、繁殖習性、社会構造を理解し、より効果的な保全政策を策定することができます。 しかし、クジラの音認識は容易ではありません。まず、世界には94種以上のクジラが知られており、音響周波数はシロナガスクジラの10Hzからハクジラの120kHzまでと非常に広範囲にわたります。次に、同じクジラの種の録音であっても、場所や時間によって大きく異なる場合があり、モデル開発をさらに複雑にしています。さらに、研究者は一部の希少なクジラの音響特性に関する知識が非常に限られているため、異なるクジラ種の音を正確に区別することは不可能です。 この問題を解決するため、Google Researchチームはクジラ用の新しい生物音響モデルを開発しました。このモデルは、現在知られている94種のクジラのうち、8種を識別できます。識別できる種には、ザトウクジラ、シャチ、シロナガスクジラ、ナガスクジラ、ミンククジラ、ニタリクジラ、大西洋セミクジラ、北太平洋セミクジラが含まれます。研究者たちはこのモデルをBiotwangにも拡張し、20万時間を超える水中録音データにタグを付けました。 「口笛、歌、ボイン、バイオトワング:AIによるクジラの発声の認識」と題された関連研究が、Google Researchのウェブサイトで公開されました。
論文の宛先: https://research.google/blog/whistles-songs-boings-and-biotwangs-recognizing-whale-vocalizations-with-ai/ オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 https://github.com/hyperai/awesome-ai4s データセット: 約 94 種のクジラのうち 8 種をカバーする 4 つの新しいクジラの鳴き声データセットが作成されました。研究者らは、既存のクジラの鳴き声認識データに基づいて、ミンククジラの「ボイン」という音、北太平洋セミクジラの「アップコール」と「ガンショット」の音、シロナガスクジラとナガスクジラの鳴き声を含む 4つの新しいクジラの鳴き声データセットを作成した。 ミンククジラの「ボイン」という音数十年前に録音された謎の「ビオトワング」という音は、これまでどのクジラ種が発している音なのか特定されていませんでした。しかし、アメリカ海洋大気庁(NOAA)の最近の研究により、ニタリクジラが発していることが判明しました。 ミンククジラの鳴き声はニタリクジラよりもずっと以前から記録されており、その起源は1950年代の潜水艦録音に遡ります。NOAAの科学者がこの特定の音をミンククジラのものと特定したのは2005年になってからでした。 太平洋諸島水産科学センター(PIFSC)の研究者が入手した初期のタグセットには、「ボイン」として知られるこの音は含まれていませんでした。そのため、Googleの研究者がこのデータを初期モデルのトレーニングに使用したところ、モデルはこの音を誤ったパターンとして認識しました。その後、研究者たちは新たに発見されたこれらの音について詳細な研究を行い、最終的にミンククジラの音を正確に識別し、複数種認識モデルに組み込むことに成功しました。 ミンククジラの「ボイン」のスペクトル図 北太平洋セミクジラの「上昇コール」と「銃声」コール北太平洋セミクジラ(NPRW)は、主に北太平洋海域に生息する、極めて絶滅の危機に瀕しているクジラの一種です。捕鯨によってほぼ絶滅し、残存個体数は非常に少なくなっています。東部地域に生息する個体数はわずか30~35頭と推定されています。 一方、北太平洋セミクジラの個体群は、セミクジラの中で唯一「歌う」個体群として知られています。「ライジングコール」はセミクジラ、ホッキョククジラ、あるいはザトウクジラから発せられることもありますが、北太平洋セミクジラ特有の「銃声」のような鳴き声によって区別することができます。 北太平洋セミクジラの「ライジングコール」のスペクトル図。 北太平洋におけるセミクジラの「射撃」のスペクトル図。 シロナガスクジラとナガスクジラの音響タグ研究者らによると、太平洋諸島水産科学センター(PIFSC)とザトウクジラモデルの開発に向けた最初の共同研究に先立ち、PIFSCはすでに一部のデータに注釈を付け、シロナガスクジラとナガスクジラの存在を特定していたという。これらのクジラはハワイ諸島周辺海域に生息するだけでなく、世界の主要な海洋の外洋にも広く分布している。 本研究では、研究者らはモントレー湾水族館研究所(MBARI)が管理するMARSハイドロフォンによって収集されたデータに特に焦点を当てました。しかし、MARSデータのベースラインラベルが不足していたため、研究者らはPIFSCデータに基づいてシロナガスクジラとナガスクジラを識別するために特別に設計されたモデルを学習させ、それを用いてMBARIデータの疑似ラベルを生成しました。 中央太平洋におけるシロナガスクジラの発声のスペクトル図 ナガスクジラの鳴き声のスペクトル図 モデルアーキテクチャ: 生のオーディオに基づいてスペクトログラムを分類します。研究者らは、このモデルがまず生の音声データをスペクトログラム画像データに変換し、5秒ごとの音声セグメントを表現することを指摘しています。モデルのフロントエンドでは、メルスケールの周波数軸、対数振幅圧縮を使用し、各周波数帯域の5%対数振幅を減算することで正規化します。最後に、モデルはこれらの画像を12種類のクジラ目動物種または発声タイプのいずれかに分類します。 さらに、このモデルはTensorFlowのSavedModel APIを介して独立して呼び出すことができます。つまり、このモデルは、モデルのトレーニング中に含まれる種や音を識別するために使用できるだけでなく、モデルの事前トレーニング済みの埋め込みを使用して新しい音やクジラ目の種を検索・識別し、対応する分類器を迅速に構築することもできます。 モデルテスト: モデルは各カテゴリに対して優れた識別性能を示します。長期的な受動音響モニタリングには、正確な種分類だけでなく、背景音や動物以外の音イベントを適切に除去することが求められます。そのため、研究者らは学習を肯定的なラベルに限定せず、他の協力機関から提供された録音から否定的なラベルと背景データも広範囲に抽出しました。 モデルを検証するため、研究者らは利用可能なトレーニングデータからランダムに20%の均一なサブセットをテストセットとして選択しました。下の図は、異なる種におけるテストセットでのモデルのパフォーマンスを示しています。
異なる種のテストセットにおけるモデルのパフォーマンス 全体として、このモデルは8種のクジラ(ザトウクジラ、シャチ、シロナガスクジラ、ナガスクジラ、ミンククジラ、ニタリクジラ、大西洋セミクジラ(NARW)、北太平洋セミクジラ(NPRW))のいずれのカテゴリーも正確に識別できます。ミンククジラ、北太平洋セミクジラ、大西洋セミクジラ、ニタリクジラについては、3つの指標すべてが1に近く、偽陽性ラベルと偽陰性ラベルのトレードオフが最小限に抑えられた、優れた性能を示しています。ただし、このトレードオフはシャチのエコーロケーションとホイッスルにおいてより顕著です。 AIと機械学習技術を統合し、海洋生物の保護に貢献します。Google Researchの最新研究成果の発表は、異種間コミュニケーションの理解、ひいては実現に向けて重要な意味を持ちます。Google DeepMindとGoogle Researchのチーフサイエンティストであるジェフ・ディーン氏は、ソーシャルメディアで次のように述べています。「人間の言語に関する法学修士課程は時代遅れです。この画期的な進歩に、私たちは皆、興奮するべきです!」 データサイエンスを専門とする上級管理職は、「ついに深海のクジラたちの噂話を解読できるようになりました!彼らが最新のオキアミのトレンドについて話し合っているのか、それとも最高の海中ホットスポットについて議論しているのかを知るのが待ちきれません!」と述べました。 一部のネットユーザーは、「これは地球上の他の種族とコミュニケーションできるようになるための重要な一歩であり、画期的なことだ!」とも信じている。 Google は、科学者がクジラのコミュニケーション方法をより深く理解できるようにするために、AI と機械学習の技術を使用してクジラの鳴き声を分析および識別する方法を 2018 年に検討し始めました。これにより、絶滅の危機に瀕している海洋生物を保護し、健全な海洋生態系を維持するというビジョンを実現しています。 2018年、Google Researchはアメリカ海洋大気庁(NOAA)の太平洋諸島漁業科学センター(PIFSC)と協力し、畳み込みニューラルネットワークに基づくザトウクジラの鳴き声の検出分類モデルを開発し、クジラの音波分類に関する研究を正式に開始しました。 このモデルは、NOAA が収集した 187,000 時間以上の音声からザトウクジラの鳴き声を識別するために使用され、ザトウクジラの歌の空間的および時間的パターンが確認され、キングマン礁でこれまでザトウクジラの鳴き声が観測されていなかった新しい場所が発見されました。 2019年、研究者たちはGoogle Creative Labと協力し、このモデルに基づいた「Pattern Radio」と呼ばれるインタラクティブな視覚化ツールを立ち上げ、ハワイ近海で収集された1年分のクジラの水中音声データを公開した。 モデルはこれらの音声録音に注釈を付け、一部のデータには専門家からの追加の洞察も含まれているため、研究者はクジラの発声パターン、特にザトウクジラの鳴き声をより正確に分析できます。 実は、Googleに加え、CETIは長年にわたりクジラの鳴き声の研究に取り組んできました。今年5月、CETIはMITの研究者と協力し、機械学習を用いてマッコウクジラの録音を分析しました。彼らはマッコウクジラの鳴き声には構造的な特徴があることを確認し、その音声アルファベットを分離した結果、人間の言語システムと非常に類似していることを発見しました。 リンクをクリックしてレポート全文をご覧ください:MIT/CETIチームが機械学習を用いてマッコウクジラの音声アルファベットを分離!人間の言語システムに非常に類似しており、情報伝達能力ははるかに高い! 研究が進むにつれ、全く新しい種間コミュニケーションの方法が実現するかもしれません。この可能性は、海洋生物に対する私たちの理解を変えるだけでなく、人間と自然の関係を再定義し、人間と動物の調和のとれた共存の新たな時代を導くでしょう。 |
ジェフ・ディーン氏がグーグルの新たな研究を称賛:クジラの生物音響モデルは8種のクジラを識別できる。
関連するおすすめ記事
-
徹底分析 | 李菲菲:AGIとは何か分からない
-
ImageNet の空間インテリジェントバージョンが登場しました。Fei-Fei Li と Jia-Jun Wu のチームによって制作されました。
-
Alibaba Cloud はトップカンファレンス ACL に 38 件の論文が採択され、Tongyi チームは大規模モデル向けの最先端技術をいくつか公開しました。
-
インターンシップ証明書や奨学金も支給!大学生・社会人のためのAIウィンターキャンプ開催!
-
トレーニング不要の DiT アクセラレーション! Meta は、ビデオを 2.6 倍高速に生成する新しい適応型キャッシュ方式を提案します。
-
清華大学の Tang Jie チームによる新しい研究: 一度に 20,000 語を生成する、長期的な出力のための大規模モデル。