OpenAI の音声文字変換ツールが重大な錯覚であることが発覚: 100 時間の文字変換のうち半分は意味不明。

人間に近い性能を持つと謳われていたOpenAIのAI音声テキスト変換ツールWhisperが、重度の幻覚を引き起こしていると報告されている。

100時間以上にわたる書き起こしの後、エンジニアたちはその約半分が意味不明であることを発見した。

さらに深刻なことに、AP通信は、一部の医療機関が医師と患者の診察内容を書き起こすためにWhisperを使用していることも明らかにし、瞬く間にネットユーザーから幅広い注目を集めた。

ミネソタ州のマンケート・クリニックやロサンゼルスの小児病院など、3万人以上の臨床医と40の医療システムが、フランスのAI診断企業NablaがWhisperをベースに構築したツールを使い始めていると報告されている。

さらに、彼らは約700 万件の医療訪問を記録しました。

ネットユーザーたちは「ちょっと怖い」と恐怖を表明した。

なお、OpenAIは以前、このツールは「高リスク地域」では使用すべきではないと警告していた。

最新の暴露を受けて、OpenAI の広報担当者は、OpenAI はモデルの更新に対応するフィードバックメカニズムを組み込む予定であると述べました。

OpenAIはこの問題をできるだけ早く解決するよう求められた。

Whisper は、OpenAI が以前に立ち上げたオープンソースの自動音声認識 (ASR) システムで、2022 年 9 月にリリースされました。

これは、エンコーダー・デコーダーTransformerアーキテクチャに基づくシンプルなエンドツーエンドのアプローチを採用しています。入力音声は30秒単位のブロックに分割され、メルケプストラムスペクトログラム（音声特徴抽出手法の一つ）に変換された後、エンコーダーに入力されます。

Whisper は、680,000 時間の多言語およびマルチタスクの監視ネットワークデータでトレーニングされたため、多言語の文字起こしが可能になります。

Whisper はリリース以来広く使用されており、現在では GitHub で 70.2k 個のスターを獲得しています。

また、ChatGPT のいくつかのバージョンにも統合されており、世界中の何千もの企業にサービスを提供している Oracle および Microsoft のクラウドコンピューティングプラットフォームの組み込みサービスでもあると報告されています。

さらに、HuggingFaceの最新バージョンであるWhisperは、先月だけで420万回以上ダウンロードされました。HuggingFaceコミュニティの機械学習エンジニアであるサンチット・ガンディー氏は、Whisperは最も人気のあるオープンソースの音声認識モデルであると述べています。

現在、AP通信によると、多くの研究者やエンジニアが、仕事中にウィスパーによって作り出された幻覚に頻繁に遭遇していると報告している。

たとえば、ミシガン大学の研究者は、モデルの改良を試みる前に調べた音声トランスクリプト 10 件のうち 8 件に幻覚を発見しました。

機械学習エンジニアは、自身が分析した100時間以上に及ぶウィスパーの記録のうち、約半分で幻覚が発生していたと指摘した。

別の開発者は、Whisper を使用して作成した 26,000 件の書き起こしのほぼすべてに幻覚が見つかったと述べています。

...

この問題は、適切に録音された短いオーディオサンプルでも発生します。

最近の研究で、コンピューター科学者は調査した13,000以上のクリアな音声クリップの中に187の幻覚を発見した。

エンジニアや研究者は、他の AI 駆動型文字起こしツールが Whisper ほど頻繁に幻覚を生成するのを見たことがないと述べている。

Whisper が重度の幻覚を経験する理由は現在のところ不明ですが、一部のソフトウェア開発者は、これらの架空の出来事は一時停止中、背景音が鳴っているとき、または音楽が再生されているときによく発生すると述べています。

OpenAIは以前、次のような警告を発していた。

Whisper は精度に欠けるため、結果に大きな偏りが生じる可能性があるため、意思決定の状況では使用しないでください。

しかし、AP通信は、この警告によって一部の病院や医療センターがWhisperなどの音声テキスト変換モデルの使用を止めることはできなかったと報じている。

ミネソタ州のマンケートクリニックやロサンゼルス小児病院など、30,000 人以上の臨床医と 40 の医療システムが、Whisper をベースに Nabla が開発したツールを使い始めています。

NablaのCTOであるマーティン・レイソン氏は、このツールは医療言語のモデルを微調整し、患者とのコミュニケーションを書き起こして要約するものであると述べた。

現在、このツールは約 700 万件の医療訪問の記録を転記するために使用されています。

ウィスパーが幻覚を見ている可能性があることを知った後、ナブラは問題解決に取り組んでいると述べたが、次のように述べた。

「データセキュリティ上の理由」により、Nabla のツールは元の音声を削除するため、AI が生成したテキストを元の録音と比較することは不可能になります。

さらに、Whisper は聴覚障害者向けの字幕作成にも使用されていることが分かっています。

ウィスパーの幻覚に関する深刻な問題が発覚した後、OpenAIに対し、できるだけ早くこの問題に対処するよう求める声もあった。

今年2月にOpenAIを去った研究者ウィリアム・サンダース氏も次のように発言した。

企業が優先的に取り組む意思があれば、これは解決できそうに思えます。問題は、リリースした際に人々がその機能に過信し、他のシステムに統合してしまうことです。

OpenAIの広報担当者は、同社は幻覚を軽減する方法を継続的に研究していると答え、研究者たちの研究結果に感謝の意を表し、OpenAIはモデルの更新に対応するフィードバックメカニズムを組み込む予定だと付け加えた。

参考リンク: [1]https://apnews.com/article/ai... [2]https://x.com/AP/status/18501...