|
「彼女を殴り、何度も首を絞め、壁に押し付けました。そのたびに後悔しました。なぜ殴ってしまったのか? なぜ自分を制御できなかったのか? 私は最低な人間なのか、狂人なのか、凶悪な人間なのか? でも、本当にどうしたらいいのかわかりません。」これは、18歳のハオランが防犯カメラの前で語った言葉だ。 今年8月、CCTVニュース「相対性」の記者、荘盛春氏は、思春期うつ病の実態を徹底的に調査した。ハオランさんは、カメラの前に立ち、自らの体験を語ってくれた数少ない思春期うつ病患者の一人だった。 うつ病は若者の間でますます蔓延しています。「中国青少年発展報告書」によると、17歳未満の約3,000万人の児童・青少年が、様々な気分障害や行動上の問題を抱えています。青少年は不安定な時期にあり、精神的に比較的脆弱なため、問題が早期に特定され介入されなければ、精神疾患へと悪化する可能性があります。しかし、メンタルヘルス医療資源は著しく不足しており、その多くは都市部や大規模医療機関に集中しています。この不均衡な配分により、多くのうつ病患者が適切なタイミングで医療支援を受けることが困難になっています。 これに応えて、上海交通大学X-LANCEラボの呉孟岳教授のチームは、テキサス大学アーリントン校(UTA)、天橋脳科学研究所(TCCI)、ThetaAIと協力し、うつ病の予備診断のための自動化された大規模モデル対話エージェントシミュレーションシステム、エージェントメンタルクリニック(AMC)を構築しました。 第4回Meet AI4Sライブ放送では、HyperAIは本研究論文の筆頭著者であり、上海交通大学クロスメディア言語知能研究所の博士号取得者である藍坤姚博士を招き、 「大規模モデルエージェントに基づくメンタルヘルス相談・診断プラットフォーム」について詳細なプレゼンテーションを行い、プラットフォームの利用手順、技術的なハイライト、今後の計画を紹介しました。 ロールプレイングに基づいて、エージェントベースの心理クリニックでの模擬相談に参加します。以前は、入学時や就職時にメンタルヘルス検査などの医療支援が必要かどうかを判断するために、自己評価フォーム(PHQ9、HAM-Dなど)をよく使用していました。しかし、フォームへの誤記入を防ぐため、自己評価フォームの多くの質問は一貫性を保つために重複して記載されています。そのため、作業負荷が倍増し、ユーザーが退屈で退屈だと感じるなど、いくつかの問題が発生していました。 PHQ9 セルフテストフォーム 現在、人間とコンピュータのインタラクション、つまりチャットボットとのチャットによる診察プロセスのシミュレーションによって、医師と患者のコミュニケーションはより興味深いものになっています。大規模な言語モデルの開発により、対話体験も継続的に向上しています。 呉孟岳教授の研究チームは、うつ病の予備診断に活用できるインテリジェントエージェント心理クリニック(AMC)を提案しました。AMCは主に、ロールプレイング課題を含む模擬演劇です。このプロセスにおいて、ユーザーは仮想の俳優NPCと対話することで、診察を進めることができます。具体的には、研究者らは患者エージェント、精神科医エージェント、インストラクターエージェントの3つの「役割」を設定しました。 ユーザーは、これら 3 つの役割のいずれかを選択して体験できます。 これら 3 つのエージェントの詳細情報は次のとおりです。
ユーザープロフィール 具体的には、研究者らはD4と呼ばれるデータセットを使用しました。これは、ソーシャルメディアや公共プラットフォームを通じて募集された潜在的な患者のプロフィールで構成されていました。これらのプロフィールには、性別、職業、主な懸念事項、年齢などの情報が含まれていました。厳密なレビューと検証の後、これらのプロフィールは患者のシミュレーションに使用されました。シミュレーション患者とシミュレーション医師が募集され、訓練を受け、シミュレーションによる診察対話を行いました。専門の心理学者がこれらの対話の質を評価し、実際の医師と患者のコミュニケーションシナリオを反映していることを確認しました。反映されている場合、医師はさらに患者のうつ病傾向と自傷傾向を判断し、これらの診断を4つのレベル(障害なし、軽度、中等度、重度)に分類しました。 *D4は、臨床的に準拠したうつ病相談対話を収録した世界初のオープンソースデータセットです。データセットアドレス:https://x-lance.github.io/D4/ D4のデータセットを収集する 研究者は患者エージェントを初期化する際に、前述の相談結果を患者エージェントに提供しますが、データ漏洩を避けるため、抑うつ傾向や自傷傾向の具体的な数値は開示しません。さらに、患者エージェントの症状は、典型的には食事、睡眠、気分、趣味、体調といった側面に現れますが、これらの情報だけでは患者を完全に記述するには不十分です。患者は生活、仕事、学業におけるプレッシャーにも直面しており、それらは具体的な症状ではなく、会話に反映されることが多いのです。 この目的のため、研究者たちはGPT-4を用いて対話内容を分析し、出来事に関連する記憶の断片を特定することを選択しました。これらの記憶は、配偶者の裏切りや仕事や学業における挫折といった情報など、患者エージェントの記憶モジュールに統合されました。
医師側では、初期段階ではエージェントに多くの実務経験は与えられませんが、研究者は、単発性うつ病や再発性うつ病に関するテキスト記述など、基本的な専門情報を医師エージェントの初期記憶の一部として提供します。患者とのやり取りが増えるにつれて、医師エージェントのスキルと経験は継続的に蓄積され、診断能力が向上します。
診察プロセスでは、まず医師が質問し、患者が回答します。その後、指導医が患者の回答をフォローアップし、症状を記録します。指導医は患者の症状をICD-11やDSM-5などの標準検査と比較した後、不明な点を指摘し、医師に次のステップの質問について指示を与えます。この指示に基づいて、医師は患者に新たな質問を投げかけ、患者との対話を繰り返します。それぞれの会話の後、医師は患者の抑うつ傾向と自傷行為傾向を評価します。 エージェントベースの心理クリニック構造 インストラクターはこれらの評価結果を受け取り、D4データセットに保存されている実際の医師の診断結果と比較します。会話履歴と診断結果の差異に基づいて、インストラクターは言語表現、質問スタイル、診断精度など、診察プロセスにおける医師のパフォーマンスを評価します。最終的に、反映された記憶は医師の診断スキルに蓄積され、医師エージェントが診察を通じて経験を積み、成長していくのに役立ちます。 特筆すべきは、対話や診断を処理するための適応記憶をより良く取り出すために、研究者らは対話履歴、電子医療記録、要約スキルという革新的な 3 層記憶構造と記憶検索モジュールも提案したことです。 プラットフォームは継続的に最適化されており、その将来は有望です。ロールプレイングのプロセス中に、研究者はいくつかの問題にも遭遇しましたが、これらは将来的に最適化される予定です。 まず、幻覚の問題があります。これは、モデルが会話の中で現実と矛盾する応答を生成するという、あらゆる大規模モデルに共通する問題です。例えば、患者が過去1ヶ月間に自傷行為を考えたものの、行動に移さなかったとしても、モデルは患者が毎月自傷行為を行っていると誤って報告する可能性があります。この誤報は、長い会話でより顕著になります。幻覚に対処するため、研究者はユーザープロファイルの主要な症状を、同様の問題に遭遇した際のプロンプトとして使用し、モデルにさらなるヒントを提供しています。しかし、このアプローチは幻覚を一時的に軽減するだけであり、今後さらなる努力が必要です。 もう一つの問題は言語スタイルです。患者は初診時に自分の症状を説明する際に専門用語を使わないことが多いのですが、モデルでは「神経運動遅滞」といった専門用語が使われる傾向があり、これは初診時の患者の行動とは一致しません。 言語スタイルの例、繰り返しの例 さらに、研究者たちは、このモデルが反復的な質問を示すことを観察しました。例えば、過去の対話の影響を受け、モデルの冒頭と締めの言葉は比較的固定されており、質問スタイルもかなり一貫していました。しかし、現実世界の会話では、これらの要素は変化する可能性があり、応答も多様です。適切な安心感を与え、会話が単調にならないようにする方法は、今後の研究で検討すべき課題です。 上記のコンテンツを最適化する上での主な課題は、評価基準の一貫性のなさと、特殊なシナリオ向けのデータセットの不足です。昨年5月、呉孟夕教授率いるチームの陳思源博士は、大規模言語モデルを用いて医師と患者の対話をシミュレーションしました。その結果、大規模モデルの言語は人間の言語と比較して顕著な違いを示すことが判明しました。より口語的な表現を提案するようにプロンプトを修正することで、この問題を部分的に軽減できる可能性があります。 陳思源の研究成果 評価基準の不一致については、「高品質な対話」については概ね合意が得られているものの、「中程度の品質」および「低品質」の対話については評価基準に大きなばらつきが見られます。これは、個々の評価における主観的な誤差が影響している可能性があり、より大規模な人間による評価が必要となるためです。また、多くの研究ではGPT-4などの高品質なモデルを用いて他のモデルを評価していますが、ブラックボックスである大規模モデルは解釈可能性が相対的に低く、人間の評価者の質と数も限られています。そのため、大規模な自動評価基準は未だ確立されていません。 さらに、異なるアプリケーションシナリオには異なるデータセットが必要であり、特に利用可能なサンプルサイズが限られていることが多い専門的なシナリオではその傾向が顕著です。これはテストの信頼性に影響を与え、大規模モデルのトレーニングを制限する可能性があります。Lan Kunyao氏は、将来の解決策として、ロールプレイングの実践に心理認知モデルの概念を導入することだと考えています。より汎用的な認知モデルを構築し、さまざまなシナリオに適応し、既存のネットワークリソースをこのモデルに効果的にマッピングできれば、後続のトレーニングセットとテストセットの取得がはるかに容易になり、これは検討する価値のある方向性です。 「私がずっと探求したいと思っていたのは、これらの確率モデルが最終的に完全かつ独立した思考のパーソナリティを形成できるかどうかです。大規模言語モデルに固有のパーソナリティ特性を評価するための、より安定した方法を見つけたいと考えています」とラン・クンヤオ氏は述べています。彼の見解では、これらのモデルは大量のユーザーコーパスとユーザーデータから学習しているため、理論的にはパーソナリティ特性を示すことができるはずです。これを踏まえると、モデルがこのパーソナリティ特性を備えているかどうかをどのように評価するか、そしてこのパーソナリティ特性が質問への回答、認知プロセス、そしてユーザーニーズ(心理的快適性など)への対応におけるパフォーマンスにどのように影響するかを、さらに探求する必要があります。「モデルのパーソナリティ特性やパーソナリティモジュールを特定し、区別できれば、モデルを様々なシナリオやニーズに適応させ、様々なタスクを実行させることができます。これは、単にPromptチューニングに頼るよりも効果的です。」 テクノロジーで世界を変える学部では画像処理を専攻し、大学院在学中に自然言語処理への関心が徐々に高まりました。当時の研究はスマート教育に傾倒し、学生一人ひとりの学習ニーズに関するテーマに出会いました。その後、学生のための学習支援ツールを設計する過程で、学生は学業面のサポートだけでなく、心理面のサポートも必要としていることに気づきました。そこで、博士課程では、心理学の分野をより深く探求したいと考え、呉孟岳教授のチームに加わりました。藍坤瑶博士は、大規模モデル「エージェント心理クリニック」を開発した当初の意図についてこのように語りました。 呉夢月教授は、心理学とコンピュータサイエンスの学際的なバックグラウンドを持つ稀有な専門家です。AIを活用した精神疾患の診断と治療を推進する中で、患者の実際のニーズを的確に捉え、研究戦略を柔軟に調整することができます。 上海交通大学のX-LANCEクロスメディア言語インテリジェンス研究室は、「クロスモーダル言語インテリジェンス研究室」へと発展し、視聴覚とテキスト言語情報処理を中核研究分野とし、材料化学にも一部関与しています。チームは世界を変える技術研究に尽力しています。研究室の学術的モットーは、「技術で世界を変えるには、まず優れたエンジニアである必要があり、優れたエンジニアは必然的に科学者である」というものです。 チーム写真 当研究所は、国家重点研究開発計画や中国国家自然科学基金優秀若手科学者基金など、数多くの国家および企業のプロジェクトから支援を受けています。また、Speechocean Technology Co., Ltd.との緊密な協力関係を通じて、「上海交通大学-Speechoceanインテリジェントヒューマンコンピュータインタラクション共同研究所」を設立しました。豊富なデータリソースと、H800、A800、A10など数百枚のGPUカードを含む大規模なコンピューティングリソースを保有しており、産業規模のデータ分析と研究を実施できる世界でも数少ない人工知能研究所の一つです。 |
うつ病の早期スクリーニングを支援!上海交通大学のチームがエージェントベースのメンタルヘルスクリニックを構築しました。論文の筆頭著者がオンラインでデモを公開し、その技術的な特徴を共有しました。
関連するおすすめ記事
-
PyCharm は DeepSeek と統合して AI プログラミングを可能にします。
-
速報!トランプ大統領がウルトラマンとタッグを組み、AI「スターゲイト」を立ち上げるため、なんと5000億ドルを投じる!
-
「ワークパートナー」登場!iFlytekが複数のオフィスインテリジェントエージェントをアップグレード!コンテンツ制作を再定義します。
-
インテリジェントな啓蒙 | AI時代の新たなクラウドの旅へ
-
Huawei の Qiankun Intelligent Driving System と HarmonyOS Cockpit が MPV に初搭載されました。新型 Voyah Dreamer がデビューしました。
-
史上最も厳しい中国の真正性評価:OpenAIはO1で1位、Doubaoで2位にランクイン、他はすべて不合格。