618ZXW

ChatGPT、人間の医師50人を上回る!病気診断の精度90%を達成。OpenAI社長は、人間と機械の連携にはさらなる強化が必要だと語る。

クレッシーがAofei Temple、QbitAIからレポート | WeChat公式アカウントQbitAI

ChatGPTの病気診断精度は人間の医師を超えた?

スタンフォード大学などが実施した無作為化臨床試験では、人間の医師のみによる診断の正確率は74%だった。

ChatGPT の助けにより、この数字は 76% に増加しました。

興味深いことに、 ChatGPT に完全な「自由」を与えると、その精度は 90% に急上昇します

ニューヨーク・タイムズによると、この実験に参加した内科専門医のアダム・ロッドマン博士は結果に衝撃を受けたという。

このような場合、人間の介入によって実際に大規模モデルのパフォーマンスが妨げられるとコメントする人もいます。

OpenAIのブロックマン社長もこのメッセージを共有し、 AIには大きな可能性があるようだが、人間との協力という点では依然として強化する必要があると述べた。

50人の医師が古典的症例に挑戦

研究チームは、スタンフォード大学やバージニア大学などの機関から、内科医44人、救急医5人、家庭医1人を含む医師50人を無作為に募集した。

専門職名で分類すると、これら 50 人の医師には主治医 26 名と研修医 24 名が含まれ、平均勤続年数は 3 年です。

主治医と研修医は、ChatGPT が診断に使用できるかどうかの違いを除けば、それぞれ実験グループと対照グループにランダムに割り当てられました。

さらに、研究者らは大規模なモデルを使用して参加者の経験を統計的に分析しました。

結果によると、ChatGPT を一度も使用したことがない人が 8 人、1 回しか使用したことがない人が 6 人、月に 1 回未満しか使用していない人が 15 人、月に 1 回以上週 1 回未満しか使用していない人が 13 人、週に 1 回以上使用している人が 8 人でした。

事例に関しては、研究チームは1990年代以降の古典的な事例105件を選択し、適応させました。

すべての症例は実際の患者から得られたもので、病歴、身体検査、臨床検査結果などの予備的な診断評価情報が含まれていましたが、最終的な診断結果は公表されませんでした

つまり、人間の医師は事前に答えを知ることができず、ChatGPT のトレーニング データには対応する診断結果がありません。

4 人の専門医がそれぞれ独立して少なくとも 50 件の症例を検討し、単純すぎる症例やまれすぎる症例を除外しながら、包含基準を満たす候補症例を少なくとも 10 件特定します。

4 人のパネルは最終的に合意に達し、最終的に 6 つの事例を選択しました。各参加者の完了予定時間は 1 時間でした。

選択された症例は、現代の臨床検査データレポートの形式に合わせて編集および書き直す必要があり、専門用語は口語的な説明に置き換えられます(「網状黒子」を「紫色で赤色のレースのような発疹」に置き換えるなど)。

評価方法の面では、研究チームは「構造化された反省」に基づいた評価ツールを設計しました。

具体的には、参加者は次の主要な要素を含む構造化されたフォームに記入する必要があります。

  • 最も可能性の高い鑑別診断3つ(3点):症例情報に基づき、参加者は最も可能性の高いと思われる診断を3つ挙げる必要があります。正しい診断1つにつき1点、最大3点が加算されます。
  • 各診断を支持する要因と反対する要因(12点):各鑑別診断について、参加者は当該診断を支持する具体的な証拠と反対する具体的な証拠を挙げる必要があります。各要因は0から2の尺度で採点されます。0は誤りまたは省略、1は部分的な正確性、2は完全な正確性を示します。
  • 最終診断(2点):各鑑別診断の支持証拠と反対証拠を総合的に検討した後、参加者は最終診断を下す必要があります。最も優れた診断には2点、次点だが妥当な診断には1点、誤った診断には0点が与えられます。
  • フォローアップ手順(2点):参加者は、特定の診断をさらに確定または除外するために必要と思われるフォローアップ診断手順を最大3つ挙げる必要があります。各手順は0から2のスケールで採点され、0は誤り、1は部分的な正確性、2は完全な正確性を示します。

正式な実験に先立ち、研究チームは 13 人の医師を募集し、合計 65 件のパイロット ケースから構造化された反省フォームを収集し、3 人の臨床評価の専門家を招いてブラインド レビューを実施し、評価尺度を最適化しました。

最終的に、50 人の参加者が6 つのケースについて構造化された反省フォームを 1 時間で完成させました。

各ケースは2名の採点者によって独立してブラインドレビューされます。2名の採点者のスコアの差が10%以内の場合、平均スコアが採用されます。

差異が 10% を超える場合、2 人の査読者の間で意見の相違があると見なされ、合意に達するまで議論する必要があります。

ChatGPT は人間よりも優れています。

研究をよりわかりやすく説明するために、研究者らは6つの事例のうち1つと、高得点と低得点をつけた医師の回答を提示した。

76歳の男性患者が、歩行時に腰、股関節、ふくらはぎに激しい痛みを訴えて来院しました。この痛みは、冠動脈を拡張するためのバルーン血管形成術を受けた数日後に始まりました。術後、48時間にわたり血液凝固抑制剤であるヘパリンを投与されました。

男性は発熱と倦怠感を訴えた。心臓専門医による検査の結果、貧血が再発し、血液中に窒素やその他の腎臓老廃物が蓄積していることが判明した。男性は10年前に心臓病のためバイパス手術を受けていた。

この事例には、男性の身体診察と臨床検査結果に関する詳細な情報も含まれています。正しい診断は「コレステロール塞栓症」であり、2人の医師とGPT-4からの回答は以下のとおりです(理由とその後の経過は省略)。

最終的に、実験グループ(ChatGPT を使用)の診断スコアの中央値は 76% であったのに対し、対照グループでは 74% でした。

各参加者は複数のケースを完了したため、ケース間に相関関係がある可能性があります。そのため、著者らは混合効果モデルを用いて、この入れ子構造を適切に処理しました。

これらのモデルでは、介入の固定効果(つまり、大規模モデルの使用による影響)だけでなく、参加者とケースのランダム効果も考慮されます。

混合効果モデルに基づくと、2 つのグループ間の差は 2 パーセント ポイントと推定され、95% 信頼区間は -4 ~ 8 パーセント ポイント、p 値は 0.60 でした。

つまり、実験グループのスコアは対照グループよりもわずかに高かったものの、この差は単なるランダムエラーによるものであり、統計的に有意ではない可能性があります

最終的な診断結果とテストの完了に要した時間だけを見ると、2 つのグループ間に有意な差は見られません。

さらに、著者らは、診断にChatGPTのみを使用する実験を追加して研究を補完しました。

研究チームは、最近提案されたヒント エンジニアリング フレームワークを使用して、最適なゼロ サンプル ヒントを反復的に開発しました。

タスクの詳細、背景、手順などの重要な要素が含まれており、各ケースで同じプロンプトが使用されます。

研究者は最適化された提案をケースの詳細とともに ChatGPT に入力し、各ケースは独立して 3 回実行されます。

研究者はChatGPTの出力に手作業で変更を加えることなく、評価者に直接渡し、ブラインド評価を行います。さらに、評価者はどの結果がChatGPTによって生成されたかを知ることはできません。

その結果、 ChatGPTのみを用いた場合の診断スコアの中央値は92%と高く、対照群と比較して有意に高く、p値は0.03と統計的に有意でした

これらの症例は人間の臨床医によって慎重に選択され、要約され、そこから重要な情報が抽出されていることに留意することが重要です。

実際の臨床現場では、患者から情報を取得し、データを収集するプロセスはより複雑であるため、実験結果は、大規模なモデルが臨床シナリオで人間に取って代わることができることを意味するものではありません

しかし、「人間 + ChatGPT」と ChatGPT「フリープレイ」の結果に大きな差があることは、人間によるアプローチでは大規模モデルの最大の有効性を引き出せないことも示しています。

そのため、冒頭でブロックマン氏が述べたように、今回の実験は人間とAIのさらなる協力が必要であることを示唆している。

論文アドレス: https://jamanetwork.com/journ... 参考リンク: [1]https://www.nytimes.com/2024/... [2]https://x.com/gdb/status/1858...