クレッシーがAofei Temple、QbitAIからレポート | WeChat公式アカウントQbitAIChatGPTの病気診断精度は人間の医師を超えた? スタンフォード大学などが実施した無作為化臨床試験では、人間の医師のみによる診断の正確率は74%だった。 ChatGPT の助けにより、この数字は 76% に増加しました。 興味深いことに、 ChatGPT に完全な「自由」を与えると、その精度は 90% に急上昇します。 ニューヨーク・タイムズによると、この実験に参加した内科専門医のアダム・ロッドマン博士は結果に衝撃を受けたという。 このような場合、人間の介入によって実際に大規模モデルのパフォーマンスが妨げられるとコメントする人もいます。 OpenAIのブロックマン社長もこのメッセージを共有し、 AIには大きな可能性があるようだが、人間との協力という点では依然として強化する必要があると述べた。 50人の医師が古典的症例に挑戦研究チームは、スタンフォード大学やバージニア大学などの機関から、内科医44人、救急医5人、家庭医1人を含む医師50人を無作為に募集した。 専門職名で分類すると、これら 50 人の医師には主治医 26 名と研修医 24 名が含まれ、平均勤続年数は 3 年です。 主治医と研修医は、ChatGPT が診断に使用できるかどうかの違いを除けば、それぞれ実験グループと対照グループにランダムに割り当てられました。 さらに、研究者らは大規模なモデルを使用して参加者の経験を統計的に分析しました。 結果によると、ChatGPT を一度も使用したことがない人が 8 人、1 回しか使用したことがない人が 6 人、月に 1 回未満しか使用していない人が 15 人、月に 1 回以上週 1 回未満しか使用していない人が 13 人、週に 1 回以上使用している人が 8 人でした。 事例に関しては、研究チームは1990年代以降の古典的な事例105件を選択し、適応させました。 すべての症例は実際の患者から得られたもので、病歴、身体検査、臨床検査結果などの予備的な診断評価情報が含まれていましたが、最終的な診断結果は公表されませんでした。 つまり、人間の医師は事前に答えを知ることができず、ChatGPT のトレーニング データには対応する診断結果がありません。 4 人の専門医がそれぞれ独立して少なくとも 50 件の症例を検討し、単純すぎる症例やまれすぎる症例を除外しながら、包含基準を満たす候補症例を少なくとも 10 件特定します。 4 人のパネルは最終的に合意に達し、最終的に 6 つの事例を選択しました。各参加者の完了予定時間は 1 時間でした。 選択された症例は、現代の臨床検査データレポートの形式に合わせて編集および書き直す必要があり、専門用語は口語的な説明に置き換えられます(「網状黒子」を「紫色で赤色のレースのような発疹」に置き換えるなど)。 評価方法の面では、研究チームは「構造化された反省」に基づいた評価ツールを設計しました。 具体的には、参加者は次の主要な要素を含む構造化されたフォームに記入する必要があります。
正式な実験に先立ち、研究チームは 13 人の医師を募集し、合計 65 件のパイロット ケースから構造化された反省フォームを収集し、3 人の臨床評価の専門家を招いてブラインド レビューを実施し、評価尺度を最適化しました。 最終的に、50 人の参加者が6 つのケースについて構造化された反省フォームを 1 時間で完成させました。 各ケースは2名の採点者によって独立してブラインドレビューされます。2名の採点者のスコアの差が10%以内の場合、平均スコアが採用されます。 差異が 10% を超える場合、2 人の査読者の間で意見の相違があると見なされ、合意に達するまで議論する必要があります。 ChatGPT は人間よりも優れています。研究をよりわかりやすく説明するために、研究者らは6つの事例のうち1つと、高得点と低得点をつけた医師の回答を提示した。
この事例には、男性の身体診察と臨床検査結果に関する詳細な情報も含まれています。正しい診断は「コレステロール塞栓症」であり、2人の医師とGPT-4からの回答は以下のとおりです(理由とその後の経過は省略)。 最終的に、実験グループ(ChatGPT を使用)の診断スコアの中央値は 76% であったのに対し、対照グループでは 74% でした。 各参加者は複数のケースを完了したため、ケース間に相関関係がある可能性があります。そのため、著者らは混合効果モデルを用いて、この入れ子構造を適切に処理しました。 これらのモデルでは、介入の固定効果(つまり、大規模モデルの使用による影響)だけでなく、参加者とケースのランダム効果も考慮されます。 混合効果モデルに基づくと、2 つのグループ間の差は 2 パーセント ポイントと推定され、95% 信頼区間は -4 ~ 8 パーセント ポイント、p 値は 0.60 でした。 つまり、実験グループのスコアは対照グループよりもわずかに高かったものの、この差は単なるランダムエラーによるものであり、統計的に有意ではない可能性があります。 最終的な診断結果とテストの完了に要した時間だけを見ると、2 つのグループ間に有意な差は見られません。 さらに、著者らは、診断にChatGPTのみを使用する実験を追加して研究を補完しました。 研究チームは、最近提案されたヒント エンジニアリング フレームワークを使用して、最適なゼロ サンプル ヒントを反復的に開発しました。 タスクの詳細、背景、手順などの重要な要素が含まれており、各ケースで同じプロンプトが使用されます。 研究者は最適化された提案をケースの詳細とともに ChatGPT に入力し、各ケースは独立して 3 回実行されます。 研究者はChatGPTの出力に手作業で変更を加えることなく、評価者に直接渡し、ブラインド評価を行います。さらに、評価者はどの結果がChatGPTによって生成されたかを知ることはできません。 その結果、 ChatGPTのみを用いた場合の診断スコアの中央値は92%と高く、対照群と比較して有意に高く、p値は0.03と統計的に有意でした。 これらの症例は人間の臨床医によって慎重に選択され、要約され、そこから重要な情報が抽出されていることに留意することが重要です。 実際の臨床現場では、患者から情報を取得し、データを収集するプロセスはより複雑であるため、実験結果は、大規模なモデルが臨床シナリオで人間に取って代わることができることを意味するものではありません。 しかし、「人間 + ChatGPT」と ChatGPT「フリープレイ」の結果に大きな差があることは、人間によるアプローチでは大規模モデルの最大の有効性を引き出せないことも示しています。 そのため、冒頭でブロックマン氏が述べたように、今回の実験は人間とAIのさらなる協力が必要であることを示唆している。 論文アドレス: https://jamanetwork.com/journ... 参考リンク: [1]https://www.nytimes.com/2024/... [2]https://x.com/gdb/status/1858... |
ChatGPT、人間の医師50人を上回る!病気診断の精度90%を達成。OpenAI社長は、人間と機械の連携にはさらなる強化が必要だと語る。
関連するおすすめ記事
-
グレートウォールモーターズの鉄の女はトップクラスのテクノロジーカンファレンスで全編英語でのスピーチを行い、ソウルモーターサイクルの海外デビューは絶賛されました。
-
網膜に埋め込まれた2mmのチップにより、目の不自由な人が読書能力を取り戻し、トランプゲームもできるようになる。元マスク従業員の起業家としての功績がここにある。
-
Huawei、DJI、BYDの3社が、高級オフロード車市場の再編に向けて異例の動きで協力した。
-
材料科学界のAlphaFoldが登場!MicrosoftのAIモデルはNature誌で特集され、中国のチームと協力して新材料の発見にも取り組んでいます。
-
バッテリー製造は依然として福建省に依存!曹徳旺氏の妹が182億人民元相当のバッテリーユニコーン企業を創設し、まもなく香港でIPOを予定している。
-
Llama 3.1 405Bを1枚のカードで処理できるので、大型モデルも簡単に小型化できます!強力な圧縮ツールキットが登場!