医師免許試験に合格できるAI「ChatGPT」は緊急救命室に運び込まれた患者を的確に診察できるのか？

OpenAIが開発した対話型AI「ChatGPT」はさまざまな質問に対して非常に高い精度で回答することができ、アメリカの医師免許試験であるUnited States Medical Licensing Exam(USMLE)で合格圏内に収まる成績をたたき出したことも知られています。そんなChatGPTが本当に臨床現場において利用可能かどうかを調べるため、救急科に勤務する医師のJosh Tamayo-Sarver氏が、「実際に緊急救命室に運び込まれた患者についてのデータをChatGPTに入力し、的確な診察を下せるかどうか」を調べる実験を行いました。

ChatGPT in the emergency room? The AI software doesn’t stack up
https://www.fastcompany.com/90863983/chatgpt-medical-diagnosis-emergency-room

以前から「AIを用いて医療の質と効率を向上させられる」と提唱してきたTamayo-Sarver氏は、ChatGPTが医師免許試験で合格圏内に入る成績を取ったというニュースを聞き、実際の医療現場でどのように機能するのか興味を持ったとのこと。そこでTamayo-Sarver氏は、2023年3月に救急科で臨床シフトに入った後、救急科に搬送されてきた35人以上の患者が訴える病状や経過をまとめた現病歴を匿名化しました。この匿名の現病歴データを用いて、ChatGPTに対し「救急科に来院したこの患者の鑑別診断はどうなりますか？(ここに現病歴を挿入)」と尋ね、その結果がどうなるのかを調査しました。

実験の結果、Tamayo-Sarver氏が正確で非常に詳細に現病歴を入力すると、ChatGPTはちゃんと診断結果を出力したとのこと。たとえば、小児に見られる肘の亜脱臼である肘内障(ちゅうないしょう)については200語の現病歴で、眼窩(がんか)下壁または内壁の骨折である眼窩吹き抜け骨折の場合は600語の現病歴の入力で正しい診断結果を出力することに成功したとのことです。

しかしTamayo-Sarver氏は、「ChatGPTは私が診察した患者に対して、1人当たり6パターンの診断を提案しました。しかし、正しい診断、あるいは少なくとも私が正しいと思える診断が含まれていたのは、患者の約半数でした。悪くありませんが、緊急外来での成功率が50％というのはあまり良いとは言えません」と述べ、臨床現場で使用するには精度が十分ではないと指摘しています。

ChatGPTの診察における最悪のケースは、右下腹部の痛みを訴えて緊急救命室に搬送された21歳の女性の事例でした。ChatGPTは女性の現病歴から虫垂炎や卵巣嚢腫の鑑別診断を即座に返しましたが、Tamayo-Sarver氏はChatGPTが「重要な診断」を見逃していたとしています。

ChatGPTが見逃した診断とは、受精卵が子宮内膜ではない場所に着床してしまう子宮外妊娠です。見逃された子宮外妊娠は卵管の破裂などを引き起こす可能性があり、急激な下腹部痛と大量出血によりショック死する危険性もあるとのことで、見逃すと患者の命に関わる病気です。幸いなことにTamayo-Sarver氏は子宮外妊娠であることを見抜き、すぐに治療することができました。しかし、患者が緊急救命室に運び込まれた時点では、Tamayo-Sarver氏はおろか患者自身ですら妊娠している事実を知らなかったとのこと。

Tamayo-Sarver氏が子宮外妊娠の可能性に思い当たったのは、患者に「妊娠している可能性はありますか？」と尋ね、「そんなわけはない」と答えた患者に対し、さらに「どうして妊娠してないとわかるのですか？」といった質問を重ねたからでした。妊娠していない理由を尋ねた際、避妊具の使用や不妊につながる特定の病気について回答しない患者は、本人がさまざまな理由で「妊娠したくない、妊娠すると困る」と思っている可能性が高いそうです。

緊急救命室で妊娠が発覚する女性のうち8％は、性的に活発ではないと報告しているそうで、腹部の痛みを訴える患者が実は妊娠していたという事例はしばしばあるとのこと。しかし、ChatGPTの候補として挙げた診断には、患者が妊娠している可能性を示唆するものは1つもなく、患者に妊娠の有無を質問するよう促すものもありませんでした。

Tamayo-Sarver氏は、「私が恐れているのは、すでに数え切れないほどの人々が医師の診察を受けるのではなく、ChatGPTを使って自己診断しているのではないかということです。もし、今回の患者がそうしていたら、ChatGPTの対応によって死んでいたかもしれません」と述べています。

他にも、ChatGPTは脳腫瘍を患っている2人の患者を見逃したほか、胴体の痛みを訴える患者について腎臓結石があると診断したものの、実は大動脈破裂だったケースなどがありました。このように、ChatGPTは生命の危機がある複数の患者について誤診したそうです。

Tamayo-Sarver氏は、「要するにChatGPTは、私が完璧な情報を提供し、患者が古典的な病状を訴えた際に診断ツールとしてうまく機能しました。これが、ChatGPTが医師免許試験の症例報告に『合格』した理由かもしれません」と述べ、ChatGPTが試験で正答したのはすでに明確な答えがデータベースにあったからかもしれないと指摘しています。

今回、Tamayo-Sarver氏が診察した緊急救命室の患者たちのケースからもわかるように、多くの患者はGoogle検索などでヒットする「古典的な症例報告」に当てはまりません。来院した患者が「手首が痛い」と訴えていても、それが最近の事故によるものとは限らず、精神的なストレスが要因であったり、性感染症が原因であったり、まったく別のことが理由だったりするとのこと。

ChatGPTは医師の診察をサポートする助手として機能するかもしれませんが、ChatGPTに入力した現病歴に本来は必要な質問が含まれていない場合、ChatGPTはその質問を無視して回答するため、医師が潜在的に重要な質問を見逃し続けることを助長してしまいます。子宮外妊娠の女性のケースを例に挙げると、もしTamayo-Sarver氏が妊娠の可能性に思い当たらなければ、ChatGPTの回答も妊娠の可能性を除外したものになってしまうというわけです。

Tamayo-Sarver氏は、「もし子宮外妊娠の可能性がすぐに思い浮かばなければ、ChatGPTはその可能性を除外し続け、私が当たり前だと思うことだけを映し出し、世界一危険なイエスマンのように私の偏見を熱狂的に正当化したでしょう」と述べています。

Tamayo-Sarver氏はChatGPTが臨床現場において危険になり得る可能性を指摘しつつも、AIは医学において潜在的に有用だという見解を示しています。たとえば、人間の医師は一生のうちに診察できる患者の数に限界があり、それぞれの患者を診察する際もいくつかの重要な要因に的を絞っています。

しかし、AIを利用することで限られた変数だけでなく、数百万もの変数を大量の患者と比較することが可能になれば、診察の精度が劇的に向上します。医師が診察している1人の患者について、データベースの中から類似した患者を大量に見つけ出し、どういう治療で病状が好転する傾向があるかを知ることが可能になるのです。

Tamayo-Sarver氏は、「私がこれまでに治療してきたすべての患者、そして他の医師が治療してきたすべての患者の無数の特徴を瞬時に処理し、深く膨大な洞察を与えてくれるAIが活躍できます」と述べ、医療現場におけるAIの応用に期待を寄せています。その一方で、ChatGPTのような対話型AIは人間の健康に害をもたらす危険性もあるため、期待を膨らませすぎないように注意が必要だと主張しました。

この記事のタイトルとURLをコピーする

Source

共有:

関連