小児の症例研究でChatGPTは診断成功率が非常に低いことが判明

ニューヨークにあるコーエン小児医療センターの3人の小児科医は、LLM （大規模言語モデル）に100 件のランダムな症例研究を診断するよう依頼した結果、ChatGPT の小児診断スキルが大幅に不足していることをつきとめました。

JAMA Pediatrics 誌に報告されたこの研究ではジョセフ・バリル氏、アレックス・マーゴリス氏
とグレース・ケイソン氏がChatGPT の診断スキルについてテストを行いました。

研究者らは、特定の患者に見られるすべての症状を考慮することに加えて、患者の年齢も考慮する必要があるため、小児での診断は特に困難であると指摘しています。

この新たな研究において、彼らは、医学界の一部によってLLMが有望な新しい診断ツールとして推進されていることを指摘しました。

その有効性を判断するために、研究者らはランダムに100 件の小児症例研究を集め、ChatGPT に診断を依頼しました。

物事をシンプルにするために、研究者らはすべてのケーススタディについて LLM にクエリを実行する際のアプローチを統一使用しました。

まず症例研究のテキストを貼り付け、次に「鑑別診断と最終診断をリストアップしてください。」というプロンプトが続きました。

鑑別診断は、患者の病歴と身体検査を使用して予備診断 (またはそのいくつか) を提案するために使用される方法論です。

最終診断は、その名前が示すように、症状の原因と考えられるものです。

LLM によって得られた回答は研究に他に関与していないふたりの同僚によって採点されました。

スコアは「正しい」、「不正確」、および「診断を完全には把握できなかった」の 3つのスコアが考えられました。

研究チームは、ChatGPT が正しいスコアを生成したのは 17件のみであることを発見しました。

そのうち 11件は臨床的に正しい診断に関連していましたが、依然として間違っていました。

研究者らは、ChatGPT が診断ツールとして使用できる状態にないことは明らかであることを指摘しています。しかし同時により選択的トレーニングにより結果が向上する可能性があることも示唆しています。

彼らはさらに、それまでの間、ChatGPT のような LLM が管理ツールとして、あるいは研究論文の執筆を支援したり、アフターケア用途で患者が使用するための指示書を作成したりするのに役立つ可能性があることを示しています。

【以下のリンクより引用】

Medical Xpress