注目論文:大規模言語モデルによる退院サマリー、医師作成版との質・安全性を比較
呼吸器内科
退院サマリー作成は臨床医にとって重要な業務ですが、その負担は少なくありません。本研究は、大規模言語モデル(LLM)が作成した退院サマリーが、医師作成のものと質において同等である可能性を示唆しています。LLM作成サマリーはより簡潔で一貫性がありましたが、網羅性で劣り、エラーも多い傾向が見られました。しかし、個々のエラーの潜在的有害性には医師作成のものと有意差はなく、全体的な有害性も低いと評価されました。LLMによるサマリーは、あくまで医師による最終確認・修正を前提とすることで、業務効率化に貢献するツールとなり得るでしょう。今後の技術向上と実臨床での検証が期待されます。
Physician- and Large Language Model-Generated Hospital Discharge Summaries
医師作成と大規模言語モデル作成の退院サマリー:質と安全性の比較評価
Williams CYK, Rosner BI, 他.
JAMA Intern Med. 2025 May 5:e250821.
https://pubmed.ncbi.nlm.nih.gov/40323616/
医師作成と大規模言語モデル作成の退院サマリー:質と安全性の比較評価
Williams CYK, Rosner BI, 他.
JAMA Intern Med. 2025 May 5:e250821.
背景:
質の高い退院サマリーは患者アウトカムの改善と関連しますが、臨床記録作成の負担となっています。大規模言語モデル(LLM)は、退院サマリーの記述を下書きすることで医師を支援する機会を提供します。本研究の目的は、LLMが作成した退院サマリーの記述が、医師が作成したものと同等の質と安全性を有するかを明らかにすることです。
研究デザイン:
本横断研究はカリフォルニア大学サンフランシスコ校で実施され、2019年から2022年の間に無作為に選ばれた入院期間3~6日の入院患者100症例を対象としました。解析は2024年7月に行われました。医師およびLLMが作成した記述の盲検評価が、22名の上級医レビューアによって二重に行われました。記述は、総合的な質、レビューアの選好、網羅性、簡潔性、一貫性、および3種類のエラー(不正確さ、欠落、ハルシネーション)について評価されました。各エラー単独、および各記述全体に対して、米国医療研究品質調査庁(AHRQ: Agency for Healthcare Research and Quality)の改変スケールに基づき0から7の範囲で潜在的な有害性スコアが割り当てられました。
結果:
100症例において、LLM作成および医師作成の記述は、1から5のリッカートスケール(高いスコアほど高品質を示す)による総合的な質において同等であり(平均[標準偏差(SD)]スコア、LLM 3.67 [0.49] vs 医師 3.77 [0.57]; P = .21)、レビューアの選好においても同等でした(χ2 = 5.2; P = .27)。LLM作成の記述は医師作成のものよりも簡潔で(平均[SD]スコア、4.01 [0.37] vs 3.70 [0.59]; P < .001)、一貫性がありましたが(平均[SD]スコア、4.16 [0.39] vs 4.01 [0.53]; P = .02)、網羅性では劣っていました(平均[SD]スコア、3.72 [0.58] vs 4.13 [0.58]; P < .001)。LLM作成の記述は医師作成の記述よりも多くの固有のエラーを含んでいました(サマリーあたりの平均[SD]エラー数、LLM 2.91 [2.54] vs 医師 1.82 [1.94])。個々のエラーにおける潜在的有害性に有意差はなく(平均[SD]、LLM 1.35 [1.07] vs 医師 1.34 [1.05]; P = .99)、それぞれ6件と5件のエラーがスコア4(永続的な害の可能性)以上でした。LLM作成および医師作成の記述はいずれも全体的な潜在的有害性は低かったものの(0~7のスケールでスコア<1)、LLM作成の記述は医師作成の記述よりもスコアが高く(平均[SD]スコア、LLM 0.84 [0.98] vs 医師 0.36 [0.70]; P < .001)、スコア4以上はLLM作成の記述で1件のみでした(医師作成では0件)。
結論:
100件の入院診療科の症例を対象としたこの横断研究において、LLMが作成した退院サマリーの記述は、医師が作成したものと同等の質であり、同様に好まれました。LLMが作成した記述はエラーを含む可能性が高いものの、全体的な有害性スコアは低かったです。これらの結果は、臨床現場において、人間のレビュー後にこのような記述を使用することが、ホスピタリストにとって実行可能な選択肢となり得ることを示唆しています。
質の高い退院サマリーは患者アウトカムの改善と関連しますが、臨床記録作成の負担となっています。大規模言語モデル(LLM)は、退院サマリーの記述を下書きすることで医師を支援する機会を提供します。本研究の目的は、LLMが作成した退院サマリーの記述が、医師が作成したものと同等の質と安全性を有するかを明らかにすることです。
研究デザイン:
本横断研究はカリフォルニア大学サンフランシスコ校で実施され、2019年から2022年の間に無作為に選ばれた入院期間3~6日の入院患者100症例を対象としました。解析は2024年7月に行われました。医師およびLLMが作成した記述の盲検評価が、22名の上級医レビューアによって二重に行われました。記述は、総合的な質、レビューアの選好、網羅性、簡潔性、一貫性、および3種類のエラー(不正確さ、欠落、ハルシネーション)について評価されました。各エラー単独、および各記述全体に対して、米国医療研究品質調査庁(AHRQ: Agency for Healthcare Research and Quality)の改変スケールに基づき0から7の範囲で潜在的な有害性スコアが割り当てられました。
結果:
100症例において、LLM作成および医師作成の記述は、1から5のリッカートスケール(高いスコアほど高品質を示す)による総合的な質において同等であり(平均[標準偏差(SD)]スコア、LLM 3.67 [0.49] vs 医師 3.77 [0.57]; P = .21)、レビューアの選好においても同等でした(χ2 = 5.2; P = .27)。LLM作成の記述は医師作成のものよりも簡潔で(平均[SD]スコア、4.01 [0.37] vs 3.70 [0.59]; P < .001)、一貫性がありましたが(平均[SD]スコア、4.16 [0.39] vs 4.01 [0.53]; P = .02)、網羅性では劣っていました(平均[SD]スコア、3.72 [0.58] vs 4.13 [0.58]; P < .001)。LLM作成の記述は医師作成の記述よりも多くの固有のエラーを含んでいました(サマリーあたりの平均[SD]エラー数、LLM 2.91 [2.54] vs 医師 1.82 [1.94])。個々のエラーにおける潜在的有害性に有意差はなく(平均[SD]、LLM 1.35 [1.07] vs 医師 1.34 [1.05]; P = .99)、それぞれ6件と5件のエラーがスコア4(永続的な害の可能性)以上でした。LLM作成および医師作成の記述はいずれも全体的な潜在的有害性は低かったものの(0~7のスケールでスコア<1)、LLM作成の記述は医師作成の記述よりもスコアが高く(平均[SD]スコア、LLM 0.84 [0.98] vs 医師 0.36 [0.70]; P < .001)、スコア4以上はLLM作成の記述で1件のみでした(医師作成では0件)。
結論:
100件の入院診療科の症例を対象としたこの横断研究において、LLMが作成した退院サマリーの記述は、医師が作成したものと同等の質であり、同様に好まれました。LLMが作成した記述はエラーを含む可能性が高いものの、全体的な有害性スコアは低かったです。これらの結果は、臨床現場において、人間のレビュー後にこのような記述を使用することが、ホスピタリストにとって実行可能な選択肢となり得ることを示唆しています。