对于许多患者来说,互联网是进行医学主题自我教育的强大工具。随着ChatGPT现已触手可及,麻省总医院布莱根妇女医院(麻省总医院布莱根医疗保健系统的创始成员)的研究人员评估了人工智能聊天机器人提供的癌症治疗建议是否符合国家综合癌症网络(NCCN)指南的一致性。
他们发表在《JAMAOncology》上的研究结果表明,在大约三分之一的情况下,ChatGPT3.5提供了不适当的(“不一致”)建议,强调需要认识到该技术的局限性。
“患者应该感到自己有权了解自己的医疗状况,但他们应该始终与临床医生讨论,并且不应孤立地查阅互联网上的资源,”放射肿瘤科和医学博士DanielleBitterman说。麻省总医院布里格姆分校的医学人工智能(AIM)项目。
“ChatGPT的反应听起来很像人类,并且非常有说服力。但是,在临床决策方面,每个患者的独特情况都有很多微妙之处。正确的答案可能非常微妙,而且不一定是某些东西ChatGPT或其他大型语言模型可以提供。”
人工智能工具在健康领域的出现具有开创性,有可能积极重塑护理的连续性。麻省布里格姆总医院作为美国顶尖的综合学术卫生系统和最大的创新企业之一,在对新兴技术进行严格研究方面处于领先地位,以告知将人工智能负责任地纳入医疗服务、劳动力支持和行政流程。
尽管医疗决策可能受到许多因素的影响,但Bitterman和同事选择评估ChatGPT的建议与NCCN指南的一致程度,NCCN指南被全国各地机构的医生所使用。
他们专注于三种最常见的癌症(乳腺癌、前列腺癌和肺癌),并促使ChatGPT根据疾病的严重程度为每种癌症提供治疗方法。研究人员总共纳入了26条独特的诊断描述,并使用了4条略有不同的提示来要求ChatGPT提供治疗方法,总共生成了104条提示。
几乎所有答复(98%)都包括至少一种符合NCCN指南的治疗方法。然而,研究人员发现,其中34%的回复还包含一项或多项不一致的建议,这些建议有时很难在其他合理的指导中被发现。
不一致的治疗建议被定义为仅部分正确的治疗建议;例如,对于局部晚期乳腺癌,仅建议进行手术,而不提及其他治疗方式。值得注意的是,仅62%的案例评分完全一致,这凸显了NCCN指南本身的复杂性以及ChatGPT的输出可能模糊或难以解释的程度。
在12.5%的病例中,ChatGPT产生了“幻觉”,即NCCN指南中完全没有的治疗建议。其中包括新疗法或非治愈性癌症的治愈性疗法的建议。作者强调,这种形式的错误信息可能会错误地设定患者对治疗的期望,并可能影响临床医患关系。
展望未来,研究人员正在探索患者和临床医生如何区分临床医生撰写的医疗建议与ChatGPT等大型语言模型(LLM)。他们还向ChatGPT提供更详细的临床案例,以进一步评估其临床知识。
作者使用了GPT-3.5-turbo-0301,这是他们进行研究时可用的最大模型之一,也是目前在ChatGPT的开放访问版本(较新版本GPT-4)中使用的模型类。仅适用于付费订阅)。他们还使用了2021年NCCN指南,因为GPT-3.5-turbo-0301是使用截至2021年9月的数据开发的。虽然如果使用其他法学硕士和/或临床指南,结果可能会有所不同,但研究人员强调,许多法学硕士在它们的构建方式以及它们所具有的局限性。
AIM项目的第一作者ShanChen女士表示:“法学硕士在多大程度上能够提供一致的逻辑反应,因为经常观察到‘幻觉’,这是一个开放的研究问题。”“用户可能会向法学硕士寻求答案,以对健康相关主题进行自我教育——类似于谷歌搜索的使用方式。同时,我们需要提高认识,法学硕士并不等同于训练有素的医疗专业人员。”