但是Google Health进行的一项研究(首次研究了深度学习工具在实际临床环境中的影响)表明,即使最精确的AI,如果不针对它们将在其工作的临床环境进行量身定制,实际上也会使情况变得更糟。
在临床环境中部署AI的现有规则(例如的FDA许可标准或欧洲的CE标志)主要关注准确性。没有明确要求AI必须改善患者预后的要求,主要是因为此类试验尚未进行。但这需要改变,Google Health的UX研究人员Emma Beede说:“在广泛部署AI工具之前,我们必须了解AI工具将如何在特定环境中为人们服务,尤其是在医疗保健领域。”
Google首次在真实环境中测试该工具的机会来自泰国。该国卫生部设定了年度目标,对60%的糖尿病人进行糖尿病性视网膜病筛查,如果不及早发现,则可能导致失明。但是,大约有450万名患者,只有200名视网膜专家,这是的两倍左右,诊所正努力实现这一目标。Google拥有CE标记许可,涵盖泰国,但仍在等待FDA批准。因此,为了了解AI是否能提供帮助,Beede和她的同事在全国11个诊所配备了深度学习系统,该系统经过培训可以发现糖尿病患者的眼部疾病迹象。
在泰国一直使用的系统中,护士会在检查时为患者的眼睛拍照然后将其发送给其他地方的专家进行检查,这一过程可能需要长达10周的时间。由Google Health开发的AI可以从眼睛扫描中识别出糖尿病性视网膜病变的迹象,其准确率超过90%(该团队称为“人类专家水平”),并且原则上可以在不到10分钟的时间内得出结果。该系统分析图像以指示疾病状况,例如血管阻塞或泄漏。
听起来令人印象深刻。但是,实验室的准确性评估只能进行到此为止。它没有透露AI在现实环境中的表现如何,这就是Google Health团队想要找出的。在过去的几个月中,他们观察了护士进行的眼部扫描,并对他们使用新系统的经历进行了采访。反馈并不完全正面。
如果运行良好,则AI确实可以加快速度。但是有时它根本无法给出结果。像大多数图像识别系统一样,深度学习模型已经过高质量扫描的培训;为了确保准确性,它被设计为拒绝质量低于特定阈值的图像。由于护士每小时扫描数十名患者,并且经常在光线不足的情况下拍摄照片,超过五分之一的图像被拒绝了。
告知图像被踢出系统的患者,他们将不得不在另一天去另一家诊所就诊。如果他们发现很难下班或没有汽车,这显然很不方便。护士感到沮丧,尤其是当他们认为被拒绝的扫描没有发现疾病的迹象并且不需要进行后续随访时,尤其如此。他们有时会浪费时间尝试重新拍摄或编辑AI拒绝的图像。