数百种医疗AI应用获批但许多未经临床验证,医疗AI如何安全进医院?
近日,Nature上发表了一篇文章,探讨关于医疗领域AI应用的测试问题。
近日,Nature上发表了一篇文章,探讨关于医疗领域AI应用的测试问题。
文章认为,AI模型的应用有望显著提高医疗效率,但当前AI医疗应用的审批标准往往不如药物严格,许多应用在未经充分临床验证的情况下就已投入使用。监管机构如美国FDA已批准数百种AI驱动的医疗设备和应用,但临床验证数据往往不足,引发了对其安全性和有效性的担忧。
AI系统的实际应用效果受多种因素影响,包括医疗人员与算法的互动、不同人群和环境中的表现差异等。AI应用中要考虑哪些问题,如何进行测试,有哪些解决方案?文章进行了详细探讨,全文如下:
当德文·辛格(Devin Singh)还是一名儿科住院医师时,他曾照顾过一名在急诊室长时间等待就诊后心脏骤停的小孩。“我记得当时在为这个孩子进行心肺复苏,感受到他慢慢离去”,他说。孩子的死亡让他深受打击,同时他也在思考,如果等待时间能缩短,是否能够避免这种悲剧。
这件事促使他将自己的儿科专长与另一领域——计算机科学结合起来,探索人工智能(AI)是否能够帮助缩短等待时间。辛格目前在加拿大多伦多的儿童医院(SickKids)工作,他和同事们利用该医院急诊科的分诊数据,构建了一系列AI模型,这些模型可以提供潜在的诊断建议,并指出可能需要进行的检查。“例如,如果我们可以预测一名患者很可能患有阑尾炎,并需要进行腹部超声检查,我们可以在患者到达后几乎立即自动安排这项检查,而不是让他们等待6到10个小时才能见到医生”,他说。
一项利用SickKids医院超过77,000次急诊就诊数据的回顾性研究表明,这些模型可以加速22.3%的就诊进程,为每位需要进行检查的患者节省近3小时的时间。然而,AI算法在研究中取得成功,仅仅是验证这种技术干预措施能否在现实中真正为人们提供帮助的第一步。
在医疗环境中正确测试AI系统是一个复杂的多阶段过程,但只有相对较少的开发者发布了此类分析的结果。数据显示,2020年至2022年间,仅有65项AI干预措施的随机对照试验被发表。与此同时,美国食品药品监督管理局(FDA)等监管机构已经批准了数百种AI驱动的医疗设备在医院和诊所使用。
“医疗机构发现许多获批的设备没有经过临床验证”,洛杉矶加州西奈山医学中心的心脏病专家大卫·欧阳(David Ouyang)说道。一些医院选择自行测试这些设备。
尽管研究人员知道理想的AI干预临床试验应该是什么样子,但在实践中,测试这些技术充满挑战。实施效果取决于医疗专业人员与算法的互动情况,如果医疗专业人员忽视AI的建议,那么再好的工具也会失效。AI程序对于训练中使用的数据集,与实际应用目标人群之间的差异特别敏感。此外,如何以最好的方式向患者及其家属释明这些技术,并征得他们的同意使用其数据进行测试,目前尚不明确。
一些医院和医疗系统正在尝试在医学领域中使用和评估AI系统。随着越来越多的AI工具和公司进入市场,相关各方正在共同努力,寻求最佳评估方式,确定最严格的测试标准。
谁在测试医疗AI系统?
由辛格(Singh)等人开发的基于AI的医疗应用,通常被监管机构(包括美国FDA和英国药品与保健产品管理局)视为医疗设备。因此,审查和批准它们的标准往往不如药物严格。只有一小部分可能对患者构成高风险的设备,才需要临床试验数据才能获得批准。
许多人认为门槛太低了。费城宾夕法尼亚大学的重症医学专家加里·魏斯曼(Gary Weissman)在审查FDA批准的AI设备时发现,在他审查10种设备中,只有3种在其授权文件中引用了已发表的数据。只有4种提到了安全性评估,没有一种包括偏见评估。“令人担忧的是,这些设备确实能够并且正在影响临床护理”,他说,“患者的生命可能就取决于这些决策。”
数据的缺乏使得医院和医疗系统难以决定是否要使用这些技术。在某些情况下,经济激励措施也会产生影响。例如,在美国,健康保险计划已经为使用某些医疗AI设备的医院进行报销,这使得这些设备从经济角度具有吸引力。这些机构可能也倾向于采用那些承诺可以节省成本的AI工具,即使它们不一定能改善患者护理。
欧阳(Ouyang)表示,这些激励措施可能会让AI公司不愿投资于临床试验。对于许多商业企业来说,他们可能更倾向于确保他们的AI工具可以获得报销,并具有良好的财务回报,因为他们看到,这些激励措施已经推动了AI工具的采用。
根据市场的不同,情况可能会有所不同。例如,在英国,政府资助的全国性健康计划可能会在医疗机构采用某种产品之前,设置更高的证据标准,英国伯明翰大学研究负责任创新的临床研究员刘晓轩(Xiaoxuan Liu)表示。“这样一来,企业就有动力进行临床试验了。”
一旦医院购买了某款AI产品,他们不需要进行进一步测试,就可以像使用其他软件一样立即使用它。然而,一些机构认识到,监管批准也不保证该设备真正有益。因此,它们选择自行测试这些设备。欧阳表示,目前许多这类工作是由学术医疗中心开展和资助的。
2017年,阿姆斯特丹大学医学中心的重症医学主任亚历山大·弗拉尔(Alexander Vlaar)和该机构的麻醉师丹尼斯·维洛(Denise Veelo)发起了这样一个项目。他们的目标是测试一种旨在预测术中低血压的算法。术中低血压可能导致危及生命的并发症,如心肌损伤、心脏病发作和急性肾衰竭,甚至死亡。
该算法由加利福尼亚州尔湾市的爱德华生命科学公司(Edwards Lifesciences)开发,使用动脉波形数据——即在急诊室或重症监护室的监视器上看到的红色波峰和波谷线。它可以在低血压发生前几分钟进行预测,进而实现早期干预。
弗拉尔、维洛及其同事们进行了一项随机临床试验,在60名接受非心脏手术的患者中测试了这个工具。那些在手术过程中使用该设备的患者,其低血压持续时间的中位数为8分钟,而对照组患者的低血压持续时间接近33分钟。
该团队进行了第二次临床试验,确认该设备与明确的治疗方案相结合,在更复杂的环境中也有效,包括在心脏手术期间和重症监护室内。这些结果尚未发表。
成功不仅仅是因为算法的精确性,麻醉师对警报的响应也至关重要。因此,研究人员确保医生们进行充分的准备:“我们提供了一份诊断流程图,详细说明了当警报响起时的步骤”,维洛说道。同一算法在另一家机构进行的临床试验中就未能显示出益处,弗拉尔表示,在那个试验中,“床边医生在警报响起时没有按照规定采取行动”。
人机协作
一个非常好的算法可能会因为人类行为的偏差而导致失败,这包括医疗专业人员和接受治疗的患者的行为差异。
明尼苏达州罗切斯特的梅奥诊所测试了一个其内部开发的算法,该算法用于检测一种名为低射血分数的心脏病状况。测试时,该中心的人机交互研究员芭芭拉·巴里(Barbara Barry)负责弥合开发人员和使用该技术的初级保健提供者之间的差距。
该工具旨在标记可能处于这种病症的高风险个体,这种状况可能是心力衰竭的征兆,虽然可以治疗,但往往未被诊断出来。临床试验表明,该算法确实提高了诊断率。然而,在交流中发现,医疗服务提供者希望得到更多指导,尤其是在如何向患者解释算法结果方面。这引出了一项建议,即如果广泛实施该应用,应包含一些要点,列出与患者沟通的重要信息,这样医疗提供者就不必每次都考虑如何进行那样的对话。“这是我们如何从实用性试验过渡到实施策略的一个例子,”巴里说。
另一个可能限制某些医疗AI设备成功的问题是“警报疲劳”——当临床医生接收到大量AI生成的警报时,他们可能会对其变得麻木。梅奥诊所家庭医学部主任大卫·拉什洛(David Rushlow)表示,这一点应该在测试过程中加以考虑。
他说:“我们已经每天多次收到关于患者可能面临的风险状况的警报,对于忙碌的一线临床医生来说,这实际上是一项非常艰难的任务。我认为这些工具确实能够帮助我们,但是,如果它们没有被准确地引入,默认的情况下,大家就会继续按照原来的方式做事,因为我们没有精力去学习新的东西。”
考虑偏见
测试医疗AI的另一个挑战是临床试验结果很难推广到不同的人群中。“众所周知,当AI算法在用于与其训练数据不同的数据时,它们非常脆弱”,刘晓轩指出,只有当临床试验的参与者能够代表该工具将要应用的人群时,才能安全地推广。
此外,基于资源丰富的医院中收集到的数据训练出的算法,在资源较少的环境中应用时可能表现不佳。例如,谷歌健康(Google Health)在加州帕洛阿尔托开发的用于检测糖尿病视网膜病变的算法在理论上非常准确。然而,当该工具在泰国的诊所中使用时,其性能显著下降。一项观察性研究揭示,泰国诊所的照明条件导致眼部图像质量低,降低了该工具的有效性。
患者同意
目前,大多数医疗AI工具帮助医疗专业人员进行筛查、诊断或制定治疗计划。患者可能不知道这些技术正在他们的护理中进行测试或常规使用,并且目前在任何国家都没有要求医疗提供者披露这一点。
关于应将哪些AI技术的内容告知患者,仍在持续讨论中。其中一些应用正在将患者同意的问题推到开发者关注的前沿。辛格(Singh)和他的同事正在开发的AI设备就是这种情况,该设备旨在优化SickKids儿童医院急诊科的儿童护理流程,这项技术的不同之处在于,它将临床医生排除在外,使孩子或者他们的父母、监护人成为最终用户。
辛格说:“这个工具的作用是获取急诊分诊数据,做出预测,并让家长直接决定是否可以对孩子进行检测。”这减轻了临床医生的负担,并加快了整个过程。但它也带来了许多前所未有的问题。如果患者出现问题,谁应承担责任?如果进行了不必要的检查,谁将为此买单?“我们需要以自动化的方式获得家庭的知情同意”,辛格说,并且这种同意必须是可靠和真实的,“它不能像你注册社交媒体时那样,给你20页小字,你不仔细看只点击‘接受’ ”。
在辛格和他的同事等待资金以启动患者试验的同时,该团队正在与法律专家合作,并让加拿大卫生部(Health Canada)审查其提案并考虑其监管影响。
寻找解决方案
各机构正在合作讨论如何应对这些挑战。一些专家表示,最好的方法是每个医疗机构在采用医疗AI工具之前进行自己的测试。其他人则指出,由于涉及的成本,这是不可行的,因此研究人员和医疗机构正在探索其他方案。
“对于大型机构来说,已经很困难了,而对于小型机构来说将更加艰难”,梅奥诊所的医疗AI专家肖娜·欧弗加德(Shauna Overgaard)说。她参与领导了梅奥诊所的AI验证和管理研究项目,该项目旨在以标准化和集中的方式测试医疗AI工具,以便它们可以在梅奥诊所健康系统相关的社区医疗机构中使用。
欧弗加德也是健康AI联盟(Coalition for Health AI)的成员,该联盟包括来自行业、学术界和患者倡导组织的代表。该联盟由谷歌、亚马逊、微软和CVS Health等公司资助,提议创建一个健康AI保障实验室网络,该网络将使用一套商定的原则,以集中的方式评估模型。
北卡罗来纳州达勒姆市杜克健康创新研究所的临床数据科学家马克·森达克(Mark Sendak)表示,这种集中式方法并不理想。“每个环境都需要拥有自己的内部能力和基础设施来进行测试”,他说。
他是健康AI伙伴关系(Health AI Partnership)的成员,这是一个由学者和医疗组织组成的团体。该合作组织获得了位于加利福尼亚州帕洛阿尔托的戈登和贝蒂·摩尔基金会的初始资金支持,旨在建立能力,并为任何组织提供技术支持,使其能够在本地测试AI模型。
美国大型医学影像实践集团放射学合作伙伴(Radiology Partners)的放射科医师和临床AI副首席医疗官尼娜·科特勒(Nina Kottler)也认为,本地验证至关重要。她希望这些研究的见解可以用来教育那些将要操作这些工具的专业人员。她表示,这一人类因素将是最重要的。“几乎没有在医疗中完全自主的AI”,她说,“我们必须开始考虑,不仅要测量AI的准确性,还要测量AI与最终用户的结合效果。”
关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯