谷歌AI通过图灵测试,24个指标超越人类医生

日前,Google Research 和 Google DeepMind 的 AI 团队开发了一款基于大语言模型的人工智能系统, AMIE(Articulate Medical Intelligence Explorer),针对诊断对话进行了优化。

作者: 本站编辑 来源: 大健康派 2024-01-17 10:06:17

日前,Google Research 和 Google DeepMind 的 AI 团队开发了一款基于大语言模型的人工智能系统, AMIE(Articulate Medical Intelligence Explorer),针对诊断对话进行了优化。AMIE采用了一种强化学习算法中的「自我博弈」方法,可以在一个模拟环境中自我对弈,通过自动反馈机制,可在各种疾病、医学专科和环境中进行扩展学习。AMIE已通过图灵测试。该研究于 2024 年 1 月 11 日发布在 arXiv 预印平台。

微信图片_20240117095848.png

研究人员基于真实世界数据集训练AMIE,这些数据集包括医学推理、医学总结和真实世界的临床对话。但同时也面临着挑战,一方面,现有的真实世界数据往往无法捕捉到大量的医疗条件和场景,这阻碍了数据的可扩展性和全面性。另一方面,从真实世界对话记录中获得的数据往往是嘈杂的,包含含糊不清的语言(包括俚语、行话、幽默和讽刺)、中断、不合语法的语句和不明确的引用。

为了解决这些局限性,研究人员设计了一个基于自演的模拟学习环境,让聊天机器人训练自己“对话”。该环境具有自动反馈机制,用于模拟医疗环境中的诊断性医疗对话,从而在多种医疗条件和环境中扩展AMIE的知识和能力。

研究人员利用现有的现实世界数据集(例如电子健康记录和转录的医疗对话)对基础 LLM 进行了微调。为了进一步训练模型,研究人员要求 LLM 扮演患有特定病症的人,以及富有同理心的临床医生,旨在了解患者的病史并设计潜在的诊断。

团队设计了一个框架,来评估诊断对话的过程,包括病史采集、诊断准确性、管理推理、沟通技巧和同理心。通过一项随机、双盲交叉研究,以客观结构化临床检查(OSCE)的方式与经过验证的患者参与者进行基于文本的咨询,将 AMIE 的表现与初级保健医生(PCP)的表现进行了比较。

该研究包括来自加拿大、英国和印度临床提供者的 149 个病例场景、20 个与 AMIE 进行比较的初级保健医生(PCP),以及专科医生和患者参与者的评估。研究人员观察到AMIE在模拟诊断对话中的表现至少与初级保健医生不相上下。根据专科医生的说法,AMIE的诊断准确性更高,在32个指标中的28个指标上表现更优。根据参与研究的患者的说法,AMIE在26个指标中的24个指标上表现更优,包括礼貌、解释病情和治疗、给人诚实的印象以及表达关心和承诺等。

谷1.png

谷2.png

谷3.png

AMIE表现出了充分的潜力,但目前该工具仍处于纯粹的实验阶段,还没有在真正的患者身上进行过测试。该团队在论文里也注明了该工具的局限性,应谨慎使用。

论文的合著者 Alan Karthikesalingam 表示,下一步是进行更详细的研究,从而评估潜在的偏见,并确保该系统对不同人群是公平的。Google 团队也在研究对临床医疗问题系统测试的道德要求。未来还有许多重要的限制因素需要解决,包括在真实世界限制条件下的实验表现,以及对健康公平与公正、隐私、稳健性等重要主题的专门探索,以确保技术的安全性和可靠性。

论文地址:https://arxiv.org/pdf/2401.05654.pdf

谷歌AI 大语言模型 AMIE

关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯