谷歌AI通过图灵测试，24个指标超越人类医生_医疗人工智能

谷歌AI通过图灵测试，24个指标超越人类医生

日前，Google Research 和 Google DeepMind 的 AI 团队开发了一款基于大语言模型的人工智能系统， AMIE（Articulate Medical Intelligence Explorer），针对诊断对话进行了优化。

作者：本站编辑来源：大健康派 2024-01-17 10:06:17

日前，Google Research 和 Google DeepMind 的 AI 团队开发了一款基于大语言模型的人工智能系统， AMIE（Articulate Medical Intelligence Explorer），针对诊断对话进行了优化。AMIE采用了一种强化学习算法中的「自我博弈」方法，可以在一个模拟环境中自我对弈，通过自动反馈机制，可在各种疾病、医学专科和环境中进行扩展学习。AMIE已通过图灵测试。该研究于 2024 年 1 月 11 日发布在 arXiv 预印平台。

微信图片_20240117095848.png

研究人员基于真实世界数据集训练AMIE，这些数据集包括医学推理、医学总结和真实世界的临床对话。但同时也面临着挑战，一方面，现有的真实世界数据往往无法捕捉到大量的医疗条件和场景，这阻碍了数据的可扩展性和全面性。另一方面，从真实世界对话记录中获得的数据往往是嘈杂的，包含含糊不清的语言（包括俚语、行话、幽默和讽刺）、中断、不合语法的语句和不明确的引用。

为了解决这些局限性，研究人员设计了一个基于自演的模拟学习环境，让聊天机器人训练自己“对话”。该环境具有自动反馈机制，用于模拟医疗环境中的诊断性医疗对话，从而在多种医疗条件和环境中扩展AMIE的知识和能力。

研究人员利用现有的现实世界数据集（例如电子健康记录和转录的医疗对话）对基础 LLM 进行了微调。为了进一步训练模型，研究人员要求 LLM 扮演患有特定病症的人，以及富有同理心的临床医生，旨在了解患者的病史并设计潜在的诊断。

团队设计了一个框架，来评估诊断对话的过程，包括病史采集、诊断准确性、管理推理、沟通技巧和同理心。通过一项随机、双盲交叉研究，以客观结构化临床检查（OSCE）的方式与经过验证的患者参与者进行基于文本的咨询，将 AMIE 的表现与初级保健医生（PCP）的表现进行了比较。

该研究包括来自加拿大、英国和印度临床提供者的 149 个病例场景、20 个与 AMIE 进行比较的初级保健医生（PCP），以及专科医生和患者参与者的评估。研究人员观察到AMIE在模拟诊断对话中的表现至少与初级保健医生不相上下。根据专科医生的说法，AMIE的诊断准确性更高，在32个指标中的28个指标上表现更优。根据参与研究的患者的说法，AMIE在26个指标中的24个指标上表现更优，包括礼貌、解释病情和治疗、给人诚实的印象以及表达关心和承诺等。

谷1.png

谷2.png

谷3.png

AMIE表现出了充分的潜力，但目前该工具仍处于纯粹的实验阶段，还没有在真正的患者身上进行过测试。该团队在论文里也注明了该工具的局限性，应谨慎使用。

论文的合著者 Alan Karthikesalingam 表示，下一步是进行更详细的研究，从而评估潜在的偏见，并确保该系统对不同人群是公平的。Google 团队也在研究对临床医疗问题系统测试的道德要求。未来还有许多重要的限制因素需要解决，包括在真实世界限制条件下的实验表现，以及对健康公平与公正、隐私、稳健性等重要主题的专门探索，以确保技术的安全性和可靠性。

论文地址：https://arxiv.org/pdf/2401.05654.pdf

谷歌AI 大语言模型 AMIE

关注大健康Pai 官方微信：djkpai我们将定期推送医健科技产业最新资讯

谷歌AI通过图灵测试，24个指标超越人类医生

友情链接