上海AI实验室宣布:医疗大模型开放评测平台MedBench升级至3.0版本

近日,上海人工智能实验室宣布,医疗大模型开放评测平台MedBench升级至3.0版本,新增医疗多模态评测能力。

作者: 上海人工智能实验室 来源: 上海人工智能实验室 2025-03-21 14:25:09

2024年1月,上海人工智能实验室正式上线医疗大模型开放评测平台MedBench,融合医疗专家的经验知识与大模型评测技术,为业界提供科学的模型“度量衡”与能力提升方向参考。一年多来,MedBench历经多次升级扩容,目前已有20家医院、高校及研究机构共同开展平台共建。

近日,上海人工智能实验室宣布,医疗大模型开放评测平台MedBench升级至3.0版本,新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。

据悉,MedBench上线一年多来,已有近80家机构加入共建或参与评测,累计开展模型评测4204次。通过评测,MedBench3.0揭示了当前医疗大模型普遍的能力长项与核心短板,并提出了优化路径。

为了更全面评估大模型在医疗领域的能力,MedBench新增了多个数据集——

· 医学知识问答维度数据集MedLitQA,用于评估模型对医学文献理解与推理;

· 医疗安全和伦理数据集CriID,用于评估模型对临床危急值的识别能力;

· 复杂医学推理维度的CMB-Clin-extended更新为自建数据集,可基于复杂真实病历,考察模型在真实诊断和治疗情境中的知识应用水平。

MedBench评测维度及数据集分布

既往评测采用“基于要点信息计算(Macro-Recall)”作为评估指标,在开放域问答任务中,无法完善考察答案语义与参考答案的契合度,导致模型忽略回答内容的语义连贯与准确性。为此,本次升级中,MedBench团队引入“语义相似度(Bert-Score)”基准,并与Macro-Recall结合构建出全新评估指标。通过比较模型生成答案与参考答案的语义表示,精准评估二者语义相似度,使评估更贴合实际语义理解需求,以适应更复杂的医疗语义场景需求。

为更好针对大模型在真实临床环境中的表现“把脉”,进而加速多模态技术与临床场景融合,优化大模型筛查和精准诊断能力,优化治疗流程与安全与伦理的合规性,针对医疗影像、检测报告等复杂信息处理,MedBench上新了多模态能力评测。评测聚焦眼科、影像质控、影像报告等领域,包含15项细分维度——

· 眼科多模态能力评测涵盖眼底彩照、OCT图像诊断、教育培训、分诊问诊、医学诊断、治疗方案设计、预后预测等多方面,全方位评估大模型在眼健康专科应用的性能;

· 医学影像质控领域通过深入考察图像质量控制的准确性、报告规范性等关键指标,评估大模型在医学影像学图像及其报告质量控制方面的性能与效果;

· 影像报告测评则主要关注医学信息抽取及病因、治疗、健康影响和检查相关的复杂推理。

 

为将医疗大模型与主流领先模型横向对比,获取更直观指标参考,MedBench团队此前就推出了“自建榜单”,评测GPT、Claude、Llama等国际主流模型在医疗场景下的能力水平,为医疗大模型参评机构提供对比依据和能力参照,加固医疗模型评测结果可信度。

通过对MedBench评测榜单(2024.12)TOP10模型数据进行分析,以每个维度的最高分作为100分拟合评估大模型的整体表现,发现受测模型在复杂医学推理、医学语言生成、医学知识问答维度方面表现优异,整体表现能力分别达到96.96、94.96、91.21;但在医学安全与伦理和医学语言理解维度存在差异性(分别为85.79和78.92),部分模型在这2个维度上尚存提升空间。

评测还揭示了当前医疗大模型普遍存在的核心短板,包括信息遗漏率较高、伦理决策不一致‌、专业术语理解能力待提升、幻觉未能有效避免等。通过对错误进行归纳,研究人员总结出遗漏、幻觉、格式不匹配、因果推理不足、上下文缺乏一致性、未作答、输出错误、医学语言表达能力差等8类模型失误原因。

基于技术复杂性和预期效果,MedBench团队为下阶段医疗大模型能力提升,提出了四阶段优化策略。

阶段一:聚焦于数据质量、提示词工程和参数微调等低成本、高回报的优化措施。

阶段二: 通过知识增强检索、多任务联合训练和伦理约束集成等方法,增强模型的医学专业知识。

阶段三: 引入混合系统开展架构升级,结合符号逻辑与神经网络,并设计模块化推理框架。

阶段四: 专注于长期技术创新,将医疗大模型与多模态预训练、因果推理模型等前沿研究结合

评测入口:https://medbench.opencompass.org.cn

 

 

【AI算力+应用讨论社群】仅限受邀加入

席位锁定中:AI算力及AI应用领域TOP级从业者专属圈层

√  获取医疗AI应用热点及前沿产业独家信息

√  随时了解全球医疗AI领域最新监管及政策动向

√  与AI上下游企业深度对话

√  获取一手全球AI与算力产业信息

√  有机会参与AI主题产业交流活动

扫码备注关键词【AI进群】添加好友

验证身份(发送姓名/公司/职务)

*注:剩余席位有限,抓紧时间加入我们吧!

上海人工智能实验室 医疗大模型开放评测平台 MEDBENCH

关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯