上海AI实验室宣布：医疗大模型开放评测平台MedBench升级至3.0版本_医疗人工智能

上海AI实验室宣布：医疗大模型开放评测平台MedBench升级至3.0版本

近日，上海人工智能实验室宣布，医疗大模型开放评测平台MedBench升级至3.0版本，新增医疗多模态评测能力。

作者：上海人工智能实验室来源：上海人工智能实验室 2025-03-21 14:25:09

2024年1月，上海人工智能实验室正式上线医疗大模型开放评测平台MedBench，融合医疗专家的经验知识与大模型评测技术，为业界提供科学的模型“度量衡”与能力提升方向参考。一年多来，MedBench历经多次升级扩容，目前已有20家医院、高校及研究机构共同开展平台共建。

近日，上海人工智能实验室宣布，医疗大模型开放评测平台MedBench升级至3.0版本，新增医疗多模态评测能力，针对真实应用场景，构建了文献问答、复杂推理、临床危急情况识别评测数据集，并继续向业界开放医疗大模型能力评测服务。

据悉，MedBench上线一年多来，已有近80家机构加入共建或参与评测，累计开展模型评测4204次。通过评测，MedBench3.0揭示了当前医疗大模型普遍的能力长项与核心短板，并提出了优化路径。

为了更全面评估大模型在医疗领域的能力，MedBench新增了多个数据集——

· 医学知识问答维度数据集MedLitQA，用于评估模型对医学文献理解与推理；

· 医疗安全和伦理数据集CriID，用于评估模型对临床危急值的识别能力；

· 复杂医学推理维度的CMB-Clin-extended更新为自建数据集，可基于复杂真实病历，考察模型在真实诊断和治疗情境中的知识应用水平。

MedBench评测维度及数据集分布

既往评测采用“基于要点信息计算（Macro-Recall）”作为评估指标，在开放域问答任务中，无法完善考察答案语义与参考答案的契合度，导致模型忽略回答内容的语义连贯与准确性。为此，本次升级中，MedBench团队引入“语义相似度（Bert-Score）”基准，并与Macro-Recall结合构建出全新评估指标。通过比较模型生成答案与参考答案的语义表示，精准评估二者语义相似度，使评估更贴合实际语义理解需求，以适应更复杂的医疗语义场景需求。

为更好针对大模型在真实临床环境中的表现“把脉”，进而加速多模态技术与临床场景融合，优化大模型筛查和精准诊断能力，优化治疗流程与安全与伦理的合规性，针对医疗影像、检测报告等复杂信息处理，MedBench上新了多模态能力评测。评测聚焦眼科、影像质控、影像报告等领域，包含15项细分维度——

· 眼科多模态能力评测涵盖眼底彩照、OCT图像诊断、教育培训、分诊问诊、医学诊断、治疗方案设计、预后预测等多方面，全方位评估大模型在眼健康专科应用的性能；

· 医学影像质控领域通过深入考察图像质量控制的准确性、报告规范性等关键指标，评估大模型在医学影像学图像及其报告质量控制方面的性能与效果；

· 影像报告测评则主要关注医学信息抽取及病因、治疗、健康影响和检查相关的复杂推理。

为将医疗大模型与主流领先模型横向对比，获取更直观指标参考，MedBench团队此前就推出了“自建榜单”，评测GPT、Claude、Llama等国际主流模型在医疗场景下的能力水平，为医疗大模型参评机构提供对比依据和能力参照，加固医疗模型评测结果可信度。

通过对MedBench评测榜单（2024.12）TOP10模型数据进行分析，以每个维度的最高分作为100分拟合评估大模型的整体表现，发现受测模型在复杂医学推理、医学语言生成、医学知识问答维度方面表现优异，整体表现能力分别达到96.96、94.96、91.21；但在医学安全与伦理和医学语言理解维度存在差异性（分别为85.79和78.92），部分模型在这2个维度上尚存提升空间。

评测还揭示了当前医疗大模型普遍存在的核心短板，包括信息遗漏率较高、伦理决策不一致‌、专业术语理解能力待提升、幻觉未能有效避免等。通过对错误进行归纳，研究人员总结出遗漏、幻觉、格式不匹配、因果推理不足、上下文缺乏一致性、未作答、输出错误、医学语言表达能力差等8类模型失误原因。

基于技术复杂性和预期效果，MedBench团队为下阶段医疗大模型能力提升，提出了四阶段优化策略。

阶段一：聚焦于数据质量、提示词工程和参数微调等低成本、高回报的优化措施。

阶段二： 通过知识增强检索、多任务联合训练和伦理约束集成等方法，增强模型的医学专业知识。

阶段三： 引入混合系统开展架构升级，结合符号逻辑与神经网络，并设计模块化推理框架。

阶段四： 专注于长期技术创新，将医疗大模型与多模态预训练、因果推理模型等前沿研究结合

评测入口：https://medbench.opencompass.org.cn

【AI算力+应用讨论社群】仅限受邀加入

席位锁定中：AI算力及AI应用领域TOP级从业者专属圈层

√ 获取医疗AI应用热点及前沿产业独家信息

√ 随时了解全球医疗AI领域最新监管及政策动向

√ 与AI上下游企业深度对话

√ 获取一手全球AI与算力产业信息

√ 有机会参与AI主题产业交流活动

扫码备注关键词【AI进群】添加好友

验证身份（发送姓名/公司/职务）

*注：剩余席位有限，抓紧时间加入我们吧！

上海人工智能实验室医疗大模型开放评测平台 MEDBENCH

关注大健康Pai 官方微信：djkpai我们将定期推送医健科技产业最新资讯

上海AI实验室宣布：医疗大模型开放评测平台MedBench升级至3.0版本

友情链接