海量数据却没得到有效利用,医疗大模型下一步怎么走?

医疗AI大模型如何破解数据难题

作者: Wendi 来源: 大健康派 2024-08-23 17:57:06

蛋壳研究院曾在2018年的报告中提到,随着我国人口总量峰值达到15亿,仅医疗大数据总量就将达到ZB以上。前些年也有机构预测,到2020年全球医疗数据量预计将达到35ZB,而中国的数据量将占全球的20%。


虽然如今尚没有确切的数据,但我国医疗数据资源丰富,应用场景涉及到医疗服务、医院管理、医学科研、公共卫生、医疗保障、以及产业发展的各个环节和领域,健康医疗大数据行业市场规模也在逐年增长。数据不仅是AI模型训练的基础,还关系到AI技术在医疗中的应用效果和可信度。然而,医疗AI的发展过程中,面临的最大挑战之一也是数据的获取与利用。


一、医疗AI大模型为何需要数据


医疗AI技术的核心在于通过海量数据的学习与分析,来构建和优化模型,以达到诊断、治疗、预测疾病等目标。只有拥有足够多且高质量的数据,AI才能够“学习”到足够多的知识,从而做出准确的判断。

例如,将患者的病历、影像、基因信息等数据用于训练AI大模型,使其能够识别复杂的疾病模式和预测患者的健康风险,高质量的数据直接决定了AI大模型的性能。数据不仅用于模型的训练,还用于模型的验证和优化,通过不断地验证和调整,AI大模型可以变得更加精准和可靠。医疗AI大模型还需要通过持续地接收新数据来进行更新,以适应不断变化的医学知识和临床实践。

医疗AI大模型的训练、验证与优化、应用与更新,均高度依赖于大规模、高质量的数据。这些数据不仅是模型学习的基础,也是它们在实际应用中提供精准预测和决策支持的关键。


二、医疗数据使用现状


尽管医疗AI大模型的应用在不断扩展,但在数据使用方面存在较大限制,真正能够用于AI开发和应用的数据仍然有限。

首先,数据孤岛问题严重。医疗数据分散在各个医院、实验室和机构中,缺乏统一的数据标准和共享机制,难以整合利用,AI大模型无法获得足够多样化和全面的数据来进行有效的训练。

其次,数据标准化不足。医疗数据的质量直接影响AI模型的表现,然而由于医疗数据来源多样,且数据格式和结构各异,不完整、不准确或不一致的问题使得数据清洗和预处理工作变得异常复杂和耗时,数据的整合和应用难度大大增加。低质量的数据不仅影响AI大模型的训练效果,甚至可能导致错误的诊断或治疗建议。

此外,隐私与安全问题突出。医疗数据非常敏感,涉及个人隐私和伦理安全。隐私保护技术不足,严格的法律法规限制了数据的自由流动,进一步加剧了数据获取和利用的难度。

多重困难之下,获取医疗数据的成本较高,尤其是对于小型医疗机构和初创企业来说,数据的获取和处理成本可能成为主要障碍。


三、医疗AI大模型训练的数据来源


医疗AI大模型所需的数据来源广泛,包括但不限于电子病历数据、医学影像数据、基因组数据、临床试验数据、检验数据、费用数据、医院运营管理数据、医药研发数据、药品流通数据、智能穿戴数据、体检数据等等。

这些数据中,一部分是来自政府的公共数据,例如常规人口统计和重大疾病监测数据、医疗保险数据等,这些数据具有较高的权威性和可靠性,当前我国有序推进公共数据开放,推动公共数据资源开发利用,充分释放公共数据价值。

另一部分是企业自有数据,例如有些企业拥有自己的研究数据,还有软硬件产品进行自主采集获取的数据,再进行结构化处理,形成人工智能的训练基础。

此外,还有一些数据产业合作数据,通过与医疗机构的合作项目获取高质量的医疗数据,并将其用于模型训练。

除以上主要数据来源之外,互联网上的公开数据、知识文献以及行业开源的数据集,也是AI大模型训练的重要数据来源。


四、产业各方正在探索 破解数据难题


在推进医疗AI大模型应用过程中,产业各方正在积极探索多种解决方案,以期破解数据难题。

政府层面,通过发布一系列政策文件,支持健康医疗大数据的应用发展,并推动人工智能技术的研发和应用。这些措施涵盖了从顶层规划到技术创新、标准制定、市场培育以及应用推广等多个方面。例如积极加快医疗信息化建设,推进数据互联互通,推动医疗数据的开放与共享,同时加强数据使用的监管等。特别是“数据二十条”创新提出了建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,以盘活数据资源要素的活力,推进了我国的建立。业内专家曾表示,在这个数据基础制度的基础上,有望破解医疗健康数据开放与信息保护的“两难困境”、合法合规开展医疗健康数据流通和交易活动、激活数据提供者和开发者的动力、建立安全可控和弹性包容的数据要素治理制度。

在数据标准化方面,各国和地区正在努力推动医疗数据的标准化,制定统一的数据格式和协议,确保不同来源的数据能够无缝整合。包括推广HL7、FHIR等标准,以实现数据的互操作性。中国信通院自2020年开始,联合业界陆续起草《医疗健康大数据平台》系列标准解决医疗数据质量参差不齐、管理欠规范、应用不足等问题,对数据质量管理、数据资产管理、智能化处理等关键环节提出标准化技术规范,相关成果已于日前发布。此外,2023年,中国信通院还牵头,联合20余家相关产学研用单位共同研究起草《医疗健康行业大模型应用技术要求》系列标准发布,医疗健康领域也有了大模型应用技术标准规范。

数据交易所、数据平台的建立,为医疗AI大模型的发展提供了助力。各地数据交易所不断有医疗健康数据产品上架交易,例如国家健康医疗大数据中心(北方)推进数据产品场内交易,在惠医领域,打造了肿瘤高风险人群全生命周期健康管理数据队列产品。北数所近日专门推出AI大模型训练数据集,包含170余个数据集产品,其中数十个涉及医疗健康领域,助力AI大模型训练。数据平台方面,例如2024年6月在北京智源大会上发布的北京人工智能数据运营平台,汇聚了超过700万亿字节的通用数据集,包含医疗、教育、法律、新闻等18类行业数据,未来将进一步扩展到30类左右。此外,市场上也有不少企业乘着风口建立了AI数据平台,提供AI数据采集标注等服务,成为AI大模型训练的数据供应方。

技术层面,隐私计算、联邦学习等技术不断发展,期望通过在不直接共享数据的情况下,利用分布式计算模型来实现数据的联合分析,为AI在保护隐私的同时实现数据共享提供新的解决方案。

产业合作层面,医疗大模型的应用势不可挡,许多医疗机构也开始积极拥抱AI大模型。AI企业率先抱紧头部公立医院,与医院开展合作共研,有效利用脱敏后的院内数据进行大模型训练,再通过AI大模型能力,帮助医院提升医疗服务和运营效率。除医疗机构外,AI企业与药企、与医疗服务企业、科研院所的合作不胜枚举,多方协同是产业发展的必经之路。


五、结语


医疗AI的未来发展离不开数据的支持,但数据的获取和使用却面临诸多挑战。尽管如此,随着技术的进步和产业各方的共同努力,未来这些挑战有望被逐步克服。

接下来还需要进一步发挥产业协同效应,共同推动医疗AI大模型真正发挥潜力,为医疗健康事业带来更多可能性。我们诚邀医疗健康领域的企业和机构积极参与到“AI大模型应用场景”产学研融通创新活动中来,提出创新性的解决方案,推动医疗行业的智能化变革。

点击官网了解活动详情:

http://www.shuzikaiwu.com/xdjh/index.html#tab0


- 扫码申报-

57e3ef0f350d1e1f0dcd935dcdc0272.png

活动日程

 

案例征集:2024年8月28日截止

专家论证会:2024年8月30日

供需对接洽谈会:2024年9月3日

发布/参会时间:2024年9月26日


b3da621294517c91ccf30752e7ac21f.png


关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯