nh1

AI专病诊疗能力有了新标尺!蚂蚁健康联合北大人民医院发布GAPS评测集

栏目:行业   作者:赵胜    发布时间:2025-12-10 17:48   阅读量:18414   会员投稿

随着人工智能技术在医疗领域的广泛应用,如何全面、有效地评估这些AI大模型的实际表现成了行业的一大挑战。12月10日,北京大学人民医院、蚂蚁健康联合推出医疗大语言模型GAPS评测框架,用于评估大模型在专科专病领域的临床表现,并首先在非小细胞肺癌(NSCLC)上开启应用。本次NSCLC-GAPS评测集发布,在全球范围内首次实现对肺癌专病领域AI深度能力的评测,标志着大模型在严肃临床场景的验证取得突破进展。

GAPS首创肺癌专病大模型评测框架,尤其注重安全性

长期以来,肺癌是全球死亡率第一的癌症。然而,由于缺乏针对专科专病深度评估的工具,即使是专业医疗人员,也难以对市场上众多医疗大模型进行客观、细粒度的评价。在此背景下,蚂蚁健康携手北京大学人民医院,基于前沿的人工智能技术与丰富的临床实践经验,共同提出了全球首个基于循证医学的专病专科评测框架GAPS,并在肺癌专病领域首先应用,成功填补这一行业空白,提供了全新的、更加精确的大模型评估标准。

据了解,GAPS从四个关键维度出发,即认知深度(G)、答案完整性(A)、鲁棒性(P)和安全性(S),对大模型在非小细胞肺癌诊疗上的表现进行全方位评估。相比传统评测基准仅关注事实记忆,GAPS覆盖从基础概念理解到标准化诊疗方案,再到复杂诊疗决策的全链条能力,能全面检验模型在真实临床场景中的综合表现。GAPS尤其注重安全性考量,避免模型给出看似合理但实际可能带来风险的建议,如推荐禁忌药物或疗法。

GAPS评测集已开源共享,可扩展至更多疾病领域

GAPS评测集核心包含证据等级、临床推荐强度及推理要点三大要素,系统回答了“依据什么证据”“推荐是否可靠”“推理是否严谨”等关键问题,有效评估医疗大模型在临床决策中的可靠性与循证一致性。

目前,GAPS评测基准已经在GitHub等平台开源,鼓励全球范围内的研究者和技术开发者进行更广泛的应用和探索。通过这种方式,GAPS不仅能够快速复制并应用于其他病种和科室,也为指导AI大模型在临床中更深度应用与融合,提供了有力支持。此外,开源模式有助于促进跨机构合作和技术创新,共同提升医疗服务的质量与效率。

此次蚂蚁健康与北京大学人民医院的合作探索,不仅是对现有医疗AI评测体系的重要补充,也为构建更智能化、精准化的医疗服务体系做出积极贡献。未来,双方将继续深化合作,致力于将GAPS评测集扩展至更多疾病领域,助力全球医疗健康事业的发展进步。

ad