AI专病诊疗能力有了新标尺！蚂蚁健康联合北大人民医院发布GAPS评测集

栏目：行业作者：赵胜发布时间：2025-12-10 17:48 阅读量：18414 会员投稿

随着人工智能技术在医疗领域的广泛应用，如何全面、有效地评估这些AI大模型的实际表现成了行业的一大挑战。12月10日，北京大学人民医院、蚂蚁健康联合推出医疗大语言模型GAPS评测框架，用于评估大模型在专科专病领域的临床表现，并首先在非小细胞肺癌（NSCLC）上开启应用。本次NSCLC-GAPS评测集发布，在全球范围内首次实现对肺癌专病领域AI深度能力的评测，标志着大模型在严肃临床场景的验证取得突破进展。

GAPS首创肺癌专病大模型评测框架，尤其注重安全性

长期以来，肺癌是全球死亡率第一的癌症。然而，由于缺乏针对专科专病深度评估的工具，即使是专业医疗人员，也难以对市场上众多医疗大模型进行客观、细粒度的评价。在此背景下，蚂蚁健康携手北京大学人民医院，基于前沿的人工智能技术与丰富的临床实践经验，共同提出了全球首个基于循证医学的专病专科评测框架GAPS，并在肺癌专病领域首先应用，成功填补这一行业空白，提供了全新的、更加精确的大模型评估标准。

据了解，GAPS从四个关键维度出发，即认知深度（G）、答案完整性（A）、鲁棒性（P）和安全性（S），对大模型在非小细胞肺癌诊疗上的表现进行全方位评估。相比传统评测基准仅关注事实记忆，GAPS覆盖从基础概念理解到标准化诊疗方案，再到复杂诊疗决策的全链条能力，能全面检验模型在真实临床场景中的综合表现。GAPS尤其注重安全性考量，避免模型给出看似合理但实际可能带来风险的建议，如推荐禁忌药物或疗法。

GAPS评测集已开源共享，可扩展至更多疾病领域

GAPS评测集核心包含证据等级、临床推荐强度及推理要点三大要素，系统回答了“依据什么证据”“推荐是否可靠”“推理是否严谨”等关键问题，有效评估医疗大模型在临床决策中的可靠性与循证一致性。

目前，GAPS评测基准已经在GitHub等平台开源，鼓励全球范围内的研究者和技术开发者进行更广泛的应用和探索。通过这种方式，GAPS不仅能够快速复制并应用于其他病种和科室，也为指导AI大模型在临床中更深度应用与融合，提供了有力支持。此外，开源模式有助于促进跨机构合作和技术创新，共同提升医疗服务的质量与效率。

此次蚂蚁健康与北京大学人民医院的合作探索，不仅是对现有医疗AI评测体系的重要补充，也为构建更智能化、精准化的医疗服务体系做出积极贡献。未来，双方将继续深化合作，致力于将GAPS评测集扩展至更多疾病领域，助力全球医疗健康事业的发展进步。

分享到微信

大湾区创新创业孵化基地隋媛媛：已累计孵化港澳青年项目415个

11月28日，2025大湾区文化产业投资
CECC｜Agentic AI时代，赋能高校生态人才大会论坛举行

11月30日，第七届中国计算机教育大会（
中国石油支持南疆指尖技艺新篇章

8日，中国石油助力南疆女性就业培训项目（
加速布局“AI + 采购”，京东以超级供应链推动业采融合发展

日前，2025（第二十三届）《中国企业家
为了做好一碗面，康师傅频频“亮剑”！

即将过去的2025年，中国方便食品行业经
科技破局，自然堂集团何以稳健前行？

在消费升级与理性消费并存的背景下，中国美
以科技践行责任，俞浩未来基金会“未来教室公益计划”获评年度责任践行公益项目

12月10日，由俞浩未来基金会发起的“未
佳孚诚供应非离子扩链剂赋能聚氨酯乳液合成

在聚氨酯、聚酯等聚合物合成领域，扩链剂的
卓越品质，实至名归：中兴荣膺京东金榜2025年度路由器品质金奖

2025年12月9日，在上海金色炉台・中

AI专病诊疗能力有了新标尺！蚂蚁健康联合北大人民医院发布GAPS评测集

最新文章

热点内容