正文
具体到 AI 层面,就是利用 AI 技术吸收全国顶级医院、顶级医生的医疗知识和技术,降低服务成本,从而普及到各级医院中去,以惠及全国所有患者。
要实现这种普惠化,并考虑到数据安全性,私有化部署大模型是一种可行的路径。据了解,目前国内已有近百家医院完成 DeepSeek 本地化部署,主要为知名大型三甲医院,比如复旦大学附属华山医院、深圳大学附属华南医院等,本地化部署主要是为了支持临床决策、病历质控、影像分析、科研辅助、医院管理等场景应用。
但这种方式本身并不够普惠,私有化部署成本比云服务高得多,满血版 DeepSeek 一体机价格基本都是百万级别,不是普通医院负担得起的,这还不算实际运行中产生的运维和人力成本
。
王国鑫解释道,“
是不是所有医院都具备训练医疗模型的能力,能够支付招聘优秀工程师的成本,并具备足够优质的训练数据,是存在疑问的。
实际上,在中国,大部分专病疗法相关 AI 课题都需要多中心的联合训练。多中心就是大量的优秀的医院联合在一起研发。所以我很怀疑是否所有单个医院都有足够的能力去做这件事。所以医疗大模型的研发,需要像我们这样的垂域领域企业同步支持多家医院,来推动大型课题研发,以解决数据共通性的问题。”
但要实现多中心联合训练,最核心的难题是医疗数据共享,技术层面的难题比如数据标准、数据质量等都还是其次,根本还是在于权利上
,“ 这里面涉及到数据确权的问题,
目前医疗数据的特点是权利不清晰,我们并不知道它属于患者、医院或科室,甚至厂商。比如说一个患者今天做 X 光检查,影像是不是属于厂商并没有确定的答案。
有政策面的问题,也有敏感性的问题,人们对于关乎切身利益的东西都是极其关注的。所以
任何医疗数据的共享,都是重要的法律和伦理问题。
”
那么,如何推动这个问题的解决呢?
王国鑫表示:“ 从政策方面看,过去几年国家一直在研究数据要素流通。我们的优势是能集中力量干大事,所以数据要素流通的研究其实是全国性的。北京如今也有很多先行试点,推动医院进行脱敏数据的资产化,只不过目前案例还比较少。从过去几年我们工作的实际情况来看,总体还是走课题加科研转化。”
“ 比如说我们可以跟医院进行联合课题的申报,在一个单独课题的情况下,可以进行脱敏科研数据的一定程度的共享,当然这不涉及到数据的转移,更多是以更合规数据处理的方式来进行,比如说就在院内完成模型的训练。
理论上,医院不可能把医疗数据转移给任何一家公司。
”
“
所以,对于第三方而言,医疗数据的使用只能是点对点的。坦诚地说,这其实阻碍了纯技术的发展。但医疗领域的特殊性就在于,我们不能完全用一个纯技术发展的视角来看待人类伦理的问题。
”
因此,王国鑫认为,要解决医疗数据资源难题,一方面需要推动医疗数据的资产化,另一方面医疗 AI 公司必须要做好未来广泛依赖合成数据的准备,以及更好地挖掘医疗现有开放数据的准备,“
比如,其实有很多疾病案例数据是存在于医疗论文之中的,它们可开放获取,而且不涉及到敏感信息。我们可以基于这些数据进一步模拟医生或者患者的情况,从而产生更高价值的数据。
”
在近期发表的论文 “ Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support ” 中,王国鑫的团队就提出了这样的方法。
( 注:Citrus 指京东健康的医疗大模型
京医千询 )
https://arxiv.org/pdf/2502.18274
论文中提到,医学专业知识是通过临床实践培养获取的,临床实践需要高度复杂的医学推理技能,涵盖患者咨询、诊断、鉴别诊断和治疗等。
因此,用于智慧诊疗的医学语言模型要想成功地辅助临床决策,不仅要处理海量医疗数据,还要模拟专业医疗人员复杂的认知过程。
临床实践中的医学推理涉及两种推理方法:“
模式识别法 ” 和 “
假设-演绎法 ”。前者基于临床观察和经验总结来发现模式,更加直观,后者根据已知的医学理论,基于症状组合来确定疾病。
模式识别能力通常接触大规模、高质量的医学数据集学习得到,假设-演绎推理能力则需要通过合成的思维链数据训练得到,思维链数据通过模拟专家的推理过程获得。