完全把命交给AI 还不是时候

快科技
所有做医疗AI或者做行业AI的团队,都需要有这样的觉悟,就是在未来漫长的几年里,需要有不同的模型团队来广泛地合成类真实数据,从而进一步降低对患者数据、医院数据或行业数据的使用。这是一个很重要的方向,我们也在持续探索。

在中国,医疗AI主要有三种类型:医疗影像、医学基因编译以及智慧诊疗。

对于智慧诊疗类型,许多公司都有较强的互联网医疗基因,比如京东健康、阿里健康、平安好医生等。过去多年来,这类公司主要依靠互联网卖药模式盈利。

在疫情期间,互联网卖药营收全面大增。但如今这个市场已成红海,同质化竞争严重,由疫情特殊时期带来的营收机会也早已消失,相关公司在这方面的收入都进入了瓶颈期。

那么,智慧诊疗公司今后将如何构建新的竞争优势?

这回,竞争要素终于聚焦到了AI上。

近年来国家也密集出台政策推动智慧诊疗的发展,比如2024年11月,国家医保局将AI辅助诊断技术纳入医疗服务价格项目立项指南。

为深入了解智慧诊疗公司如何在AI上建立新的优势,知危编辑部和京东健康智能算法部负责人、京东健康探索研究院首席科学家王国鑫进行了对话。

京东健康自2014年开始运营,以线上医药零售业务为基础,并扩展到在线诊疗,近年基于AI技术开发了一系列AI诊疗助手产品。

在王国鑫看来,用AI去解决医疗的业务问题,是一个很自然的选择,“医疗和别的行业相比并没有更加特殊,只要是人工智能跟行业结合,都会有巨大的想象力,以及面临现实中逐步演进的漫长过程。”

但ChatGPT的出现确实带来了全新的机会,“ChatGPT不仅是优秀的技术,也是优秀的产品,根本在于改变了人和机器的交互模式,实现了从鼠标到触摸屏再到自然语言、图像、声音的飞跃。”

而DeepSeek的发布对中国医疗AI也有很大的推动作用,“DeepSeek的意义在于,中国人的AI技术终于达到了国际认可的接近全球最领先的水平。而且AI还没有面临智能墙的限制,还能继续提升。DeepSeek这样的国产优秀团队,极大地刺激了各行各业对于中国技术团队的认知,以及国家对于AI领域的技术战略的投入,当然,医疗行业也不例外。”

从互联网卖药到智慧诊疗,这样的模式变迁是一种质的变化,因为这意味着医疗AI企业要实际与医院一起参与到患者的诊疗过程中,因此要做出好的医疗AI产品,必须对医疗行业本身有非常深刻的理解。

王国鑫向知危介绍道,“医疗、法律、金融是人类专家参与最多,交互最频繁、信息密度最大的三个重要行业。一些行业更强调AI的半自动化或全自动化,比如交通、物流、电厂、制造业、农业等,但AI医疗需要人类和机器的共同配合。”

“这也是医疗、法律、金融这三个行业率先应用大模型或者大模型更适用的原因。具体而言,判断一个行业是否适用大模型,以及应用大模型具有高价值,就看是不是有高知识密度,专家型人才聚集,以及高服务成本。”

医疗行业的高服务成本体现在必须有庞大机构作为支付方,“我们国家对大部分国民提供了医保兜底,今天如果一个患者需要看专家,绝大部分医院都能提供半小时以内到位的医疗服务,这在另一个国家是不可能的。”

而且,相比法律、金融,医疗行业还有其特殊性和复杂性,“医疗行业几乎是人类所有职业中,细分程度最高,规则最复杂,出错后果最严重的行业。所以医疗AI商业化中最大的困难,就在于它解决的是人类生命健康上的问题,这也是几乎所有复杂性的来源。”

但医疗行业存在一个不可能三角,即可及性、成本和质量不能同时拥有,“比如我们的医疗总体上是普惠化的,但如果今天想看一个超级牛的专家,一般来说就需要支付很高的成本,这个成本支付的是占用专家的时间,这个时间如此宝贵源于培养高水平专家需要付出的巨大成本。”

因此,结合医疗本身的行业特点和中国医疗现状,构成了独特的发展驱动力,“像我们这么大的国家,无论是医疗成本问题、卫生经济学问题、地区差异问题,都导致对通过使用类人服务来提升整个医疗行业、医院、患者的体验,和降低成本上,有巨大的动力。”

具体到AI层面,就是利用AI技术吸收全国顶级医院、顶级医生的医疗知识和技术,降低服务成本,从而普及到各级医院中去,以惠及全国所有患者。

要实现这种普惠化,并考虑到数据安全性,私有化部署大模型是一种可行的路径。据了解,目前国内已有近百家医院完成DeepSeek本地化部署,主要为知名大型三甲医院,比如复旦大学附属华山医院、深圳大学附属华南医院等,本地化部署主要是为了支持临床决策、病历质控、影像分析、科研辅助、医院管理等场景应用。

但这种方式本身并不够普惠,私有化部署成本比云服务高得多,满血版DeepSeek一体机价格基本都是百万级别,不是普通医院负担得起的,这还不算实际运行中产生的运维和人力成本。

王国鑫解释道,“是不是所有医院都具备训练医疗模型的能力,能够支付招聘优秀工程师的成本,并具备足够优质的训练数据,是存在疑问的。实际上,在中国,大部分专病疗法相关AI课题都需要多中心的联合训练。多中心就是大量的优秀的医院联合在一起研发。所以我很怀疑是否所有单个医院都有足够的能力去做这件事。所以医疗大模型的研发,需要像我们这样的垂域领域企业同步支持多家医院,来推动大型课题研发,以解决数据共通性的问题。”

但要实现多中心联合训练,最核心的难题是医疗数据共享,技术层面的难题比如数据标准、数据质量等都还是其次,根本还是在于权利上,“这里面涉及到数据确权的问题,目前医疗数据的特点是权利不清晰,我们并不知道它属于患者、医院或科室,甚至厂商。比如说一个患者今天做X光检查,影像是不是属于厂商并没有确定的答案。有政策面的问题,也有敏感性的问题,人们对于关乎切身利益的东西都是极其关注的。所以任何医疗数据的共享,都是重要的法律和伦理问题。”

那么,如何推动这个问题的解决呢?

王国鑫表示:“从政策方面看,过去几年国家一直在研究数据要素流通。我们的优势是能集中力量干大事,所以数据要素流通的研究其实是全国性的。北京如今也有很多先行试点,推动医院进行脱敏数据的资产化,只不过目前案例还比较少。从过去几年我们工作的实际情况来看,总体还是走课题加科研转化。”

“比如说我们可以跟医院进行联合课题的申报,在一个单独课题的情况下,可以进行脱敏科研数据的一定程度的共享,当然这不涉及到数据的转移,更多是以更合规数据处理的方式来进行,比如说就在院内完成模型的训练。理论上,医院不可能把医疗数据转移给任何一家公司。”

“所以,对于第三方而言,医疗数据的使用只能是点对点的。坦诚地说,这其实阻碍了纯技术的发展。但医疗领域的特殊性就在于,我们不能完全用一个纯技术发展的视角来看待人类伦理的问题。”

因此,王国鑫认为,要解决医疗数据资源难题,一方面需要推动医疗数据的资产化,另一方面医疗AI公司必须要做好未来广泛依赖合成数据的准备,以及更好地挖掘医疗现有开放数据的准备,“比如,其实有很多疾病案例数据是存在于医疗论文之中的,它们可开放获取,而且不涉及到敏感信息。我们可以基于这些数据进一步模拟医生或者患者的情况,从而产生更高价值的数据。”

在近期发表的论文“Citrus:Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support”中,王国鑫的团队就提出了这样的方法。(注:Citrus指京东健康的医疗大模型京医千询)

https://arxiv.org/pdf/2502.18274

论文中提到,医学专业知识是通过临床实践培养获取的,临床实践需要高度复杂的医学推理技能,涵盖患者咨询、诊断、鉴别诊断和治疗等。

因此,用于智慧诊疗的医学语言模型要想成功地辅助临床决策,不仅要处理海量医疗数据,还要模拟专业医疗人员复杂的认知过程。

临床实践中的医学推理涉及两种推理方法:“模式识别法”和“假设-演绎法”。前者基于临床观察和经验总结来发现模式,更加直观,后者根据已知的医学理论,基于症状组合来确定疾病。

模式识别能力通常接触大规模、高质量的医学数据集学习得到,假设-演绎推理能力则需要通过合成的思维链数据训练得到,思维链数据通过模拟专家的推理过程获得。

模型生成推理思维链的过程如下,对一个推理起点和多个诊断终点,其能够生成大量的备选思维链,并结合外部知识保证诊断能力:

-模型列出现有临床信息,作为推理的起点。

-基于现有信息,提出可能的诊断,作为推理的终点。

-进行正向推理,建立从起点到终点的逻辑路径。

-使用另一个模型评估推理的有效性。

-重复步骤3-4,模型将尝试建立更多不同的逻辑路径。最后对可能的诊断进行排序,确定是否可以做出诊断。

-如果做出诊断,则输出结果并结束推理。

-如果无法做出诊断,则返回步骤1,并尝试请求外部知识以收集更多信息。

该方法在多个开源基础模型中,在各种医学基准测试中实现了显著的性能提升。Citrus模型(京医千询)及其训练数据都已经开源。

王国鑫再次强调,“所有做医疗AI或者做行业AI的团队,都需要有这样的觉悟,就是在未来漫长的几年里,需要有不同的模型团队来广泛地合成类真实数据,从而进一步降低对患者数据、医院数据或行业数据的使用。这是一个很重要的方向,我们也在持续探索。”

在获取合成数据的好处时,也要面临相应的风险,比如它可能让生成的多样性不够,甚至让模型退化或训练直接崩溃。

Nature曾经发表一篇封面论文《AI models collapse when trained on recursively generated data》,表明随着大模型循环用自己生成的数据训练自身,到最后模型会完全偏离原来的数据分布,要么生成内容范围很狭窄,要么干脆在胡言乱语。

图源:Nature volume 631,pages755–759(2024)

王国鑫认为,合成数据导致模型退化这是有可能的,但合成数据这条路仍然必须走下去。

“我们当然希望数据的多样性很强,真实性又很高,但在医疗领域这不现实。举一个医疗影像的例子,如果只在北京做医疗影像,那就几乎没有南方患者的影像数据。人和动物都有很强的地域性特征,包括身体状况、疾病甚至影像表现等。”

但正如之前提到的,得到多中心的具有广泛代表意义的数据是医疗AI领域中最难、最痛苦的部分。

“合成数据确实存在造成模型退化的可能,因为需要从一个强模型或者通过强化学习的方式不断去合成新数据。那么这批数据的应用或者监控,就变得比较困难。其实基于强化学习的范式,不断地推动数据合成,应该是能够把模型的水平再抬高一定水平的,然后再配合一部分真实数据进行校准。”

相比痛苦地寻找真实数据,这个方法的效率高得多。

“强化学习跟监督学习相比最大的特点,就是它具有一定的数据探索能力。只是强化学习需要很好的环境设置,从而让它的探索方向更能被评估。比如DeepSeek-R1-Zero就是完全基于强化学习的,它让模型通过自由的探索找到正确的发展路径。未来在很多端到端的智能体研究都会走这个方向。这其实很像AlphaGo的发展过程,AlphaGo后期的版本AlphaZero是不需要棋谱的,而是靠两个AlphaGo的智能体不断的下国际象棋、围棋和日本将棋,从而从零提升模型能力的。当然,强化学习本身的难点也不少,探索很容易,但是训练方法、奖励模型设计、超参数都是比较难调试的,训练也不太稳定。”

王国鑫补充道,除了真实数据、数据合成,其它数据获取方法还包括真实数据的改写等。

医疗数据除了难获取,其领域知识上的特点即细分性和动态性,也带来了另一个层面的难题。

王国鑫表示,“医疗行业的细分程度非常高。即便是从患者的角度来看,目前去任何医院,对患者来说最大的难题就是挂什么科室的号。常用的疾病编码少说得有一两千个,而且不同的专科医院、不同的专家所擅长的疾病差异很大。每一个疾病或每一个专科背后,都有一个巨大的学术机构来支撑,有很多优秀的专家甚至院士对其进行研究。”

“并且,医疗也是一个快速发展中的行业,人类今天对于很多疾病其实还没有形成正确的认识,比如最受关注的肿瘤疾病。所以,医疗AI不仅仅是对过去知识的学习,而是持续学习、持续应用的。纵观整个生物学、基因学、生化组学、制药学的发展,其实它们的发展速度并不比AI、计算机技术慢,尤其在美国这样的高成本医疗的社会。AI甚至还增大了医疗的发展速度,比如最近获得诺贝尔生理学奖的就是AlphaFold。”

“甚至,作为医生其职业生涯是很漫长的,需要持续学习。在这个过程中,大模型也需要深度参与进来,这属于AI医疗教育的问题。”

“最后,包括数学推理、代码推理等推理模型都有一个特点,就是它有正确答案。我可以通过问题-正确答案配对的方式不断地校正模型,但坦诚地讲,医疗领域的一大特点就是开放性,很多问题不见得真的有正确答案。患者同样的症状可能指向多种不同的疾病。”

综上,知识密度高,专家型人才聚集,隐私属性强,细分程度高,知识更新快,以及开放性或不确定性,这几个特点阐释了医疗大模型落地时面临的主要困难,“这导致在落地医疗大模型时,我们希望AI能够做到既通用又专用,但这是非常困难的。”

“所以,医疗大模型不能仅仅是在某些通用基准上刷了榜单,拿到好成绩就行了。更重要的是能够逐步地掌握回答专科专病甚至重大专科专病问题的能力。同时,医疗大模型还要能跟上知识的快速更新。”

对于模型本身而言,由于医疗必须是专家决策,或者说所有决策必须有专家认可,那么医疗大模型就需要有比较强的可解释性,“我不认为纯黑盒的医疗大模型在医疗领域有任何应用价值,这也是和很多行业所不同的地方。”

“对于医疗领域,很长的一段时间内,通用大模型是比不上垂域大模型的。当然通用大模型所沉淀的训练方法以及优秀经验,垂域大模型也需要快速吸收。通用大模型探索的是AGI,而医疗大模型探索的是如何让具体医疗场景符合医疗规范的问题。”

“其实,随着模型越做越深,向专病发展的时候,也能自然地推动和拥有这类核心数据的医院进行科研合作。”

但直接适应医疗的碎片化特点去独立地逐个落地AI,则是不够经济的做法,也不适合这一代的AI。“数据稀缺、信息个体化是个长期存在的问题,需要解决如何像人类医生那样快速地进行小数据学习(比如In-context Learning),并实现强推理能力。比如Figure AI机器人公司,据称其Helix模型的第一个场景在宝马公司训练了12个月,但第二个场景只用30天就做出来了。对于医疗AI,也希望能实现类似的路径,利用沉淀的经验或者说预训练、迁移学习去越来越快地攻破越来越多的医疗细分领域。”

“所以,合成数据、知识更新、预训练,这三条路对于医疗大模型是必然的,通用数据领域中存在的很多花里胡哨的技巧,在行业AI面前都没什么用。”

通过克服上述各个难题,并攻破所有医疗细分领域,就能实现医疗大模型的ChatGPT时刻吗?医疗大模型最终能够取代人类医生吗?

王国鑫表示,“ChatGPT没有取代人类,它是一个交互式的模型。医疗大模型的ChatGPT时刻也不是其在某种程度上替代了医生。而是在很刚性的医疗场景下,AI和医生共同服务患者,形成标准化的服务,甚至能够写到指南里。所以医疗大模型落地的方向应该是,一方面对患者的健康管理有更广泛普适的服务模式,比如随时随地的医疗健康咨询或个人健康助手。

“这个需求实际上并不只是医疗问题,而是源于人们内心对健康的焦虑。你可以看到,互联网上充斥着多种不同的医疗‘权威’,就源于这种焦虑,但大众很难判断这些信息的真实性。虽然大模型也有幻觉,但一个普适的医疗大模型一定是没有商业化利益且能提供最安全的医疗服务。”

“最后,在所有医院的实践环节中,都需要持续地去探索哪些环节可以利用AI带来效率提升,以及对最终的医疗服务是否带来增益。如果在这个过程中,患者受益,医生、医院的成本也降低,那么就应该把它进一步的推向指南,甚至推向医疗管理的要求。对于这多方面的要求的满足即流程效率提升、服务增益、成本降低等,电子病历就是很好的例子。”

“换个角度来说,医疗大模型的ChatGPT时刻无非就是在医疗服务的这几个方面有旗舰型产品出现。”

最后,王国鑫向知危介绍了京东健康如何践行上述理念。

京东健康从2017年开始,就开始做互联网医疗,如今每天有49万人在京东健康完成线上问诊,“要达成这一成就,没有AI就实现不了,在这个过程中我们也积累了大量数据。”

就在近日,京东健康还将医疗大模型“京医千询”升级为2.0版本,重点提升了AI辅助重大专科专病诊疗的能力。传统AI依赖静态数据,而“京医千询”2.0强调临床诊断的动态推理,避免过度罗列所有可能性,利用患者数据结合循证数据库和临床案例库,直接给出有效的答案,提高了临床实用性。目前,“京医千询”2.0已经能针对恶性肿瘤、心脑血管等疾病为临床医生提供个性化诊疗建议。

“只靠AI也无法解决问题,我们还必须要依靠供应链,比如说我们合作的医院、药店、服务机构,用京东的话讲叫实物供应链和服务供应链。否则它和其它互联网产品没有什么区别。”

“所以,我们认为京东健康是在互联网医疗领域或者健康领域掌握的实体机构和细分领域最多的一个公司。医疗AI的商业化才刚刚开始。与其讲护城河,不如讲跑得快不快。护城河是防守思维,AI竞争拼的是进攻思维。比如到现在很难讲OpenAI的护城河是什么,Claude、Google甚至DeepSeek离OpenAI并不遥远,所以在AI这个领域到最后拼的是持久力和快速迭代的能力。在医疗行业竞争拼的则是战略定位、资源投入和对行业的理解。”

对任何做行业大模型的公司,行业理解都是永远不可忽视的,“对于做医疗AI的公司,有些偏向技术,有些偏向行业。对于前者,在国内是很珍贵的力量,目前还是太少了。只是重技术的可能更希望快速商业化,这在医疗行业是很困难的。但不管是哪种倾向,哪怕是竞争关系,我们也希望能够共同去推进医疗AI的发展。”

外部环境的变化,让王国鑫看到医疗AI正重启快速发展的脚步,“目前最大的变化,其实是在于医院、医生、专家对人工智能的认识上。相较于之前的保守态度,如今这个群体对于AI的引入持更加开放的态度,对于我们是一个很大的鼓舞,毕竟我们和医疗行业是需要共同研发和推进医疗AI的。当然,这个变化必然是由国家自上而下的政策导向和推进才能实现。”

“用实在的话来说,每一个人,包括我,也都希望到老的那一天,可以得到更加体面、有尊严的医疗服务。”

请扫码关注数字化经济观察网
责编:左右
参与评论
文明上网,理性发言!请遵守新闻评论服务协议
0/200