大模型时代下数字智慧病理的探索
一、 会议及演讲概况
演讲嘉宾:笪倩 | 瑞金医院
演讲主题:《大模型时代下数字智慧病理的探索》
二、 主要观点:
观点1:数字化是智慧化的基础
中国有5000医院有病理科,仅不足5%的数字切片并用于数字化诊断,如果连基础都没有怎么做数字建设呢?病理数字化切片格式不统一,各厂商都有自己的格式。影像学二十年前都有很好的发展,可以统一。对于数字病理而言,就我们科有五到六个厂家的扫描仪,输出十几种不同的格式。就如我刚到上海听不懂上海话,他们之间也存在这个问题,数据孤岛问题非常严重。
瑞金医院在2023年的时候,将信息化系统进行替换,目前科内18台扫描仪,一天扫的切片4000片左右,2023年之后才开始积累切片,对应的诊断也是在不停地更新,昨天为止,大概188万张的数字切片作为数字图书馆供医疗、教学、科研的使用。
病理数字化需要高效的数据基础设施支撑,传统病理数据阅片过程中经常出现马赛克和卡顿的情况,医生非常反感这样的行为;第二个问题是成本非常高,一张切片1到2G,一个患者特别是前列腺癌的患者,所有的组织全部取,高达70个切片,一个患者100G的数据。到昨天为止,我们样本量、病例量可以达到15万,瑞金医院每年都是PB级在增长。
观点2:数据质量决定智慧化高度
算法积累过程中标注是一个非常大的挑战,对于专业知识的依赖非常高。PPT上两张图片是2021年到2022年摸索传统小模型的时候去标注的,当时有四位医生为了标注这个应戒细胞癌症一个癌种,以及肠道的高级别流片和低级别流片,两类病变的数据利用业余的时间花大半年标注这个数据,工作非常耗时,而且标注过程中有一些区域人也不能够给出一定的明确诊断,所以整个标注的挑战对于我们来说非常大。
总结:数字化是智慧化的基础,数据质量决定智慧化高度
一、建立AI-ready的数字基础设施,完善数字化改造
(1)解决病理数据调阅慢问题,优化存储并发性能,实现一秒千片,提升10倍的访问效率提升。
(2)解决数字化建设成本高的问题,场景化优化病理压缩算法,节约30%以上的成本。
(3)病理扫描仪输出病理图片格式多,格式间访问/处理不互通,治理难等问题,统一病理数据格式(CSP格式),提供更换的数据治理体验。
二、数据质量决定智慧化高度
(1)高质量的病理数据是Ruipath测评活动7项领先的基础,RuiPath在业界12个主流公开数据集的14个辅助诊断任务测试中,有7个达到业界领先水平(行业SOTA)
(2)大模型技术通过提升病理诊断效率与精准度,成为推动数字智慧病理发展的关键引擎,但需结合行业数据特性、软硬件协同优化及人机协作模式探索实现规模化落地。
三、 其他专家观点:
专家1:数据规模与技术迭代是Google与哈佛合作的核心优势,瑞金医院需关注数据质量与本地化应用。
技术架构演进:从早期ViT+小模型(如CLAM方案)发展到端到端、MoE模型,技术迭代依赖长期数据积累。端到端和MoE模型是未来方向,但需平衡数据质量与伦理风险。
数据驱动治疗:Google与哈佛医学院合作积累了海量医疗数据,规模远超瑞金医院,数据量是核心优势。哈佛医学院提供30万美元的全球治疗方案,本质是“用数据验证方案”,通过患者数据优化模型。Google与哈佛共享数据,Google整合多中心医院数据,形成数据壁垒。
专家2:病理数字化性能和成本的问题是非常显著的问题,针对病理数据科研探索场景化的压缩,通过压缩技术节约存储空间,降低快速增长的数据存储成本问题;第二是探索新的保存介质,病理数据通常需要保存15-20年,现有的HDD和SSD无法满足要求,发展新形态的介质,通过介质的创新,来解决15-30年保存的问题。
专家3:RuiPath做病理诊断,这个领域非常Critic,我们的经验,它实际上会有误差的,它说的东西有可能是夸大其词,大模型总有幻觉问题。你们遇到这种问题的话,当然是听医生的。
四、 对三丫坡会议的建议与意见:
五、 瑞金病理科 笪倩 演讲原汁原味纪要
主持人-王纪奎:前面各位不管是黄Fellow还是刘院长,讲的是从提供者的角度,从外面看数据和价值。真正进入到里头去看价值或者行业数据的价值,怎么实现呢?我们请医院的笪主任分享一下医院的智慧病理的探索。有请!
笪倩:谢谢各位。首先非常感谢组委会的组织,因为今天所有学习的内容对于我来说都是一个非常新鲜的知识输入。我的工作是在一线工作的一名医生,所以能够在这么美丽的三丫坡有这么好的知识的输入,我觉得是非常大的享受。
我给各位汇报的是在我们医疗的实际应用场景中,在数字化以及智慧化转型的过程中,我们的一些探索。

首先想请教一下在座各位:有谁不知道病理是干什么的吗?如果不知道的可以举个手?看来还是有40%的老师不知道病理是干什么的,做一个非常简单的比喻,如果有一个患者他的胃不是很舒服,他需要去消化科进行检查,首先会给他做一个内镜检查,现在内镜基本会取一块组织,送到病理科,在显微镜下进行诊断,告诉临床医生这个到底是炎症还是肿瘤性的病变,如果是炎症将指导患者在消化科进行治疗,如果是肿瘤那后期他就要进行外科手术或者是肿瘤科的治疗和化疗。所以病理就是疾病诊断最后的一个金标准。
在没有高水平的病理诊断,其实并不可能带来整个精准的临床诊疗。在这张PPT当中就提示了如果有个患者进入临床以后,首先医生会进行主观的问诊,医生会开出一些检查,比如检验、超声、影像和核医学等,这些检查就类似于GPS系统,去给我们定位和导航到哪里出现了问题。而至于你这里到底出现了什么样的问题,就是我们病理需要做的事情。也就是临床会告诉我这个患者疑似什么疾病,而病理要告诉这个患者一定是得的什么疾病。
其实我是2011年进入病理科开始工作,在那个时候还是医生在显微镜下进行观察,去观察它的组织形态以及细胞的结构,主要是通过这些去下疾病的诊断。所以大家可以看到左侧两条红蓝相间的图非常好看,我们每天面对的是这样的图像,现在随着奥巴马提出了精准诊疗以后,我们的免疫组学、分子病理就飞速发展,他们就是为了告诉患者未来这个疾病有可能预后怎么样,而且现在大家都知道PD-L1、CAR-T这些治疗,而这些治疗都得依据病理诊断出具的报告来进行后续是否有可能得的治疗。
所以在右侧整个病理诊断报告,现在不仅要进行组织和细胞的诊断,还需要完整地告诉临床这个患者临床所需要的免疫组化和分子的诊断结果是什么。最后才整合成一份病理报告,来出具,来确诊什么样的疾病,临床进行治疗。
而病理科存在着很大的困境,从中国整个的层面上来看,2024年中国癌症报告就提到了我国是一个癌症大国,2022年的时候,中国新发的癌症数其实是全球首位的。可以看到这些数字都是触目惊心的,而带来了对于患者来说,我们怎么去应对,一定是早发现、早诊断和早治疗。而对于这些关键来说,我们应该去扩大我们整个病理诊断的可能性。我们的病理诊断一定要是准确的,而我们基层的病理诊断水平一定要提高。这些是解决这些问题的关键。

但是我们的病理行业存在着很大的痛点。第一,病理科医生缺口非常大。目前在国家注册的大概是2万人,按照国家床位配比,其实缺口是7-14万。我们有跟华为并肩作战的驻场工程师在我们科室,我们知道华为的工作口号是996,我们科王主任定的工作口号是5+2、白+黑。我们经常加班的时候看到华为同事们在我们隔壁办公室一起加班,我们是并肩作战的战友。其实这就是现实的情况,真的因为医生的缺口非常大,所以我们工作压力也非常大。
第二,病理医生的分布非常不均匀,病理数少,80%在大城市,大城市又集中在三甲医院,导致有些二甲医院或者一些医院连病理科的医生都没有,就是把病理诊断送到第三方中间去。病理医生分布不均匀,导致诊断不一定准确,怎么认为临床的质量方向是正确的呢?
第三,这是多年前肿瘤医院做过的调查,他们的会诊患者特别多,中小医院的出诊符合率比较低的,我们也有来自全国各地的会展,良恶性的问题都弄错了,每个病理报告背后都不是患者,而是患者带来的家庭问题。所以当处在符合率低的时候带来的方向就会严重偏差。20202年数字化病理飞速发展,2023年联合合作伙伴,在中华医学会指导下,包括华为也发布智慧化病理的白皮书,我们做了调研,无论是数字化还是智慧化的手段,都会加速解决痛点,解决痛点的时候都有探讨这个方向上存在的挑战。
医疗方向上同样存在,这里展现的是冰山一角。
一是数据的质量问题。刚才黄总跟我聊,医疗的数据相对而言比较干净的,但是就算是我们病理科,不同医院做出来的切片质量都存在着巨大的差异,染色水平因为机器的不同、机器年限的不同也会导致数据存在的差异。扫描仪的治疗,我们发现不同扫描仪厂商出来的图片质量也是参差不齐。
中国有5000医院有病理科,仅不足5%的数字切片并用于数字化诊断,如果连基础都没有怎么做数字建设呢?病理数字化切片格式不统一,各厂商都有自己的格式。影像学二十年前都有很好的发展,可以统一。对于数字病理而言,就我们科有五到六个厂家的扫描仪,输出十几种不同的格式。就如我刚到上海听不懂上海话,他们之间也存在这个问题,数据孤岛问题非常严重。
二是数据算法的问题。算法积累过程中标注是一个非常大的挑战,对于专业知识的依赖非常高。PPT上两张图片是2021年到2022年摸索传统小模型的时候去标注的,当时有四位医生为了标注这个应戒细胞癌症一个癌种,以及肠道的高级别流片和低级别流片,两类病变的数据利用业余的时间花大半年标注这个数据,工作非常耗时,而且标注过程中有一些区域人也不能够给出一定的明确诊断,所以整个标注的挑战对于我们来说非常大。
小模型的泛化性非常差,花大半年时间标注,只在胃细胞癌症一个病症,无法泛化到其他病症。当时科的老师给我提出这样一个异议,为什么做这个病种,我们科想AI发展怎么办?我们确实没有能力做这样模型的泛化。

三是算力堆积问题非常严重,一张数字切片1到2GB,导致算力存在很大的堆积,对医院而言、高校而言算力是非常大的瓶颈,很多医院很难进行整个模型训练的普及。
瑞金医院从2020年开始,启动了数智化的建设,在业内得到了合作伙伴的支持。2023年5月28日时发布了数字化的智慧病理科,并且发布了数字化智慧病理科建设的白皮书,AI的小模型已经进入到正常的工作流了。2024年年底我们跟华为一起去合作研发RuiPath病理大模型,今年2月18号正式发布,今年6月30号卫健委支持下作为首个医院开源的医疗大模型共享给全国医院,希望加速AI普惠。

我们探索主要分为两个方向:一是数字化的成果。在2023年的时候,将信息化系统进行替换,目前科内18台扫描仪,一天扫的切片4000片左右,2023年之后才开始积累切片,对应的诊断也是在不停地更新,我们想积累优质的新鲜的数据作为数据库进行积累,到昨天为止,大概188万张的数字切片作为数字图书馆供医疗、教学、科研的使用。切片对瑞金医院来说有什么优势?一是得益于临床科室非常强大,服务的患者范围非常广,我们也统计过我们整个癌症好发比例和中国癌症的好发比例是一致的状态;二是病种的覆盖率非常高。无论是常见的疾病还是罕见的疾病,有非常多的优势数据;三是数据规模非常大,单两个院区而言,可以产生六到七千的新鲜数据进行模型训练。
在存储过程中,跟华为一直在探索,存在很大的痛点:一是调阅非常慢,传统的存储方案中,阅片过程中经常出现马赛克和卡顿的情况,医生非常反感这样的行为,显微镜下浏览这么顺畅,为什么要在电脑上看一个非常卡的切片,严重影响工作速度。这方面华为提出了存储的创新,现在院长要求的是在瑞金医院的任何一个地方,无论是实验室开展科室,需要所有医生阅览同样一张切片的时候必须无卡顿,现在医院可以做到这样。
第二个问题是成本非常高,一张切片1到2G,一个患者特别是前列腺癌的患者,所有的组织全部取,高达70个切片,一个患者100G的数据。到昨天为止,我们样本量、病例量可以达到15万,可以想象我们每年产生多少数据。数据成本太高,瑞金医院每年都是PB级在增长。很多病理科主任跟我们交流的时候说数字化病理科想建,但是建不起,每年都有这么多存储的成本。到这个礼拜对于数字病理发生一个比较大的事情是国家医保局提出了未来数字病理可以收费的现状,之前医生们和院领导们需要考虑的是商业没有闭环的时候费用从哪里来。瑞金医院一直自己在投入,无论是扫描仪还是存储都是医院投入我们科进行的建设。如果商业闭环没有实现的时候压力确实非常大,这方面华为提出了二次污损的算法。
热数据存两周需要使用的数据,温数据是一到三个月有可能调阅的数据,冷数据是三个月之外,有可能调阅的频率比较低,华为的解决方案可以降低30%-45%的存储算法,算法创新帮我们解决了预算很大的问题。
第三个问题是格式不统一,不同的格式各说各的语言,格式互相不通,我们也提出了CSP统一的格式。为什么要做这个事情,实验过程中之前从A扫描仪扫描出来的数据建立胃肠道活检算法,做出来准确率非常高,突然发现换了一台扫描仪,把算法迁移过去正确率可以下降30-50%不等,这个算法还怎么做下去?最根本的问题就是CSP格式统一刷。2023年发布这个会的时候,我们就提出了应该去积极推动一个统一的格式,中华病理学会把这个格式命名为CSP格式,无论从扫描仪的直接输出到阅片过程中的浏览到AI真实的使用,贯穿了所有的环节。也就是现在进行智慧化病理科建设的时候如果从根本上建立一个CSP统一格式的数字化智慧病理科,从讲方言到大家都讲普通话,很好地帮我们打好了智慧化的基础。这份工作现在也在中华医学会积极推进过程中。
国家医保局提出了项目立项指南,提到了三点:
第一,政府指挥棒,希望未来将这些数字化的图像上传到云平台,帮我们建立好数据的基础。
第二,AI现在可以名正言顺收费了。在数字化建设过程中商业闭环非常有望打通的。
第三,以前的病理医生在诊断的过程中很多收费来源于检验试剂的费用,并没有将医生诊断的价值得到体现,这个报告当中非常彰显了医生的诊断、知识需要进行收费的。
医保局的立项指南给病理数字化转型提供了非常大的机遇,最近一直被我们热议。
第二个方向是智慧化的成果。在小模型时代做了一些工作,举一个例子,大家交流的时候一直会问一个问题,AI到底有没有帮你减少人力、加快工作效率?举一个简单的例子,2011年进入到病理科工作的时候,那时候还没有无纸化,所有都是手写的,资料从电脑上进行审查,还是普通患者胃肠道活检的病例来说,从拿到切片到查资料到写下诊断到临床审核到患者的手上,基本上5-7个工作日是比较正常的现象。2021年探索建传统的小模型之后,首先解决的就是胃肠道活检标本的问题,现在可以猜一下一份胃肠道活检的标本从进到病理科到出具报告需要多长时间?制作切片的时间差不多需要24小时,有了AI辅助、有了数字化支持之后基本上可以控制在36个小时把报告发布出去,这其实是一个非常大的进步了。

小模型的痛点是很难泛化,2023年、2024年发布了多篇基础模型的文章,当时也想尝试一下,去年年底的时候我们跟华为基于整个的百万张的数据以及非常好的数据基础这些格式化的报告,去建立了整个数据的基础。存力上得益于前期的算法,帮我们节省了空间也节约了训练的周期。算力上,在我们科里真实使用过程中无论是训练还是推理都用的国产的算力卡,得益于ModelEngine的平台,现在我们数据处理的周期也是大大缩短。PanVL-T1一开始建立的时候,有基础模型、有视觉语言跨表征的对齐以及深度思考的机制。在整个模型过程中可以做到:一是看图识癌;二是进行镜下所见的阐述;三是我们可以进行诊断的对话。现在在下游任务当中可以覆盖上百个下游任务。
在广度和深度上都做了尝试,得益于临床这样一个数据,非常匹配中国的好发癌种,现在覆盖面的确比较广的,特别是罕见的肿瘤,罕见的肿瘤在公开数据集上几乎没有,我们用自己的数据建了一个数据集,未来会开源,这样的数据对比了顶尖的模型,的确能力非常强。现在因为基因的飞速发展,联合华大进行多模态的数据融合,希望做到像乳腺癌、淋巴瘤上多模态融合。
在速度方面,我们诊断效率比较高的。按照以前我们在显微镜下进行诊断,一个乳腺癌的患者有15张切片,在显微镜下看一张切片至少3分钟,也就是45分钟,临床上一份报告不能一个医生审核,初检医生45分钟,复核医生45分钟,总共要花90分钟。而对于现在来说初检医生非常顺畅,因为RuiPath提取好结果,只需要确认一下,对他来说工作效率上有明显的提升。
深度方面,我们也有跟国外的模型进行对比,在病理的数据集上进行对比,结果不错的。
今年六月份的时候RuiPath在科内完整的输出,并且发表了一份报告,现在的路径是切片扫描之后由华为存储,AI计算后可以在RuiPath查看RuiPath计算结果,医生就可以看这个结果并且提取到病理的系统当中。
现在分为两个环节,一个是初检医生,非常方便可以把RuiPath的结果一键提取过来,对于他的工作来说非常方便。现在在工作上还有做一件非常重要的事情,就是在进行数据飞轮促使每周我们的模型都在进行一个迭代。
今天是一个闭门研讨,不满各位老师,在BenchMark集当中,RuiPath公开数据集当中跟顶尖的模型都有对比,这是发文章过程中都要做的事情,可以打榜,可以看到每个榜都非常高,RuiPath不差的,某些模型上可以达到顶尖的水平,这些模型数据训练的时候并没有加入这些数据训练。同样你不可能有任何一个模型能够成为武林盟主。
为什么要做数据飞轮这件事?就如我们发文章、打榜的过程中,做一个不是很恰当的比喻,学生在考试的过程中划了一个考试范围,就是在考试当中考。大家现在的分数都非常高,有时候跟顶尖模型的差都在千分之一的水平。但是到我们实际的应用场景当中,你会发现不同的任务有些好一点的大概会出现5%的掉点,有些情况下会出现10%到20%不同程度的掉点。这是非常现实的问题,给你划了考点,当然会,但实际临床过程中会碰到切片员切的不好,切片有褶皱了,对于医生来说不是个问题,但是对于算法就是一个问题。而且很多是单选题,但实际就是多选题。在不同的AI使用过程当中就会发现不同的掉点,现在在我们科内审核医生需要做的事情就是对于AI计算过的需要针对每个切片进行数据的反馈。
有人问RuiPath有没有对于你们效率提高?对于初检医生肯定有的,对于复核医生来说还在迭代、训练它。现在还在比较辛苦的数据反馈过程中。
现在还有一个RuiPath的AI运营大屏去实时监控每天的工作。一是输出今天科内共产生了多少张切片,二是共扫描输出了多少张切片,三是RuiPath计算了多少张切片,四是有多少医生使用了这个切片并且反馈了切片。每天都有不同专科、不同任务的数据。可喜的发现通过数据飞轮的迭代,所有的下游任务都处在AUC、ACC、ROC持续提升的状态。
现在展示的是我们实际的工作场景,是RuiPath的界面,进入界面之后可以选择我们的患者,临床的一些信息会通过HiS系统,当我们开始诊断之后,RuiPath就直接进入诊断页面,进入之后是整个阅片的途径,这是AI对于整个的整理。下游任务是我们针对所有不同的癌症梳理出来的自己下游任务。RuiPath也可以提供热力的区来帮助医生去快速定位到我们的病变区域在哪里。
现在看到的是乳腺比较罕见的病例,可以看到切片撰写是什么,对于医生来说结果更加可信,描述的镜下所见到底是什么样的。我们以图搜图的情况,在数据库当中搜索相同的数据提供给医生进行学习。同时针对这样的病例,也可以进行知识的问答,我们前期300多本书籍给RuiPath学习,我们可以交流,你的分子检测是什么样,RuiPath可以给我们提供这样的诊断。同时也可以问一些临床的问题。
回到上面所有的诊断任务,这些诊断任务现在在我们科8个癌种、8个亚专科,每个都有自己的诊断任务。亚专科负责人对AI的结果进行反馈,采纳还是不采纳这个结果,如果不采纳你认为诊断是什么。现在反馈都做了格式化,反馈的名称全科室都是统一的,更好地进行数据的积累。真实在我们科应用的工作场景,是我们在公开数据集上的测试,这里不再赘述了。

今年6月30号我们将基础的模型进行开源,开源的同时我们也开源了我们700张7个不同癌种的测试数据集,模型和数据开源之后受到了社会各界的关注。9月份数据下载量就将近1.6万。
对于下一步,因为医疗AI的创新一定是满足现在并没有满足的健康需求。虽然科内有8个癌种,明年计划希望拓展到19个癌种,但是疾病的诊断是非常庞大的任务,希望提高精度,扩张到不同的癌种,真正帮助医生提升效率。二是希望推动多中心的计划;三是希望未来发展多模态的诊断数据。现在临床上诊断有一个叫MDT,特别是肿瘤的患者,特别是疑难病例。所有相关的医生聚集到一起进行多学科的讨论,最后给出患者最佳的治疗方案,这是现在医疗已经进展到这个程度,我们也相信未来AI也就是做到多模态的融合,类似于现在多学科的讨论。
现在还在做一个事情是多中心计划。不瞒各位老师,瑞金的数据虽然肿瘤比较全面的,但是比如说儿科,因为儿外科病人量不多,这方面的数据其实比较少的。眼科等上海有专科的医院,如果有多中心的合作帮助补齐多中心的短板,相信未来模型的能力一定会越来越强。今天也有跟其他老师交流,一个中心的数据相对而言是比较片面的。虽然RuiPath用瑞金自己的数据跟其他模型打榜的时候是有相匹配的水平。但是我们也在做一个探索,用了美国300万张数据训练,拿到瑞金上测的时候,就是出现不同的掉点,不如RuiPath的模型,很好理解,因为没有见过这方面的数据。RuiPath在训练过程中也会遇到这样的问题。所以现在我们推出了一个多中心的计划,在今年的6月份,我们向香港医管局、新加坡国立大学附属医院和中国的很多医院都在进行数据的交流,现在我们的医联体总共有5家医院已经走通了多中心的模式,也就是瑞金先建立一个伦理,我们的其他医院通过伦理的签定,可以合法、合规的把它的数据送到瑞金来,我们来进行Chat预训练。所以我们也是希望未来能够通过持续的开源,来推动我们整个医疗AI的普惠。谢谢各位老师!
嘉宾1:你前面讲的数字化的部分有性能的问题、也有成本的问题,成本这块有压缩,实际上我们现在有场景化的压缩,我们希望这块我们可以在瑞金联合,看能不能把压缩率再提高一下?另外未来我们还会有一些介质的创新,来解决15-30年保存的问题。我觉得未来我们在这块还是可以再一起看看有什么可以联合的地方。
笪倩:非常谢谢你,的确,存储这个问题真的是一个非常大的问题。其实它的背景是现在像我们科自1958年建科以来,所有的这些大块和切片都需要进行物理的存储,不能丢弃。虽然国家提到了20-30年的保存,但是其实基本上我们一直在保存。所以在物理层面上给我们造成了很大的困扰,像瑞金医院场地的问题,我们有很大一部分资料都放到了几十公里外,如果需要去调这个切片,其实非常耗时。有了数字化切片以后,对于我们的医疗教学和科研都有很大的帮助。以前我们是不用想一次性可以调几万张或者几十万张切片出来,现在有了数字化,大家很方便做。在教学方面如果我想调一个罕见疾病十年前的切片简直是难上加难。所以数字化对于我们的感受是非常大。但是就是因为存储的问题,不仅是存储成本能不能降低,我们当时作为医生来说会有一个担心,就是压缩了以后会对浏览、观看上会不会有影响,对AI算法到底会不会有影响。现在在CSP格式上我们也还在做这方面的探索。从目前来看,其实对于我们AI算法应该不太会产生太大的影响。所以我们也是真诚的希望压缩能够帮助我们去解决这样非常大的痛点问题。
周红:请教一下,刚才你提到两个人45分钟的诊断审核,如果用了RuiPath之后,它对效率大概能提升多少?机器审核和人审核的准确度怎么样?
笪倩:回答您的第一个问题,其实对于RuiPath而言,现在初检医生,没有做过非常详细的量化统计,但是他们给我的反馈,我基本看了一眼AI的结果大差不差,一张片子的复核时间可以缩短50%。有一个比较鲜明的例子,还是胃肠道,AI能不能帮助我们。以前我在看一张消化道活检的切片,我的整个流程大概是10分钟,而现在我的初检医生是30秒,因为AI已经写好了结果,它只需要Chick一下结果,30秒钟就可以完成诊断过程。而对于现在我们RuiPath处理的其实是大标本的问题,去做一个形象的比喻,胃肠道活检的标本直径是0.1cm/张切片,所以我基本看一眼就知道它怎么样。而对于大标本如果是乳腺癌的患者,他至少要取15张切片,每张切片的面积是1.5cm乘1.5cm,那相比较你的0.1cm,它的面积其实是大了非常多,所以我要去进行阅读和判断的时间够非常多,我还需要去进行病灶的定位和分析,而现在有了AI的帮助以后,就刚刚给各位老师展现的热力图,它其实是可以快速地帮我定位到这样的区域,然后我们就可以重点去看这样的区域,来进行判断。
所以我们也相信RuiPath在后续不断的训练过程,它一定能够真正帮助到我们。
主持人:我有两个问题,我们RuiPath能不能给一些乡村或者中小医院以云服务的模式扩展到更多的场景?因为这种场景不只是瑞金、并不是医生的服务来挣钱,但这种挣钱的方式是不是医院还适合?对中小医院的支持,因为这个需求量非常大。另外大医院间的合作,我看你列了几个大医院,但有一些比较有名的,比如协和,咱们是开源出去,他们自己也做类似的,还是未来从国家层面做一些更合适的,比如国家实验室,把这个事情如果能做成的话,是一个利国利民的好事。
笪倩:首先回答您的第一个问题,在中小医院,RuiPath自从开源以后有很多机构都开始下载我们的基模型,也不瞒各位老师,整个基模在训练过程中的确投入了很大的人力物力财力,我们积累那么多数据也是花了几年的时间,如果说其他的医院再建一个基模,的确需要花很大精力。所以在今年我们有像国家卫健委和上海卫健委都分别汇报了这个工作,也促使了我们整个的开源,现在像北京的安贞医院,还有深圳一些医院已经将我们的基模下载下来进行任务的训练。但是作为我个人有一个不成熟的观点,我有一个担心是整个数据都是用瑞金自己的数据,因为中国的医疗数据规范非常严格,这种模型是数据不出院的,所以它在瑞金本地进行训练。因为前期我们拿不到其他医院的数据,我们并没有办法去做泛化。所以在后来我们只能够去拿公开数据集来进行测试,但是我们也没有拿公开的数据集进行训练。因为公开的数据集我们也看过,包括大家都知道TCC的数据质量也是参差不齐,我们也担心模型越训越傻。
所以在整个训练过程中,因为它只用了瑞金的数据,所以真的是到其他医院去泛化的时候,我们还是建议还是拿他的数据做一个小的增训,再看一下在他自己的下游任务中来进行结果的测评。这条路已经有医院走通了,据我所知他们利用RuiPath的基模走通的也开始发报告了。
第二是您说到的各大医院的模型各自建立的问题,的确这是一个很现实的问题。有些医院跟我们也有过交流,比方前段时间我们还跟齐鲁医院进行相关工作的汇报,他们其实也非常希望我们能够将模型开源以后来进行数据的共享。据我所知,他的院长也在推动这方面的工作。未来会不会医院之间有一个协作的关系,比方A医院A模型很强,B医院B模型很强,这些医院之间可以相互的联合,来相互验证,来促使这个模型更好更快的训练。但是其实说实话,作为一个病理科医生而言,我非常欣喜的发现,因为我们数字化、智慧化的病理得到了各方重视,所以才出现了现在这种百花齐放的现象,这也是对于行业、整个产业的发展来说是比较可喜的现象。所以我们也非常希望能够多学习这些优秀模型,其实在中国也有其他医院和其他的公司有产出他们的大模型,他们也会有一些很好的Paper的发表。我们其实也在学习,包括现在我们自己的模型也在进行迭代和创新,现在V3出来以后,我们也在基于它来训练我们新版的RuiPath模型,我们在某些测试上比我们的V1版本还要好,我们也期待未来能够有更好的模型贡献给医疗事业。谢谢!
嘉宾2:关于RuiPath,它做病理诊断,这个领域非常Critic,我们的经验,它实际上会有误差的,它说的东西有可能是夸大其词,大模型总有幻觉问题。你们遇到这种问题的话,当然是听医生的。那有没有可能医生是错的?
笪倩:有可能。
嘉宾2:你们在用的过程中有没有发现大模型是对的,你们这帮医生学了那么多年,还真的不如它?
笪倩:就像我今天跟您汇报的,我不敢说RuiPath怎么样,但是我觉得Gemini3非常的强。在日常的工作中,因为现在RuiPath是审核医生来教他,所以审核医生都是科室的亚专科负责人,所以这个方面RuiPath比不过他。但是像初检医生的水平,我觉得有一个癌种,垂体神经内分泌肿瘤,这个肿瘤的诊断非常难,因为它一定要结合临床知识、免疫组化然后患者所有影像学的知识,来进行综合的诊断。而这个病例我们科历史有600例,我们现在通过H1的切片能够做到第一我判断它有无肿瘤,这个应该不难。第二我们可以做到它是哪个图系的。第三他是哪个激素分泌的。这三个我们现在RuiPath的实战准确率都在85%以上。而这样的切片诊断,我不是亚专科的医生,我毫不夸张的说,我觉得我看得没他好,他出来的诊断我一定要通过免疫组化我才能进行判断,但是他就可以通过图像。
但是我们也分析过为什么在亚专科这么好,第一得益于数据的积累,因为我们前面所有这些数据都是有非常好的临床知识输入,这个方向上都是我们亚专科负责人一个个病例Chick过来的,所以在病例上我们有绝对的碾压式优势。但是在一些常见的癌种上,我理解的是现在RuiPath的水平还在亚专科负责人之下,但是在我们刚学习病理的这些医生,它有可能会比他看得好。在拓展到Gemini3,我有时候也会把我自己拿不准的疑难病例输给它,我觉得它整个逻辑思维、它的诊断逻辑、它表达的语言都是有非常强的专业性。我非常看好它可以作为我日常工作和学习的一个工具。所以我不知道Gemini3是怎么训出来这么一个强大的模型,能够在病理这么一个非常小的细分领域上都能做到如此强大的效果,我其实也非常希望未来中国自己的医疗大模型也能够达到这样的效果,因为它真的是帮助我们去减少了很多知识探索和思考过程。我的确是非常看好这个方向。
嘉宾3:在很多年前我去过哈佛医学院,还有Google,他们在很多年前就已经战略合作了。包括哈佛医学院发明了基因机制,有个老师很出名,他们长期合作,据说他们两个加在一起,因为积累的医学领域最多的数据,所以他们很多年前就跟我说数据是最重要的,我相信瑞金医院的数据加起来可能都不会到Google医疗数据和哈佛医学数据加起来的零头。所以我感觉是不是这是一个很大的差别?还有哈佛医学院一个医生说他们给全世界提供了一个治疗方案,就是任何人交30万美金,哈佛的人全系给你分析、进行治疗,其实他们本身就在验数据。你就把所有的先进医疗手段在他身上用,用完了治不好就算了。反正当时刘小乐医生就是这样说的,他是在六七年前。
我们现在整个的架构方案还有点类似于哈佛大学CLAM方案,其实这还是一个比较早期的方案,就是ViT+小模型。但是走到后面,像哈佛是端到端、MoE模型。所以我感觉他们把那个做出来,第一积累得久,第二数据真的多,Google和哈佛大学共享数据,Google收集了很多医院的数据。
笪倩:接着黄老师这个话题,去年我也去了趟哈佛医学院,在2023-2024年发表了这么多篇文章当中,有一半的文章的第一作者或者通讯作者都是中国的学生或者中国的学者去了这些地方。为什么我当时能够去哈佛,就是因为我当时看文章的时候,无论是在第一作者和通讯作者的时候发现这些人的名字怎么这么像中国人的名字,所以我斗胆搜了他们的文章,我找了他们的邮箱,发了一份邮件,我查了一下,我说我是你们的校友,我也是医院的,我们能聊一聊吗。后来就发现的确很多非常优秀的人才都在美国。
第二跟他交流的过程中,的确数据是我们非常大的痛点,我们以前的数据是没有格式化的,这些东西都存在那里,我们并没有非常好的利用。现在中国有些医院积累了大量的数据,但是为什么我们没有把我们历史的实验数据都来进行扫描呢?第一,这个物理切片过了几年以后它的染色就褪色了,褪色以后你说我扫描了以后这个切片会怎么用呢?我的质量其实不高。第二这些数据都没有进行格式化的规整,你要再找这种人工去给它进行规整来进行Path级别简直就是天方夜谭,没有办法进行数据的积累。所以我们数据积累还是2023年我们整个系统改构以后才进行的。
正如您所说,我也觉得我们的数据积累不一定够的。但也带来一个问题,数据一定是越多越好吗?从我们自己的工作当中,也不见得。因为我们之前是无意中做的实验,我们用2.5万张数据训出来的模型的效能也不比我们45万张的数据训出来的效能差很远,所以特别是对于医疗数据来说,一定是越多越好吗?当然V3的文章也提到了他觉得数据的多样性才是最重要的,所以在进行对比的时候,我们2.5万张和45万张的数据配比其实比例是差不多的,但效能其实并没有产生变化。所以我们非常希望能够有高质量的数据未来参与整个模型的训练,有可能才是比较关键的。
嘉宾3:在现阶段图像识别用合成数据可不可行?现在咱们有探索这方面吗?
笪倩:我们现在还没有,但是已经在业内得到很多共识,比如免疫组化,一个患者如果说他要进行免疫组化的检查,它大概要花大几千块进行检查,所以现在通过虚拟和生成数据来做,效果在Paper上还是不错的,但实际应用场景中我现在还没敢尝试。
嘉宾1:我上次到华西学习,他们还有基因共振,比如肺阻塞是有很多共振来判断的。
主持人:非常感谢笪主任。我们从非常现实的行业真实数据,再回到学术理论体系,所以下一个我们有请陈教授跟我们分享《大模型存储:突破算力瓶颈的“隐性引擎”》。
- 点赞
- 收藏
- 关注作者
评论(0)