找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 390|回复: 0

AI如何重塑病理学?一文解码二十余种AI病理基础大模型:从WSI切片级任务,到视觉问答多模态任务

[复制链接]
发表于 2025-4-9 01:54 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
为什么最近的文章开头总带点"前情回顾"?我们认为单篇只是知识点碎片,串起来才能成为体系。因此希望用"连续剧思维"输出好内容,把文章做成一部"追更"式知识连续剧,让新老读者们每次阅读都能收获新知识。
好了,废话不多说!我们今天来聊聊AI病理大模型,通过一篇最新的综述来系统的梳理病理基础模型的技术演进与未来突破方向。在展开前,建议先了解之前整理的一篇大模型工作,病理大模型四重奏,哈佛医学院全部开源!适用30+癌症类型!另外如果你对大模型的落地及市场感兴趣,可以看下华为瑞金病理大模型正式发布:是“国产之光”还是“自嗨型PPT创新”这篇文章的内容。

w1.jpg

来自港中文的这篇综述文章提供了计算病理学中病理基础模型(PFMs)的全面分析,从模型范畴、预训练方法和设计架构三大维度进行自上而下的梳理,又从评估任务划分为切片级、区块级、多模态和生物学任务。我们准备整理一个关于病理基础模型(PFMs)及病理视觉-语言模型(LVLMs)的仓库,地址如下:
https://github.com/315386775/Awesome-WSI-LVLMs
w2.jpg
一、AI病理基础模型全面分析

计算病理学对全切片图像(WSIs)的计算分析日益重要。针对千兆像素级WSIs,多示例学习(MIL)已成为标准框架,而MIL性能取决于两个核心组件:预训练特征提取器和特征聚合器。

w3.jpg

传统深度学习方法只能采用ImageNet预训练的ResNet-50作为提取器,但难以处理病理图像特有的微小色差、旋转无关性、组织层级结构等特征。病理基础模型,如HIPT和UNI通过在大量病理数据上预训练获得跨任务泛化能力,标志着MIL范式的革新。

w4.jpg
如上图所示,从模型范畴、预训练方法和设计架构对 PFM 进行系统比较。1. 模型范畴部分:特征提取器 (E.)、特征聚合器(A.)将病理基础模型分为提取器中心型、聚合器中心型和混合中心型三类,提取器中心型是当前PFM开发的主流范式,代表工作有UNI、MUSK等,其优势源于两个核心因素:高质量特征的重要性,以及解决ImageNet预训练CNN带来的领域偏移需求。另外有一些面向聚合器中心型,代表的工作有CHIEF、TITAN等;2. 预训练方法:输入H&E染色 (H)、文本 (T)、未指定染色 (W)、IHC染色 (I)、基因组学 (G)、DNA (D) 和 RNA (R)、扫描倍率(Mag)预训练方法 SSL 可分为两大类:纯视觉方法和多模态方法。纯视觉方法采用三种 SSL 技术:对比学习 (SimCLR、MoCov3)、蒙版图像建模 (MIM、MAE) 和自蒸馏 (iBOT、DINO、DINOv2)。相比之下,多模态方法通常采用多阶段预训练,利用对比学习方法 (CLIP、CoCa) 进行有效的跨模态对齐,在此之前,单模态编码器需要单独进行预训练。从上述中可以看到基本采用224的分辨率在DINOv2上进行预训练。
3. 设计架构:
参考了三个对模型性能至关重要的方面:架构、参数数量、规模。模型的规模直接由其参数数量决定。通过量化参数数量,建立了一个分层的规模系统,促进标准化的跨架构比较,并为实际实现提供明智的模型选择。

w5.jpg
二、AI病理基础模型评估任务

开发与评估构成PFM的两大支柱,系统化评估分为四类:

w6.jpg

    切片级任务:包括WSI分类(Cls.)、生存预测(Surv.)、检索(Retri.)和分割(Seg.)是计算病理学核心;

    区块级任务:评估特征提取器效能的独立任务,含区块分类(Cls.)、区块间检索(P2P)和分割(Seg.);

    多模态任务:评估跨模态能力,包括图文互检索(I2T/T2I)、报告生成(RG)和视觉问答(VQA),反映病理决策的多模态整合需求;

    生物学任务:聚焦生物标志物检测,含基因变异(GA)和分子预测(MP),其临床价值使其成为独立评估维度;
三、AI病理基础模型的未来方向根据上述模型的信息,我们可以发现现有基础模型多直接套用自然图像技术,仍需开发专属算法处理病理图像特性;

其次是端到端预训练的缺陷:当前两阶段范式(先提取器后冻结聚合器)导致优化困难,亟需能整合千兆像素图像全局/局部信息的高效架构;

然后就是老生常谈的模型鲁棒性:需克服多机构数据在扫描设备、染色协议等技术差异导致的训练不稳定;

最后是采用RAG技术增强病理视觉语言模型:结合LLMs与ViT架构,超越现有方法的局限!
随着大模型技术的发展,AI病理大模型的真正落地是否已经到来了呢?你又知道哪些国内靠谱的病理AI大模型的工作呢?欢迎留言区讨论!这篇综述论文及代码链接:
Code:https://github.com/315386775/Awesome-WSI-LVLMs
Paper:https://www.arxiv.org/pdf/2504.04045





视觉大模型 · 文章推荐

视觉大模型、代码教程及案例年度精选:2024年度回顾与索引指南
病理大模型四重奏,从UNI、CHIEF到TITAN,适用30+癌症类型
Meta以人为中心的视觉基础模型:姿势估计、深度估计等任务
将 SAM2 与 LLaVA 结合,在视频支持对话、指称分割及理解的统一模型
多模态大模型 · 文章推荐

OmniVision-968M:最紧凑、最小的边缘 AI 多模态视觉语言模型
三行代码搞定AI智能体!Smolagents:支持工具调用、代码执行
IBM开源一站式文档解析工具!轻松解析PDF、PPT、图片及网页
为什么它是从PDF中解析数据的最佳工具?构建LLM 大模型数据基础
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-16 16:50 , Processed in 0.122384 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表