找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 131|回复: 0

AI 驱动药物发现:全面综述

[复制链接]
发表于 2025-12-6 02:35 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg



本文针对传统药物发现 “高成本(超 20 亿美元)、长周期(超 10 年)、低成功率(临床获批率仅 10%)” 的核心痛点,系统综述了 2019-2024 年 AI/ML 在药物发现全流程的应用进展,聚焦靶点识别、化合物发现优化、ADMET / 临床开发三大核心环节,深度对比 GNN、Transformer 等主流模型的优势与局限,强调数据质量、可解释性与伦理监管的关键作用,通过规范的文献筛选与质量评估(含图表支撑),为 AI 在制药领域的负责任应用提供全景指引。
一、引言:研究背景与综述设计

1. 传统药物发现痛点

    高通量筛选(HTS)命中率仅 2.5%,资源浪费严重;临床 attrition 率高,主要源于安全性不足和疗效不佳;依赖 sequential 流程,多学科数据整合困难,难以突破传统化合物中心设计局限。
2. 综述核心目标与范围

    目标:总结 AI/ML 应用现状、评估方法优劣、识别研究缺口、探讨伦理与监管趋势;范围:聚焦小分子药物发现,涵盖靶点识别、先导化合物优化、临床前安全评估,纳入 2019-2024 年英文 peer-reviewed 文献;特色:跨全流程方法学对比,强调数据质量、模型验证与临床可转化性,辅以图表支撑研究设计与核心发现。
3. 关键图表标注:

w2.jpg
    核心作用基于 PICO 框架(P - 药物发现,I-AI/ML,O - 应用结果)分类关键词,确保文献检索的全面性与精准性;图表内容
    类别关键词 / 短语
    核心 AI/ML 术语“artificial intelligence”“machine learning”“deep learning”“graph neural networks”
    药物发现环节“target identification”“lead optimization”“virtual screening”“ADME”“clinical trials design”
    靶点与数据集术语“genomics”“proteomics”“disease targets”“biomarkers”“ligand binding”
    相关方法学“convolutional neural networks”“transformer neural networks”“generative AI”
    意义明确检索边界,确保纳入研究覆盖 AI 技术、药物发现全流程及关键评估维度(如偏倚、可解释性)。
二、方法学:综述的严谨性保障

1. 文献检索策略

    数据库:PubMed、Scopus、Web of Science、Google Scholar;时间范围:2019 年 1 月 1 日 - 2024 年 12 月 24 日,聚焦最新进展;筛选标准:纳入小分子药物发现的 AI/ML 方法论研究,排除无实证数据、纯自动化或非英文文献,顶级预印本(如 arXiv)可个案纳入。
2. 关键图表:

w3.jpg
    核心作用可视化研究筛选的四步流程,体现综述的规范性与透明度;图表内容
      识别阶段:从四大数据库检索相关文献;筛选阶段:基于标题 / 摘要,结合 Table 1 关键词与纳入 / 排除标准初筛;合格性评估:阅读全文,验证方法论细节与数据完整性;纳入分析:最终筛选出符合要求的研究进行数据合成与讨论;
    意义通过标准化流程减少筛选偏倚,确保纳入研究的科学性与代表性。
3. 质量评估标准

    聚焦三大核心:方法可转化性、参数透明度(数据集 / 代码可及)、偏倚与局限的明确讨论,而非依赖标准化清单,适配 AI/ML 领域的快速演进特性。
三、理论框架:AI 在药物发现的基础与演进

1. 历史演变

    1960s-1990s:早期计算方法(QSAR、分子对接)、传统 ML(随机森林、SVM)初步应用;2000s:深度学习崛起,处理高维多参数数据;2019-2024:GNN 与 Transformer 主导,生成式 AI、元学习突破,从 “预测” 走向 “创造” 与 “低数据适配”。
2. 核心 AI/ML 范式对比

w4.jpg
(1)关键图表:Figure 2(GNN 在分子建模的应用示意图)

    核心作用直观展示 GNN 的工作原理与应用场景,解释其在分子建模中的独特优势;图表核心要素
      应用领域:分子建模;GNN 核心能力:直接从分子图结构学习、捕捉原子与化学键的复杂关系;关键组件:GravNet Block(图神经网络中的核心架构模块);分子图表示:将分子抽象为 “原子 - 化学键” 构成的图结构;
    意义阐明 GNN 为何能精准捕捉分子构象与蛋白 - 配体相互作用,为后续其在靶点预测、分子对接中的应用奠定理论基础。
(2)关键图表:Table 2(AI 模型架构与性能对比表)

w5.jpg
    核心作用系统对比主流 AI 模型的核心参数、应用场景与性能,为药物发现中的模型选择提供参考;图表核心内容
    模型类型代表架构 / 工具典型参数设置核心应用场景性能指标(示例)代表数据集
    图神经网络(GNN)GCN、GAT、RWGNN、DiffDock层数(多层)、注意力头(8-12 个)、嵌入维度(768)靶点预测、结合亲和力计算、分子对接AUC=0.957(RWGNN)、RMSE=1.237(MSGNN-DTA)DOCKSTRING、BindingDB
    Transformer 架构Mol-BERT、ChemBERTa、LEP-AD层数(12 层)、注意力头(8-12 个)、预训练数据(400 万分子 SMILES)分子性质预测、毒性评估、药物重定位AUC=0.973(ChemBERTa)、ROC-AUC 提升 2-4%QMugs、ChEMBL、ZINC
    元学习(Meta-Learning)Meta-GAT、EADTN双层优化、预训练任务(分子性质预测)低数据场景 DTI 预测、罕见病药物研发ROC-AUC>0.85(Meta-GAT)LIT-PCBA(无偏基准)
    意义明确不同模型的适用场景 ——GNN 擅长捕捉拓扑关系,Transformer 适配长程依赖,元学习解决低数据问题,为药物发现各环节的模型选型提供量化依据。
3. 伦理与监管考量

    核心风险:数据偏倚(人群代表性不足)、模型 “黑箱”、数字鸿沟(资源集中于大企业);监管趋势:FDA、EMA 正制定 AI 模型验证指南,要求数据透明、偏倚控制、临床可追溯。
四、核心发现:AI 在药物发现全流程的应用深度解析

1. 靶点识别

(1)核心方法与案例

    NLP 技术:Mol-BERT(12 层架构,768 维嵌入)预训练于 400 万分子,挖掘文献 / 数据库中的分子 - 靶点关联,辅助靶点优先级排序;局限是上下文理解不足,难以处理非标准化文本;多组学数据分析:整合基因组、转录组高维数据,无监督学习识别疾病 biomarkers;挑战是数据来源异质性强,缺乏标准化预处理流程;分子相似性与网络药理学:RWGNN(随机游走引导 GNN)预测远距离 DTI(≥3 hops),AUC 达 0.957,超标准 GCN;依赖已知化学空间,难以发现新颖靶点配体。
(2)模型评估标准

    性能指标:AUC、F1 分数、k 折交叉验证稳定性;关键要求:数据可翻译性(跨数据集泛化)、靶点验证的实验支撑。
2. 苗头 / 先导化合物发现与优化

(1)核心应用与技术突破

    AI 增强 HTS:整合多保真度数据(初级筛选低质量大数据 + 验证实验高质量小数据),Transfer Learning 提升化合物排序效率;依托 MF-PCBA 数据集(Table 2 提及)标准化实验数据,命中率提升至 15%-20%(传统仅 2.5%);虚拟筛选与从头设计:MSGNN-DTA(Table 2 提及)融合多尺度图特征,KIBA 基准 RMSE=1.237;DiffDock 将分子对接转化为生成任务,捕捉多结合模式,突破传统单构象局限;药物重定位:LLM 框架 DrugReAlign 结合多源提示,缓解 “幻觉” 问题;元学习 Meta-GAT 适配低数据疾病,研发周期缩短 60% 以上。
(2)优势与局限

    优势:拓展化学空间覆盖、同步优化 potency 与成药性;局限:过度依赖已知结构基序、体外 - 体内相关性不足。
3. ADMET / 毒理学与临床开发

(1)预测毒理学与药代动力学

    Transformer 模型:ChemBERTa/ProtBert(Table 2 提及)预测毒性终点,ROC-AUC 较指纹法提升 2-4%;ProtBert 预测 CYP450 代谢稳定性,避免脱靶效应;GNN 增强 PBPK 模型: explicit 建模血 - 组织屏障相互作用,模拟误差降低 30%(vs 传统 QSAR)。
(2)临床试验优化

    患者分层:Trial Pathfinder 分析 EHR 数据,肿瘤临床试验样本量减少 25-40%,入组速度提升 35%;剂量优化:GNN 预测药物半衰期,设计个体化给药方案(Table 2 提及 GNN 的剂量优化应用),需进一步临床验证。
4. 挑战、局限与争议

(1)数据层面:持久瓶颈

    核心问题:高质量标注数据稀缺,公共数据集存在实验偏倚;解决方案:新型基准数据集(Table 2 提及)——LIT-PCBA(无偏虚拟筛选)、DOCKSTRING(标准化分子对接)、QMugs(量子化学性质)。
(2)模型层面:黑箱与偏倚

    黑箱问题:复杂 DL 模型决策逻辑不可追溯,影响药用化学家信任;可解释性差。改进方向:JDASAMRD 模型(深度自编码器 + 子图增强)提升 GNN 可解释性,捕捉多跳邻域信息。
(3)落地层面:整合与监管障碍

    流程整合:AI 工具与现有 R&D 系统兼容困难,需基础设施升级;监管验收:FDA/EMA 的 AI 指南尚未定型,标准化验证指标缺失;人才缺口:跨药学与 AI 的复合型人才稀缺。
5. AI 方法横向对比

    复杂任务(DTI 预测、分子对接):GNN/Transformer 表现更优(如 RWGNN AUC=0.957);简单任务(早期溶解度预测):传统 ML(随机森林、SVM)性能相当,且可解释性更强(Aleksic 等人研究支持);核心启示:方法选择需匹配任务复杂度、数据量与可解释性需求,而非盲目追求 “最先进” 模型。
五、结论:关键要点、现存差距与未来方向

1. 关键要点总结

    变革潜力:AI 在全流程实现 “降本增效”,但核心挑战是数据偏倚、黑箱问题与临床转化;方法多样性:从传统 ML 到 GNN/Transformer,需根据场景灵活选择,无 “万能模型”;伦理与监管是落地关键:透明化、偏倚控制、公平性需贯穿 AI 应用全生命周期。
2. 现存差距

    数据:curated 数据可及性不足、人群代表性差、多模态数据整合缺失;模型:可解释性不足、体外 - 体内转化能力弱、低数据场景适配性有限;落地:与现有流程整合困难、监管标准不明确、跨学科人才缺口大。
3. 未来研究方向

    数据标准化:推广 LIT-PCBA、MF-PCBA 等开源数据集(Table 2 提及),建立多语言支持的共享平台;技术创新:XAI(可解释 AI)、生成式对接(DiffDock)、多模态数据整合(生物测定 + 临床终点);临床转化:强化体内验证,纳入患者特异性参数, democratize 数据与算力 access。
4. Closing Statement

AI 已成为制药创新的核心驱动力,但需通过 “数据透明化、模型可解释、监管适配、伦理公平” 四大支柱,才能从实验室走向临床,最终实现更安全、有效、可及的药物研发,惠及全球多样化人群。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-9 22:21 , Processed in 0.096374 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表