目录

【讲座笔记】阿斯利康计算机辅助药物设计讲座

利用人工智能加速药物研发——小分子及其他领域 - 总结提纲

前言: 本次在线讲座由BioSolveIT公司主办,邀请了瑞典阿斯利康的Eva Nittinger博士主讲。讲座主题为"利用人工智能加速药物研发——小分子及其他领域"。本文是笔者整理的讲座笔记,供中文研究者参考。

1. 药物发现过程概述

1.1 DMTA循环的核心地位

  • DMTA循环:设计(Design) → 制备(Make) → 测试(Test) → 分析(Analyze)
  • 时间挑战:从化学起始点(hit)到候选药物(CD)需要3年以上
  • 加速目标:如何通过计算方法加速这一过程

/img/AZ/1.png

1.2 计算机辅助药物设计的复杂性

  • 硅内靶点评估:3D结构预测、结合模式、模式选择
  • 化学空间探索:命中识别、化学系列选择、知识产权分析
  • 化合物谱优化:多参数(>100)优化、平衡相互关联和对立因素

2. 蛋白质折叠与结构预测

2.1 AlphaFold的成功应用案例

  • 分子替换模板:X射线晶体学中的应用
  • 功能预测:通过预测数据补充实验数据
  • 结构动力学:探索AlphaFold是否能预测蛋白质动态变化

2.2 结构预测方法的局限性

优势领域:

  • 单一结构解析
  • 强蛋白质-蛋白质相互作用

不适用领域:

  • 动态和结构运动
  • 新型模式(如PROTACs)

2.3 深度学习方法比较

  • 多种方法评估:AlphaFold2、RoseTTAFold、NeuralPlexer等
  • 结合状态预测:开放态(apo)vs闭合态(holo)结构预测
  • 偏差分析:NeuralPlexer和RoseTTAFold在配体信息获取方面的优势

/img/AZ/2.png

3. 化学空间探索与利用

3.1 生成式建模 vs 虚拟筛选

传统虚拟筛选:

  • 在大型数据库中搜索,寻找少量合适的命中化合物
  • 类似"大海捞针"的过程

生成式模型:

  • 以概率方式编码几乎无限的化学空间
  • 更高效的化学空间探索

/img/AZ/3.png

3.2 化合物相似性分析

  • 近邻分析:化合物拥有多少个近邻?
  • 采样策略对比:默认、强化学习、多项式、集束搜索
  • 性能评估:通过REINVENT等方法进行实际应用验证

/img/AZ/4.png

3.3 化学空间的规模和多样性

  • 数据来源:基于26个AZ内部项目的回顾性分析
  • 给药途径:口服给药分析
  • 关键参数:logD、溶解性、清除率的分析

4. 化合物优化与分子设计

4.1 分子构思与化合物优先级排序

  • 挑战:如何过滤和选择?
  • 多种策略
    • X射线模型富集对接得分
    • 分子动力学探索FEP预测亲和力
    • QSAR插值预测活性

4.2 QSAR方法的假设与局限

基本假设:

  • 相似性原理:“结构相似的化合物具有相似的活性”
  • 线性和加性:化学空间中的线性关系
  • 外推前提:从已知数据预测未知数据

主要局限:

  • 非加性问题:R²和RMSE在非加性数据上表现显著较差
  • 数据依赖性:公共数据(5.1%)和内部数据(9.4%)中存在显著的NA值
  • 模型构建重要性:检测非线性对进一步使用至关重要

4.3 深度学习对接 vs 经典方法

  • 方法比较:DeepDock、Uni-Mol、DiffDock、EquiBind、TankBind
  • 验证标准:PoseBuster质量检查、化学有效性、分子内和分子间有效性
  • 结论:DL方法未能超越经典对接方法

/img/AZ/5.png

5. 新型模式:PROTAC技术

5.1 PROTAC工作机制

  • 三元复合物形成:E3连接酶 + PROTAC分子 + 目标蛋白(POI)
  • 降解过程:POI泛素化 → 蛋白酶体降解
  • 优势:针对"不可药化"靶点的新策略

5.2 PROTAC三元复合物预测

研究设置:

  • 数据集:9个PROTAC三元复合物
  • 序列选择:晶体结构(~130氨基酸) vs 全长序列(1647氨基酸)
  • 预测挑战:基于E3和POI预测,无PROTAC分子本身信息

预测结果分析:

  • 全长序列:E3和POI之间无预测接触
  • 晶体序列:正确预测个别蛋白质,但E3和POI相对位置不正确
  • 人工连接:降低结构变异,但相对/旋转定位仍不正确

5.3 结构预测方法的进一步结论

不适用场景:

  • 动态和结构运动
  • 新型模式(如PROTACs)
  • 需要辅助折叠改善预测

改进方向:

  • AF2 → AF3:某些改善但不一致
  • AF3^multimer → AF3^16:多数情况下有改善

6. 降解效率建模

6.1 数据集构建

  • PROTAC-DB数据:包含独特SMILES、独特靶点、共享SMILES的综合数据库
  • 数据处理流程:正则表达式 → 合并 → 标准化细胞系和E3配体 → 应用过滤器和定义

6.2 机器学习模型架构

  • 输入特征:PROTAC SMILES、POI UniProt ID、E3配体ID、细胞系名称
  • 模型组件:Morgan FP生成器、Bio-Emb T5模型、One-hot编码器
  • 超参数优化:使用Optuna进行优化

/img/AZ/6.png

6.3 模型性能评估

  • 数据拆分策略:标准分割、相似性分割、靶点分割
  • 评估指标:验证准确率、测试准确率、ROC AUC
  • 消融研究:确定各架构组件的重要性

7. 未来发展方向

7.1 技术挑战

  • 生成准确的三元结构:仍是开放性挑战
  • 辅助折叠潜力:是否能改善预测效果?
  • PROTACsplitter开发:为PROTAC降解预测提供信息

7.2 实际应用考量

现实问题:

  • 生成模型优势:在新化合物发现方面表现良好
  • 高通量对接限制:结构柔性仍是问题
  • 筛选过程挑战:需要正确识别和预测化合物性质

数据和模型改进:

  • 更好的模型更好的数据是关键
  • 非加性作为预测目标:识别和预测非加性行为
  • 案例依赖性:目前仍然高度依赖具体案例,缺乏标准化解决方案

8. 总结:炒作还是现实?

8.1 技术现状评估

  • 生成模型:在新化合物发现方面确实有效
  • 结构预测:高通量对接和结构柔性仍有问题
  • 实际应用:筛选过程需要正确的化合物性质识别和预测

8.2 关键成功因素

  • 数据质量:更好的数据是基础
  • 模型改进:持续的算法和方法学创新
  • 非加性预测:作为理想的预测和识别事件
  • 标准化需求:目前仍然高度依赖案例,缺乏通用解决方案

核心结论:虽然AI在药物发现领域展现出巨大潜力,但当前技术仍面临显著挑战。成功的关键在于结合更好的数据、改进的模型以及对方法局限性的清晰认识。特别是在PROTAC等新兴治疗模式方面,仍需要大量的技术创新和方法学突破。