(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202110922906.9 (22)申请日 2021.08.12 (71)申请人 清华大学 地址 100084 北京市海淀区清华园1号 (72)发明人 张强锋 徐魁 徐静乐  (74)专利代理 机构 北京知联天下知识产权代理 事务所(普通 合伙) 11594 代理人 张迎新 史光伟 (51)Int.Cl. G16B 5/00(2019.01) G16B 30/00(2019.01) G06T 3/40(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06F 30/27(2020.01) G06F 111/04(2020.01) (54)发明名称 一种基于深度学习的冷冻电镜原子模型结 构搭建方法及系统和应用 (57)摘要 本发明公开了一种基于深度学习的冷冻电 镜原子模型结构搭建方法及系统和应用, 所述方 法包括步骤一: 获取冷冻电镜密度图数据集, 进 行模型训练和模型测试; 步骤二: 输入冷冻电镜 密度图及其相应的氨基酸序列; 步骤三: 对所述 冷冻电镜密度图及其相应的和氨基酸序列进行 特征编码和提取, 搭建出原子结构模型。 本发明 提供的测量方法能使得生成的氨基酸原子模型 具有结构生物学特征, 保证了预测的氨 基酸原子 模型结构生物学合理性, 并最终实现了端到端全 可微分的氨基酸内部原子结构的准确预测, 具有 一定的优越性, 并在多个试验预测的原子模型效 果上得到了验证。 另外, 在中低分辨率中的模型 搭建中的提升效果 也十分明显 。 权利要求书2页 说明书16页 附图9页 CN 113990384 A 2022.01.28 CN 113990384 A 1.一种基于深度学习的冷冻电镜原子模型 结构搭建方法, 其特 征在于, 包括: 步骤一: 获取冷冻电镜密度图数据集, 进行(1)模型训练和(2)模型测试; 步骤二: 输入冷冻电镜密度图及其相应的氨基酸序列; 步骤三: 对所述冷冻电镜密度图冷冻电镜密度图及其相应的和氨基酸序列进行特征编 码和提取, 搭建出原子结构模型。 2.根据权利要求1所述的测量方法, 其特 征在于, 所述(1)模型训练包括: 步骤111): 选取冷冻电镜密度图及其对应的原子模型作为训练样本; 步骤112): 对所述冷冻电镜密度图进行 预处理; 步骤113): 提取对所述预处 理得到的冷冻电镜密度图数据集的区域特 征; 步骤114): 对密度图的每 个位置的像素进行三维空间位置编码; 步骤115): 与步骤113)同步编码和提取冷冻电镜密度图及其相应的氨基酸的序列特 征, 结合步骤113)输出的区域特征和步骤114)输出的三维空间位置编码, 一起输入 Transformer进行训练, 得到氨基酸主链的氨基酸分类、 二级结构分类和全原子坐标回归模 型。 3.根据权利要求2所述的测量方法, 其特 征在于, 所述(1)模型训练还 包括: 步骤116): 对得到氨基酸主链的氨基酸分类、 二级结构分类和全原子坐标回归模型进 行前向运动学模 型训练, 得到满足氨基酸侧链的键角的保守性、 L型氨基酸、 侧链四面体、 侧 链上的共面 性质回归 模型。 4.根据权利要求3所述的测量方法, 其特征在于, 预处理步骤112)包括以下方法中的任 意一种或至少两种的组合: (1121)对氨基酸序列的主链和 侧链原子坐标、 键 长、 键角、 二级结构进行 标注; (1122)提取基于多序列比对的进化信息谱特 征; (1123)切分冷冻电镜密度图; (1124)对体素不同的冷冻电镜密度图进行插值放缩, 生成体素大小 统一的冷冻电镜密 度图。 5.根据权利要求4所述的测量方法, 其特征在于, 预处理步骤112)还包括步骤1125): 对 冷冻电镜密度图数据集进行扩增; 其中, 所述扩增可以是以下 方法中的任意 一种或至少两种的组合: (501)通过低通滤波处 理密度图中分辨 率为 的数据; (502)通过模拟的方式模拟产生分辨 率为 的密度图的模拟图; (503)在模型训练, 在数据加载器中对分辨率为 的密度图进行x、 y、 z三个轴分 别旋转90 °的数据扩增。 6.根据权利 要求5所述的测量方法, 其特征在于, 步骤113)中通过3DResNet训练并提取 预处理得到的冷冻电镜密度图数据集的区域特 征。 7.根据权利要求6所述的测量方法, 其特征在于, 当步骤一中冷冻电镜密度图的分辨率 为 时, 移除步骤1 16)中评价侧链的准确性的损失函数, 加权基酸分类损失函数。 8.根据权利 要求1‑7任一所述的测量方法, 其特征在于, 所述(2)模型测试包括: 输入测 试氨基酸序列; 读取训练好的氨基酸主链的氨基酸类别、 二级 结构类别和全原子坐标参数;权 利 要 求 书 1/2 页 2 CN 113990384 A 2输入一个密度图及其所包含的氨基酸序列做前向传播, 得到输入氨基酸主链的氨基酸分 类、 二级结构分类和全原子坐标 数据。 9.根据权利要求1 ‑8任一所述的测量方法, 其特征在于, 步骤三对所输入的冷冻电镜密 度图及其相应的氨基酸序列特征编 码包括氨基酸序列类型编码、 序列位置编码和基于序列 比对的位置特异度打分矩阵, 以及 对冷冻电镜密度图及其相应的氨基酸的内部原子结构信 息进行提取; 其中, 对冷冻电镜密度图及其相应的氨基酸的内部原子结构信息进行提取包括, 提取 氨基酸主链的氨基酸分类、 二级结构分类和全原子坐标。 10.根据权利要求1 ‑9任一所述的测量方法, 其特征在于, 在步骤三之后还包括: 步骤 四: 后处理和微调; 其中, 后处 理包括: (1001)提取步骤三生成的氨基酸主链的二级结构 分类片段, 并提取二级结构 分类片段 的氨基酸序列; (1002)将所有的氨基酸主链的二级结构分类片段与输入的冷冻电镜密度图相应的氨 基酸序列进行比对, 并将所有的片段映射到序列中的对应位置; (1003)按照所述对应位置, 根据二级结构分类片段的空间位置以及匹配相似度选取打 分优秀的片段, 并与全局氨基酸主链进行合并和串联, 合并之后形成更长的片段; (1004)将对于(1003)中与冷冻电镜密度图及其相应的氨基酸序列匹配的片段中20类 氨基酸错误的氨基酸类别进行修 正; (1005)迭代进行(1002)、 (1003)、 (1004)三个步骤, 直到全局氨基酸主链的路径打分无 变化为止。 11.权利要求1 ‑10任一所述的测量方法的应用, 其特征在于, 所述应用包括用于构建一 种基于深度学习的冷冻电镜原子模型 结构搭建系统。 12.一种基于深度学习的冷冻电镜原子模型 结构搭建系统, 其特 征在于, 包括: (一)冷冻电镜密度图回归数据库获取模块: 用于获取冷冻电镜密度图数据集; (二)冷冻电镜密度图及其相应的氨基酸序列获取模块: 用于接收冷冻电镜密度图及其 相应的氨基酸序列; (三)氨基酸内部原子结构计算模块: 用于搭建出原子结构模型。权 利 要 求 书 2/2 页 3 CN 113990384 A 3

.PDF文档 专利 一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用 第 1 页 专利 一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用 第 2 页 专利 一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:54:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。