说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210699090.2 (22)申请日 2022.06.20 (71)申请人 中国科学院计算机网络信息中心 地址 100083 北京市海淀区东升南路2号院 (72)发明人 辛之夼 王怡宁 李非 王彦棡 王珏 刘芳 (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 专利代理师 陈霁 (51)Int.Cl. G06N 5/04(2006.01) G16B 15/20(2019.01) G06F 16/2455(2019.01) (54)发明名称 一种基于分布式技术的蛋白质结构推理方 法 (57)摘要 本发明涉及一种基于分布式技术的蛋白质 结构推理方法, 方法包括: 获取蛋白质结构推理 所需要的数据集; 在AlphaFold2的Data Pipeline模 块中, 使用分布式计算流对所述数据 集进行并行搜索, 得到多序列比对MSA表征和模 板表征; 在AlphaFold2的Evoformer模块和 Structure Module模块中, 以所述MSA表征和模 板表征作为输入, 使用并行计算对至少两组不同 配置的模型并行迭代学习, 生成蛋白质三维结 构, 在最终生成的模型中选择置信度最高的模型 作为输出模型; 使用Amber relaxation对所述蛋 白质三维结构进行弛豫操作, 得到最终稳定的蛋 白质三维结构, 其中, 使用GP U版本的openMM对所 述Amber relaxati on进行计算。 权利要求书1页 说明书3页 附图2页 CN 115034393 A 2022.09.09 CN 115034393 A 1.一种基于分布式技 术的蛋白质结构推理方法, 其特 征在于, 所述方法包括: 获取蛋白质结构推理所需要的数据集; 在AlphaFold2的Data Pipeline模块中, 使用分布式计算流对所述数据集进行并行搜 索, 得到多序列比对MSA 表征和模板表征; 在AlphaFold2的Evoformer模块和Structure Module模块中, 以所述MSA表征和模板表 征作为输入, 使用并行计算对至少 两组不同配置的模型并行迭代学习, 生成蛋白质三维结 构, 在最终生成的模型中选择置信度最高的模型作为输出模型; 使用Amber relaxation对所述蛋白质三维结构进行弛豫操作, 得到最终稳定的蛋白质 三维结构, 其中, 使用GPU版本的openM M对所述Amber relaxati on进行计算。 2.根据权利要求1所述的方法, 其特征在于, 所述使用分布式计算流对输入的蛋白质结 构数据进行并行搜索的方法, 还 包括: 使用三个进程进行并行搜索, 其中, 第一进程使用H HBlits软件对BFD及Un iclust30数据集进行搜索, 得到第一搜索结果; 第二进程使用JackH MMER软件对MGnify数据集进行比对搜索, 得到第二搜索结果; 第三进程首先使用JackHMMER软件对UniRef90数据集进行MSA检索, 得到第三搜索结 果, 然后使用HHSearch软件对 所述第三搜索结果基于PDB70数据库进行模版匹配, 得到模板 表征; 将所述第一搜索结果、 第二搜索结果和第三搜索结果进行组合, 得到 MSA表征。 3.根据权利要求1所述的方法, 其特征在于, 所述并行搜索与所述并行计算, 均使用分 布式框架Ray进行 管理。 4.根据权利要求1所述的方法, 其特 征在于, 所述 不同配置的模型的数量 为五组。权 利 要 求 书 1/1 页 2 CN 115034393 A 2一种基于分布式技术的蛋白质结构推 理方法 技术领域 [0001]本发明涉及人工智能领域, 尤其涉及一种基于分布式技术的蛋白质结构推理方 法。 背景技术 [0002]2020年, DeepMind在A lphaFold基础上再出新版本AlphaFold2, 并在当年CASP14比 赛中取得了平均GDT分数为91.1、 中位数GDT92.4的蛋白质结构预测成绩, 这意味着 AlphaFold2可将预测均方根误差降低到大约1.6A, 相当于一个原子宽度误差, 实现了原子 级精度的蛋白质结构预测。 [0003]AlphaFold2采用一个基于注意力的神经网络系统处理氨基酸序列内部关系和外 部关系, 并用端到端的方式进 行训练, 以理解图结构, 同时基于其构建的隐式图的方式来执 行推理。 [0004]AlphaFold2整个算法包含DataPipeline, Evoformer以及Structure module三个 部分。 AlphaFold2在 进行蛋白质结构推理 时, 模型输入氨基酸序列, 输出三维结构坐标实现 端到端结构预测。 [0005]其中, Data pipeline是整个推理流程的第一个模块, 主要负责对输入氨基酸序列 进行同源序列搜索(Genetic search)以及模版搜索(Template search), 生成输入序列的 多序列比对表征(MSA representation)以及模版表征(Template represention)。 上述两 种搜索操作皆通过借助第三方序列搜索软件完成。 Genetic search使用JackHMMER对 MGnify和U niRef90数据库进行搜索, 此外还通过HHblits对BFD、 U niclust30 数据库搜索, 得 到输入序列的同源序列, 构造MSA representation。 Template search使用HHsearch对 genetic search得到的Uniref90 MSA在PDB70结构数据库 上进行搜索, 得到对应的结构模 版, 即Template representati on。 [0006]模型第二部分Evoformer由48个神经网络块(block)组成, 是一个类似 Transformer的变体结构, 它创新性的引入了轴向注 意力机制、 三角更新法则以及三角注 意 力机制来学习Data pipeline生成的表征信息并不断更新表征矩阵。 [0007]模型最后一部分Structure module借助了不动点注意力机制, 通过对Evoformer 生成的对表征信息的关系学习, 不断更新序列表征信息(Single repr.), 将更新过的序列 表征映射到主链上, 通过欧几里得变换更新坐标信息, 再通过计算主链以及侧链扭转角 信 息, 最终更新得到预测的全原子坐标, 得到初步的三维结构。 在Structure module之后, 模 型加入了Amber relaxation机制, 使用openMM软件施加力场对生成蛋白质结构进行弛豫操 作, 去除结构上的违规部分以及碎片支 链, 得到最终稳定的蛋白质三维结构。 [0008]然而, Alp haFold2的多个模块在运行过程中, 普遍存在 速度较慢的问题, 影响总体 的蛋白质结构预测效率。说 明 书 1/3 页 3 CN 115034393 A 3
专利 一种基于分布式技术的蛋白质结构推理方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 00:09:41
上传分享
举报
下载
原文档
(469.4 KB)
分享
友情链接
GB-T 37606-2019 钛-钢复合管.pdf
GB-T 40909-2021 纺织品 甲基环硅氧烷残留量的测定.pdf
GB-T 40311-2021 钒渣 多元素的测定 波长色散X射线荧光光谱法 熔铸玻璃片法.pdf
T-GZBZ 33—2022 事故多发道路判别与改善技术指南.pdf
T-CFA 030501—2020 铸造企业生产能力核算方法.pdf
DB37-T 3234-2018 动物源食品中泰万菌素残留量的测定 液相色谱—串联质谱法 山东省.pdf
专利 数据资产风险发现方法和装置.PDF
DB52-T 1542.3-2021 政务服务平台 第3部分:运维管理规范 贵州省.pdf
GB-T 3765-2008 卡套式管接头技术条件.pdf
GB-T 28455-2012 信息安全技术 引入可信第三方的实体鉴别及接入架构规范.pdf
GB-T 33565-2017 信息安全技术 无线局域网接入系统安全技术要求(评估保障级2级增强).pdf
T-RZCX 006—2022 日照绿茶加工技术规程.pdf
GB-T 26507-2019 石油天然气钻采设备 地面油气混输泵.pdf
GB-T 36716-2018 节能评估技术导则 燃煤发电项目.pdf
GB-T 37697-2019 露天煤矿边坡变形监测技术规范.pdf
GB-T 40206-2021 精密外转子轴流风机通用规范.pdf
第三方人员安全管理制度.pdf
GB-T 1683-2018 硫化橡胶 恒定形变压缩永久变形的测定方法.pdf
T-CEC 680—2022 电化学储能电站技术监督导则.pdf
GB-T 26758-2011 铅、锌冶炼企业节能规范.pdf
1
/
3
7
评价文档
赞助2.5元 点击下载(469.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。