(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210330089.2
(22)申请日 2022.03.31
(71)申请人 同济大学
地址 200092 上海市杨 浦区四平路1239号
申请人 复旦大学
(72)发明人 关佶红 潘玉亮 吕刘正浩
李文根 张毅超 周水庚
(74)专利代理 机构 上海德昭知识产权代理有限
公司 31204
专利代理师 陈龙梅
(51)Int.Cl.
G06F 16/36(2019.01)
G06K 9/62(2022.01)
G16B 40/00(2019.01)
(54)发明名称
一种高效构建人类蛋白质复合物图谱的方
法与系统
(57)摘要
本发明提供了一种高效构建人类蛋白质复
合物图谱的方法与系统, 包括: 对初始人类蛋白
质相互作用网络进行加边, 得到重构后人类蛋白
质相互作用网络: 计算重构后人类蛋白质相互作
用网络中各个边的特征属性; 根据边的特征属性
以及重构后人类蛋白质相互作用网络, 通过预先
训练好的边 分类模型预测得到边类别; 基于边类
别以及重构后人类蛋白质相互作用网络, 利用预
设的图分割算法识别得到人类蛋白质复合物; 对
人类蛋白质复合物进行滤除, 从而得到过滤后人
类蛋白质复合物作为最终人类蛋白质复合物, 并
基于最终人类蛋白质复合物构建人类蛋白质复
合物图谱。 本发明能够提升复合物识别的精度,
以及人类蛋白质复合物图谱的构建效率。
权利要求书4页 说明书9页 附图2页
CN 114741528 A
2022.07.12
CN 114741528 A
1.一种高效构建人类蛋白质复合物图谱的方法, 其特 征在于, 包括如下步骤:
步骤S1: 对初始人类蛋白质相互作用网络进行加边, 得到重构后人类蛋白质相互作用
网络;
步骤S2: 计算所述重构后人类 蛋白质相互作用网络中各个边的特征属性, 其中, 所述边
的特征属性包括亚细胞定位特征、 蛋白质链长度特征、 基于PSSM的特征、 蛋白质 ‑域相互作
用特征以及GO语义相似性特 征;
步骤S3: 根据所述边的特征属性以及所述重构后人类蛋白质相互作用网络, 通过预先
训练好的边分类模型预测得到边类别, 其中, 所述预先训练好的边分类模型基于深度学习
的分类算法得到;
步骤S4: 基于所述边类别以及所述重构后人类蛋白质相互作用网络, 利用预设的图分
割算法识别得到人类蛋白质复合物;
步骤S5: 对所述人类蛋白质复合物进行滤除, 从而得到过滤后人类蛋白质复合物作为
最终人类蛋白质复合物, 并基于所述 最终人类蛋白质复合物构建人类蛋白质复合物图谱。
2.根据权利要求1所述的高效构建人类蛋白质复合物图谱的方法, 其特 征在于:
其中, 所述 步骤S1包括如下子步骤:
步骤S1‑1, 通过权重矩阵模型生成所述初始人类蛋白质相互作用网络 中的各个待分析
边, 所有待分析边构成待分析边集合E={E1,E1,…,En}; 所述权重矩阵模 型为每个所述待分
析边配置一个P值:
式中, N为所有待分析边的数量, n与m分别为存在于蛋白质A上边的数量与存在于蛋白
质B上边的数量, k为存在于蛋白质A和蛋白质B之间的边的数量, i的取值范围是[k, min(n,
m)]; 并按照数值大小对所有P值进行从小到大的排序, 从而得到P值 集合;
步骤S1‑2, 根据所述P值集合确定截断阈值, 将小于所述截断阈值的P值所对应的待分
析边作为确定添加 边, 基于所述确定添加 边以及所述初始人类蛋白质相互作用网络, 得到
重构后人类蛋白质相互作用网络 。
3.根据权利要求1所述的高效构建人类蛋白质复合物图谱的方法, 其特 征在于:
其中, 所述步骤S2中所述亚细胞定位特征包括Overlapsl特征、 Equality特征、 Jaccard
similarity特 征和Inclusion特征:
Overlapsl=|SLpi∩SLpj|
式中, SLpi与SLpj分别为蛋白质i的亚细胞定位标注信息和蛋白质j的亚细胞定位标注信权 利 要 求 书 1/4 页
2
CN 114741528 A
2息(i≠j);
所述蛋白质链长度特 征是根据对应的蛋白质序列得到;
所述基于P SSM的特征是基于蛋白质的P SSM矩阵得到;
所述蛋白质 ‑域相互作用特征包括Overlappd特征、 Interaction特征、 Total特征、
Similarity_Overlap特 征和Simi larity_I nteracti on特征:
Overlappd=|PDpi∩PDpj|
Interacti on=|(PDpi∩PD_Pfampi)interact with(PDpj∩PD_Pfampj)|
Total=|PDpi∪PDpj|
式中, PDpi与PDpj分别为蛋白质i的域信息和蛋白质j的域信息(i≠j), 且蛋白质i和蛋白
质j在所述重构后人类蛋白质相互作用网络中存在相互作用, PD_Pfampi与PD_Pfampj分别代
表蛋白质i中参与蛋白质 ‑域相互作用的域信息和蛋白质j 中参与蛋白质 ‑域相互作用的域
信息;
所述GO语义相似性特 征是通过预设的GO语义相似性分析 软件计算得到 。
4.根据权利要求1所述的高效构建人类蛋白质复合物图谱的方法, 其特 征在于:
其中, 所述 步骤S3中所述 边类别包括复合物内部边与复合物外 部边两种类别;
所述预先训练好的边分类模型的训练过程 为:
根据标准蛋白质复合物集合为训练集中的蛋白质相互作用网络的边数据打标签, 得到
对应的边标签;
基于所述边标签以及对应的边数据, 利用深度森林算法训练得到预先训练好的边分类
模型。
5.根据权利要求1所述的高效构建人类蛋白质复合物图谱的方法, 其特 征在于:
其中, 所述 步骤S4包括如下子步骤:
步骤S4‑1, 通过k‑shell分解算法对所述重构后人类蛋白质相互作用网络中的蛋白质
按照重要性进行排序, 从而得到排序后蛋白质集 合;
步骤S4‑2, 根据多个预设的重要性阈值区间将所述排序后蛋白质集合划分多个排序后
蛋白质子集;
步骤S4‑3, 利用预设的图分割算法分别对所述排序后蛋白质子集进行识别, 从而得到
人类蛋白质复合物。
6.根据权利要求5所述的高效构建人类蛋白质复合物图谱的方法, 其特 征在于:
其中, 所述步骤S4 ‑3具体为分别 对所述排序后蛋白质子集进行子图扩 张从而得到初始
复合物集合, 对所述初始复合物集合进行子图收缩得到精简后的复合物集合, 从而得到人
类蛋白质复合物。
7.根据权利要求6所述的高效构建人类蛋白质复合物图谱的方法, 其特 征在于:
其中, 所述 步骤S4‑3包括如下子步骤:
步骤S4‑3‑1, 将所述重构后人类蛋白质相互作用网络中每个蛋白质节点v的节点u加入权 利 要 求 书 2/4 页
3
CN 114741528 A
3
专利 一种高效构建人类蛋白质复合物图谱的方法与系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:55:45上传分享