说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210931975.0 (22)申请日 2022.08.04 (71)申请人 苏州大学 地址 215008 江苏省苏州市相城区济学路8 号 (72)发明人 钱龙华 吕子楠 石坤立 李东玲  李军辉 周国栋  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 刘颖 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种化学物与蛋白质作用关系的抽取方法、 装置和介质 (57)摘要 本申请涉及自然语 言处理技术领域, 公开了 一种化学物与蛋白质作用关系的抽取方法, 包 括: 获取文本中的化学物实体集合、 蛋白质实体 集合、 以及若干个问题模板; 从化学物实体集合 中选取一个化学物实体作为目标化学物实体, 将 目标化学物实体输入每个问题模板中; 利用包含 目标化学物实体的问题模板对文本进行询问, 抽 取文本中与 目标化学物实体存在作用关系的目 标蛋白质实体以得到关系组。 当一段文本中的化 学物实体和蛋白质实体数量较多时, 本申请通过 问答的形式从文本中抽取化学物 ‑蛋白质作用关 系, 可以克服化学物实体和蛋白质实体两两配对 所带来的实体对 数量众多的缺点, 有效提高化学 物‑蛋白质作用关系的抽取效率。 权利要求书2页 说明书10页 附图3页 CN 115269876 A 2022.11.01 CN 115269876 A 1.一种化学物与蛋白质作用关系的抽取 方法, 其特 征在于, 包括: 获取文本中的化学物实体集合、 蛋白质实体集合、 以及若干个问题模板; 其中, 每个所 述问题模板分别包 含化学物和蛋白质的一种作用关系; 从所述化学物实体集合中选取一个化学物实体作为目标化学物实体, 将所述目标化学 物实体输入每 个所述问题模板中; 利用包含所述目标化学物实体的问题模板对所述文本进行询问, 抽取所述文本 中与所 述目标化学物实体存在作用关系的目标蛋白质实体以得到关系组; 其中, 所述关系组包括 所述目标化学物实体、 所述 目标蛋白质实体、 以及所述 目标化学物实体和所述目标化学物 实体之间的作用关系。 2.根据权利要求1所述的化学物与蛋白质作用关系的抽取方法, 其特征在于, 所述利用 包含所述目标化学物实体的问题模板对所述文本进行询问, 抽取所述文本中与所述目标化 学物实体存在作用关系的目标蛋白质实体, 包括: 将包含所述目标化学物实体的问题模板与所述文本组成句子对; 对所述句子对进行符号化以转换成词片序列, 并确定所述文本中每个 蛋白质实体的位 置信息; 将所述词片序列输入BERT模型中, 得到每 个词片的上 下文表征; 根据所述位置信息从所述上下文表征中筛选出每个所述蛋白质实体所对应的上下文 表征序列; 对所述上下文表征序列进行编码和融合, 得到每个所述蛋白质实体所对应的一个单一 向量, 并将所述单一向量与蛋白质实体词片长度的指示向量串接, 得到每个所述蛋白质实 体所对应的最终表征; 将所述最终表征经过全连接层和sigmoid激活函数处理, 得到每个所述蛋白质实体的 得分; 将所述得分大于阈值的蛋白质实体确定为所述目标蛋白质实体。 3.根据权利要求2所述的化学物与蛋白质作用关系的抽取方法, 其特征在于, 所述将包 含所述目标化学物实体的问题模板与所述文本组成句子对, 包括: 将包含所述目标化学物实体的问题模板与所述文本通过连接符号拼接以得到所述句 子对。 4.根据权利要求2所述的化学物与蛋白质作用关系的抽取方法, 其特征在于, 所述对所 述上下文表征序列进行编码和融合, 得到每个所述蛋白质实体所对应的一个单一向量, 包 括: 使用BiLSTM网络对所述上下文表征序列进行编码, 得到每个所述 蛋白质实体的一个输 出向量序列; 使用注意力机制融合所述输出向量序列得到每 个所述蛋白质实体的一个单一向量。 5.根据权利要求2所述的化学物与蛋白质作用关系的抽取方法, 其特征在于, 所述将所 述最终表征经过全连接层和sigmoid激活函数处理, 得到每个所述蛋白质实体的得分, 包 括: 利用所述全连接层将所述 最终表征转换为 一个单一数值; 利用所述sigmoid激活函数将所述单一数值进行归一化处理, 得到每个所述蛋白质实权 利 要 求 书 1/2 页 2 CN 115269876 A 2体的得分。 6.根据权利要求1所述的化学物与蛋白质作用关系的抽取方法, 其特征在于, 所述利用 包含所述目标化学物实体的问题模板对所述文本进行询问之前, 还 包括: 利用预设符号在所述文本中标记出 所述目标化学物实体的位置 。 7.一种化学物与蛋白质作用关系的抽取装置, 其特 征在于, 包括: 获取模块, 用于获取文本中的化学物实体集合、 蛋白质 实体集合、 以及若干个问题模 板; 其中, 每 个所述问题模板分别包 含化学物和蛋白质的一种作用关系; 选取模块, 用于从所述化学物实体集合中选取一个化学物实体作为目标化学物实体, 将所述目标化学物实体输入每 个所述问题模板中; 抽取模块, 用于利用包含所述目标化学物实体的问题模板对所述文本进行询问, 抽取 所述文本中与所述 目标化学物实体存在作用关系的目标蛋白质实体以得到关系组; 其中, 所述关系组包括所述 目标化学物实体、 所述 目标蛋白质实体、 以及所述 目标化学物实体和 所述目标化学物实体之间的作用关系。 8.根据权利要求7所述的化学物与蛋白质作用关系的抽取装置, 其特征在于, 抽取模块 包括: 组成单元, 用于将包 含所述目标化学物实体的问题模板与所述文本组成句子对; 转换单元, 用于对所述句子对进行符号化以转换成词片序列, 并确定所述文本中每个 蛋白质实体的位置信息; 输入单元, 用于将所述词片序列输入BERT模型中, 得到每 个词片的上 下文表征; 筛选单元, 用于根据 所述位置信 息从所述上下文表征中筛选出每个所述蛋白质实体所 对应的上 下文表征序列; 编码和融合单元, 用于对所述上下文表征序列进行编码和融合, 得到每个所述蛋白质 实体所对应的一个单一向量, 并将所述单一向量与蛋白质实体词片长度的指示向量串接, 得到每个所述蛋白质实体所对应的最终表征; 处理单元, 用于将所述最终表征经过全连接层和sigmoid激活函数处理, 得到每个所述 蛋白质实体的得分; 确定单元, 用于将所述得分大于阈值的蛋白质实体确定为所述目标蛋白质实体。 9.一种化学物与蛋白质作用关系的抽取装置, 其特征在于, 包括存储器, 用于存储计算 机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至6任一项所述的化学物与蛋白 质作用关系的抽取 方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至6任一项 所述的化学物与蛋白质 作用关系的抽取 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115269876 A 3

.PDF文档 专利 一种化学物与蛋白质作用关系的抽取方法、装置和介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种化学物与蛋白质作用关系的抽取方法、装置和介质 第 1 页 专利 一种化学物与蛋白质作用关系的抽取方法、装置和介质 第 2 页 专利 一种化学物与蛋白质作用关系的抽取方法、装置和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:37:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。