全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210486475.0 (22)申请日 2022.05.06 (71)申请人 北京安智因生物技 术有限公司 地址 100023 北京市大兴区经济技 术开发 区科创三 街24号博大兴工业园7号楼 (72)发明人 宓开拓 宋华珠 蔡恒 曹彦东  (74)专利代理 机构 北京金智普华知识产权代理 有限公司 1 1401 专利代理师 杨采良 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于字词融合表示与图注意力网络的心梗 实体识别方法 (57)摘要 本发明属于医学实体识别技术领域, 公开了 一种基于字词融合表示与图注意力网络的心梗 实体识别方法, 包括: 融合PubMedBERT模型、 CharCNN模型、 共指关系图以及图注意力机制构 建基于字词融合表示与图注意力网络的心梗实 体模型: 利用P ubMedBERT模型 获取单词的上下文 语义特征, 采用字符级卷积神经网络CharCNN获 取单词内部特征; 将单词的上下文语义特征与单 词内部特征进行拼接, 并建立共指关系图结合图 注意力机制融合具有共指关系的节 点特征表示, 进行心梗数据的实体识别。 本发 明能有效提高实 体识别的效果; 通过自然语言处理、 深度学习抽 取心梗相关知识, 形成心梗知识图谱, 促进医学 领域知识图谱构建技 术的发展。 权利要求书3页 说明书20页 附图3页 CN 115130468 A 2022.09.30 CN 115130468 A 1.一种基于字词融合表示与图注意力网络的心梗实体识别方法, 其特征在于, 所述基 于字词融合表示与图注意力网络的心梗实体识别方法包括: 融合PubMedBERT模型、 CharCNN模型、 共指关系图以及图注意力机制构建基于字词融合 表示与图注意力网络的心梗实体模型: 利用PubMedBERT模型获取单词的上下文语义特征, 采用字符级卷积神经网络CharCNN获取单词内部特征; 将单词的上下文语义特征与单词内 部特征进行拼接, 并建立共指关系图结合图注意力机制融合具有共指关系的节点特征表 示, 进行心梗数据的实体识别。 2.如权利要求1所述基于字词融合表示与图注意力网络的心梗实体识别方法, 其特征 在于, 所述基于 字词融合表示与图注意力网络的心梗实体模型包括: 字词融合层、 上 下文编码层、 图注意力层、 条件随机场层; 字词融合层, 用于将输入文本转换成向量表示; 用于通过PubMedBERT模型获取输入序 列的词嵌入, 同时通过CharCNN模 型获取词的字符级词嵌入; 同时用于将所述输入序列的词 嵌入与所述词的字符级词嵌入进 行拼接得到融合字词特征的词向量表示, 并输出所述融合 字词特征的词向量表示; 上下文编码层, 用于利用BiLSTM对输入的融合字词特征的词向量表示进行特征提取, 获取所述融合字词特 征的词向量表示的上 下文语义信息并输出; 图注意力层, 用于基于创建好的共指关系图, 通过图注意力 机制更新节点的特征表示; 同时用于通过向量 拼接融合上 下文编码层的输出, 输入到条件随机场层; 条件随机场层, 用于利用CRF作为 解码器预测输入序列的实体标签。 3.如权利要求1所述基于字词融合表示与图注意力网络的心梗实体识别方法, 其特征 在于, 所述基于 字词融合表示与图注意力网络的心梗实体识别方法包括以下步骤: 步骤一, 获取待识别的心梗数据, 并对获取的待识别的心梗数据进行 预处理; 步骤二, 构建基于字词融合表示与图注意力网络的心梗实体模型, 并对构建的基于字 词融合表示与图注意力网络的心梗实体模型进行训练; 步骤三, 获取训练好的基于字词融合表示与图注意力网络的心梗实体模型的网络参 数, 并根据所述网络参数对所述基于字词融合表 示与图注意力网络的心梗实体模型进 行优 化; 步骤四, 利用优化后的基于字词融合表示与图注意力网络的心梗实体模型基于预处理 后的待识别心梗数据进行实体标签序列的预测, 得到心梗数据的实体识别结果。 4.如权利要求3所述基于字词融合表示与图注意力网络的心梗实体识别方法, 其特征 在于, 所述 步骤一中, 对获取的待识别的心梗数据进行 预处理包括: 首先, 采用NLTK对所述心梗数据进行分词 处理, 在分词后对超出最大长度的部分进行 截断; 其次, 采用词形还原工具N LTK将单词或者词组转换成最基本的形式。 5.如权利要求3所述基于字词融合表示与图注意力网络的心梗实体识别方法, 其特征 在于, 所述步骤二中, 对构建的基于字词融合表示与图注意力网络的心梗实体模型进行训 练包括: (1)随机初始化基于字词融合表示与图注意力网络的心梗实体模型的网络参数; 并获 取预处理的心梗医学文本, 构建训练集、 验证集和待识别的心梗数据;权 利 要 求 书 1/3 页 2 CN 115130468 A 2(2)根据训练集中的每一个样本构建相应的共指关系图; 将训练集中的每一个样本和 其对应的共指关系图输入模型; 通过PubMedBERT对输入样本进行词嵌入, 并获取子词拆分 的偏移量; (3)根据输入样本的子词偏移量融合输入样本词嵌入中被拆分的子词; 通过CharCNN获 得输入样本的字符级词嵌入; (4)拼接获得的输入样本的词嵌入和字符级词嵌入, 得到特征表示向量; 将得到的特征 表示向量表 示输入上下文编 码层, 通过BiLSTM得到所述特征表 示向量的上下文语义编码表 示; (5)将输入样本的上下文语义编码表示输入图注意力层, 通过图注意力机制更新所述 样本的特征表示; 将得到的特征表示向量的上下文语义编 码表示与更新后的特征表示进 行 拼接融合, 输入条件随机场层; (6)条件随机场层根据输入样本的特征表示生成概率矩阵; 根据概率矩阵和目标值计 算损失值; 根据损失值进行反向传播, 更新网络参数; (7)重复步骤(2)至步骤(6), 直到网络收敛; (8)利用验证集上验证所述基于字词融合表示与图注意力网络的心梗实体模型的效 果, 重复步骤(2)至步骤(7), 直到得到识别效果 最好的模型; (9)输出训练好的基于 字词融合表示与图注意力网络的心梗实体模型的网络参数。 6.如权利要求5所述基于字词融合表示与图注意力网络的心梗实体识别方法, 其特征 在于, 所述 步骤(2)中, 根据训练集中的每一个样本构建相应的共指关系图包括: 首先, 对训练集中的每一个样本依次进行精确匹配、 词根匹配以及首字母缩略词匹配, 得到文本中所有具有共指关系的单词索引对; 其次, 根据所述文本中所有具有共指关系的单词索引对生成邻接矩阵, 得到每一个样 本的共指关系图。 7.如权利要求6所述基于字词融合表示与图注意力网络的心梗实体识别方法, 其特征 在于, 所述样本的共指关系图如下: G=(V, A); 其中V表示文本中所有单词的节点 集合, A表示邻接矩阵。 8.一种计算机设备, 其特征在于, 所述计算机设备包括存储器和处理器, 所述存储器存 储有计算机程序, 所述计算机程序被所述处理器执行时, 使得所述处理器执行如权利要求 1‑7任意一项所述基于 字词融合表示与图注意力网络的心梗实体识别方法如下步骤: 步骤一, 获取待识别的心梗数据, 并对获取的待识别的心梗数据进行 预处理; 步骤二, 构建基于字词融合表示与图注意力网络的心梗实体模型, 并对构建的基于字 词融合表示与图注意力网络的心梗实体模型进行训练; 步骤三, 获取训练好的基于字词融合表示与图注意力网络的心梗实体模型的网络参 数, 并根据所述网络参数对所述基于字词融合表 示与图注意力网络的心梗实体模型进 行优 化; 步骤四, 利用优化后的基于字词融合表示与图注意力网络的心梗实体模型基于预处理 后的待识别心梗数据进行实体标签序列的预测, 得到心梗数据的实体识别结果。 9.一种计算机可读存储介质, 存储有计算机程序, 所述计算机程序被处理器执行时, 使权 利 要 求 书 2/3 页 3 CN 115130468 A 3

.PDF文档 专利 基于字词融合表示与图注意力网络的心梗实体识别方法

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于字词融合表示与图注意力网络的心梗实体识别方法 第 1 页 专利 基于字词融合表示与图注意力网络的心梗实体识别方法 第 2 页 专利 基于字词融合表示与图注意力网络的心梗实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。