全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210975168.9 (22)申请日 2022.08.17 (71)申请人 北京信息科技大 学 地址 100192 北京市海淀区清河小营东路 12号 (72)发明人 吕学强 游新冬 张乐 孙少奇  (51)Int.Cl. G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种面向武器装备领域的复杂三元组抽取 方法 (57)摘要 本发明涉及自然语言处理领域的知识抽取 技术, 特别涉及对武器装备知识领域的三元组抽 取, 可以充分挖掘非结构化信息, 缓解模型对样 本标注的依 赖。 包括以下步骤: (一) 、 通过爬虫对 舰船、 飞机等信息进行了采集并持久化至容器。 (二) 、 使用自编码方式结合自注意力机制对文本 的双向上下文以获取特征向量; (三) 、 将特征向 量投入结合多轮对抗攻击的头实体识别器将其 识别为头实体或尾实体; (四) 、 针对不同的头实 体类型获取到句子向量, 以字为最小粒度进行融 合; (五) 、 在关系尾实体识别模块, 指定关系对应 的实体识别; 本发明可获得更好缓解武器装备领 域遇到的单实体重叠问题和实体对重叠问题, 实 现对武器装备领域的复杂关系以及隐含关系进 行抽取。 权利要求书2页 说明书10页 附图2页 CN 115270785 A 2022.11.01 CN 115270785 A 1.本发明的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于, 包括以下步 骤: (一) 、 通过数据采集技术对舰船、 飞机等信息进行了自动化地采集并持久化至容器, 经 过数据筛查、 数据清洗, 最终标注数据5 000条; (二) 、 文本由文本嵌入层模块进行序列化, 使用自编码方式结合自注意力机制对文本 的双向上 下文以获取 特征向量; (三) 、 将 获取到的向量投入结合多轮对抗攻击的头实体识别器将其识别为头实体或尾 实体; (四) 、 将获取到的实体通过武器装备知识库模块, 针对不同的头实体类型, 根据维基百 科中定义或者解释获取到描述该类型的句子解释向量, 然后以字为最小粒度进行信息融 合; (五) 、 最后进入到关系尾实体识别模块, 指定关系对应的尾实体头识别和尾识别。 2.如权利要求1所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 通 过数据采集技术对环球军事网的舰船、 飞机等信息进行了自动化地采集并持久化至容器, 经过数据筛查、 数据 清洗, 最终标注数据5000条, 经过署名式交叉方法对数据质量进 行了检 查, 对最终的数据进行了数据划分, 划分比例为7:2:1, 分别作为训练集、 验证集、 测试集。 3.如权利要求1所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 利 用文本向量 化BERT模型, 对to ken进行开展Embed ding,其中包 含了三部分。 4.如权利要求3所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 第 一部分Token  Embedding是词向量 或者字向量, 使用CLS标记以更为公平地融合句子中的每 个token语义, 用于后续的分类任务。 5.如权利要求3所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 第 二部分Segment  Embedding是因自编码的语言模型的NSP (Next  Sentence  Prediction) 子 任务需要区别两个句子, 在本文中默认为 零. 如权利要求3所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 第三 部分Position  Embeddings是为保证脱离了RNN时序系 列模型的位置约束后, 引入位置嵌入 信息以适应自然语言的时序性。 6.如权利要求3所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 为 规避三角函数的对偶性无法区分方向的缺陷, 并非采用TRM的位置嵌入信息方式, 而 是通过 学习参数获取。 7.然后经过12层的TRM模块, 使用自编码方式结合自注意力机制对文本的双 向上下文 以获取向量。 8.如权利要求3所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 对 抗攻击的生成方式为Fast  Gradient  Method (FGM) , FGM为更加严格地对梯度的方向进行保 留, 采取使用L2归一 化技术对梯度进行修 正。 9.如权利要求1所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 使 用维基百科作为武器装备类型 的外部知识库, 针对不同的头实体类型, 根据维基百科中定 义或者解释获取到描述该类型的句子解释向量, 然后以字为 最小粒度进行信息融。 10.如权利要求9所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于:权 利 要 求 书 1/2 页 2 CN 115270785 A 2本文采用加法对不同特征 空间的向量进行语义融合, 最 终获取到挂载武器装备领域知识库 和对抗攻击生成的样本融合向量。 11.如权利要求10所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 关系尾实体识别模块同时识别尾实体和与其归属的本体设计中包 含的关系。 12.如权利要求11所述的一种面向武器装备领域的复杂三元组抽取方法, 其特征在于: 其结构与头实体识别器类似, 同样是将任务细化为两个子任务: 指定关系对应的尾实体头 识别和尾识别; 不同的是, 本体设计中涵盖的所有关系将会与主语识别器的成果进 行运算, 以获取主语与所有可能的关系的挖掘。权 利 要 求 书 2/2 页 3 CN 115270785 A 3

.PDF文档 专利 一种面向武器装备领域的复杂三元组抽取方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向武器装备领域的复杂三元组抽取方法 第 1 页 专利 一种面向武器装备领域的复杂三元组抽取方法 第 2 页 专利 一种面向武器装备领域的复杂三元组抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:41:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。