全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210814281.9 (22)申请日 2022.07.12 (71)申请人 国网江苏省电力有限公司电力科 学 研究院 地址 210000 江苏省南京市江宁区帕威尔 路1号 (72)发明人 陈实 宋亮亮 庄舒仪 杨毅  范栋琛 孔祥平 林金娇 夏杰  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 张赏 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/30(2020.01)G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 面向继电保护的主题词识别方法、 装置、 存 储器及设备 (57)摘要 本发明公开了一种面向继电保护的主题词 识别方法、 装置、 存储器及设备, 该方法将继电保 护知识文本切分成一系 列的词, 对 所得到的词进 行筛选得到候选词; 对候选词进行评分, 基于评 分从候选词中抽取主题词; 对抽取的主题词进行 修正, 得到继电保护主题词。 本发明方法克服了 传统人工提取主题词费时费力的问题, 并且合理 利用电力领域多年积累的大量无监督数据, 通过 机器学习的方法提高了结果的准确率。 权利要求书3页 说明书10页 附图2页 CN 115017318 A 2022.09.06 CN 115017318 A 1.面向继电保护的主题词识别方法, 其特 征在于, 包括: 将继电保护知识文本切分成一系列的词, 对所 得到的词进行筛 选得到候选词; 对所述候选词进行评分, 基于 评分从候选词中抽取主题词; 对抽取的主题词进行修 正, 得到继电保护主题词。 2.根据权利要求1所述的面向继电保护的主题词识别方法, 其特征在于, 所述将继电保 护知识文本切分成一系列的词, 包括: 采用汉语语言模型N ‑Gram对继电保护知识文本进行切分, 得到一系列字串, 一个子串 为一个词。 3.根据权利要求1所述的面向继电保护的主题词识别方法, 其特征在于, 所述对所得到 的词进行筛 选得到候选词, 包括: 同时满足以下四个条件时, 词为 候选词: 词的内凝聚度得分大于内凝聚度门槛 值; 词的左、 右邻词信息熵大于左、 右邻词信息熵门槛 值; 词的种子词包 含大于种子词包 含门槛值; 词的词长大于词长门槛 值。 4.根据权利要求3所述的面向继电保护的主题词识别方法, 其特征在于, 所述词的内凝 聚度得分计算如下: 其中, ScoreIC(X)表示词X的内凝聚度得分, xi是词X中的第i个字符, P( ·)表示词在文 本中出现的概 率; 所述种子词包含计算为: 预设短专业词作为种子词, 词中包含种子词的个数为种子词 包含; 所述词长为词的长度。 5.根据权利要求3所述的面向继电保护的主题词识别方法, 其特征在于, 所述内凝聚度 门槛值的取值范围为50至200之间; 所述左、 右邻词信息熵取值为0.5; 所述种子词包含门槛 值取值为1; 所述词长门槛 值取值为2。 6.根据权利要求1所述的面向继电保护的主题词识别方法, 其特征在于, 对所述候选词 进行评分, 基于 评分从候选词中抽取主题词, 包括: 采用以下两种方式抽取主题词, 并对两种方式下抽取的主题词通过加权投票的方式进 行评分并排序, 选取评分最高的k条候选词作为主题词; 其中, 方式一: 计算各候选词在所在文本的TF ‑IDF值; 对每个文本, 将候选词根据TF ‑IDF值由高到低进行排序, 选择排序 最前, 占比为20 %的 候选词作为该文本的候选主题词; 将所有文本抽取的候选主题词进行汇总, 作为继电保护知识文本候选主题词; 方式二、 计算各候选词在所在文本中的位置;权 利 要 求 书 1/3 页 2 CN 115017318 A 2计算各候选词与上 下文的相关性; 计算各候选词在不同句子中出现的次数; 当计算结果均超过 预设阈值时, 候选词为继电保护知识文本候选主题词。 7.根据权利要求6所述的面向继电保护的主题词识别方法, 其特 征在于, 所述各候选词在所在文本中的位置由候选词与所在文本开头的字符距离计算得到; 所述各候选词与上下文的相关性由上下文中与候选词同时出现的不同候选词的数量 表示。 8.根据权利要求1所述的面向继电保护的主题词识别方法, 其特征在于, 所述对抽取的 主题词进行修 正, 包括: 采用训练好的Sk ip‑Gram模型将所抽取的主题词映射 为向量; 对用词向量表示的主题词通过K ‑Means算法进行 聚类, 选取距离聚类中心最近的N个主 题词作为继电保护主题词。 9.面向继电保护的主题词识别装置, 其特 征在于, 包括: 选择模块, 用于将继电保护知识文本切分成一系列的词, 对所得到的词进行筛选得到 候选词; 抽取模块, 用于对所述 候选词进行评分, 基于 评分从候选词中抽取主题词; 以及, 修正模块, 用于对抽取的主题词进行修 正, 得到继电保护主题词。 10.根据权利要求9所述的面向继电保护的主题词识别装置, 其特征在于, 所述选择模 块具体用于, 采用汉语语言模型N ‑Gram对继电保护知识文本进行切分, 得到一系列字串, 一个子串 为一个词; 同时满足以下四个条件时, 词为 候选词: 词的内凝聚度得分大于内凝聚度门槛 值; 词的左、 右邻词信息熵大于左、 右邻词信息熵门槛 值; 词的种子词包 含大于种子词包 含门槛值; 词的词长大于词长门槛 值。 11.根据权利要求9所述的面向继电保护的主题词识别装置, 其特征在于, 所述抽取模 块具体用于, 采用以下两种方式抽取主题词, 并对两种方式下抽取的主题词通过加权投票的方式进 行评分并排序, 选取评分最高的k条候选词作为主题词; 其中, 方式一: 计算各候选词在所在文本的TF ‑IDF值; 对每个文本, 将候选词根据TF ‑IDF值由高到低进行排序, 选择排序 最前, 占比为20 %的 候选词作为该文本的候选主题词; 将所有文本抽取的候选主题词进行汇总, 作为继电保护知识文本候选主题词; 方式二、 计算各候选词在所在文本中的位置; 计算各候选词与上 下文的相关性;权 利 要 求 书 2/3 页 3 CN 115017318 A 3

.PDF文档 专利 面向继电保护的主题词识别方法、装置、存储器及设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向继电保护的主题词识别方法、装置、存储器及设备 第 1 页 专利 面向继电保护的主题词识别方法、装置、存储器及设备 第 2 页 专利 面向继电保护的主题词识别方法、装置、存储器及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。