(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210167701.9
(22)申请日 2022.02.23
(71)申请人 河海大学
地址 210024 江苏省南京市 鼓楼区西康路1
号
(72)发明人 王敏 周涛 翟佑春 董小彬
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 李淑静
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06Q 50/06(2012.01)
(54)发明名称
一种融合多特征的电力调度文本实体识别
方法及装置
(57)摘要
本发明公开了一种融合多特征的电力调度
文本实体识别方法及装置, 方法包括: 对非结构
化的电力调度文本进行降噪清洗处理, 进行字粒
度实体标注和词性特征标注, 得到字级别的语料
库, 语料库中有三列序列, 分别是字、 实体标签、
词性; 将得到的语料库中第一列进行字粒度的预
训练得到字的向量表示, 第二列和第三列按独热
向量表示方法得到词性特征向量表 示; 在字向量
和词性特征向量的基础上加入由第一列序列得
到的左邻字熵值, 进行多特征融合; 将特征融合
后所得向量输入双层神经网络模 型后得到输出;
将双层神经网络模型的输出结果输入条件随机
场模型, 得到预测的标签序列, 进而实现序列的
命名实体识别。 本发明提高了电力调度文本命名
实体识别的效果。
权利要求书3页 说明书10页 附图3页
CN 114548108 A
2022.05.27
CN 114548108 A
1.一种融合多特 征的电力调度文本实体识别方法, 其特 征在于, 包括以下步骤:
对非结构化的电力调度文本进行降噪清洗处理, 进行字粒度实体标注和词性特征标
注, 得到字级别的语料库, 语料库中有三列序列, 分别是字、 实体标签、 词性;
将得到的语料库中第 一列进行字粒度的预训练得到字的向量表示, 第 二列和第 三列按
独热向量表示方法得到词性特 征向量表示;
在字向量和词性特征向量的基础上加入由第 一列序列 得到的左邻 字熵值, 进行多特征
融合;
将特征融合后所 得向量输入双 层神经网络模型后得到 输出;
将双层神经网络模型的输出结果输入条件随机场模型, 得到预测的标签序列, 进而实
现序列的命名实体识别。
2.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 第 一
列序列的左 邻字熵值 根据以下公式得到:
其中C为语料库第一列中的每个字, aC为字C的左侧出现的字, A为语料库中字C的所有
左侧字集 合, P(aC|C)为字aC出现在C的左侧的概 率。
3.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 多特
征融合的方法包括:
将根据某一句语句得到的字向量序列Xi、 词性特征向量序列β 、 左邻字熵值EL分为两组:
一组输入为字向量序列和词性特征序列, 另一组输入为字向量序列和对应的左邻字熵值序
列;
分别将两组输入中的两序列拼接, 得到两组新的向量, 作为融合后的特征, 表示为:
input1,j={xj; βj}, input2,j={xj; EL(i)}, 其中j为第i句的第j个字的索引, xj表示第i句中
第j个字的向量。
4.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 对语
料库中第一列进行字粒度的预训练得到字的向量表示包括: 基于Skip ‑gram构建字符级的
调控文本的字向量预训练模型, 第一列序列经预训练后的每一句的字向量为: Xi={xi,1,
xi,2,xi,3,…,xi,n}, 其中
xi,n为第i句中的第n个字的向量, n为序列中字符数量, de
为输入向量的维数字向量表示。
5.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 每个
字的词性用一个10维的向量表示, 词性及其在语料库中的标注在表1中示出:
表1 词性及其对应标注
词性 标注 词性 标注
动词 NV 介词 PR
名词 NN 数词 NU
连词 NL 数字 SZ
助词 NP 有效字符 X
副词 NF 无效符 U权 利 要 求 书 1/3 页
2
CN 114548108 A
2按独热向量表示的词性特 征向量表示 为: βi=(0,0,0, …,1,0,0…),
6.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 双层
神经网络模型为双层长 短期记忆神经网络, 将特征融合后的两组向量分别输入两个LSTM网
络, 得到隐层状态后加权融合, 随后将加权结果的新的隐层状态向量经过一个神经元后得
到预测的标签概 率矩阵。
7.根据权利要求6所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 利用
条件随机场模型 得到预测的标签序列包括:
根据双层神经网络模型 得到的标签概 率矩阵P得到序列预测的得分:
其中,
l为标注集标签的种类数; A为各相邻位置的标签的转移概率矩阵, 其中
元素Ai,j表示标签i到标签j转移 概率也即当前字标注结果到下一个字标注结果的概率, Y为
真实标签值;
根据下式得到序列正确预测在所有预测结果中的概 率值:
采用极大似然估计进行训练:
进行
解码输出得到序列最大预测概率输出矩阵为:
YX为输入的X
的所有标签的序列;
基于序列最大 预测概率输出矩阵, 结合标注集得到该序列的标签。
8.一种融合多特 征的电力调度文本实体识别装置, 其特 征在于, 包括:
语料库构建模块, 用于对非结构化的 电力调度文本进行降噪清洗处理, 进行字粒度实
体标注和词性特征标注, 得到字级别的语料库, 语料库中有三列序列, 分别是字、 实体标签、
词性;
向量获取模块, 用于将得到的语料库中第一列进行字粒度的预训练得到字的向量表
示, 第二列和第三列按独热向量表示方法得到词性特 征向量表示;
特征融合模块, 用于在字向量和词性特征向量的基础上加入由第 一列序列 得到的左邻
字熵值, 进行多特 征融合;
第一预测模块, 用于将特 征融合后所 得向量输入双 层神经网络模型后得到 输出;
第二预测模块, 用于将双层神经网络模型的输出结果输入条件随机场模型, 得到预测
的标签序列, 进 而实现序列的命名实体识别。
9.一种计算机设备, 其特 征在于, 包括:
一个或多个处 理器;
存储器; 以及
一个或多个程序, 其中所述一个或多个程序被存储在所述存储器中, 并且被配置为由
所述一个或多个处理器执行, 所述程序被处理器执行时实现如权利要求1 ‑7中任一项所述
的融合多特 征的电力调度文本实体识别方法的步骤。权 利 要 求 书 2/3 页
3
CN 114548108 A
3
专利 一种融合多特征的电力调度文本实体识别方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:28上传分享