说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210167701.9 (22)申请日 2022.02.23 (71)申请人 河海大学 地址 210024 江苏省南京市 鼓楼区西康路1 号 (72)发明人 王敏 周涛 翟佑春 董小彬  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 李淑静 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06Q 50/06(2012.01) (54)发明名称 一种融合多特征的电力调度文本实体识别 方法及装置 (57)摘要 本发明公开了一种融合多特征的电力调度 文本实体识别方法及装置, 方法包括: 对非结构 化的电力调度文本进行降噪清洗处理, 进行字粒 度实体标注和词性特征标注, 得到字级别的语料 库, 语料库中有三列序列, 分别是字、 实体标签、 词性; 将得到的语料库中第一列进行字粒度的预 训练得到字的向量表示, 第二列和第三列按独热 向量表示方法得到词性特征向量表 示; 在字向量 和词性特征向量的基础上加入由第一列序列得 到的左邻字熵值, 进行多特征融合; 将特征融合 后所得向量输入双层神经网络模 型后得到输出; 将双层神经网络模型的输出结果输入条件随机 场模型, 得到预测的标签序列, 进而实现序列的 命名实体识别。 本发明提高了电力调度文本命名 实体识别的效果。 权利要求书3页 说明书10页 附图3页 CN 114548108 A 2022.05.27 CN 114548108 A 1.一种融合多特 征的电力调度文本实体识别方法, 其特 征在于, 包括以下步骤: 对非结构化的电力调度文本进行降噪清洗处理, 进行字粒度实体标注和词性特征标 注, 得到字级别的语料库, 语料库中有三列序列, 分别是字、 实体标签、 词性; 将得到的语料库中第 一列进行字粒度的预训练得到字的向量表示, 第 二列和第 三列按 独热向量表示方法得到词性特 征向量表示; 在字向量和词性特征向量的基础上加入由第 一列序列 得到的左邻 字熵值, 进行多特征 融合; 将特征融合后所 得向量输入双 层神经网络模型后得到 输出; 将双层神经网络模型的输出结果输入条件随机场模型, 得到预测的标签序列, 进而实 现序列的命名实体识别。 2.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 第 一 列序列的左 邻字熵值 根据以下公式得到: 其中C为语料库第一列中的每个字, aC为字C的左侧出现的字, A为语料库中字C的所有 左侧字集 合, P(aC|C)为字aC出现在C的左侧的概 率。 3.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 多特 征融合的方法包括: 将根据某一句语句得到的字向量序列Xi、 词性特征向量序列β 、 左邻字熵值EL分为两组: 一组输入为字向量序列和词性特征序列, 另一组输入为字向量序列和对应的左邻字熵值序 列; 分别将两组输入中的两序列拼接, 得到两组新的向量, 作为融合后的特征, 表示为: input1,j={xj; βj}, input2,j={xj; EL(i)}, 其中j为第i句的第j个字的索引, xj表示第i句中 第j个字的向量。 4.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 对语 料库中第一列进行字粒度的预训练得到字的向量表示包括: 基于Skip ‑gram构建字符级的 调控文本的字向量预训练模型, 第一列序列经预训练后的每一句的字向量为: Xi={xi,1, xi,2,xi,3,…,xi,n}, 其中 xi,n为第i句中的第n个字的向量, n为序列中字符数量, de 为输入向量的维数字向量表示。 5.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 每个 字的词性用一个10维的向量表示, 词性及其在语料库中的标注在表1中示出: 表1 词性及其对应标注 词性 标注 词性 标注 动词 NV 介词 PR 名词 NN 数词 NU 连词 NL 数字 SZ 助词 NP 有效字符 X 副词 NF 无效符 U权 利 要 求 书 1/3 页 2 CN 114548108 A 2按独热向量表示的词性特 征向量表示 为: βi=(0,0,0, …,1,0,0…), 6.根据权利要求1所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 双层 神经网络模型为双层长 短期记忆神经网络, 将特征融合后的两组向量分别输入两个LSTM网 络, 得到隐层状态后加权融合, 随后将加权结果的新的隐层状态向量经过一个神经元后得 到预测的标签概 率矩阵。 7.根据权利要求6所述的融合多特征的电力调度文本实体识别方法, 其特征在于, 利用 条件随机场模型 得到预测的标签序列包括: 根据双层神经网络模型 得到的标签概 率矩阵P得到序列预测的得分: 其中, l为标注集标签的种类数; A为各相邻位置的标签的转移概率矩阵, 其中 元素Ai,j表示标签i到标签j转移 概率也即当前字标注结果到下一个字标注结果的概率, Y为 真实标签值; 根据下式得到序列正确预测在所有预测结果中的概 率值: 采用极大似然估计进行训练: 进行 解码输出得到序列最大预测概率输出矩阵为: YX为输入的X 的所有标签的序列; 基于序列最大 预测概率输出矩阵, 结合标注集得到该序列的标签。 8.一种融合多特 征的电力调度文本实体识别装置, 其特 征在于, 包括: 语料库构建模块, 用于对非结构化的 电力调度文本进行降噪清洗处理, 进行字粒度实 体标注和词性特征标注, 得到字级别的语料库, 语料库中有三列序列, 分别是字、 实体标签、 词性; 向量获取模块, 用于将得到的语料库中第一列进行字粒度的预训练得到字的向量表 示, 第二列和第三列按独热向量表示方法得到词性特 征向量表示; 特征融合模块, 用于在字向量和词性特征向量的基础上加入由第 一列序列 得到的左邻 字熵值, 进行多特 征融合; 第一预测模块, 用于将特 征融合后所 得向量输入双 层神经网络模型后得到 输出; 第二预测模块, 用于将双层神经网络模型的输出结果输入条件随机场模型, 得到预测 的标签序列, 进 而实现序列的命名实体识别。 9.一种计算机设备, 其特 征在于, 包括: 一个或多个处 理器; 存储器; 以及 一个或多个程序, 其中所述一个或多个程序被存储在所述存储器中, 并且被配置为由 所述一个或多个处理器执行, 所述程序被处理器执行时实现如权利要求1 ‑7中任一项所述 的融合多特 征的电力调度文本实体识别方法的步骤。权 利 要 求 书 2/3 页 3 CN 114548108 A 3

PDF文档 专利 一种融合多特征的电力调度文本实体识别方法及装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合多特征的电力调度文本实体识别方法及装置 第 1 页 专利 一种融合多特征的电力调度文本实体识别方法及装置 第 2 页 专利 一种融合多特征的电力调度文本实体识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。