全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111590014.X (22)申请日 2021.12.23 (71)申请人 佳源科技股份有限公司 地址 210000 江苏省南京市雨 花台区宁双 路19号云密城14-17层 (72)发明人 周诚玺 马培龙  (74)专利代理 机构 苏州中合知识产权代理事务 所(普通合伙) 32266 代理人 阮梅 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/232(2020.01) G06F 16/31(2019.01) G06F 16/34(2019.01) G06F 40/166(2020.01)G06Q 10/10(2012.01) G06Q 50/06(2012.01) (54)发明名称 基于人工智能的日志审核方法、 装置、 设备 及介质 (57)摘要 本发明公开基于人工智能的日志审核 方法、 装置、 设备及介质, 该方法包括如下步骤, 获取日 志文本并进行预处理; 构建本行业的错误混淆 集, 并通过日志文本查错模型和错误混淆集对预 处理后的日志人本进行错误检查和纠正; 构建 TextRank模型, 迭代计算词汇或句子权重, 选取 权重值最高的若干个词汇或句子集合构成日志 摘要; 将日志摘要发送至相关人员。 本发明基于 自然语言处理和深度学习技术智能化审核电力 日志, 自动进行错误检查与纠正, 并快速且有效 地捕捉到日志文本内的关键信息, 对原文信息进 行压缩提炼, 让电力人员能够快速了解日志关键 点, 节省工作人员对于日志信息的选择以及阅读 时间, 提升 工作效率。 权利要求书2页 说明书9页 附图1页 CN 114239553 A 2022.03.25 CN 114239553 A 1.基于人工智能的日志审核方法, 其特 征在于, 包括如下步骤: 步骤1, 获取日志文本并进行 预处理; 步骤2, 构建本行业的错误混淆集, 并通过日志文本查错模型和错误混淆集对预处理后 的日志人本进行错 误检查和纠正; 步骤3, 构建TextRank模型, 迭代计算词汇或句子权重, 选取权重值最高的若干个词汇 或句子集 合构成日志摘要; 步骤4, 将日志摘要发送至相关人员。 2.根据权利要求1所述的基于人工智能的日志审核方法, 其特征在于, 所述预处理包括 剔除无关数据、 删除重复数据、 噪声内容清洗、 类别特 征编码、 中文分词和删除停用词。 3.根据权利要求2所述的基于人工智能的日志审核方法, 其特征在于, 所述类别型特征 编码包括 one‑hot编码方式或频率编码方式。 4.根据权利要求1所述的基于人工智能的日志审核方法, 其特征在于, 所述构建本行业 的错误混淆集, 具体包括如下步骤: 步骤210, 输入汉语词典和汉语拼音表, 建立 拼音‑汉字索引结构; 步骤211, 获取人工总结的本行业 易混淆词表C1; 步骤212, 对预处理后日志文本的每个字或词进行遍历, 若所述字或词的拼音指向汉 语, 则将该词及其 拼音存入同音索引表中, 完成遍历后得到 本行业日志的同音词表C2; 步骤213, 对日志文本的每个词进行遍历, 计算在所有日志文本中编辑距离为1的词, 创 建替换混淆词表C3; 步骤214, 合并本行业易混淆词表C1、 本行业日志的同音词表C2和替换混淆词表C3, 创建 错误混淆集。 5.根据权利要求1所述的基于人工智能的日志审核方法, 其特征在于, 所述通过日志文 本查错模型和错误混淆集对预处理后的日志人本进行错误检查和纠正, 具体包括如下步 骤: 步骤220, 使用滑动窗口和训练好的日志文本查错模型对输入的日志进行评估, 计算 PPL困惑度得分, 判断PPL困惑度得分是否超过预设阈值, 若 是, 则转至步骤221, 进行纠错处 理; 若否, 则判定为 通顺; 步骤221, 通过错误混淆集来对疑似错误中的字词进行字音字形义形的替换, 获得纠错 候选序列; 步骤222, 将纠错候选序列中的字词替换到原文中, 依次重新计算PPL困惑度得分, 选取 PPL困惑度得分最小的纠错 候选词, 进行替换。 6.根据权利要求1或5所述的基于人工智能的日志审核方法, 其特征在于, 所述日志文 本查错模型为 N‑gram模型。 7.根据权利要求1所述的基于人工智能的日志审核方法, 其特征在于, 所述步骤3, 具体 包括如下步骤: 步骤310, 利用BERT预训练模型生成句向量, 然后再计算两个句向量夹角的余弦值即可 得出相似度; 步骤311, 将日志文本中的句子或者词汇为节点、 相似度值为边构建带权的无向网络 图, 迭代计算句子TextRank权重, 在计算的过程中结合句子位置、 线索词、 句子长度等因素权 利 要 求 书 1/2 页 2 CN 114239553 A 2对权重进行优化处 理; 步骤312, 选取权 重值最高的若干个词汇或句子集 合构成日志摘要。 8.基于人工智能的日志审核装置, 其特征在于, 包括文本处理单元、 智能纠 错单元、 摘 要提取单元和反馈单 元, 其中, 所述文本处 理单元, 用于获取日志文本并进行 预处理; 所述智能纠 错单元, 用于构建本行业的错误混淆集, 并通过日志文本查错模型和错误 混淆集对预处 理后的日志人本进行错 误检查和纠正; 所述摘要提取单元, 用于构 建TextRank模型, 迭代计算词汇或句子权重, 选取权重值最 高的若干个词汇或句子集 合构成日志摘要; 所述反馈单 元, 用于将日志摘要信息发送至相关人员。 9.计算机设备, 其特征在于, 包括存储器、 处理器及存储在所述存储器上并可在所述处 理器上运行的词法检查程序, 所述词法检查程序被所述处理器执行时实现如权利要求1 ‑7 中任一项所述的基于人工智能的日志审核方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 该程序被处理器执行时实现如 权利要求1 ‑7中任一项所述的基于人工智能的日志审核方法。权 利 要 求 书 2/2 页 3 CN 114239553 A 3

.PDF文档 专利 基于人工智能的日志审核方法、装置、设备及介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于人工智能的日志审核方法、装置、设备及介质 第 1 页 专利 基于人工智能的日志审核方法、装置、设备及介质 第 2 页 专利 基于人工智能的日志审核方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:09:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。