全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210252421.8 (22)申请日 2022.03.15 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 张馨  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 周晓飞 汤在彦 (51)Int.Cl. G06F 11/30(2006.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种日志生成监控方法和装置 (57)摘要 本发明提供了一种日志生成监控方法和装 置, 属于大数据, 该方法包括: 使用切面作用于业 务领域系统的交易接口, 确定初始交易日志数 据; 对初始交易日志数据进行分词处理, 生成语 料库; 对语料库进行采样, 训练得到基于语料库 的LDA模型; 根据基于语料库的LDA模型, 对目标 业务领域交易日志进行关键词提取, 建立关键词 库, 结合初始交易日志数据, 不用人力去分析和 确定各业务领域的流水日志标准, 自动生成目标 业务领域系统的流水日志文件, 有效降低人力成 本, 针对目标业务领域系统的流水日志文件进行 监控, 可以实时获取系统的运行状态, 提高流水 日志监控的准确性, 保障系统运行安全。 权利要求书5页 说明书16页 附图4页 CN 114610576 A 2022.06.10 CN 114610576 A 1.一种日志生成监控方法, 其特 征在于, 包括: 使用切面作用于业 务领域系统的交易接口, 确定初始交易日志数据; 对初始交易日志数据进行分词处 理, 生成语料库; 对语料库进行采样, 训练得到基于语料库的LDA模型; 根据基于语料库的LDA模型, 对目标业务领域交易日志进行关键词提取, 建立关键词 库, 结合初始交易日志数据, 生成目标业 务领域系统的流水日志文件; 对目标业 务领域系统的流水日志文件进行监控。 2.如权利要求1所述的方法, 其特征在于, 使用切面作用于业务系统的交易接口, 确定 初始交易日志数据, 包括: 使用切面 算法创建切面类, 作用于全部业 务领域系统的交易接口, 获取交易 参数详情; 根据交易 参数详情, 生成初始交易日志数据。 3.如权利要求1所述的方法, 其特征在于, 对初始交易日志数据进行分词处理, 生成语 料库, 包括: 获取设定时长内的初始交易日志数据; 对设定时长内的初始交易日志数据进行交易 参数字段名提取; 对提取到的交易 参数字段名使用分词工具进行英文分词操作, 生成语料库。 4.如权利要求1所述的方法, 其特征在于, 对语料库进行采样, 训练得到基于语料库的 LDA模型, 包括: 采用Gibbs采样算法对语料库进行采样, 在采样收敛后确定每 个词的主题; 根据每个词的主题, 训练得到基于语料库的LDA模型。 5.如权利 要求4所述的方法, 其特征在于, 采用Gibbs采样算法对语料库进行采样, 在采 样收敛后确定每 个词的主题, 包括: 确定主题数目和超参向量; 随机为语料库中每一个 语料的每一个词赋予一个主题编号; 重新扫描语料库, 对于每一个词, 利用Gibbs采样公式重新采样更新该词的主题编号, 并且更新该词在语料中的编号; 重复执行采样更新, 直至采样收敛, 确定语料库中每 个词的主题。 6.如权利要求5所述的方法, 其特征在于, 根据每个词的主题, 训练得到基于语料库的 LDA模型, 包括: 统计语料库中每 个语料每个词的主题编号, 得到文档 ‑主题分布参数; 统计语料库中各个主题 ‑词的分布, 获取LDA模型的主题 ‑词分布参数; 根据文档 ‑主题分布参数, 确定语料库中文档的主题分布; 根据LDA模型的主题 ‑词分布参数, 确定语料库中每 个主题的词分布; 根据语料库中文档的主题分布和语料库中每个主题的词分布对LDA主题模型进行训 练, 得到基于语料库的LDA模型。 7.如权利要求1所述的方法, 其特征在于, 根据基于语料库的LDA模型, 对目标业务领域 交易日志进 行关键词提取, 建立关键词 库, 结合初始交易日志数据, 生成目标业务领域系统 的流水日志文件, 包括: 根据基于语料库的LDA模型, 建立基于LDA的S ‑LDA关键词提取算法;权 利 要 求 书 1/5 页 2 CN 114610576 A 2根据基于LDA的S ‑LDA关键词提取算法, 对目标业务领域交易日志进行关键词提取, 建 立关键词库; 根据关键词库和初始交易日志数据, 生成目标业 务领域系统的流水日志文件。 8.如权利要求7所述的方法, 其特征在于, 根据基于语料库的LDA模型, 建立基于LDA的 S‑LDA关键词提取算法, 包括: 根据给定的文本文件集, 构建模型训练所需的训练语料库, 利用基于语料库的LDA模型 对训练语料库进行训练得到LDA模型; 根据目标文本文件, 构建目标语料, 采用Gibbs采样算法预测得到目标语料的主题分 布; 对目标文本文件的主题进行 过滤, 得到过 滤后的主题集; 对主题集的主题对应在目标文本文件主题分布中的比重构建主题的选词权重, 按照主 题分布从大到小的概率顺序, 依 次从每个主题中选出设定数量的词, 并保持选出 的词出现 的先后顺序构建 关键词候选词集 合; 对关键词候选词集 合进行过滤, 确定目标文本文件的关键词。 9.如权利要求8所述的方法, 其特征在于, 对目标文本文件的主题进行过滤, 得到过滤 后的主题集, 包括: 设定第一辅助向量; 计算目标文本文件中各个主题的词分布与第一辅助向量的相似度, 确定第一JS散度 值; 当第一JS散度值小于第 一设定散度阈值 时, 将当前主题从目标文本文件的主题分布中 删除, 得到过 滤后的主题集。 10.如权利要求8所述的方法, 其特征在于, 对关键词候选词集合进行过滤, 确定目标文 本文件的关键词, 包括: 设定第二辅助向量; 计算关键词候选词集合中每一个候选词的主题分布与第 二辅助向量的相似度, 确定第 二JS散度值; 当第二JS散度值小于第二设定散度阈值时, 将当前候选词从关键词候选词集合中删 除, 从剩余的关键词候选词集合中选取词性为名词或动词、 在目标文本中出现且排名前S名 的候选词 作为目标文本文件的关键词; 所述排名前S名的候选词, 是按照候选词出现频率进 行从大到小的排序, 取排序前S个候选词所 得。 11.如权利 要求7所述的方法, 其特征在于, 根据基于LDA的S ‑LDA关键词提取算法, 对目 标业务领域交易日志进行关键词提取, 建立关键词库, 包括: 对目标业 务领域交易日志进行分词处 理; 采用基于LDA的S ‑LDA关键词提取算法, 对分词处理后的目标业务领域交易日志进行关 键词提取, 建立关键词库。 12.如权利要求7所述的方法, 其特征在于, 根据关键词库和初始 交易日志数据, 生成 目 标业务领域系统的流水日志文件, 包括: 依次取关键词库中的每个关键词, 从初始交易日志数据中查询出关键词对应的值, 生 成目标业 务领域系统的流水日志文件。权 利 要 求 书 2/5 页 3 CN 114610576 A 3

.PDF文档 专利 一种日志生成监控方法和装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种日志生成监控方法和装置 第 1 页 专利 一种日志生成监控方法和装置 第 2 页 专利 一种日志生成监控方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。