(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211395111.8
(22)申请日 2022.11.09
(71)申请人 成都新希望金融信息有限公司
地址 610000 四川省成 都市高新区仁和街
39号6栋2层3号
(72)发明人 吴枭 汪劲松 王渊 吕文勇
周智杰 金秋
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 杜杨
(51)Int.Cl.
G06F 16/2458(2019.01)
G06N 3/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
时空数据异常识别方法、 装置和电子设备
(57)摘要
本申请提供一种时空数据 异常识别方法、 装
置和电子设备, 将获得的时空序列数据按不同的
窗口大小和步长大小进行提取得到多组时空序
列样本。 利用多组时空序列 样本训练得到多个第
一预测模型, 并基于各个第一预测模 型的性能确
定最优窗口大小和最优步长大小。 得到最优窗口
大小和最优步长大小下的时空序列样本的时空
静态指标, 利用时空静态指标训练得到第二预测
模型。 最后利用最优窗口大小和最优步长大小的
第一预测模型和第二预测模型对待识别时空数
据进行异常检测。 本方案中, 利用最优窗口大小
和最优步长大小下的时空数据进行模 型训练, 可
以避免无关数据对训练的干扰, 提高训练的效
果, 且结合两个模型进行综合判断, 可 以保障对
时空数据校验的准确度。
权利要求书2页 说明书15页 附图6页
CN 115438102 A
2022.12.06
CN 115438102 A
1.一种时空数据异常识别方法, 其特 征在于, 所述方法包括:
获得用户时空信 息相关的时空序列 数据, 并将所述 时空序列 数据按不同的窗口大小和
步长大小 进行提取 得到多组时空序列样本;
分别利用各组时空序列样本对构建的长短期记忆网络模型进行训练, 基于训练得到的
对应的各个第一预测模型的性能确定最优窗口大小和最优步长大小;
对最优窗口大小和最优步长大小下的时空序列样本进行处理得到时空静态指标, 并利
用所述时空静态指标对构建的孤立森林异常检测模型进行训练, 得到第二预测模型;
利用所述最优窗口大小和最优步长大小下的第一预测模型和第二预测模型分别得到
待识别时空数据的第一检测结果和 第二检测结果, 并根据所述第一检测结果和 第二检测结
果判断所述待识别时空数据是否存在异常。
2.根据权利要求1所述的时空数据异常识别方法, 其特征在于, 所述获得用户时空信 息
相关的时空序列数据的步骤, 包括:
获得用户触发的多个事 件中各所述事件的时空信息数据;
基于所述多个事 件中每相邻两个事 件的时空信息数据得到事 件之间的时空序列数据。
3.根据权利要求2所述的时空数据异常识别方法, 其特征在于, 所述 时空序列 数据包括
多个维度下的时空序列数据, 所述方法还 包括:
针对每相邻 两个事件之间的各个维度 下的时空序列数据, 按照设置的最小时间单位对
所述时空序列数据进 行线性差值处理得到新的时空序列数据, 或者对所述时空序列数据进
行替代差值处 理得到新的时空序列数据。
4.根据权利要求3所述的时空数据异常识别方法, 其特征在于, 所述将所述 时空序列 数
据按不同的窗口大小和步长大小 进行提取 得到多组时空序列样本的步骤, 包括:
确定所述多个事件中的关键事件, 并按不同的窗口大小截取所述关键事件之前的用户
所触发的事 件相关的时空序列数据;
针对截取的各段时空序列数据, 采用不同的步长大小对所述时空序列数据进行提取,
得到多组时空序列样本 。
5.根据权利要求1所述的时空数据异常识别方法, 其特征在于, 各组时空序列样本具有
样本标签;
所述分别利用各组时空序列样本对构建的长短期记忆网络模型进行训练, 基于训练得
到的对应的各个第一预测模型的性能确定最优窗口大小和最优步长大小的步骤, 包括:
针对各组时空序列样本, 将所述 时空序列样本导入构建的长短期记忆网络模型进行训
练, 输出所述时空序列样本的预测结果;
在基于所述 时空序列样本的样本标签和预测结果构建的损失函数的指导下, 调 整所述
长短期记忆网络模型的模型参数并继续训练, 直至满足预设要求时停止训练得到对应的第
一预测模型;
根据各个第 一预测模型的性 能确定最优第 一预测模型, 并将所述第 一预测模型对应的
窗口大小和步长大小确定为 最优窗口大小和最优步长大小。
6.根据权利要求1所述的时空数据异常识别方法, 其特征在于, 所述对最优窗口大小和
最优步长大小下的时空序列样本进行处 理得到时空静态指标的步骤, 包括:
针对最优窗口大小和最优步长大小下的各个维度的时空序列样本, 计算所述 时空序列权 利 要 求 书 1/2 页
2
CN 115438102 A
2样本中包含的多个序列值的最大值、 最小值、 平均值、 中值、 众值、 方差、 累加和、 首位差和末
值, 以作为时空静态指标。
7.根据权利要求1所述的时空数据异常识别方法, 其特征在于, 所述利用所述 时空静态
指标对构建的孤立森林异常检测模型进行训练, 得到第二预测模型的步骤, 包括:
从所述时空静态指标中随机 选择预设个数构成子集;
从所述子集中的时空静态指标中随机抽取一个维度的指标数据作为所述子集构成的
树结构中的根节点特征, 并重复随机产生切割点对当前数据空间进行划分以构建新的子节
点, 直至子节点只包 含单个指标 数据或者 树结构达 到目标高度为止;
在构建的树结构的数量达 到目标数量时, 得到训练完成的第二预测模型。
8.根据权利要求1所述的时空数据异常识别方法, 其特征在于, 所述第 二检测结果包括
所述待识别时空数据对应的时空静态指标中多个维度下的综合异常 分值;
所述根据所述第一检测结果和第二检测结果判断所述待识别时空数据是否存在异常
的步骤, 包括:
在所述第一检测结果和所述第 二检测结果中的综合异常分值均不存在异常时, 判定所
述待识别时空数据不存在异常;
在所述第一检测结果和所述第 二检测结果中的综合异常分值均存在异常时, 判定所述
待识别时空数据存在异常;
在所述第一检测结果和所述第 二检测结果中的综合异常分值其中之一存在异常时, 基
于所述第二检测结果还包括的所述待识别时空数据对应的时空静态指标中各维度下的独
立异常分值判断所述待识别时空数据是否存在异常。
9.一种时空数据异常识别装置, 其特 征在于, 所述装置包括:
获取模块, 用于获得用户时空信息相关的时空序列数据, 并将所述时空序列数据按不
同的窗口大小和步长大小 进行提取 得到多组时空序列样本;
第一训练模块, 用于分别利用各组时空序列样本对构建的长短期记忆网络模型进行训
练, 基于训练得到的对应的各个第一预测模型的性能确定最优窗口大小和最优步长大小;
第二训练模块, 用于对最优窗口大小和最优步长大小下的时空序列样本进行处理得到
时空静态指标, 并利用所述时空静态指标对构建的孤立森林异常检测模型进行训练, 得到
第二预测模型;
判断模块, 用于利用所述最优窗口大小和最优步长大小下的第 一预测模型和第 二预测
模型分别得到待识别时空数据的第一检测结果和 第二检测结果, 并根据所述第一检测结果
和第二检测结果判断所述待识别时空数据是否存在异常。
10.一种电子设备, 其特征在于, 所述电子设备包括: 存储器和至少一个处理器, 所述存
储器中存储有指令; 所述至少一个处理器调用所述存储器中的所述指令, 以使得所述电子
设备执行如权利要求1至8中任意 一项所述的时空数据异常识别方法。权 利 要 求 书 2/2 页
3
CN 115438102 A
3
专利 时空数据异常识别方法、装置和电子设备
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:50上传分享