全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111409785.4 (22)申请日 2021.11.24 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 申请人 绿盟科技 集团股份有限公司 (72)发明人 李童 刘晓东 张润滋 杨震  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 代理人 张慧 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/10(2019.01) H04L 9/40(2022.01) (54)发明名称 一种基于生成对抗网络和k-近邻算法提高 入侵检测性能的过采样方法 (57)摘要 本发明公开了一种基于生成对抗网络和k ‑ 近邻算法提高入侵检测性能的过采样方法, 用于 提高入侵检测的性能, 具体包括: 对原始数据进 行数值化和归一化处理; 基于WGAN ‑GP构建生成 模型并利用少数类攻击样本和随机噪声对其训 练, 使生成器对攻击分布进行建模, 从而生成攻 击样本; 采用k ‑近邻算法过滤生成攻击样本中的 噪声; 最后, 利用方差分析对数据的字段属性进 行重要性排序, 根据排序结果进行特征选择, 去 除不必要的特征, 最终得到过采样后的训练集; 利用本发明生成的过采样后的训练集能够有效 提升入侵 检测模型的性能。 权利要求书1页 说明书7页 附图1页 CN 114091661 A 2022.02.25 CN 114091661 A 1.一种基于生成对抗网络和k ‑近邻算法提高入侵检测性能的过采样方法, 其特征在 于: 包括以下步骤, 步骤(1)数据预处理: 入侵检测的数据实例包含字符型特征和数值型特征, 对于字符型 特征, 对其进行数值型转换, 使其适用于训练, 具体的, 将 字符型特征映射为[0,S ‑1]之间的 整数值, 其中S是特征值的个数, 经过数值化处理后, 数据集中的特征均为数值型, 为了消除 指标之间的量纲影响, 通过如下公式将所有特 征值缩放至[0,1]区间, 其中x是归一化之前的特征值, x ′是归一化之后的特征值, xmax为相应特征的最大值, xmin为相应特征的最小值, 经过数据数值化和归一化之后, 根据需要生成样本的攻击类型提 取相应的攻击 子集, 命名为D SAttack; 步骤(2)针对每一种攻击分别构建生成模型, 其中, 攻击样本生成模型基于WGAN ‑GP设 计, 由生成器和判别器组成, 定义生成器为G, 判别器为D, G和D均为前馈神经网络, G依次包 括输入层、 4个隐藏层和输出层, 输出层得到的样本为生成的样本, 输出层神经元个数与预 处理后的数据维度相同, 激活函数为Linear, 其余层激活函数为 ReLu; D包括输入层、 隐藏层 和输出层, D的输出层结果用来判定样本是真实样本还是生成样本, 输出层神经元个数设置 为1, 激活函数为 Linear, 其余层激活函数为ReLu; 步骤(3)将经过步骤(1)预处理之后的原始训练集输入训练完成的对应攻击的生成器 中, 生成相应的攻击样本集 合SampleAttack; 步骤(4)利用k ‑近邻算法过滤生成的攻击样本集合中的噪声数据, 当生成样本的近邻 中有超过半数是非攻击样 本时, 将当前样 本视为噪声并从集合中删除, 其中, k值设置为3 ‑5 之间; 步骤(5)利用方差分析法进行特征选择, 具体的, 将噪声过滤后的攻击样本集合与原始 训练集合并, 对全部特征进行重要性排序, 在去除不必 要特征后, 最 终得到用于入侵检测模 型训练的新训练集D Snew。 2.根据权利要求1所述的一种基于生成对抗网络和k ‑近邻算法提高入侵检测性 能的过 采样方法, 其特 征在于: 步骤(2)所述的生成模型的初始化和训练过程具体如下, 第一步, 按照上述设计初始化生成器和判别器的网络结构, 并且定义一个服从正态分 布的噪声分布; 第二步, 准备真实数据和噪声数据:真实数据是从步骤(1)中得到的攻击子集DSAttack, 噪声Noise是从噪声分布中取 得与DSAttack数据量相同的噪声; 第三步, 固定生成器, 训练判别器:噪声Noise通过生成器生成相同数量的样本 SampleAttack, 利用DSAttack和SampleAttack训练判别器, 使判别器可以区分数据是来自DSAttack 的真实数据还是来自SampleAttack; 第四步, 固定判别器, 训练生成器: 采用经过第三步训练k轮次后的判别器训练生成器, 用于使判别器无法区分数据是D SAttack还是SampleAttack; 按照第三步和第四步多次更新迭代生成器和判别器, 最终使判别器无法区分数据到底 是真实的训练样本还是生成器生成的样本时, 完成训练。权 利 要 求 书 1/1 页 2 CN 114091661 A 2一种基于生成 对抗网络和k‑近邻算法提高入侵检测性能的过 采样方法 技术领域 [0001]本发明涉及一种基于生成对抗网络和k ‑近邻算法的过采样技术, 用于提高入侵检 测的性能, 属于入侵检测领域。 背景技术 [0002]入侵检测是一种有效的检测和防御网络攻击 的方法, 它可以实时监控网络流量, 将网络记录 分为正常记录和恶意记录, 为防御系统提供必 要信息。 随着大数据时代的到来, 机器学习方法得到了高速发展, 也成为了入侵检测广泛采用的方法。 然而, 在现实生活中攻 击发生的频率远低于正常活动, 用于机器学习模型训练的数据集往往是不平衡的, 从而影 响检测性能。 过采样技术通常用于解决数据集不平衡的问题。 研究人员提出了合成少数过 采样技术(SMOTE)和自适应合成采样技术(ADASYN), 它们通过在同一类的两个实例之间插 入来生成样本。 但是网络流量的复杂性导致其类边界模糊, 使用插值可能会产生跨边界的 样本, 增加了决策边界的混乱。 此外, 这些方法只关注类标签, 不考虑特征关系的相似性, 增 加了产生噪声的风险。 [0003]生成对抗网络(GAN)是一种深度学习模型, 可以模拟复杂的高维分布的真实世界 数据, 其结构如图1所示。 它受到博弈论中两人零和博弈 的启发, 由一个生成器和一个判别 器组成。 生成器和判别器都是神经网络结构 。 生成器捕捉真实数据样 本的潜在分布, 生 成新 的数据; 判别器判断输入的是真实数据还是生成的数据。 生成器网络使用判别器作为损耗 函数, 并更新其参数以生成看起来更真实的数据。 另一方面, 判别器网络更新其参数, 以便 更好地从真实数据中识别出生成的数据。 两个网络通过迭代训练, 使生成器可以生成接近 真实的样本。 GA N根据数据分布 生成的样本在特征上更接近 真实数据, 因此已经有研究者将 GAN应用于入侵检测中, 用于生成攻击样 本。 然而, 基于 GAN的过采样方法同样存在产生噪声 的风险。 [0004]k‑近邻算法(KNN)是一个有监督 的机器学习算法, 可以用来解决分类问题和回归 问题。 KNN算法的核心思想是未标记样 本的类别, 由距离其最近的k个邻居投票来决定。 具体 的, 对于一个未标记的实例, 在训练集中找到与该实例最邻近的k个实例, 这k个实例的多 数 属于某个类, 就把该输入实例分类到这个类中。 基于这一思想, 我们可以将其用于噪声过 滤, 即对于生成的攻击样本, 在训练集中找到与该实例最邻近的k个实例, 如果这k个实例的 多数属于非攻击样本, 那么我们将其标记为噪声。 [0005]方差分析(ANOVA)是一种常用的特征选择方法, 通过特征本身的方差来筛选特征。 如果一个特征本身的方差很小, 就表示样本在这个特征上基本没有差异, 可能特征中的大 多数值都一样, 甚至整个特征的取值都相同, 那这个特征对于样本区分没有什么作用。 因 此, 我们基于ANOVA分别计算每个特征的f值。 最后, 根据特征的重要性进行排序, 得到最佳 子集。说 明 书 1/7 页 3 CN 114091661 A 3

.PDF文档 专利 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法 第 1 页 专利 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法 第 2 页 专利 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:20:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。