专利一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111409785.4 (22)申请日 2021.11.24 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号申请人绿盟科技集团股份有限公司 (72)发明人李童　刘晓东　张润滋　杨震　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 代理人张慧 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/10(2019.01) H04L 9/40(2022.01) (54)发明名称一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法 (57)摘要本发明公开了一种基于生成对抗网络和k ‑ 近邻算法提高入侵检测性能的过采样方法，用于提高入侵检测的性能，具体包括：对原始数据进行数值化和归一化处理；基于WGAN ‑GP构建生成模型并利用少数类攻击样本和随机噪声对其训练，使生成器对攻击分布进行建模，从而生成攻击样本；采用k ‑近邻算法过滤生成攻击样本中的噪声；最后，利用方差分析对数据的字段属性进行重要性排序，根据排序结果进行特征选择，去除不必要的特征，最终得到过采样后的训练集；利用本发明生成的过采样后的训练集能够有效提升入侵检测模型的性能。权利要求书1页说明书7页附图1页 CN 114091661 A 2022.02.25 CN 114091661 A 1.一种基于生成对抗网络和k ‑近邻算法提高入侵检测性能的过采样方法，其特征在于：包括以下步骤，步骤(1)数据预处理：入侵检测的数据实例包含字符型特征和数值型特征，对于字符型特征，对其进行数值型转换，使其适用于训练，具体的，将字符型特征映射为[0,S ‑1]之间的整数值，其中S是特征值的个数，经过数值化处理后，数据集中的特征均为数值型，为了消除指标之间的量纲影响，通过如下公式将所有特征值缩放至[0,1]区间，其中x是归一化之前的特征值， x ′是归一化之后的特征值， xmax为相应特征的最大值， xmin为相应特征的最小值，经过数据数值化和归一化之后，根据需要生成样本的攻击类型提取相应的攻击子集，命名为D SAttack；步骤(2)针对每一种攻击分别构建生成模型，其中，攻击样本生成模型基于WGAN ‑GP设计，由生成器和判别器组成，定义生成器为G，判别器为D， G和D均为前馈神经网络， G依次包括输入层、 4个隐藏层和输出层，输出层得到的样本为生成的样本，输出层神经元个数与预处理后的数据维度相同，激活函数为Linear，其余层激活函数为 ReLu； D包括输入层、隐藏层和输出层， D的输出层结果用来判定样本是真实样本还是生成样本，输出层神经元个数设置为1，激活函数为 Linear，其余层激活函数为ReLu；步骤(3)将经过步骤(1)预处理之后的原始训练集输入训练完成的对应攻击的生成器中，生成相应的攻击样本集合SampleAttack；步骤(4)利用k ‑近邻算法过滤生成的攻击样本集合中的噪声数据，当生成样本的近邻中有超过半数是非攻击样本时，将当前样本视为噪声并从集合中删除，其中， k值设置为3 ‑5 之间；步骤(5)利用方差分析法进行特征选择，具体的，将噪声过滤后的攻击样本集合与原始训练集合并，对全部特征进行重要性排序，在去除不必要特征后，最终得到用于入侵检测模型训练的新训练集D Snew。 2.根据权利要求1所述的一种基于生成对抗网络和k ‑近邻算法提高入侵检测性能的过采样方法，其特征在于：步骤(2)所述的生成模型的初始化和训练过程具体如下，第一步，按照上述设计初始化生成器和判别器的网络结构，并且定义一个服从正态分布的噪声分布；第二步，准备真实数据和噪声数据:真实数据是从步骤(1)中得到的攻击子集DSAttack，噪声Noise是从噪声分布中取得与DSAttack数据量相同的噪声；第三步，固定生成器，训练判别器:噪声Noise通过生成器生成相同数量的样本 SampleAttack，利用DSAttack和SampleAttack训练判别器，使判别器可以区分数据是来自DSAttack 的真实数据还是来自SampleAttack；第四步，固定判别器，训练生成器：采用经过第三步训练k轮次后的判别器训练生成器，用于使判别器无法区分数据是D SAttack还是SampleAttack；按照第三步和第四步多次更新迭代生成器和判别器，最终使判别器无法区分数据到底是真实的训练样本还是生成器生成的样本时，完成训练。权　利　要　求　书 1/1 页 2 CN 114091661 A 2一种基于生成对抗网络和k‑近邻算法提高入侵检测性能的过采样方法技术领域 [0001]本发明涉及一种基于生成对抗网络和k ‑近邻算法的过采样技术，用于提高入侵检测的性能，属于入侵检测领域。背景技术 [0002]入侵检测是一种有效的检测和防御网络攻击的方法，它可以实时监控网络流量，将网络记录分为正常记录和恶意记录，为防御系统提供必要信息。随着大数据时代的到来，机器学习方法得到了高速发展，也成为了入侵检测广泛采用的方法。然而，在现实生活中攻击发生的频率远低于正常活动，用于机器学习模型训练的数据集往往是不平衡的，从而影响检测性能。过采样技术通常用于解决数据集不平衡的问题。研究人员提出了合成少数过采样技术(SMOTE)和自适应合成采样技术(ADASYN)，它们通过在同一类的两个实例之间插入来生成样本。但是网络流量的复杂性导致其类边界模糊，使用插值可能会产生跨边界的样本，增加了决策边界的混乱。此外，这些方法只关注类标签，不考虑特征关系的相似性，增加了产生噪声的风险。 [0003]生成对抗网络(GAN)是一种深度学习模型，可以模拟复杂的高维分布的真实世界数据，其结构如图1所示。它受到博弈论中两人零和博弈的启发，由一个生成器和一个判别器组成。生成器和判别器都是神经网络结构。生成器捕捉真实数据样本的潜在分布，生成新的数据；判别器判断输入的是真实数据还是生成的数据。生成器网络使用判别器作为损耗函数，并更新其参数以生成看起来更真实的数据。另一方面，判别器网络更新其参数，以便更好地从真实数据中识别出生成的数据。两个网络通过迭代训练，使生成器可以生成接近真实的样本。 GA N根据数据分布生成的样本在特征上更接近真实数据，因此已经有研究者将 GAN应用于入侵检测中，用于生成攻击样本。然而，基于 GAN的过采样方法同样存在产生噪声的风险。 [0004]k‑近邻算法(KNN)是一个有监督的机器学习算法，可以用来解决分类问题和回归问题。 KNN算法的核心思想是未标记样本的类别，由距离其最近的k个邻居投票来决定。具体的，对于一个未标记的实例，在训练集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分类到这个类中。基于这一思想，我们可以将其用于噪声过滤，即对于生成的攻击样本，在训练集中找到与该实例最邻近的k个实例，如果这k个实例的多数属于非攻击样本，那么我们将其标记为噪声。 [0005]方差分析(ANOVA)是一种常用的特征选择方法，通过特征本身的方差来筛选特征。如果一个特征本身的方差很小，就表示样本在这个特征上基本没有差异，可能特征中的大多数值都一样，甚至整个特征的取值都相同，那这个特征对于样本区分没有什么作用。因此，我们基于ANOVA分别计算每个特征的f值。最后，根据特征的重要性进行排序，得到最佳子集。说　明　书 1/7 页 3 CN 114091661 A 3

专利 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法

专利一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法