专利一种针对匿名服务网站指纹攻击的特征提取方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111387115.7 (22)申请日 2021.11.22 (71)申请人江苏大学地址 212013 江苏省镇江市京口区学府路 301号 (72)发明人言洪萍　王良民　姚旺　王世豪　何刘坤　赵蕙　宋香梅　 (74)专利代理机构南京华恒专利代理事务所 (普通合伙) 32335 代理人宋方园 (51)Int.Cl. H04L 9/40(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称一种针对匿名服务网站指纹攻击的特征提取方法及系统 (57)摘要本发明公开一种针对匿名服务网站指纹攻击的特征提取方法及系统，首先从原始流量中过滤出匿名服务网页流量，通过孪生模型提取出双重高维深度特征向量，弥补现有技术依赖于使用不同模型以提取多模态特征需要高计算开销的缺点与直接使用参数共享机制易造成参数冗余与梯度爆炸的缺点，然后使用特征萃取 ‑融合网络从双重高维深度特征向量中分离出特定特征向量与共享特征向量，并从样本间与样本内两个层面分析调整了特征向量距离；然后使用改进的对数据进行降维，最后通过动态特征融合策略融合共享特征向量,使用该向量训练分类器并识别匿名服务网页标签。本发明实现了从原始流量中过滤出匿名服务网页流量，提取用于网站指纹攻击的融合特征，提升了鲁棒性的同时保持较高的识别率。权利要求书4页说明书9页附图4页 CN 113904872 A 2022.01.07 CN 113904872 A 1.一种针对匿名服务网站指纹攻击的特征提取方法，其特征在于：包括以下内容： (1)采集网页流量文件中的原始数据包，去除其中的噪声，并根据数据包的时间间隔分布来确定突发间隔以及分割突发，从每个不间断突发中提取出数据包大小序列与数据包方向序列，并通过孪生模型提取出双重高维深度特征向量； (2)使用特征萃取 ‑融合网络中的稀疏自动编码层对步骤(1)所得特征向量线性投影和非线性激活，并从中分离出特定特征向量和共享特征向量，然后通过逆向化余弦相似度来衡量特征向量之间的距离并计算样本间和样本内的距离损失与输出特征向量的稀疏性惩罚； (3)改进L2,0.4‑norm PCA，并结合不同的投影矩阵与重构矩阵对步骤(2)网络的最后一层输出进行降维，利用有标记样本训练网络，通过降低网络损失提取出满足特征距离小与参数稀疏性平衡的共享特征； (4)通过动态特征融合策略综合评价并计算两种共享特征集中所有特征的权重，然后按照特征集的不同分别进行归一化，并将归一化后的权重之和作为整个特征集的权重，最后提取加权后的特征向量。 2.根据权利要求1所述的针对匿名服务网站指纹攻击的特征提取方法，其特征在于：所述步骤(1)提取双重高维深度特征向量时使用的孪生模型中设有部分参数共享机制，其具体过程为：特征向量每经过一个一维卷积层都会被输入到一个BN批量归一化层，并针对所属模态计算尺度与偏差，即其中xs和ys为输入和输出的特征向量， μs和是当前小批量的均值与标准差， ∈为一个大于0小于1的常数；激活层使用PReLu同时考虑处理正负输入，即其中α 为不共享的可学习参数； γs是指对xs归一化后的值进行缩放的缩放因子， βs是指对xs归一化后的值进行移动的尺度， x是至BN层输出的特征向量中的每个特征值，即ys中的每个特征值， α是指对每个小于0的特征值进行缩放的缩放因子；该孪生模型中除BN层和激活层之外的所有平行卷积层参数均是部分跨模态共享，即对每层的卷积核均进行线性变换，对于任意的卷积核集F，其中每个卷积核Ft都可以表示为一系列低秩的卷积核基加权求和得到Ft；其中为某一个卷积核基， Rank为卷积核基的秩， αr为系数，此处共享且保留特定于模态的αr。 3.根据权利要求1所述的针对匿名服务网站指纹攻击的特征提取方法，其特征在于：所述步骤(1)所得的每一个双重高维深度特征向量对中均包含一定的相互共享信息与模态特定信息，然后步骤(2)使用 “特征距离 ‑参数稀疏性损失 ”来分离此双重高维深度特征，具体内容如下：首先使用多层的稀疏自动编码器将双重高维深度特征向量分割为两个不同的部分，即特定特征向量和共享特征向量权　利　要　求　书 1/4 页 2 CN 113904872 A 2l代表层数， l∈{1,2 …,n}；和分别代表数据包大小和方向序列经过l+1层稀疏编码层提取后的特定特征向量；和分别代表数据包大小和方向序列经过l+1层稀疏编码层提取后的共享特征向量； Ws是指所有稀疏编码层共享的权重参数，用于对第l层数据包大小序列的特定特征向量线性投影； Wd是指所有稀疏编码层共享的权重参数，用于对第l层数据包方向序列的特定特征向量线性投影；是指分离第l层数据包大小序列特定特征向量时特定于第l层时的不共享偏置；是指分离第l层数据包方向序列特定特征向量时特定于第l层时的不共享偏置；是指分离第l层数据包大小序列共享特征向量时特定于第l层时的不共享偏置；是指分离第l层数据包方向序列共享特征向量时特定于第l层时的不共享偏置；使用逆向化余弦相似度来衡量两特征向量之间的距离的方法为：样本间共享特征与样本内特定特征的距离损失为：其中，代表串联共享特征， i,j为同类样本、 j,k 为异类样本；使用KL散度项作为输出特征向量的稀疏度惩罚项。 4.根据权利要求1所述的针对匿名服务网站指纹攻击的特征提取方法，其特征在于：所述步骤(3)通过改进PCA为L2,0.4‑norm PCA来对步骤(2)的分离数据进行降维，具体过程如下：将稀疏自动编码层的输出缩放到相同大小，使用鲁棒的L2,0.4范数来衡量矩阵距离，即其中， A∈Rd×m， ap代表矩阵A任意第p行，使用不同的投影矩阵与重构矩阵来分别得到最大化数据方差和最小化重构误差，具体为：假设所得128维特征矩阵为X＝[x1,x2,…,xn]∈R128×n，定义投影矩阵P＝[p1,…,pr]∈ R128×64与重构矩阵C＝[c1,…,cr]∈R128×64，其中64代表降维后的维度；此处R表示实数；首先对每个特征向量中心化，接着分别创建目标函数，即最大化数据方差最小化数据重构损失综合二者即：权　利　要　求　书 2/4 页 3 CN 113904872 A 3

专利 一种针对匿名服务网站指纹攻击的特征提取方法及系统

专利一种针对匿名服务网站指纹攻击的特征提取方法及系统