(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111387115.7
(22)申请日 2021.11.22
(71)申请人 江苏大学
地址 212013 江苏省镇江市京口区学府路
301号
(72)发明人 言洪萍 王良民 姚旺 王世豪
何刘坤 赵蕙 宋香梅
(74)专利代理 机构 南京华恒专利代理事务所
(普通合伙) 32335
代理人 宋方园
(51)Int.Cl.
H04L 9/40(2022.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种针对匿名服务网站指纹攻击的特征提
取方法及系统
(57)摘要
本发明公开一种针对匿名服务网站指纹攻
击的特征提取方法及系统, 首先从原始流量中过
滤出匿名服务网页流量, 通过孪生模 型提取出双
重高维深度特征向量, 弥补现有技术依赖于使用
不同模型以提取多模态特征需要高计算开销的
缺点与直接使用参数共享机制易造成参数冗余
与梯度爆炸的缺点, 然后使用特征萃取 ‑融合网
络从双重高维深度特征向量中分离出特定特征
向量与共享特征向量, 并从样 本间与样本内两个
层面分析调整了特 征向量距离; 然后使用改进的
对数据进行降维, 最后通过动态特征融合
策略融合共享特征向量,使用该向量训练分类器
并识别匿名服务网页标签。 本发 明实现了从原始
流量中过滤出匿名服务网页流量, 提取用于网站
指纹攻击的融合特征, 提升了鲁棒性的同时保持
较高的识别率。
权利要求书4页 说明书9页 附图4页
CN 113904872 A
2022.01.07
CN 113904872 A
1.一种针对匿名服 务网站指纹攻击的特 征提取方法, 其特 征在于: 包括以下内容:
(1)采集网页流量文件中的原始数据包, 去除其中的噪声, 并根据数据包的时间间隔分
布来确定突 发间隔以及分割突发, 从每个不间断突发中提取出数据包大小序列与数据包方
向序列, 并通过孪生模型提取 出双重高维深度特 征向量;
(2)使用特征萃取 ‑融合网络中的稀疏自动编码层对步骤(1)所得特征向量线性投影和
非线性激活, 并从中分离出特定特征向量和共享特征向量, 然后通过逆向化余弦相似度来
衡量特征向量之间的距离并计算样本间和样本内的距离损失与输出特征向量的稀疏性惩
罚;
(3)改进L2,0.4‑norm PCA, 并结合不同的投影矩阵与重构矩阵对步骤(2)网络的最后一
层输出进行降维, 利用有标记样本训练网络, 通过降低网络损失提取出满足特征距离小与
参数稀疏性平衡的共享特 征;
(4)通过动态特征融合策略综合评价并计算两种共享特征集中所有特征的权重, 然后
按照特征集的不同分别进行归一化, 并将归一化后的权重之和作为整个特征集的权重, 最
后提取加权后的特 征向量。
2.根据权利要求1所述的针对匿名服务网站指纹攻击的特征提取方法, 其特征在于: 所
述步骤(1)提取双重高维深度特征向量时使用的孪生模型中设有部分参数共享机制, 其具
体过程为:
特征向量每经过一个一维卷积层都会被输入到一个BN批量归一化层, 并针对所属模态
计算尺度与偏差, 即
其中xs和ys为输入和输出的特征向量, μs和
是当
前小批量的均值与标准差, ∈为一个大于0小于1的常数; 激活层 使用PReLu同时考虑处理正
负输入, 即
其中α 为不共享的可学习参数; γs是指对xs归一化后
的值进行缩放的缩放因子, βs是指对xs归一化后的值进行移动的尺度, x是至BN层输出的特
征向量中的每个特征值, 即ys中的每个特征值, α是指对每个小于0的特征值进行缩放的缩
放因子;
该孪生模型中除BN层和激活层之外的所有平行卷积层参数均是部分跨模态共享, 即对
每层的卷积核均进行线性变换, 对于任意的卷积核集F, 其中每个卷积核Ft都可以表示为一
系列低秩的卷积核基加权求和得到Ft;
其中
为某一个卷积核基, Rank为卷积核基的秩, αr为系数, 此
处共享
且保留特定 于模态的αr。
3.根据权利要求1所述的针对匿名服务网站指纹攻击的特征提取方法, 其特征在于: 所
述步骤(1)所得的每一个双重高维深度特征向量对中均包含一定的相互共享信息与模态特
定信息, 然后步骤(2)使用 “特征距离 ‑参数稀疏性损失 ”来分离此双重高维深度特征, 具体
内容如下:
首先使用多层的稀疏自动编码器将双重 高维深度 特征向量分割为两个不同的部分, 即
特定特征向量
和共享特 征向量权 利 要 求 书 1/4 页
2
CN 113904872 A
2l代表层数, l∈{1,2 …,n};
和
分别
代表数据包大小和方向序列经过l+1层稀疏编码层提取后的特定特征向量;
和
分
别代表数据包大小和方向序列经 过l+1层稀疏编码层提取后的共享特 征向量;
Ws是指所有稀疏编码层共享的权重参数, 用于对第l层数据包大小序列的特定 特征向量
线性投影; Wd是指所有稀疏编码层共享的权重参数, 用于对第l层数据包方向序列的特定特
征向量线性投影;
是指分离第l层数据包大小序列特定特征向量时特定于第l层时的不
共享偏置;
是指分离第l层数据包方向序列特定特征 向量时特定于第l层时的不共享偏
置;
是指分离第l层数据包大小序列共享特征向量时特定于第l层时的不共享偏置;
是指分离第l层数据包方向序列共享特 征向量时特定 于第l层时的不共享偏置;
使用逆向化 余弦相似度来衡量两特 征向量之间的距离的方法为:
样本间共享特 征与样本内特定特 征的距离损失为:
其中,
代表串联共享特 征, i,j为同类样本、 j,k 为异类样本;
使用KL散度项作为输出 特征向量的稀疏度惩罚项。
4.根据权利要求1所述的针对匿名服务网站指纹攻击的特征提取方法, 其特征在于: 所
述步骤(3)通过改进PCA为L2,0.4‑norm PCA来对步骤(2)的分离数据进行降维, 具体过程如
下:
将稀疏自动 编码层的输出缩放到相同大小, 使用鲁棒的L2,0.4范数来衡量矩阵距离, 即
其中, A∈Rd×m, ap代表矩阵A任意第p行,
使用不同的投影矩阵与重构矩阵来分别得到最大化数据方差和最小化重构误差, 具体
为:
假设所得128维特征矩阵为X=[x1,x2,…,xn]∈R128×n, 定义投影矩阵P=[p1,…,pr]∈
R128×64与重构矩阵C=[c1,…,cr]∈R128×64, 其中64代 表降维后的维度; 此处R表示实数;
首先对每个特征向量中心化,
接着分别创建目标函数, 即最大化数
据方差
最小化数据重构损失
综合二者
即:
权 利 要 求 书 2/4 页
3
CN 113904872 A
3
专利 一种针对匿名服务网站指纹攻击的特征提取方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 04:21:44上传分享