(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210618868.2
(22)申请日 2022.06.01
(71)申请人 南京航空航天大 学
地址 210016 江苏省南京市秦淮区御道街
29号
(72)发明人 朱友文 曹依然
(74)专利代理 机构 南京合砺 专利商标代理事务
所(普通合伙) 32518
专利代理师 许云花
(51)Int.Cl.
G06F 21/60(2013.01)
G06F 21/62(2013.01)
G06F 21/64(2013.01)
(54)发明名称
一种基于本地差分隐私的效用优化集合数
据保护方法
(57)摘要
本发明公开了一种基于本地差分隐私的效
用优化集合数据保护方法, 属于信息安全领域。
该方法包括服务器将原始数据域划分为敏感数
据域和非敏感数据域, 并将划分结果, 隐私预算
和数据条数公开; 用户对自己的集合数据进行采
样或填充, 然后根据数据所属类别, 在本地对其
进行扰动, 并将结果发送给服务器。 服务器收集
用户的扰动后数据, 分析计算出原始数据的频率
估计结果。 本发 明可以抵抗具有任意背景知 识的
攻击者和防止来自不可信第三方服务器的隐私
攻击; 本发 明可以在保证敏感数据保护力度不降
低的前提下, 提高整体数据效用, 进而提高服务
器统计结果的准确度。
权利要求书2页 说明书8页 附图2页
CN 115130119 A
2022.09.30
CN 115130119 A
1.一种基于 本地差分隐私的效用优化 集合数据保护方法, 其特 征在于: 包括以下步骤:
S1、 服务器将原始数据域X划分为敏感数据域XS和非敏感数据域XN, 且确定用户数据指
定条数m, 虚假数据域XT和所使用的隐私预算 ε, 并把XS, XN, XT, m和 ε 公开给用户;
S2、 用户对自己的数据进行预处理, 若数据条数大于m, 则从中随机抽取m条, 若数据条
数小于m, 则使用虚假数据补齐到m条, 虚假数据由用户自己从XT选择, 虚假数据也属于非敏
感数据;
s′表示用户预处 理后的数据, 即 s′={x1,x2,…,xm}, X′表示全体数据域, 即X ′=X∩XT;
S3、 用户根据s ′中数据所属类别进行扰动, 并把扰动后的数据和扰动中使用的哈希函
数发送给服 务器;
S4、 服务器根据用户发送 的扰动后数据和扰动中使用的哈希函数进行统计分析, 估算
出原始数据的频率分布结果。
2.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法, 其特征在
于: 在步骤(S3)中, 用户端原 始数据的扰动包括如下 过程:
S31、 由用户自己选择哈希函数h:X →[0.0,1.0), 即哈希函数h的输入域为全体数据域
X′, 输出域为[0.0,1.0), 然后对s ′中每一条数据 进行哈希, 得到哈希后的数据 v={h(x1),h
(x2),…,h(xm)}={v1,v2,…,vm};
S32、 计算覆 盖长度
正则化因子Ω= mpeε+1‑mp, 覆盖区域Cv={t|t∈[vi,
vi+p)或[0,vi+p‑1),i∈[1,m]}和覆盖区域的总长度 l, 然后按照如下公式所示概率密度得
到y0:
S33、 令
针对s′中每一条数据xi, 若xi∈s′N,
且
则将xi加入集合y1中;
S34、 将h, y0和y1发送给服 务器。
3.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法, 其特征在
于: 在步骤(S4)中, 服 务器估算频率分布结果包括如下步骤:
S41、 服务器收集到全部n个参与者发送的扰动结果, 将结果分为两组, 第一组是所有用
户发来的y0和h, 第二组是 所有用户发来的y1;
S42、 计算覆盖长度
正则化因子Ω=mpeε+1‑mp, 正确覆盖概率
错误覆盖概 率Pf=p;
S43: 针对XS中每条数据x, 令Fx=0, 遍历所有用户发来的y0和h, 若y0‑p<h(x)≤y0或y0‑
p+1<h(x)<1, 则Fx=Fx+1;
其中, 原始数据中x的估计频率
计算方式如下:权 利 要 求 书 1/2 页
2
CN 115130119 A
2S44、 针对XN中每条数据x, 令Fx=0, 遍历所有用户发来的y1, 若x∈y1, 则Fx=Fx+1;
其中, 原始数据中x的估计频率
计算方式如下:
4.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法, 其特征在
于: 该方法中, 用户数据指定条数m由服务器直接确定或者按照一定比例确定, 用户在本地
对自身数据条数进行扰动, 并将扰动后的结果发送给服务器, 服务器再聚合计算得到用户
数据条数估计值。
5.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法, 其特征在
于: 对于虚假数据域XT, 其确定计算过程包括如下 过程:
a)若原始数据域连续, 则首先找出原始数据域X的边界值Xu和Xd, Xu表示上边界, Xd表示
下边界, 然后根据上边界和下边界进行扩展, 构造虚假数据集XT, 若m为偶数, 则
若m为奇数, 则
若有数据范围限定
导致无法向其中一端继续扩展, 则向另一端继续扩展直至 选够m条虚假数据;
b)若原始数据域非连续, 则首先找出原始数据域X的边缘数据域XE, 即若x属于XE, 则必
有数据x′与x相邻且
然后通过向XE中的数据添加拉普拉斯噪声, 挑选出m条不在X中
的虚假数据构成XT。权 利 要 求 书 2/2 页
3
CN 115130119 A
3
专利 一种基于本地差分隐私的效用优化集合数据保护方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:38:53上传分享