全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111639035.6 (22)申请日 2021.12.2 9 (71)申请人 深圳前海新心数字科技有限公司 地址 518000 广东省深圳市前海合作区前 湾一路1号A栋201室 (72)发明人 谈扬  (74)专利代理 机构 深圳市百瑞专利商标事务所 (普通合伙) 44240 代理人 金辉 (51)Int.Cl. G06N 20/20(2019.01) G06F 21/60(2013.01) G06F 17/18(2006.01) G06F 7/50(2006.01) (54)发明名称 联邦学习环境中基于第三方高效皮尔森系 数计算方法 (57)摘要 本发明是联邦学习环境中基于第三方高效 皮尔森系数计算方法, 该方法中, 选择开源的 FATE做计算Pearson系数的整体计算通信的框 架, 参与特征相关性系数计算的两方分别为A方 和B方, 半诚实第三方为C方。 已有的方案为了安 全地生成Beaver  Triplets三元对, 需要使用了 大量同态加密运算, 新方案中, 通过一个半诚实 的第三方, 在不牺牲安全性的同时, 能够去掉同 态加密运算, 安全地生成(a ,b ,c)Beaver   Triplets三元组, 同时使两方各自获得(a,b,c) 的加法秘密共享share。 由于没有了原有方案中 Paillier同态加密中大量大整数模幂运算, 只有 张量点积, 以及加减运算, 所以效率将得到大幅 提升。 权利要求书1页 说明书5页 附图1页 CN 114358323 A 2022.04.15 CN 114358323 A 1.联邦学习环境中基于第三方高效皮尔森系数计算方法, 该方法中, 选择开源的FATE 做计算Pearson系数的整体计算通信的框架, 参与特征相关性系数计算的两方分别为A方和 B方, 半诚实第三方为C方; 其特 征在于: 包括以下步骤: 步骤S1、 参与计算相 关性系数的双方A, B, 将各自的特征数据张量x,y做一个加法秘密 共享, 每一方都将得到对方 数据张量的一个加法秘密共享份额; 步骤S2、 参与计算相 关性系数的双方A, B, 在获取对方的数据张量x,y的加法秘密共享 份额后, 各自在本地生成与特征数据张量x,y相同规模的张量ai,bi,作为三元组a,b中的一 个加法秘密共享; 步骤S3、 参与计算相关性系数的双方A, B将各自的生成的张量ai,bi发送给半诚实第三 方C; 步骤S4、 半诚实第三方C利用收到的张量ai,bi相加得到三元组中的a,b,并进一步计算 所述三元组中的c, c是张量a,b之间点积; 步骤S5、 半诚实第三方C将c做一个加法秘密共享生成c1,c2, 并分别发送给参与计算相 关性系数的双方A,B; 步骤S6、 参与计算相关性系数的双方A, B分别获取ci后, 各自使用已有的三元组份额ai, bi,ci, 以及张量xi,yi, 通过和对 方交互计算得到zi, zi等于张量x,y之间点积 z的加法秘密共 享份额; 步骤S7、 参与计算相关性系数的双方A, B各 自交互zi,并相加得到z, 作为双方特征相关 系数张量输出。 2.根据权利要求1所述的联邦学习环境中基于第三方高效皮尔森系数计算方法, 其特 征在于: 在步骤S1之前还 包括: 步骤S0、 参与计算相关性系数的双方A, B根据各自的输入数据进行样本对齐。 3.根据权利要求2所述的联邦学习环境中基于第三方高效皮尔森系数计算方法, 其特 征在于: 样本对齐算法采用安全的隐私求交算法。 4.根据权利要求3所述的联邦学习环境中基于第三方高效皮尔森系数计算方法, 其特 征在于: 样本对齐算法采用的算法是 FATE自带的基于RSA的隐私求交算法。 5.根据权利要求2所述的联邦学习环境中基于第三方高效皮尔森系数计算方法, 其特 征在于: 在所述的步骤S 0中还包括: 参与计算相关性系数的双方A,B还需要对各自的数据集 进行预处理。 6.根据权利要求5所述的联邦学习环境中基于第三方高效皮尔森系数计算方法, 其特 征在于: 所述的数据集进行 预处理包括: 对于参与计算相关性系数的A的数据集X, 对于每个xi∈X,首先计算sum_x=∑xi,sum_ x2=∑xi2 avg_x=sum_x/n,其中n 为数据集X的元 素个数 那么 将X中所有xi代替为xi’, 并作为新的数据集输出表示为x,其中xi'=(xi‑avg_x)/α; 类似 的B方的数据集Y也进行同样的处 理, 输出数据集y。权 利 要 求 书 1/1 页 2 CN 114358323 A 2联邦学习 环境中基于第三 方高效皮尔森 系数计算方 法 技术领域 [0001]本发明涉及联邦学习环境中基于第三方高效皮尔森系数计算方法方法。 背景技术 [0002]以下是本领域的一些基础 知识: [0003]联邦机器学习: 隐私计算在机器学习领域的应用, 在不泄露各方隐私数据的情况 下, 能够融合多方的数据, 通过机器学习算法, 训练模型, 进行 预测。 [0004]联邦学习的安全 模型多为半诚实模型。 [0005]特征工程: 一种在机器学习工程中的数据预处理方法, 对样本 的特征数据进行筛 选, 以及特 征数据的离 散化, 以便之后能够训练出 更好的机器学习模型。 [0006]皮尔森(Pearson)系数: 一种计算数据相关性的方法, 可以用在特征工程中, 计算 样本数据特征之 间的相关性, 以便筛选出对整体模 型预测作用不大, 无关多余的特征。 方便 后期进行 更好, 更高效的机器学习模型训练。 [0007]半诚实安全模型: 在分析一种计算或通信协议安全性时候的一种模型, 在这种安 全模型下, 协议参与者会严格遵守协议的相关步骤和要求, 但是攻击者会试图通过协议过 程中获取的数据得到其 他其不应该知道的数据。 [0008]多方安全计算: 安全多方计算是一类密码学技术, 也是当前密码学领域的一个热 门研究方向, 属于隐私计算范畴。 主要用于两方或者多方希望在不泄露自己隐私输入数据 的情况下, 根据各方输入数据, 共同计算一个函数结果。 安全多方计算除了最终结果之外, 每一方的输入都能保持隐私性。 [0009]该研究方向起源于图灵机获得者姚期智提出的百万富翁问题, 初期的解决方案效 率较低, 并不 实用。 近年来, 随着该类技术的不断发展, 效率大大提高, 并开始逐步有实际落 地应用。 [0010]全同态加密: 全同态加密是一种对密文可以进行任意计算(分为算术上的加法, 乘 法, 或者逻辑比特位上的异或与AND), 解密后得到的结果是相应明文进行相同计算结果的 一种加密算法。 [0011]半同态加密, 有限级数的全同态加密: 目前, 由于全同态加密在应用上往往存在效 率和存储 上的限制, 应用更加广泛的是半同态加密, 或者有限级 数的全同态加密。 其中半同 态加密算法只支持密 文加法或者乘法的同态运算, 而有限级 数的全同态加密则支持加法和 有限级数的乘法同态。 [0012]联邦学习是20 17年由Google提出, 通过融合多个用户的数据, 通过机器学习算法, 训练更准确的模型, 以便更好的为用户提供推荐等服务。 同时, 为了更好保护用户的隐私, 用户无需传递隐私数据给Google这样的中间服务商, 所有机器学习训练对数据的计算 都在 用户本地完成, 所有用户只需要将梯度等最终结果传输给Google即可, 最后由Google做最 终结果的整合, 整合好后, 将新的模型发送给所有用户。 所有用户进 行新的一轮的学习训练 过程, 周而复始, 直至有满意的模型输出。说 明 书 1/5 页 3 CN 114358323 A 3

.PDF文档 专利 联邦学习环境中基于第三方高效皮尔森系数计算方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 联邦学习环境中基于第三方高效皮尔森系数计算方法 第 1 页 专利 联邦学习环境中基于第三方高效皮尔森系数计算方法 第 2 页 专利 联邦学习环境中基于第三方高效皮尔森系数计算方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:16:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。