专利联邦学习环境中基于第三方高效皮尔森系数计算方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111639035.6 (22)申请日 2021.12.2 9 (71)申请人深圳前海新心数字科技有限公司地址 518000 广东省深圳市前海合作区前湾一路1号A栋201室 (72)发明人谈扬　 (74)专利代理机构深圳市百瑞专利商标事务所 (普通合伙) 44240 代理人金辉 (51)Int.Cl. G06N 20/20(2019.01) G06F 21/60(2013.01) G06F 17/18(2006.01) G06F 7/50(2006.01) (54)发明名称联邦学习环境中基于第三方高效皮尔森系数计算方法 (57)摘要本发明是联邦学习环境中基于第三方高效皮尔森系数计算方法，该方法中，选择开源的 FATE做计算Pearson系数的整体计算通信的框架，参与特征相关性系数计算的两方分别为A方和B方，半诚实第三方为C方。已有的方案为了安全地生成Beaver Triplets三元对，需要使用了大量同态加密运算，新方案中，通过一个半诚实的第三方，在不牺牲安全性的同时，能够去掉同态加密运算，安全地生成(a ,b ,c)Beaver Triplets三元组，同时使两方各自获得(a,b,c) 的加法秘密共享share。由于没有了原有方案中 Paillier同态加密中大量大整数模幂运算，只有张量点积，以及加减运算，所以效率将得到大幅提升。权利要求书1页说明书5页附图1页 CN 114358323 A 2022.04.15 CN 114358323 A 1.联邦学习环境中基于第三方高效皮尔森系数计算方法，该方法中，选择开源的FATE 做计算Pearson系数的整体计算通信的框架，参与特征相关性系数计算的两方分别为A方和 B方，半诚实第三方为C方；其特征在于：包括以下步骤：步骤S1、参与计算相关性系数的双方A， B，将各自的特征数据张量x,y做一个加法秘密共享，每一方都将得到对方数据张量的一个加法秘密共享份额；步骤S2、参与计算相关性系数的双方A， B，在获取对方的数据张量x,y的加法秘密共享份额后，各自在本地生成与特征数据张量x,y相同规模的张量ai,bi,作为三元组a,b中的一个加法秘密共享；步骤S3、参与计算相关性系数的双方A， B将各自的生成的张量ai,bi发送给半诚实第三方C；步骤S4、半诚实第三方C利用收到的张量ai,bi相加得到三元组中的a,b,并进一步计算所述三元组中的c， c是张量a,b之间点积；步骤S5、半诚实第三方C将c做一个加法秘密共享生成c1,c2，并分别发送给参与计算相关性系数的双方A,B；步骤S6、参与计算相关性系数的双方A， B分别获取ci后，各自使用已有的三元组份额ai, bi,ci，以及张量xi,yi，通过和对方交互计算得到zi， zi等于张量x,y之间点积 z的加法秘密共享份额；步骤S7、参与计算相关性系数的双方A， B各自交互zi,并相加得到z，作为双方特征相关系数张量输出。 2.根据权利要求1所述的联邦学习环境中基于第三方高效皮尔森系数计算方法，其特征在于：在步骤S1之前还包括：步骤S0、参与计算相关性系数的双方A， B根据各自的输入数据进行样本对齐。 3.根据权利要求2所述的联邦学习环境中基于第三方高效皮尔森系数计算方法，其特征在于：样本对齐算法采用安全的隐私求交算法。 4.根据权利要求3所述的联邦学习环境中基于第三方高效皮尔森系数计算方法，其特征在于：样本对齐算法采用的算法是 FATE自带的基于RSA的隐私求交算法。 5.根据权利要求2所述的联邦学习环境中基于第三方高效皮尔森系数计算方法，其特征在于：在所述的步骤S 0中还包括：参与计算相关性系数的双方A,B还需要对各自的数据集进行预处理。 6.根据权利要求5所述的联邦学习环境中基于第三方高效皮尔森系数计算方法，其特征在于：所述的数据集进行预处理包括：对于参与计算相关性系数的A的数据集X，对于每个xi∈X,首先计算sum_x＝∑xi,sum_ x2＝∑xi2 avg_x＝sum_x/n,其中n 为数据集X的元素个数那么将X中所有xi代替为xi’，并作为新的数据集输出表示为x,其中xi'＝(xi‑avg_x)/α；类似的B方的数据集Y也进行同样的处理，输出数据集y。权　利　要　求　书 1/1 页 2 CN 114358323 A 2联邦学习环境中基于第三方高效皮尔森系数计算方法技术领域 [0001]本发明涉及联邦学习环境中基于第三方高效皮尔森系数计算方法方法。背景技术 [0002]以下是本领域的一些基础知识： [0003]联邦机器学习：隐私计算在机器学习领域的应用，在不泄露各方隐私数据的情况下，能够融合多方的数据，通过机器学习算法，训练模型，进行预测。 [0004]联邦学习的安全模型多为半诚实模型。 [0005]特征工程：一种在机器学习工程中的数据预处理方法，对样本的特征数据进行筛选，以及特征数据的离散化，以便之后能够训练出更好的机器学习模型。 [0006]皮尔森(Pearson)系数：一种计算数据相关性的方法，可以用在特征工程中，计算样本数据特征之间的相关性，以便筛选出对整体模型预测作用不大，无关多余的特征。方便后期进行更好，更高效的机器学习模型训练。 [0007]半诚实安全模型：在分析一种计算或通信协议安全性时候的一种模型，在这种安全模型下，协议参与者会严格遵守协议的相关步骤和要求，但是攻击者会试图通过协议过程中获取的数据得到其他其不应该知道的数据。 [0008]多方安全计算：安全多方计算是一类密码学技术，也是当前密码学领域的一个热门研究方向，属于隐私计算范畴。主要用于两方或者多方希望在不泄露自己隐私输入数据的情况下，根据各方输入数据，共同计算一个函数结果。安全多方计算除了最终结果之外，每一方的输入都能保持隐私性。 [0009]该研究方向起源于图灵机获得者姚期智提出的百万富翁问题，初期的解决方案效率较低，并不实用。近年来，随着该类技术的不断发展，效率大大提高，并开始逐步有实际落地应用。 [0010]全同态加密：全同态加密是一种对密文可以进行任意计算(分为算术上的加法，乘法，或者逻辑比特位上的异或与AND)，解密后得到的结果是相应明文进行相同计算结果的一种加密算法。 [0011]半同态加密，有限级数的全同态加密：目前，由于全同态加密在应用上往往存在效率和存储上的限制，应用更加广泛的是半同态加密，或者有限级数的全同态加密。其中半同态加密算法只支持密文加法或者乘法的同态运算，而有限级数的全同态加密则支持加法和有限级数的乘法同态。 [0012]联邦学习是20 17年由Google提出，通过融合多个用户的数据，通过机器学习算法，训练更准确的模型，以便更好的为用户提供推荐等服务。同时，为了更好保护用户的隐私，用户无需传递隐私数据给Google这样的中间服务商，所有机器学习训练对数据的计算都在用户本地完成，所有用户只需要将梯度等最终结果传输给Google即可，最后由Google做最终结果的整合，整合好后，将新的模型发送给所有用户。所有用户进行新的一轮的学习训练过程，周而复始，直至有满意的模型输出。说　明　书 1/5 页 3 CN 114358323 A 3

专利 联邦学习环境中基于第三方高效皮尔森系数计算方法

专利联邦学习环境中基于第三方高效皮尔森系数计算方法