全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111402878.4 (22)申请日 2021.11.24 (71)申请人 深圳前海微众 银行股份有限公司 地址 518052 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 陈伟敬 马国强 范涛  (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 代理人 赵翠萍 张颖玲 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 111/08(2020.01) (54)发明名称 多分类梯度提升树的构建方法、 装置及电子 设备 (57)摘要 本申请提供一种多分类梯度提升树的构建 方法、 装置, 包括: 协作方设备获取各参与方设备 的训练样本集合中各训练样本对应的梯度; 其 中, 各参与方设备的训练样本集合构成样本总 集; 依据梯度大小, 对样本总集中的训练样本进 行排序, 得到样本序列; 确定样本序列的样本分 位点, 并基于样本分位点确定样 本总集中的多个 关键样本; 确定多个关键样本中归属于各参与方 设备的关键样本, 并确定各参与方设备对应的目 标非关键样 本的数量; 发送关键样 本及目标非关 键样本的数量至相应的参与方设备, 以使各参与 方设备基于关键样本及目标 非关键样本的数量, 协同协作方设备构建多分类梯度提升树。 如此, 通过横向梯度排序采样进行模型构建, 从而减少 多分类任务中的开销。 权利要求书3页 说明书20页 附图7页 CN 114065641 A 2022.02.18 CN 114065641 A 1.一种多分类梯度提升树的构建方法, 其特征在于, 基于联邦学习系统, 所述联邦学习 系统包括协作方设备及至少两个参与方设备, 所述方法包括: 协作方设备获取各参与方设备的训练样本集合中各训练样本对应的梯度; 其中, 各所 述参与方设备的训练样本集 合构成样本总集; 依据梯度大小, 对所述样本总集中的训练样本进行排序, 得到样本序列; 确定所述样本序列的样本分位点, 并基于所述样本分位点确定所述样本总集中的多个 关键样本; 确定所述多个关键样本 中归属于各所述参与 方设备的关键样本, 并确定各所述参与方 设备对应的目标非关键样本的数量; 发送所述关键样本及目标非关键样本的数量至相应的所述参与方设备, 以使各所述参 与方设备基于所述关键样本及目标非关键样本的数量, 协同所述协作方设备构建所述多分 类梯度提升树。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述样本序列的样本分位点, 并 基于所述样本分位 点确定所述样本总集中的多个关键样本, 包括: 获取预先设定的关键样本比例以及所述样本总集的样本总量; 将所述关键样本比例与所述样本总量进行相乘 处理, 确定所述样本总集中关键样本的 数量; 基于所述关键样本的数量, 确定所述样本序列的样本分位 点; 基于所述样本分位点, 从所述样本序列中选取所述数量的训练样本, 作为所述多个关 键样本。 3.根据权利要求1所述的方法, 其特征在于, 所述确定所述多个关键样本 中归属于各所 述参与方设备的关键样本, 包括: 获取所述各参与 方设备的训练样本集合中各训练样本所对应的第 一标识、 以及所述样 本总集中各关键样本对应的第二标识; 将所述第一标识与 所述第二标识进行匹配, 并基于匹配结果确定所述多个关键样本中 归属于各 所述参与方设备的关键样本 。 4.根据权利要求1所述的方法, 其特征在于, 所述确定各所述参与 方设备对应的目标非 关键样本的数量, 包括: 获取预先设定的目标非关键样本比例以及所述样本总集的样本总量; 将所述样本总量与所述关键样本的数量进行相减处 理, 确定非关键样本的数量; 将所述目标非关键样本比例与所述非关键样本的数量进行乘积处理, 确定所述目标非 关键样本的总数量; 基于所述目标非关键样本的总数量, 确定各所述参与 方设备对应的目标非关键样本的 数量。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述目标非关键样本的总数量, 确定各所述参与方设备对应的目标非关键样本的数量, 包括: 从所述样本序列中筛除所述多个关键样本, 得到非关键样本序列; 获取所述目标非关键样本与各 所述参与方设备的归属关系; 基于所述目标非关键样本的总数量、 所述归属关系以及所述非关键样本序列, 确定各权 利 要 求 书 1/3 页 2 CN 114065641 A 2所述参与方设备对应的目标非关键样本的数量。 6.根据权利要求4所述的方法, 其特征在于, 所述基于所述目标非关键样本的总数量, 确定各所述参与方设备对应的目标非关键样本的数量, 包括: 获取各个所述 参与方设备对应的目标非关键样本的数量 最小值; 依据所述数量最小值、 各所述参与方设备的训练样本总量, 以及各所述参与方设备的 关键样本的数量, 确定各 所述参与方设备对应的目标非关键样本的数量。 7.根据权利要求4所述的方法, 其特征在于, 所述基于所述目标非关键样本的总数量, 确定各所述参与方设备对应的目标非关键样本的数量, 包括: 获取各所述参与 方设备的重要程度, 并基于所述重要程度确定各所述参与 方设备对应 的目标非关键样本的比例; 基于各所述参与 方设备对应的目标非关键样本的比例, 以及所述目标非关键样本的总 数量, 确定各 所述参与方设备对应的目标非关键样本的数量。 8.根据权利要求1所述的方法, 其特征在于, 所述发送所述关键样本及目标非关键样本 的数量至相应的所述参与方设备, 以使各所述参与方设备基于所述关键样本及目标非关键 样本的数量, 协同所述协作方设备构建所述多分类梯度提升树, 包括: 接收各所述参与方设备发送的特征分裂增益直方图, 所述特征分裂增益直方图为, 各 所述参与方设备基于所述关键样本及目标非关键样本的数量确定目标训练样本集合, 并基 于所述目标训练样本集 合对所述多分类梯度提升树的分裂点进行遍历得到; 基于所述特征分裂增益直方图, 确定所述多分类梯度提升树的分裂点的增益值, 选取 增益值最大的分裂点作为全局分裂点; 基于所述全局分裂点, 构建所述多分类梯度提升树。 9.根据权利要求1所述的方法, 其特征在于, 所述协作 方设备获取各参与 方设备的训练 样本集合中各训练样本对应的梯度, 包括: 协作方设备获取各参与 方设备发送的用于表征各训练样本所对应梯度的多维向量, 其 中, 所述多维向量的维度数与所述多分类梯度提升树的标签类别的数量相对应, 所述多维 向量为所述各参与方设备基于所述训练样本集合中各训练样本携带的标签以及对应的预 测值所确定 。 10.根据权利要求9所述的方法, 其特征在于, 所述依据梯度 大小, 对所述样本总集中的 训练样本进行排序, 得到样本序列, 包括: 将所述多维向量中各维度对应的梯度进行相加, 得到所述训练样本集合中各训练样本 所对应梯度之和; 依据所述梯度之和的大小, 对所述样本总集中的训练样本进行排序, 得到样本序列。 11.一种多分类梯度提升树的构建装置, 其特 征在于, 所述装置包括: 获取模块, 用于协作方设备获取各参与 方设备的训练样本集合中各训练样本对应的梯 度; 其中, 各 所述参与方设备的训练样本集 合构成样本总集; 排序模块, 用于依据梯度大小, 对所述样本总集中的训练样本进行排序, 得到样本序 列; 第一确定模块, 用于确定所述样本序列的样本分位点, 并基于所述样本分位点确定所 述样本总集中的多个关键样本;权 利 要 求 书 2/3 页 3 CN 114065641 A 3

.PDF文档 专利 多分类梯度提升树的构建方法、装置及电子设备

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多分类梯度提升树的构建方法、装置及电子设备 第 1 页 专利 多分类梯度提升树的构建方法、装置及电子设备 第 2 页 专利 多分类梯度提升树的构建方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:29:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。