说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210334436.9 (22)申请日 2022.03.30 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 (72)发明人 沈丽忠 陈晗 李婉华 谢立东 (74)专利代理 机构 北京润平知识产权代理有限 公司 11283 专利代理师 陈姝婧 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 用于确定模型训练数据 的方法、 装置、 存储 介质及处 理器 (57)摘要 本申请实施例提供一种用 于确定模型训练 数据的方法。 方法包括: 将未进行脱敏处理的样 本数据输入至神经网络模型, 以对神经网络模型 进行训练得到第一模型; 通过多种脱敏方法对样 本数据进行脱敏处理, 以得到与每种脱敏方法对 应的脱敏数据; 分别将与每种脱敏方法对应的脱 敏数据输入至神经网络模型, 以对神经网络模型 进行训练得到多个第二模型; 确定第一模型和每 个第二模型的模 型参数; 分别将第一模 型的模型 参数与每个第二模型的模型参数进行对比, 以确 定第一模型与每个第二模型之间的模 型差异值; 将模型差异值最小的第二模型确定为目标模型; 将目标模型对应的脱敏方法确定为目标脱敏方 法, 以用目标脱敏方法对样本数据进行脱敏处 理, 降低模型训练差异。 权利要求书3页 说明书12页 附图5页 CN 114912139 A 2022.08.16 CN 114912139 A 1.一种用于确定模型训练数据的方法, 其特 征在于, 所述方法包括: 将未进行脱敏处理的样本数据输入至神经网络模型, 以对神经网络模型进行训练, 得 到第一模型; 通过多种 脱敏方法对所述样本数据进行脱敏处理, 以得到与每种 脱敏方法对应的脱敏 数据; 分别将与每种 脱敏方法对应的脱敏数据输入至神经网络模型, 以对神经网络模型进行 训练, 得到多个第二模型; 确定所述第一模型和每 个所述第二模型的模型参数; 分别将所述第 一模型的模型参数与每个第 二模型的模型参数进行对比, 以确定所述第 一模型与每 个第二模型之间的模型差异值; 将所述模型差异值 最小的第二模型确定为目标模型; 将所述目标模型对应的脱敏方法确定为目标脱敏方法, 以使用所述目标脱敏方法对样 本数据进行脱敏处 理得到针对神经网络模型训练的数据。 2.根据权利要求1所述的用于确定模型训练数据的方法, 其特征在于, 所述模型差异值 包括模型之间的AUC值, 根据公式(1)确定每 个第二模型与所述第一模型的模型差异值Y: 其中, Yi表示为使用第i种脱敏方法脱敏得到的样本 数据训练出来的第二模型与所述第 一模型之间的模型差异值, Vs为所述第一模型的AUC值, Vei为使用第i种脱敏方法脱敏得到 的样本数据训练出来的第二模型的AUC值, 为使用第i种脱敏方法脱敏得到 的 样本数据训练出来的第二模型与所述第一模型之间的过拟合 程度值。 3.根据权利要求1所述的用于确定模型训练数据的方法, 其特征在于, 所述将未进行脱 敏处理的样本数据输入至神经网络模型, 以对神经网络模型进 行训练, 得到第一模型包括: 提交机器学习流水线至第一运行环境, 在所述第一运行环境下将未进 行脱敏处理的样本数 据输入至 机器学习流水线的神经网络模型, 以对神经网络模型进行训练, 得到第一模型; 所述分别将与每种 脱敏方法对应的脱敏数据输入至神经网络模型, 以对神经网络模型 进行训练, 得到多个第二模型包括: 提交机器学习流水线至第二运行环境, 在所述第二运行 环境下分别将与每种脱敏方法对应的脱敏数据输入至机器学习流水线的神经网络模型, 以 对神经网络模型进行训练, 得到多个第二模型。 4.根据权利要求3所述的用于确定模型训练数据的方法, 其特征在于, 所述方法还包 括: 获取所述目标模型的目标训练参数, 所述目标训练参数包括所述目标模型所在的第 二 运行环境的环境运行参数、 所述目标模型的模 型参数以及训练所述目标模 型的脱敏数据所 采用的脱敏 方法; 将所述目标训练参数确定为后续的模型训练的训练参数。 5.根据权利要求3所述的用于确定模型训练数据的方法, 其特征在于, 所述第 一运行环 境为可信环境, 所述可信环境下的数据包括敏感数据, 所述第二运行环境为调试环境, 所述 调试环境下的数据均为脱敏 数据。权 利 要 求 书 1/3 页 2 CN 114912139 A 26.根据权利要求1所述的用于确定模型训练数据的方法, 其特征在于, 在通过脱敏后的 样本数据对神经网络模型进行训练的模型参数, 与通过未脱敏的样本数据对神经网络模型 进行训练的模型参数一 致。 7.根据权利要求1所述的用于确定模型训练数据的方法, 其特征在于, 所述模型差异值 包括模型之间的提升度和/或ks统计量。 8.一种处理器, 其特征在于, 被配置成执行根据权利要求1至7中任意一项所述的用于 确定模型训练数据的方法。 9.一种用于确定模型训练数据的装置, 其特 征在于, 所述装置包括: 第一训练模块, 被配置成将未进行脱敏处理的样本数据输入至神经网络模型, 以对神 经网络模型进行训练, 得到第一模型; 数据脱敏模块, 被配置成通过多种脱敏方法对所述样本数据进行脱敏处理, 以得到与 每种脱敏 方法对应的脱敏 数据; 第二训练模块, 被配置成分别将与每种脱敏方法对应的脱敏数据输入至神经网络模 型, 以对神经网络模型进行训练, 得到多个第二模型; 模型比对模块, 被配置成确定所述第一模型和每个所述第二模型的模型参数; 分别将 所述第一模型的模型参数与每个第二模型的模型参数进行对比, 以确定所述第一模型与每 个第二模型之间的模型差异值; 模型选取模块, 被配置成将所述模型差异值最小的第二模型确定为目标模型; 将所述 目标模型对应的脱敏方法确定为目标脱敏方法, 以使用所述目标脱敏方法对样本数据进 行 脱敏处理得到针对神经网络模型训练的数据。 10.根据权利要求9所述的用于确定模型训练数据的装置, 其特征在于, 所述模型差异 值包括模 型之间的AUC值, 所述模 型比对模块还被配置成根据公 式(1)确定每个第二模 型与 所述第一模型的模型差异值Y: 其中, Yi表示为使用第i种脱敏方法脱敏得到的样本 数据训练出来的第二模型与所述第 一模型之间的模型差异值, Vs为所述第一模型的AUC值, Vei为使用第i种脱敏方法脱敏得到 的样本数据训练出来的第二模型的AUC值, 为使用第i种脱敏方法脱敏得到 的 样本数据训练出来的第二模型与所述第一模型之间的过拟合 程度值。 11.根据权利要求9所述的用于确定模型训练数据的装置, 其特征在于, 所述第一训练 模块还被配置成: 提交机器学习流水线至第一运行环境, 在所述第一运行环境下将未进行 脱敏处理的样本数据输入至机器学习流水线的神经网络模型, 以对神经网络模型进行训 练, 得到第一模型; 所述第二训练模块还被配置成: 提交机器学习流水线至第二运行环境, 在所述第二运 行环境下分别将与每种脱敏方法对应的脱敏数据输入至机器学习流水线的神经网络模型, 以对神经网络模型进行训练, 得到多个第二模型。 12.根据权利要求11所述的用于确定模型训练数据的装置, 其特征在于, 所述模型选取 模块还被 配置成:权 利 要 求 书 2/3 页 3 CN 114912139 A 3
专利 用于确定模型训练数据的方法、装置、存储介质及处理器
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-07 12:39:50
上传分享
举报
下载
原文档
(908.4 KB)
分享
友情链接
ISO IEC 2382-37 022 Information technology — Vocabulary — Part 37 Biometrics.pdf
JR-T0073-2012 金融行业信息安全等级保护测评服务安全指引.pdf
GB-T 14315-2008 电力电缆导体用压接型铜、铝接线端子和连接管.pdf
GB-T 17314-2011 籼型杂交水稻三系原种生产技术操作规程.pdf
T-ZGZS 0107—2023 再生资源经营性电子数据存证技术规范.pdf
东吴证券 AI搜索行业深度 大模型催生搜索行业变革机遇,产品百花齐放效果几何 .pdf
DB63-T 2086-2022 水利水电工程堆石混凝土坝施工质量检验与评定规范 青海省.pdf
DB14-T 2322-2021 高速公路运营隧道突发事件应急预案编制指南 山西省.pdf
GB 12319-2022 中国海图图式.pdf
GB-T 37966-2019 纳米技术 氧化铁纳米颗粒类过氧化物酶活性测量方法.pdf
GB-T 39204-2022 信息安全技术 关键信息基础设施安全保护要求.pdf
T-NIFA 20—2023 金融数据资产管理指南.pdf
GB-T 43097-2023 供热运营数据统计方法.pdf
ISO IEC 27000-2018.pdf
DB31-T 1240.2-2020 公共数据共享交换工作规范 第2部分:平台接入技术要求 上海市.pdf
DB32/T 4405-2022 工程建设项目“多测合一”技术规程 江苏省.pdf
GB-T 12346-2021 经穴名称与定位.pdf
T-BAX 0001.1—2021 安防监控中心值机工作与服务要求 :第1部分 值机工作要求.pdf
DB63-T 2064-2022 草原损害程度评定技术规范 青海省.pdf
GB-T 42569-2023 工业互联网平台 开放应用编程接口功能要求.pdf
交流群
-->
1
/
21
评价文档
赞助2元 点击下载(908.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。