说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211409768.5 (22)申请日 2022.11.11 (71)申请人 北京阿丘科技有限公司 地址 100089 北京市海淀区上地 东路1号院 1号楼6层6 01A-02号 (72)发明人 黄耀 孟超超 (74)专利代理 机构 深圳市恒程创新知识产权代 理有限公司 4 4542 专利代理师 鄢紫君 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/778(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 训练数据筛选方法、 装置及计算机可读存储 介质 (57)摘要 本发明公开了一种训练数据筛选方法、 装置 及计算机 可读存储介质, 其中, 所述方法包括: 将 已标注训练数据和未标注训练数据输入深度主 动学习模型; 基于所述深度主动学习模型的卷积 神经网络, 确定所述已标注训练数据的第一全 连 接层值和所述未标注训练数据的第二全连接层 值; 根据所述第一全 连接层值和所述第二全 连接 层值确定每个所述已标注训练数据与每个所述 未标注训练数据之间的欧式距离; 根据所述欧式 距离从所述未标注训练数据中确定目标训练数 据。 本发明旨在提高筛选出的训练数据的代表 性, 以降低训练成本, 提高训练模型的效率。 权利要求书2页 说明书12页 附图3页 CN 115482441 A 2022.12.16 CN 115482441 A 1.一种训练数据筛 选方法, 其特 征在于, 所述方法包括: 将已标注训练数据和未 标注训练数据输入深度主动学习模型; 基于所述深度主动学习 模型的卷积神经网络, 确定所述已标注训练数据的第 一全连接 层值和所述未 标注训练数据的第二全连接层值; 根据所述第一全连接层值和所述第二全连接层值确定每个所述已标注训练数据与每 个所述未 标注训练数据之间的欧式距离; 根据所述欧式距离从所述未 标注训练数据中确定目标训练数据。 2.如权利要求1所述的训练数据筛选方法, 其特征在于, 所述根据 所述欧式距离从所述 未标注训练数据中确定目标训练数据的步骤 包括: 确定每个所述未 标注训练数据对应的最小欧式距离为目标欧式距离; 将所述目标欧式距离进行降序排列; 确定前预设数量的目标欧式距离对应的未 标注训练数据为所述目标训练数据。 3.如权利要求1所述的训练数据筛选方法, 其特征在于, 所述将已标注训练数据和未标 注训练数据输入深度主动学习模型的步骤之后, 还 包括: 根据所述已标注训练数据训练所述深度主动学习模型; 所述根据所述卷积神经网络确定所述已标注训练数据的第一全连接层值和所述未标 注训练数据的第二全连接层值的步骤 包括: 基于训练后的所述深度主动学习模型的卷积神经网络确定所述第一全连接层值和所 述第二全连接层值。 4.如权利要求1所述的训练数据筛选方法, 其特征在于, 所述将已标注训练数据和未标 注训练数据输入深度主动学习模型的步骤之前, 还 包括: 将主动选择模块封装为功能函数; 将所述功能函数连接到所述卷积神经网络的分类模块之后, 以组成所述深度主动学习 模型。 5.如权利要求1所述的训练数据筛选方法, 其特征在于, 所述根据 所述欧式距离从所述 未标注训练数据中确定目标训练数据的步骤之后, 还 包括: 获取进行 标注后的所述目标训练数据; 根据标注后的所述目标训练数据更新所述已标注训练数据; 根据更新后的已标注训练数据训练所述深度主动学习模型。 6.如权利要求5所述的训练数据筛选方法, 其特征在于, 所述根据 更新后的已标注训练 数据训练所述深度主动学习模型的步骤之后, 还 包括: 获取已标注测试 数据; 将所述已标注测试数据输入所述深度主动学习模型, 确定预测准确的正类测试数据 数 量和负类测试 数据数量; 根据所述正类测试数据数量和所述负类测试数据数量确定所述深度主动学习模型的 准确率指标; 当所述准确率指标小于或等于预设阈值, 重新执行所述将已标注训练数据和未标注训 练数据输入深度主动学习模型的步骤。 7.如权利要求6所述的训练数据筛选方法, 其特征在于, 所述根据 所述正类测试数据 数权 利 要 求 书 1/2 页 2 CN 115482441 A 2量和所述负类测试数据数量确定所述深度主动学习模型的准确率指标的步骤之后, 还包 括: 获取历史训练轮次中所述深度主动学习模型的历史准确率指标; 根据所述历史准确率指标确定所述预设阈值。 8.如权利要求5所述的训练数据筛选方法, 其特征在于, 所述根据 更新后的已标注训练 数据训练所述深度主动学习模型的步骤之后, 还 包括: 确定剩余未 标记训练数据数量; 当所述数量大于或等于预设阈值, 重新执行所述将已标注训练数据和未标注训练数据 输入深度主动学习模型的步骤; 当所述数量小于预设阈值, 终止训练, 输出训练数据不足的提 示信息。 9.一种训练数据筛选装置, 其特征在于, 所述训练数据筛选装置包括: 存储器、 处理器 及存储在所述存储器上并可在所述处理器上运行的训练数据筛选程序, 所述训练数据筛选 程序被所述处 理器执行时实现如权利要求1至8中任一项所述的训练数据筛 选方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有训练数 据筛选程序, 所述训练数据筛选程序被处理器执行时实现如权利要求 1至8中任一项 所述的 训练数据筛 选方法的步骤。权 利 要 求 书 2/2 页 3 CN 115482441 A 3
专利 训练数据筛选方法、装置及计算机可读存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:23:48
上传分享
举报
下载
原文档
(575.4 KB)
分享
友情链接
法律法规 广州市人民代表大会常务委员会关于取消广州市地方性法规中的部分行政许可事项(第二批)的决定2005-08-31.pdf
GB-T 35307-2023 流化床法颗粒硅.pdf
GB-T 20933-2021 热轧钢板桩.pdf
GB-T 30692-2014 提高在用自动扶梯和自动人行道安全性的规范.pdf
MZ-T 120-2018 自立式辅助起床架.pdf
中安网星 智域安全管家-v3.1.pdf
GB-T 8630-2013 纺织品 洗涤和干燥后尺寸变化的测定.pdf
GB-T 20270-2006 信息安全技术 网络基础安全技术要求.pdf
NB-T 10607—2021 水力发电厂门禁系统设计导则.pdf
GB 19574-2004 高压钠灯用镇流器能效限定值及节能评价值.pdf
GB-T 43039-2023 通信网络可信性评估和保证方法.pdf
ISO IEC 27007-2020.pdf
GB-T 25070-2019 信息安全技术 网络安全等级保护安全设计技术要求.pdf
GB 16669-2010 二氧化碳灭火系统及部件通用技术条件.pdf
NY-T 2922-2016 梨种质资源描述规范.pdf
GB-T 43807-2024 版权资产管理体系 要求.pdf
GB-T 25000.12-2017 系统与软件工程 系统与软件质量要求和评价(SQuaRE) 第12部分:数据质量模型.pdf
DB2201-T 16-2022 城市智能体数据治理技术规范 长春市.pdf
系统安全等级保护备案表.docx
深信服 aTrust零信任技术白皮书V1.4 2022.pdf
交流群
-->
1
/
18
评价文档
赞助2元 点击下载(575.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。