说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210815070.7 (22)申请日 2022.07.12 (71)申请人 合肥中聚源智能科技有限公司 地址 230000 安徽省合肥市高新区5 089号 中国科学技术大学先进技术研究院嵌 入式研发楼102-A6 (72)发明人 汪萌 孙晓 刘学亮 王方兵  (74)专利代理 机构 北京华仁联合知识产权代理 有限公司 1 1588 专利代理师 张欢 (51)Int.Cl. G06F 16/532(2019.01) G06F 16/35(2019.01) G06V 10/762(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种具有鲁棒 性的图文匹配模型训练方法 (57)摘要 本发明公开了一种具有鲁棒性的图文匹配 模型训练方法, 包括以下步骤: 构建含有噪声的 图像文本 数据集; 根据含有噪声的图像文本数据 集构建鲁棒性神经网络模型; 对鲁棒性神经网络 模型进行训练, 然后使用训练的鲁棒性神经网络 模型用于图像文本检索。 本发明通过图像子网络 和文本子网络分别学习图像文本数据集中的图 像和文本, 使用鲁棒聚类损失聚类图像样本和文 本样本, 并使用对比损失约束图像样本和文本样 本的公共特征学习模态不变性, 使用Adam优化器 对鲁棒性神经网络模型, 并且当鲁棒性神经网络 模型在验证集上准确率最高时测试鲁棒性神经 网络模型, 然后使用鲁棒性神经网络模型用于图 像文本匹配 。 权利要求书2页 说明书5页 附图1页 CN 115168632 A 2022.10.11 CN 115168632 A 1.一种具有鲁棒 性的图文匹配模型训练方法, 其特 征在于: 包括以下步骤: 构建含有噪声的图像文本数据集; 根据含有噪声的图像文本数据集构建鲁棒 性神经网络模型; 对鲁棒性神经网络模型进行训练, 然后使用训练 的鲁棒性神经网络模型用于图像文本 检索。 2.根据权利要求1所述的具有鲁棒 性的图文匹配模型训练方法, 其特 征在于: 所述构建含有噪声的图像文本数据集包括: 收集图像文本数据集( ), 并对样本类别做标记, 然后对收集的数据随机划分, 其 中80%作为训练集用于训练模 型、 10%作为验证集用于验证鲁棒性神经网络模型的准确率和 10%作为测试集用于测试当验证集 性能最高准确率的训练模型的测试准确率。 3.根据权利要求1所述的具有鲁棒 性的图文匹配模型训练方法, 其特 征在于: 所述根据含有噪声的图像文本数据集构建鲁棒 性神经网络模型包括: 通过图像子网络和文本 子网络分别学习图像的原 始特征 和文本的原 始特征 ; 在图像子网络和文本子网络先后接入全连接层, 分别学习图像的公共特征 和文本 的公共特 征 ; 把图像的公共特征 和文本的公共特征 分别输入线性分类器, 分别学习图像类别 信息和文本类别 信息; 使用鲁棒 聚类损失聚类图像样本和文本样本, 并使用对比损失约束图像样本和文本样 本的公共特 征学习模态不变性, 其中模态包括图像和文本 。 4.根据权利要求3所述的具有鲁棒 性的图文匹配模型训练方法, 其特 征在于: 所述通过图像子网络和文本子网络分别学习图像的原始特征 和文本的原始特征 包括: 所述图像子网络设置为VGG19网络, 具体来说, 在预训练在image ‑net上VGG19模型对图 像训练集进行微训练, 然后使用微调 后的VGG19模型提取图像样本 在VGG19网络的fc 7层 4096维特 征作为图像原 始特征 。 5.根据权利要求3所述的具有鲁棒 性的图文匹配模型训练方法, 其特 征在于: 所述通过图像子网络和文本子网络分别学习图像的原始特征 和文本的原始特征 还包括: 所述文本子网络设置为Doc2Vec网络, 具体来说, 使用Doc2Vec网络对文本训练集进行 微训练使 得Doc2Vec模 型适用于所述数据集, 然后使用微训练后的Doc2Vec模 型提取文本样 本 的300维特征作为文本原 始特征 。 6.根据权利要求3所述的具有鲁棒 性的图文匹配模型训练方法, 其特 征在于:权 利 要 求 书 1/2 页 2 CN 115168632 A 2所述全连接层包含两层使用relu激活函数, 维度 为1024维, 具体来说, 对于图像的4096 维原始特征 输入到全连接层映射到1024维公共特征 , 对于文本的4096维原始特征 输入到全连接层映射到1024维 公共特征 。 7.根据权利要求3所述的具有鲁棒 性的图文匹配模型训练方法, 其特 征在于: 所述鲁棒聚类损失包括: 样本 属于第 个类别概率表示 , 其中 表示 个公共聚类分配, 表示公共特 征; 则聚类损失计算公式为: 。 8.根据权利要求3所述的具有鲁棒 性的图文匹配模型训练方法, 其特 征在于: 所述对比损失包括: 样本属于第 个模态的概 率表示: ; 则对比损失计算: 。 9.根据权利要求1所述的具有鲁棒 性的图文匹配模型训练方法, 其特 征在于: 所述对鲁棒性神经网络模型进行训练, 然后使用训练的鲁棒性神经网络模型用于图像 文本检索包括: 使用Adam优化器对鲁棒性神经网络模型, 并且当鲁棒性神经网络模型在验证集上准确 率最高时测试鲁棒 性神经网络模型, 然后使用鲁棒 性神经网络模型用于图像文本匹配。权 利 要 求 书 2/2 页 3 CN 115168632 A 3

.PDF文档 专利 一种具有鲁棒性的图文匹配模型训练方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种具有鲁棒性的图文匹配模型训练方法 第 1 页 专利 一种具有鲁棒性的图文匹配模型训练方法 第 2 页 专利 一种具有鲁棒性的图文匹配模型训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:53:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。