说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211150406.9 (22)申请日 2022.09.21 (71)申请人 同济大学 地址 200092 上海市杨 浦区四平路1239号 (72)发明人 卫志华 刘官明 张恒  (74)专利代理 机构 上海科律专利代理事务所 (特殊普通 合伙) 31290 专利代理师 范艳静 (51)Int.Cl. G06V 10/778(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 7/10(2017.01) G06V 10/774(2022.01) (54)发明名称 一种联合问答的图像自然语言描述方法 (57)摘要 一种联合问答的图像自然语 言描述方法, 包 括三个步骤: 步骤一, 首先使用图像分割模型对 图像目标和图像背景的特征进行提取, 得到像素 级的不同类别的划分, 获取目标和背景的分割特 征图; 步骤二, 问题生成模块通过构建隐式的场 景类型表征, 产生包含关注目标信息的关系特征 图, 多粒度地生成若干个语义相关的引导问题; 步骤三, 联合问答模块引入对比学习的损失函 数, 对关系特征图和引导问题进行联合多模态嵌 入表征, 该模型通过训练, 能生成问题相关的长 文本回答, 作为图像内容的精细化语义描述。 权利要求书2页 说明书5页 附图2页 CN 115512191 A 2022.12.23 CN 115512191 A 1.一种联合问答的图像自然语言描述方法, 其特 征在于, 包括 三个步骤: 步骤一, 首先使用图像分割模型对图像目标和图像背景的特征进行提取, 得到像素级 的不同类别的划分, 获取目标和背景的分割特 征图; 步骤二, 问题生成模块通过构建隐式的场景类型表征, 产生包含关注目标信息的关系 特征图, 多粒度地 生成若干个 语义相关的引导问题; 步骤三, 联合问答模块引入对比学习的损 失函数, 对关系特征图和引导问题进行联合 多模态嵌入表征, 该模型通过训练, 生成问题相关的长文本回答, 作为图像内容的精细化语 义描述。 2.如权利要求1所述的描述方法, 其特 征在于: 针对步骤二, 以LSTM模型为基础的问题生成模型, 对分割特征图进行处理, 通过构 建隐 式的场景类型表征, 先产生包含关注目标信息的关系特征图, 随后以关注目标为中心, 多尺 度地建立与图像关注目标之间、 关注目标和背景之间的联系, 生成的多粒度引导问题即作 为后续联合问答中的一环。 3.如权利要求1所述的描述方法, 其特 征在于: 针对步骤三, 以BUTD模型为基础的联合问答模型, 引入了对比学习的损失函数, 联合关 系特征图和引导问题, 提高模型跨模态的学习能力, 增强模型对图像和问题答案之间语义 联系的理解, 生成图像内容的精细化描述。 4.如权利要求1所述的描述方法, 其特 征在于: 步骤一: 图像分割 1.1利用现已公开的图像 语义分割数据集, 其中的批量图像均有像素级的类别标注; 1.2使用深度学习方法对图像分割数据集进行训练, 构造图像分割神经网络模型; 图像 分割的任务是给图像进行稠密预测, 通过对不同目标以特定颜色进行标注, 让每个像素点 都有其所属的目标或者封闭区域的类别; 1.3将训练好的图像分割神经网络的模型权重保存, 该网络模型可对原始图像进行处 理, 区分图像中不同的目标和背景, 最终输出目标间、 目标与背景间的分割特 征图。 5.如权利要求1或2所述的描述方法, 其特 征在于: 步骤二: 问题生成 2.1处理现已公开的视觉问题生成数据集, 对数据集中的问题范畴进行分类, 不同的问 题范畴多角度地看待目标及其之间的联系, 同一图像的多个问题范畴不仅关注着不同的目 标, 也关注着相同目标不同尺度的图像区域; 同时, 对数据集的回答和问题做合并处理, 生 成一句完整的自然语言描述; 2.2使用深度学习方法对处理后的视觉问题生成数据集进行训练, 构造问题生成神经 网络模型; 问题生成模型构建隐式的场景类型表征, 初步产生包含关注目标信息的关系 特 征图, 随后以关注目标为中心, 学习问题范畴和图像不同粒度区域之 间的相关性, 多尺度地 生成与关注目标 上下文相关的不同问题。 6.如权利要求1或3所述的描述方法, 其特 征在于: 步骤三: 联合问答 3.1整合图像分割模块、 问题生成模块和联合问答模块, 以引导问题作为上下文, 使用 自上而下 的注意力机制进行学习, 引入对比学习的损失函数, 对引导问题和关系 特征图进权 利 要 求 书 1/2 页 2 CN 115512191 A 2行联合多模态嵌入表征; 根据训练好的网络, 给出候选答案及其置信度, 生 成图像内容的自 然语言描述。 7.如权利要求5所述的描述方法, 其特 征在于: 问题生成神经网络模型的损失函数如下 所示: 其中, 是模型生成的问题向量, qi是数据集中真实的问题向量, u表示预测的关系权重 值, 为正数。 8.如权利要求5所述的描述方法, 其特 征在于: 联合嵌入的损失函数为对比损失: 其中, yT表示正确匹配的问题特 征向量q和分割特 征图v的输出 结果。权 利 要 求 书 2/2 页 3 CN 115512191 A 3

PDF文档 专利 一种联合问答的图像自然语言描述方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种联合问答的图像自然语言描述方法 第 1 页 专利 一种联合问答的图像自然语言描述方法 第 2 页 专利 一种联合问答的图像自然语言描述方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。