说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211388888.1 (22)申请日 2022.11.08 (71)申请人 苏州浪潮智能科技有限公司 地址 215100 江苏省苏州市吴中经济开发 区郭巷街道官浦路1号9幢 (72)发明人 范宝余 王立 郭振华 李仁刚  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 吴娟 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/38(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/74(2022.01) (54)发明名称 一种多模态数据互检方法、 装置、 设备及可 读存储介质 (57)摘要 本发明公开了一种多模态数据互检方法装 置、 设备及可读存储介质, 属于数据检索领域, 用 于多层次文本以及图像序列两种数据之间的互 相检索。 对于多层次文本, 本申请可以通过基于 图神经网络的文本编码方法对待检测的多层次 文本进行编码, 得到第一目标特征向量, 对于图 像序列, 本申请则可以通过神经网络提取各张图 像的特征向量并将之聚合为一个第二目标特征 向量, 继而可以在预设数据库中为目标特征向量 匹配特征数据, 从而完成对于多层次文本以及图 像序列的检索, 由于本申请中对于多层次文本以 及图像序列的编码方式可以全面准确地挖掘数 据中的重要特征, 因此可以基于得到的目标特征 向量, 高效准确地实现多层次文本与图像序列这 两类数据的互检 。 权利要求书4页 说明书17页 附图5页 CN 115455228 A 2022.12.09 CN 115455228 A 1.一种多模态数据互检方法, 其特 征在于, 包括: 在待检测数据为多层次文本时, 通过基于图神经网络的文本编码方法对待检测的多层 次文本进行编码, 得到第一目标 特征向量; 在待检测数据为图像序列时, 通过第 一预设神经网络提取所述图像序列中各张图像的 特征向量; 结合所述图像序列的时序信 息, 通过第 二预设神经网络将各张图像的所述特征向量共 同聚合为一个第二目标 特征向量; 将预设数据库中与所述第一目标特征向量相似度最高的特征数据对应的图像序列作 为目标图像序列, 与所述第二目标特征向量相似度最高的特征数据对应的多层次文本作为 目标文本 。 2.根据权利要求1所述的多模态数据互检方法, 其特征在于, 所述在待检测数据为图像 序列时, 通过第一预设神经网络提取所述图像序列中各张图像的特征向量之后, 所述通过 第二预设神经网络将各张图像的所述特征向量共同聚合为一个第二目标特征向量之前, 该 多模态数据互检方法还 包括: 根据各个所述特征向量对应权重间的大小关系, 对各个所述特征向量对应的权重进行 更新; 将各个所述特征向量与其更新后的权重的乘积, 添加至对应的所述特征向量, 以便对 所述特征向量进行 更新。 3.根据权利要求2所述的多模态数据互检方法, 其特征在于, 所述根据 各个所述特征向 量对应权 重间的大小关系, 对各个所述特 征向量对应的权 重进行更新具体为: 通过注意力网络确定出 各个所述特 征向量自身的权 重; 通过预设类型的函数, 根据各个所述权 重间的大小关系对各个所述权 重进行更新。 4.根据权利要求1所述的多模态数据互检方法, 其特征在于, 应用于预训练的图像文本 检索网络; 其中, 所述图像文本检索网络通过 预设的图像文本距离度量 函数进行训练; 所述图像文本距离度量 函数为: b为批次编号, TriHard为三项损失函数, 代表对第b批次求损失函数, n表示与锚 点样本不配对的样本组, 为对应样本 的真实标签, 为对应样本 的真实标签, N为在 本训练批次中共有N个成对的样本,   为遍历第二目标特征向量过程中选中的视频图 像组对应的第二目标特征向量, a代表锚点样 本, 与锚点样本成对的第一目标特征向量记 为 , p代表位置, 同理, 为在本训练批次中与 不配对的第一目标特征向量, 为权 利 要 求 书 1/4 页 2 CN 115455228 A 2超参数, 代表遍历第一目标特征向量过程中选中的第一目标特征向量, 与其对应的第 二目标特征向量记为 , 不对应的记为 。 5.根据权利要求1所述的多模态数据互检方法, 其特征在于, 所述将预设数据库中与 所 述第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列, 与所述第 二目标特征向量相似度最高的特 征数据对应的多层次文本作为目标文本具体为: 将预设数据库中与所述第一目标特征向量相似度最高的前预设数量个特征数据对应 的图像序列作为目标图像序列, 与所述第二目标特征向量相似度最高的前预设数量个特征 数据对应的多层次文本作为目标文本 。 6.根据权利要求1至5任一项所述的多模态数据互检方法, 其特征在于, 所述在待检测 数据为多层次文本时, 通过基于图神经网络的文本编 码方法对待检测的多层次文本进 行编 码, 得到第一目标 特征向量具体为: 通过图神经网络确定出待检测的多层次文本中第一文本信息对应的节点以及第二文 本信息对应的节点; 提取出每个所述第一文本信息以及所述第二文本信息对应节点的节点特 征; 根据预设的连接关系建立策略, 构建所述第 一文本信 息对应节点与关联的所述第 二文 本信息对应节点之间的连接关系; 对所述图神经网络 中与其他节点存在连接关系的待更新节点, 根据所述图神经网络中 与所述待更新节点间存在连接关系的节点, 对所述待更新节点的节点特 征进行更新; 基于所述第一文本信息的时序信息将多个所述第一文本信息对应的节点特征聚合为 一个特征向量; 将所述多层次文本 中第三文本信 息对应的节点特征, 与 所述特征向量进行融合得到第 一目标特征向量; 其中, 所述第一文本信息包括第二文本信息, 所述第一文本信息用于概括所述多层次 文本。 7.根据权利要求6所述的多模态数据互检方法, 其特征在于, 所述预设的连接关系建立 策略具体为: 通过全连接网络建立所有所述第一文本信息对应节点与所述第二文本信息对应节点 的全连接关系; 遍历所述多层次文本所有的第 二文本信 息, 查找各个所述第 一文本信 息对所述第 二文 本信息的包含关系, 在每个所述第一文本信息与其包含的各个所述第二文本信息间建立基 础连接关系; 将所述全连接关系与所述基础连接关系进行 数值叠加, 得到先验叠加连接关系; 仅将所述先验叠加连接关系中数值大于预设阈值的连接关系保留。 8.根据权利要求7所述的多模态数据互检方法, 其特征在于, 所述提取出每个所述第 一 文本信息以及所述第二文本信息对应节点的节点特 征具体为: 将每个所述第 一文本信 息本体、 所述第 一文本信 息本体的文本类型对应的编号以及所 述第一文本信息中各个单词的位置编号输入语言表征模型Bert, 得到所述第一文本信息本 体对应的节点特 征;权 利 要 求 书 2/4 页 3 CN 115455228 A 3

PDF文档 专利 一种多模态数据互检方法、装置、设备及可读存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多模态数据互检方法、装置、设备及可读存储介质 第 1 页 专利 一种多模态数据互检方法、装置、设备及可读存储介质 第 2 页 专利 一种多模态数据互检方法、装置、设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。