全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210683634.6 (22)申请日 2022.06.16 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 高联丽 张浩楠 罗叶雨 曾鹏鹏  宋井宽  (74)专利代理 机构 成都弘毅天承知识产权代理 有限公司 5123 0 专利代理师 朱丹 (51)Int.Cl. G06F 16/78(2019.01) G06F 16/75(2019.01) G06V 10/762(2022.01) G06V 20/40(2022.01) (54)发明名称 基于视觉常识知识表征的视频描述生成方 法 (57)摘要 本发明公开了基于视觉常识知识表征的视 频描述生成方法, 涉及视频与文本处理技术领 域, 解决了传统方法中仅关注原视频包含的表面 关联而忽略常识知识, 导致生 成描述细节不足的 问题, 包括S1: 选取一组源始 视频集, 提取所有视 频帧中的运动特征和外观特征来呈现视频信息, 基于此构建一个视频字典, 以无监督的方式捕捉 和存储视频领域的视觉常识知识; S2: 基于构建 好的视频字典, 进行视觉概念选择, 通过概念感 知的多头注意力模块从视频字典中学习关键的 常识性知 识, 获得视频相关的概念特征; S3: 设计 一种新的概念集成生成器, 应用一个门控控制器 来决定两个特征的重要性, 基于源视频特征和视 频相关的概念特 征来生成描述。 权利要求书3页 说明书8页 附图2页 CN 115098727 A 2022.09.23 CN 115098727 A 1.基于视觉常识知识 表征的视频描述 生成方法, 其特 征在于, 包括以下步骤: S1: 选取一组源始视频集, 提取所有视频帧中的运动特征和外观特征来呈现视频信息, 基于此构建一个视频字典, 以无监 督的方式捕捉和存 储视频领域的视 觉常识知识; S2: 基于构建好的视频字典, 进行视觉概念选择, 通过概念感知的多头注意力模块从视 频字典中学习关键的常识性知识, 获得视频相关的概念特 征; S3: 设计一种新的概念集成生成器, 应用一个门控控制器来决定两个特征的重要性, 基 于源视频 特征和视频相关的概念特 征来生成描述。 2.根据权利要求1所述的基于视觉常识知识表征的视频描述生成方法, 其特征在于, 所 述S1中的视频字典通过VDC构建, 具体如下: S1.1:VDC的输入为整个视频集, VDC首先使用2D ‑CNN和3D‑CNN分别提取视频的外观特 征 和运动特征 并将这两种特征串联起来得到最终视频表示V =[Va; Vm], 基于此操作过程提 取出了视频集中所有的视频特征, 其中L表示 此视频采样的帧 数, i表示视频的第i帧, l表示从视频的第l帧开始提取每一帧的特 征; S1.2:针对提取出的视频特征, 利用K ‑means算法对其进行聚类, 获得M个聚类中心, 并 构建为所需要的视觉字 典C={c1,...,cj,...,cM}, 其中cj表示第j个视觉概念表示, 在后续 步骤中将协助原 始视频获得额外的视 觉常识性知识。 3.根据权利要求1所述的基于视觉常识知识表征的视频描述生成方法, 其特征在于, 所 述S2中的视 觉概念选择通过VCS完成, 具体如下: S2.1:VCS的主要结构是概念感知交叉注意力模块, 此模块将使用不同的全连接层将最 终视频特征 映射到查询Qv, 将视觉字典 映射到键Kc和值Vc, 最终视频 特征V与视觉字典C中所有视觉概念表示之 间的相似性矩阵S通过采用自注意力机制的方法 计算: 其中, 相似性S(i.j)表示第j个视觉概念特征cj对第i个最终视频特征vi的重要程度, d表 示Kc的维度, 表示对Kc进行转置操作; S2.2:同时关注多个语义相关的视觉概念, VCS采用多头注意力机制(MHA)来计算相似 性矩阵S。 在MHA中, 查询Qv、 键Kc和值Vc的几个投影矩阵用于不同的注 意力头部, 这些矩阵被 映射到不同的子 空间中; 通过自注意力机制计算头部h的相似性矩阵S(h)以聚合查询Qv和键 Kc之间的多个语义信 息; 所有的相似度头部被连接在一起, 并与 可学习的投影矩阵WO融合, 获得语义相关视 觉概念特 征Cs, 表示为: 其中, H是注意力头 部的数量, 是第h个头的输出, [; ]为特 征拼接操作; S2.3: 将Cs进行归一 化, 并添加到最终视频 特征中, 获得视频相关的概念特 征Ct: Ct=V+LAYERNORM(Cs)权 利 要 求 书 1/3 页 2 CN 115098727 A 2其中, 将N块C ‑MCA模块进行堆栈, 以获得更精确细致的视频相关概念特征, 并将最后一 个C‑MCA模块的输出作为 最终的视频相关概念特 征 4.根据权利要求1所述的基于视觉常识知识表征的视频描述生成方法, 其特征在于, 所 述步骤3中的概念集成生成器通过CIG构建, 具体如下: S3.1: CIG基于源视频特征和与视频相关概念特征来生成视频描述, CIG包括: 一个 Attention‑LSTM、 一个门控 控制器和一个Langua ge‑LSTM; S3.2: 在第t个时间步, Attention ‑LSTM的目标是根据Language ‑LSTM的前一个隐藏状 态 全局视频 特征 以及前一个单词wt‑1, 获取当前状态的语义 可表示如下: 其中, [; ]为特征拼接操作, We表示单词嵌入矩阵, L表示此视频采样的帧数, vl表示第l 帧的最终视频 特征; S3.3: 门控控制器是采用的聚合视频表示V和 根据attention ‑LSTM的当前隐藏状态 它决定了哪一个特征应该发挥更重要的作用; 首先应用注 意力机制将 视频特征V与当前 隐藏状态 在视频帧级 进行聚合, 得到语义感知的视频 特征V′, 表示为: 其中, 是元素加法, W*为可学习矩阵, Vi是指最终视频特征V中的第i个帧级向量, L表 示此视频采样的帧数, i表示视频的第i帧; 定义上述过程为: 进一步地, 经过相同的计算操作, 得到语义感知的概念特 征特征 上下文门控控制器通过参数λ控制两种语义感知的特征信息V ′和C′向language ‑LSTM 的传播, 的值是基于V ′、 C′和 通过一个非线性层得到的: 其中, Wλ为可学习参数, σ( ·)为sigmoid函数, 使用 λ控制V ′的重要性, 互补部分1 ‑λ控制 C′的重要性, 获得概念集成的视频 特征e′, 表示如下: e′= λ⊙f(V′)+(1‑λ )⊙f(C′) 其中⊙为阿达玛乘积, f(? )表示 为完全连接层; S3.4: Langua ge‑LSTM的输入为 概念集成的视频特性e ′, 目的是生成当前的隐藏状态 描述生成模型pt的对数分布是通过单个线性函数和解码步骤t处进行soft max操作得到的, 具体操作可表示如下: 其中, pt是单词大小的向量, Wv和bv是可学习的参数, 为当前状态的语义, 为权 利 要 求 书 2/3 页 3 CN 115098727 A 3

.PDF文档 专利 基于视觉常识知识表征的视频描述生成方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于视觉常识知识表征的视频描述生成方法 第 1 页 专利 基于视觉常识知识表征的视频描述生成方法 第 2 页 专利 基于视觉常识知识表征的视频描述生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:58:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。