专利基于视觉常识知识表征的视频描述生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210683634.6 (22)申请日 2022.06.16 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人高联丽　张浩楠　罗叶雨　曾鹏鹏　宋井宽　 (74)专利代理机构成都弘毅天承知识产权代理有限公司 5123 0 专利代理师朱丹 (51)Int.Cl. G06F 16/78(2019.01) G06F 16/75(2019.01) G06V 10/762(2022.01) G06V 20/40(2022.01) (54)发明名称基于视觉常识知识表征的视频描述生成方法 (57)摘要本发明公开了基于视觉常识知识表征的视频描述生成方法，涉及视频与文本处理技术领域，解决了传统方法中仅关注原视频包含的表面关联而忽略常识知识，导致生成描述细节不足的问题，包括S1：选取一组源始视频集，提取所有视频帧中的运动特征和外观特征来呈现视频信息，基于此构建一个视频字典，以无监督的方式捕捉和存储视频领域的视觉常识知识； S2：基于构建好的视频字典，进行视觉概念选择，通过概念感知的多头注意力模块从视频字典中学习关键的常识性知识，获得视频相关的概念特征； S3：设计一种新的概念集成生成器，应用一个门控控制器来决定两个特征的重要性，基于源视频特征和视频相关的概念特征来生成描述。权利要求书3页说明书8页附图2页 CN 115098727 A 2022.09.23 CN 115098727 A 1.基于视觉常识知识表征的视频描述生成方法，其特征在于，包括以下步骤： S1：选取一组源始视频集，提取所有视频帧中的运动特征和外观特征来呈现视频信息，基于此构建一个视频字典，以无监督的方式捕捉和存储视频领域的视觉常识知识； S2：基于构建好的视频字典，进行视觉概念选择，通过概念感知的多头注意力模块从视频字典中学习关键的常识性知识，获得视频相关的概念特征； S3：设计一种新的概念集成生成器，应用一个门控控制器来决定两个特征的重要性，基于源视频特征和视频相关的概念特征来生成描述。 2.根据权利要求1所述的基于视觉常识知识表征的视频描述生成方法，其特征在于，所述S1中的视频字典通过VDC构建，具体如下： S1.1:VDC的输入为整个视频集， VDC首先使用2D ‑CNN和3D‑CNN分别提取视频的外观特征和运动特征并将这两种特征串联起来得到最终视频表示V ＝[Va； Vm]，基于此操作过程提取出了视频集中所有的视频特征，其中L表示此视频采样的帧数， i表示视频的第i帧， l表示从视频的第l帧开始提取每一帧的特征； S1.2:针对提取出的视频特征，利用K ‑means算法对其进行聚类，获得M个聚类中心，并构建为所需要的视觉字典C＝{c1,...,cj,...,cM}，其中cj表示第j个视觉概念表示，在后续步骤中将协助原始视频获得额外的视觉常识性知识。 3.根据权利要求1所述的基于视觉常识知识表征的视频描述生成方法，其特征在于，所述S2中的视觉概念选择通过VCS完成，具体如下： S2.1:VCS的主要结构是概念感知交叉注意力模块，此模块将使用不同的全连接层将最终视频特征映射到查询Qv，将视觉字典映射到键Kc和值Vc，最终视频特征V与视觉字典C中所有视觉概念表示之间的相似性矩阵S通过采用自注意力机制的方法计算：其中，相似性S(i.j)表示第j个视觉概念特征cj对第i个最终视频特征vi的重要程度， d表示Kc的维度，表示对Kc进行转置操作； S2.2:同时关注多个语义相关的视觉概念， VCS采用多头注意力机制(MHA)来计算相似性矩阵S。在MHA中，查询Qv、键Kc和值Vc的几个投影矩阵用于不同的注意力头部，这些矩阵被映射到不同的子空间中；通过自注意力机制计算头部h的相似性矩阵S(h)以聚合查询Qv和键 Kc之间的多个语义信息；所有的相似度头部被连接在一起，并与可学习的投影矩阵WO融合，获得语义相关视觉概念特征Cs，表示为：其中， H是注意力头部的数量，是第h个头的输出， [； ]为特征拼接操作； S2.3：将Cs进行归一化，并添加到最终视频特征中，获得视频相关的概念特征Ct： Ct＝V+LAYERNORM(Cs)权　利　要　求　书 1/3 页 2 CN 115098727 A 2其中，将N块C ‑MCA模块进行堆栈，以获得更精确细致的视频相关概念特征，并将最后一个C‑MCA模块的输出作为最终的视频相关概念特征 4.根据权利要求1所述的基于视觉常识知识表征的视频描述生成方法，其特征在于，所述步骤3中的概念集成生成器通过CIG构建，具体如下： S3.1： CIG基于源视频特征和与视频相关概念特征来生成视频描述， CIG包括：一个 Attention‑LSTM、一个门控控制器和一个Langua ge‑LSTM； S3.2：在第t个时间步， Attention ‑LSTM的目标是根据Language ‑LSTM的前一个隐藏状态全局视频特征以及前一个单词wt‑1，获取当前状态的语义可表示如下：其中， [； ]为特征拼接操作， We表示单词嵌入矩阵， L表示此视频采样的帧数， vl表示第l 帧的最终视频特征； S3.3：门控控制器是采用的聚合视频表示V和根据attention ‑LSTM的当前隐藏状态它决定了哪一个特征应该发挥更重要的作用；首先应用注意力机制将视频特征V与当前隐藏状态在视频帧级进行聚合，得到语义感知的视频特征V′，表示为：其中，是元素加法， W*为可学习矩阵， Vi是指最终视频特征V中的第i个帧级向量， L表示此视频采样的帧数， i表示视频的第i帧；定义上述过程为：进一步地，经过相同的计算操作，得到语义感知的概念特征特征上下文门控控制器通过参数λ控制两种语义感知的特征信息V ′和C′向language ‑LSTM 的传播，的值是基于V ′、 C′和通过一个非线性层得到的：其中， Wλ为可学习参数， σ( ·)为sigmoid函数，使用 λ控制V ′的重要性，互补部分1 ‑λ控制 C′的重要性，获得概念集成的视频特征e′，表示如下： e′＝ λ⊙f(V′)+(1‑λ )⊙f(C′) 其中⊙为阿达玛乘积， f(？ )表示为完全连接层； S3.4： Langua ge‑LSTM的输入为概念集成的视频特性e ′，目的是生成当前的隐藏状态描述生成模型pt的对数分布是通过单个线性函数和解码步骤t处进行soft max操作得到的，具体操作可表示如下：其中， pt是单词大小的向量， Wv和bv是可学习的参数，为当前状态的语义，为权　利　要　求　书 2/3 页 3 CN 115098727 A 3

专利 基于视觉常识知识表征的视频描述生成方法

专利基于视觉常识知识表征的视频描述生成方法