专利基于模态定制协同注意力交互的时序语言定位方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211149191.9 (22)申请日 2022.09.21 (65)同一申请的已公布的文献号申请公布号 CN 115238130 A (43)申请公布日 2022.10.25 (73)专利权人之江实验室地址 311121 浙江省杭州市余杭区之江实验室南湖总部 (72)发明人王聪　宋明黎　 (74)专利代理机构北京志霖恒远知识产权代理有限公司 1 1435 专利代理师戴莉 (51)Int.Cl. G06F 16/783(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (56)对比文件 CN 114064967 A,202 2.02.18 CN 114201621 A,202 2.03.18 CN 114037945 A,202 2.02.11 US 2013346077 A1,2013.12.26 US 2022180056 A1,202 2.06.09 黄培松等.基于隐含主题协同注意力网络的领域分类方法. 《中文信息学报》 .2020,(第02 期),第73 -79页. 王方圆等.基于时空灰度序特征的视频片段定位算法. 《软件学报》 .2013,(第12期),第2 921- 2936页. Ludan Ruan et al.Survey: Transformer based video-langua ge pre-trai ning. 《AI Open》 .202 2, 审查员崔小利 (54)发明名称基于模态定制协同注意力交互的时序语言定位方法及装置 (57)摘要本发明公开了基于模态定制协同注意力交互的时序语言定位方法及装置，包括以下步骤：步骤S1：构建数据集；步骤S2：提取视频表征；步骤S3：得到多粒度查询表征Q；步骤S4：获取已语义对齐视频表征；步骤S5：获得每一帧处的目标片段时序边界回归值、语义匹配分数和时序交并比回归值；步骤S6：得到训练好的基于模态定制协同注意力交互的时序语言定位模型；步骤S7：测试，得到时序语言定位结果。本发明将配备协同注意力的Tran sformer架构用于时序语言定位任务，并设计了一种模态定制的双流协同注意力交互层，用于并行的视频流的多粒度协同注意力交互和查询流的标准协同注意力交互，本发明方法实现简单，手段灵活，可显著提升时序语言定位任务性能。权利要求书4页说明书11页附图2页 CN 115238130 B 2022.12.06 CN 115238130 B 1.一种基于模态定制协同注意力交互的时序语言定位方法，其特征在于，包括以下步骤：步骤S1：获取成对的未剪辑视频 ‑文本查询数据，构建时序语言定位任务的训练数据集和测试数据集，所述训练数据集中每样本由成对的未剪辑视频 ‑文本查询以及目标视频片段相应的起始和结束时间标注组成，所述测试数据集仅由未提供目标视频片段时间标注的成对的未剪辑视频 ‑文本查询样本组成；步骤S2：基于所述时序语言定位任务中的每对未剪辑视频 ‑文本查询数据，对未修剪视频通过视频编码器提取视频表征V；步骤S3：基于所述时序语言定位任务中的每对未剪辑视频 ‑文本查询数据，对文本查询数据通过查询编码器提取单词级查询表征W和句子级查询表征qs，所述单词级查询表征W和所述句子级查询表征qs组合得到多粒度查询表征Q；步骤S4：将所述视频表征V和所述多粒度查询表征Q共同输入模态定制协同注意力交互模块，获取视频 ‑文本跨模态融合后已语义对齐视频表征；所述步骤S4具体为：将所述视频表征V和所述多粒度查询表征Q作为模态定制协同注意力交互模块的输入，依次经过所述模态定制协同注意力交互模块中的若干层模态定制的双流协同注意力交互层进行跨模态融合，得到对应层输出的视频表征和多粒度查询表征，最后一层模态定制的双流协同注意力交互层输出的视频表征作为已语义对齐视频表征；所述模态定制的双流协同注意力交互层包括视频流的多粒度协同注意力交互和查询流的标准协同注意力交互，具体实施过程为：视频流的多粒度协同注意力交互：将前一模态定制的双流协同注意力交互层输出的视频表征和多粒度查询表征作为输入，采用哈达玛乘积将所述视频表征和所述多粒度查询表征中的句子级查询表征进行粗粒度融合，得到背景帧表征抑制的视频表征，将所述背景帧表征抑制的视频表征采用一块多头自注意力块进行模态内时序上下文建模，得到视频表征；再次将所述视频表征作为查询，将所述多粒度查询表征中的单词级查询表征作为键和值，采用一块多头交叉注意力块进行模态间的跨模态对齐；最后采用两层的前馈网络得到第层模态定制的双流协同注意力交互层的视频表征输出；查询流的标准协同注意力交互：将前一模态定制的双流协同注意力交互层输出的视频表征和多粒度查询表征作为输入，将所述多粒度查询表征采用一块多头自注意力块进行模态内时序上下文建模，得到多粒度查询表征；将所述多粒度查询表征作为查询，将所述视频表征作为键和值，采用一块多头交叉注意力块进行模态间的跨模态对齐；最后采用两层的前馈网络得到第层模态定制的双流协同注意力交互层的多粒度查询表征输出；步骤S5：根据跨模态融合后的已语义对齐视频表征，采用包含稠密时序边界回归、语义权　利　要　求　书 1/4 页 2 CN 115238130 B 2匹配分数预测以及交并比回归的多分支任务，分别获得每一帧处的目标片段时序边界回归值、语义匹配分数和时序交并比回归值；步骤S6：对步骤S2 ‑步骤S5所组成的基于模态定制协同注意力交互的时序语言定位模型，利用所述训练数据集进行训练，训练所采用的损失函数由边界损失、语义匹配损失和交并比回归损失三项组成，并使用优化器进行模型参数的更新，得到训练好的基于模态定制协同注意力交互的时序语言定位模型；步骤S7：利用所述测试数据集对训练好的基于模态定制协同注意力交互的时序语言定位模型进行测试，将所得到的具有最高置信度值的目标片段时序边界回归值作为所述测试数据集的时序语言定位结果。 2.如权利要求1所述的一种基于模态定制协同注意力交互的时序语言定位方法，其特征在于，所述步骤S2具体包括以下子步骤：步骤S21：利用视频编码器中视觉预训练模型以离线方式对未剪辑视频 ‑文本查询数据中的未剪辑视频提取视频帧表征并均匀地采样T帧；步骤S22：将T帧视频帧表征通过视频编码器中若干配备残差连接的一维卷积块，获取序列长度为T且特征维度为d的一组视频表征；步骤S23：将所述一组视频表征通过视频编码器中若干自注意力块，构建全局上下文时序依赖建模的视频表征V。 3.如权利要求1所述的一种基于模态定制协同注意力交互的时序语言定位方法，其特征在于，所述步骤S3具体包括以下子步骤：步骤S31：利用查询编码器中预训练词嵌入模型对未剪辑视频 ‑文本查询数据中的文本查询数据提取每个单词相应的词嵌入向量，获取词嵌入向量序列；步骤S32：通过查询编码器中多层的双向长短时记忆网络对所述词嵌入向量序列进行上下文编码，获得总单词数为 L且特征维度为d的单词级查询表征W；步骤S33：将所述单词级查询表征中最后一个单词的前向隐状态向量和第一个单词的后向隐状态向量进行拼接，获得句子级查询表征qs；步骤S34：所述单词级查询表征W和所述句子级查询表征qs组合得到多粒度查询表征Q。 4.如权利要求1所述的一种基于模态定制协同注意力交互的时序语言定位方法，其特征在于，所述步骤S5具体包括以下子步骤：步骤S51：稠密时序边界回归任务：将所述已语义对齐视频表征作为稠密时序边界回归任务的输入，采用两层的一维卷积，经过第一层一维卷积后得到稠密时序边界回归的输出表征Vd，且最后一层一维卷积用sigmoid函数激活，在视频每一帧处稠密回归当前帧到目标视频片段的起始和结束时间点的归一化距离，获得每一帧处的目标片段时序边界回归值；步骤S52：语义匹配分数预测任务：将所述已语义对齐视频表征作为语义匹配分数预测任务的输入，采用两层的一维卷积，经过第一层一维卷积后得到语义匹配分数预测的输出表征Vs，且最后一层一维卷积不激活，获得每一帧处的语义匹配分数；步骤S53：时序交并比回归任务：将所述稠密时序边界回归任务的输出表征Vd和所述语义匹配分数预测任务的输出表征Vs沿着通道维进行拼接，得到的拼接表征作为交并比回归任务的输入，采用三层的一维卷积且最后一层用sigmoid函数激活，获得每一帧处所回归目标片段与标注目标片段的时序交并比回归值。权　利　要　求　书 2/4 页 3 CN 115238130 B 3

专利 基于模态定制协同注意力交互的时序语言定位方法及装置

专利基于模态定制协同注意力交互的时序语言定位方法及装置