(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210620916.1
(22)申请日 2022.06.02
(71)申请人 浙江师范大学
地址 321004 浙江省金华市迎宾大道68 8号
(72)发明人 李明 欧贤成 梁吉业 白璐
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 陈嘉乐
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 30/148(2022.01)
G10L 25/18(2013.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)G06V 10/74(2022.01)
(54)发明名称
基于图学习的视频参与度预测方法、 系统、
装置及介质
(57)摘要
本发明公开一种基于图学习的视频参与度
预测方法、 系统、 装置及介质, 涉及计算机技术领
域。 本申请融合基于多模态分析的情感特征矩阵
和基于单模态分析的文本特征矩阵、 音频特征矩
阵和视频特征矩阵进行用户参与度的预测, 不仅
考虑单模态数据对预测结果的影 响, 又通过情感
分析考虑 多模态数据间的相互关联, 从而提高了
视频用户参与度预测的准确性。
权利要求书3页 说明书12页 附图3页
CN 115187893 A
2022.10.14
CN 115187893 A
1.一种基于图学习的视频参与度预测方法, 其特 征在于, 包括以下步骤:
获取视频内容;
对所述视频内容进行模态特 征提取得到文本数据、 音频 数据和视频 数据;
根据所述文本数据、 所述音频数据和所述视频数据通过图学习 进行情感特征提取得到
情感特征矩阵;
对所述文本数据进行关键词的特 征提取得到文本特 征矩阵;
对所述视频 数据进行目标对象的特 征提取得到视频特征矩阵;
对所述音频 数据进行谱图的特 征提取得到音频 特征矩阵;
将所述情感特征矩阵、 所述文本特征矩阵、 所述视频特征矩阵和所述音频特征矩阵输
入用户参与度预测模型 得到用户参与度预测结果。
2.根据权利要求1所述的基于图学习的视频参与度 预测方法, 其特征在于, 所述根据 所
述文本数据、 所述音频数据和所述视频数据通过图学习进 行情感特征提取得到情感特征矩
阵包括以下步骤:
将所述文本数据输入文本前馈神经网络进行特征编码得到文本嵌入序列, 其中, 所述
文本嵌入序列包括多个文本嵌入, 所述文本嵌入包括第一位置标识, 所述第一位置标识用
于表征所述文本嵌入在所述文本嵌入序列中的位置;
将所述音频数据输入音频前馈神经网络进行特征编码得到音频嵌入序列, 其中, 所述
音频嵌入序列包括多个音频嵌入, 所述音频嵌入包括第二位置标识, 所述第二位置标识用
于表征所述音频嵌入在所述音频嵌入序列中的位置;
将所述视频数据输入视频前馈神经网络进行特征编码得到视频嵌入序列, 其中, 所述
视频嵌入序列包括多个视频嵌入, 所述视频嵌入包括第三位置标识, 所述第三位置标识用
于表征所述视频嵌入在所述视频嵌入序列中的位置;
基于所述第 一位置标识、 所述第 二位置标识和所述第 三位置标识确定两个嵌入之间的
时序关系, 其中, 所述两个嵌入包括两个文本嵌入、 两个视频嵌入、 两个音 频嵌入、 文本嵌入
与视频嵌入、 文本嵌入和音频嵌入、 音频嵌入和视频嵌入的至少之一;
根据所述文本嵌入、 所述音频嵌入和所述视频嵌入, 以及两个嵌入之间的时序关系构
建多模态全连接图, 其中, 所述文本嵌入、 所述音频嵌入和所述视频嵌入均作为所述多模态
全连接图的节点, 所述两个嵌入之间的时序关系作为多模态全连接图的边;
将所述多模态全连接图输入图神经网络进行情感特 征提取得到所述情感特 征矩阵。
3.根据权利要求2所述的基于图学习的视频参与度 预测方法, 其特征在于, 所述基于所
述第一位置标识、 所述第二位置标识和所述第三位置标识确定两个 嵌入之间的时序关系包
括以下步骤:
当所述两个嵌入为相同模态的嵌入, 则根据模态对应的位置标识确定所述两个嵌入之
间的时序关系;
当所述两个嵌入为不同模态的嵌入, 则根据两个嵌入所在的两个嵌入序列的长度设置
卷积核和卷积步长, 根据所述卷积核和卷积步长对两个 嵌入序列进行对齐操作确定两个嵌
入序列中互相对齐的第一嵌入和第二嵌入, 以所述第一嵌入的位置标识为基准, 确定第一
嵌入所在嵌入序列中的每一个嵌入与所述第二嵌入的时序关系。
4.根据权利要求2所述的基于图学习的视频参与度 预测方法, 其特征在于, 所述根据 所权 利 要 求 书 1/3 页
2
CN 115187893 A
2述文本数据、 所述音频数据和所述视频数据通过图学习进 行情感特征提取得到情感特征矩
阵还包括以下步骤:
根据所述多模态全连接图中的相邻节点的嵌入确定对应边的注意力权 重;
根据所述注意力权 重对相邻节点进行信息融合, 得到每一个节点的新嵌入;
根据节点的嵌入确定相邻节点之间的相似度;
当相邻节点的相似度大于相似度阈值, 则 删除相邻节点的边;
删除所述多模态全连接图中没有边连接的孤立节点。
5.根据权利要求1所述的基于图学习的视频参与度 预测方法, 其特征在于, 所述对所述
文本数据进行关键词的特 征提取得到文本特 征矩阵包括以下步骤:
将所述文本数据进行提取 得到视频文本、 标题文本和各种词性;
计算视频文本长度、 标题文本长度和词性比例并采用多层感知器进行表示学习, 得到
文本特征矩阵。
6.根据权利要求1所述的基于图学习的视频参与度 预测方法, 其特征在于, 所述对所述
音频数据进行谱图的特 征提取得到音频 特征矩阵包括以下步骤:
从所述音频 数据中提取梅尔因频谱图;
将所述梅尔因频谱图输入循环自编码器进行 特征表示得到所述音频 特征矩阵。
7.根据权利要求1所述的基于图学习的视频参与度 预测方法, 其特征在于, 所述对所述
视频数据进行目标对象的特 征提取得到视频特征矩阵包括以下步骤:
将所述视频 数据划分为若干个帧片段;
分别将若干个所述帧片段输入训练完成的YOLO v3模型进行目标对象识别, 得到用于
表征目标对象在视频中的出现时间的视频 特征矩阵。
8.一种基于图学习的视频参与度预测系统, 其特 征在于, 包括:
第一模块, 用于获取视频内容;
第二模块, 用于对所述视频内容进行模态特征提取得到文本数据、 音频数据和视频数
据;
第三模块, 用于根据所述文本数据、 所述音频数据和所述视频数据通过图学习进行情
感特征提取得到情感特 征矩阵;
第四模块, 用于对所述文本数据进行关键词的特 征提取得到文本特 征矩阵;
第五模块, 用于对所述视频 数据进行目标对象的特 征提取得到视频特征矩阵;
第六模块, 用于对所述音频 数据进行谱图的特 征提取得到音频 特征矩阵;
第七模块, 用于将所述情感特征矩阵、 所述文本特征矩阵、 所述视频特征矩阵和所述音
频特征矩阵输入用户参与度预测模型 得到用户参与度预测结果。
9.一种基于图学习的视频参与度预测装置, 其特 征在于, 包括:
至少一个处 理器;
至少一个存 储器, 用于存 储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行, 使得至少一个所述处理器实现如权
利要求1至7任一项所述的基于图学习的视频参与度预测方法。
10.一种计算机可读存储介质, 其中存储有处理器可执行的程序, 其特征在于, 所述处
理器可执行 的程序被由所述处理器执行时用于实现如权利要求1至7任一项所述基于图学权 利 要 求 书 2/3 页
3
CN 115187893 A
3
专利 基于图学习的视频参与度预测方法、系统、装置及介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:01上传分享