专利 基于图学习的视频参与度预测方法、系统、装置及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210620916.1 (22)申请日 2022.06.02 (71)申请人浙江师范大学地址 321004 浙江省金华市迎宾大道68 8号 (72)发明人李明　欧贤成　梁吉业　白璐　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师陈嘉乐 (51)Int.Cl. G06V 20/40(2022.01) G06V 30/148(2022.01) G10L 25/18(2013.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01)G06V 10/74(2022.01) (54)发明名称基于图学习的视频参与度预测方法、系统、装置及介质 (57)摘要本发明公开一种基于图学习的视频参与度预测方法、系统、装置及介质，涉及计算机技术领域。本申请融合基于多模态分析的情感特征矩阵和基于单模态分析的文本特征矩阵、音频特征矩阵和视频特征矩阵进行用户参与度的预测，不仅考虑单模态数据对预测结果的影响，又通过情感分析考虑多模态数据间的相互关联，从而提高了视频用户参与度预测的准确性。权利要求书3页说明书12页附图3页 CN 115187893 A 2022.10.14 CN 115187893 A 1.一种基于图学习的视频参与度预测方法，其特征在于，包括以下步骤：获取视频内容；对所述视频内容进行模态特征提取得到文本数据、音频数据和视频数据；根据所述文本数据、所述音频数据和所述视频数据通过图学习进行情感特征提取得到情感特征矩阵；对所述文本数据进行关键词的特征提取得到文本特征矩阵；对所述视频数据进行目标对象的特征提取得到视频特征矩阵；对所述音频数据进行谱图的特征提取得到音频特征矩阵；将所述情感特征矩阵、所述文本特征矩阵、所述视频特征矩阵和所述音频特征矩阵输入用户参与度预测模型得到用户参与度预测结果。 2.根据权利要求1所述的基于图学习的视频参与度预测方法，其特征在于，所述根据所述文本数据、所述音频数据和所述视频数据通过图学习进行情感特征提取得到情感特征矩阵包括以下步骤：将所述文本数据输入文本前馈神经网络进行特征编码得到文本嵌入序列，其中，所述文本嵌入序列包括多个文本嵌入，所述文本嵌入包括第一位置标识，所述第一位置标识用于表征所述文本嵌入在所述文本嵌入序列中的位置；将所述音频数据输入音频前馈神经网络进行特征编码得到音频嵌入序列，其中，所述音频嵌入序列包括多个音频嵌入，所述音频嵌入包括第二位置标识，所述第二位置标识用于表征所述音频嵌入在所述音频嵌入序列中的位置；将所述视频数据输入视频前馈神经网络进行特征编码得到视频嵌入序列，其中，所述视频嵌入序列包括多个视频嵌入，所述视频嵌入包括第三位置标识，所述第三位置标识用于表征所述视频嵌入在所述视频嵌入序列中的位置；基于所述第一位置标识、所述第二位置标识和所述第三位置标识确定两个嵌入之间的时序关系，其中，所述两个嵌入包括两个文本嵌入、两个视频嵌入、两个音频嵌入、文本嵌入与视频嵌入、文本嵌入和音频嵌入、音频嵌入和视频嵌入的至少之一；根据所述文本嵌入、所述音频嵌入和所述视频嵌入，以及两个嵌入之间的时序关系构建多模态全连接图，其中，所述文本嵌入、所述音频嵌入和所述视频嵌入均作为所述多模态全连接图的节点，所述两个嵌入之间的时序关系作为多模态全连接图的边；将所述多模态全连接图输入图神经网络进行情感特征提取得到所述情感特征矩阵。 3.根据权利要求2所述的基于图学习的视频参与度预测方法，其特征在于，所述基于所述第一位置标识、所述第二位置标识和所述第三位置标识确定两个嵌入之间的时序关系包括以下步骤：当所述两个嵌入为相同模态的嵌入，则根据模态对应的位置标识确定所述两个嵌入之间的时序关系；当所述两个嵌入为不同模态的嵌入，则根据两个嵌入所在的两个嵌入序列的长度设置卷积核和卷积步长，根据所述卷积核和卷积步长对两个嵌入序列进行对齐操作确定两个嵌入序列中互相对齐的第一嵌入和第二嵌入，以所述第一嵌入的位置标识为基准，确定第一嵌入所在嵌入序列中的每一个嵌入与所述第二嵌入的时序关系。 4.根据权利要求2所述的基于图学习的视频参与度预测方法，其特征在于，所述根据所权　利　要　求　书 1/3 页 2 CN 115187893 A 2述文本数据、所述音频数据和所述视频数据通过图学习进行情感特征提取得到情感特征矩阵还包括以下步骤：根据所述多模态全连接图中的相邻节点的嵌入确定对应边的注意力权重；根据所述注意力权重对相邻节点进行信息融合，得到每一个节点的新嵌入；根据节点的嵌入确定相邻节点之间的相似度；当相邻节点的相似度大于相似度阈值，则删除相邻节点的边；删除所述多模态全连接图中没有边连接的孤立节点。 5.根据权利要求1所述的基于图学习的视频参与度预测方法，其特征在于，所述对所述文本数据进行关键词的特征提取得到文本特征矩阵包括以下步骤：将所述文本数据进行提取得到视频文本、标题文本和各种词性；计算视频文本长度、标题文本长度和词性比例并采用多层感知器进行表示学习，得到文本特征矩阵。 6.根据权利要求1所述的基于图学习的视频参与度预测方法，其特征在于，所述对所述音频数据进行谱图的特征提取得到音频特征矩阵包括以下步骤：从所述音频数据中提取梅尔因频谱图；将所述梅尔因频谱图输入循环自编码器进行特征表示得到所述音频特征矩阵。 7.根据权利要求1所述的基于图学习的视频参与度预测方法，其特征在于，所述对所述视频数据进行目标对象的特征提取得到视频特征矩阵包括以下步骤：将所述视频数据划分为若干个帧片段；分别将若干个所述帧片段输入训练完成的YOLO v3模型进行目标对象识别，得到用于表征目标对象在视频中的出现时间的视频特征矩阵。 8.一种基于图学习的视频参与度预测系统，其特征在于，包括：第一模块，用于获取视频内容；第二模块，用于对所述视频内容进行模态特征提取得到文本数据、音频数据和视频数据；第三模块，用于根据所述文本数据、所述音频数据和所述视频数据通过图学习进行情感特征提取得到情感特征矩阵；第四模块，用于对所述文本数据进行关键词的特征提取得到文本特征矩阵；第五模块，用于对所述视频数据进行目标对象的特征提取得到视频特征矩阵；第六模块，用于对所述音频数据进行谱图的特征提取得到音频特征矩阵；第七模块，用于将所述情感特征矩阵、所述文本特征矩阵、所述视频特征矩阵和所述音频特征矩阵输入用户参与度预测模型得到用户参与度预测结果。 9.一种基于图学习的视频参与度预测装置，其特征在于，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得至少一个所述处理器实现如权利要求1至7任一项所述的基于图学习的视频参与度预测方法。 10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序被由所述处理器执行时用于实现如权利要求1至7任一项所述基于图学权　利　要　求　书 2/3 页 3 CN 115187893 A 3

专利 基于图学习的视频参与度预测方法、系统、装置及介质

专利基于图学习的视频参与度预测方法、系统、装置及介质