(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210760941.X
(22)申请日 2022.06.30
(71)申请人 浪潮电子信息产业股份有限公司
地址 250101 山东省济南市高新区浪潮路
1036号
(72)发明人 张润泽 李仁刚 赵雅倩 郭振华
范宝余 李晓川
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 马小青
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
(54)发明名称
情绪识别方法、 装置、 设备及存 储介质
(57)摘要
本申请公开了情绪识别方法、 装置、 设备及
存储介质, 应用于神经网络技术领域, 该情绪识
别模型训练方法包括: 获取待测视频和待测音
频; 在待测视频中确定多个待测视频帧, 并利用
标签集合中的各个情绪标签分别与待测文本模
板拼接生成各个情绪标签分别对应的待测文本
数据; 将待测视频帧、 待测文本数据和待测音频
输入情绪识别模 型, 得到待测非文本编码数据和
各个待测文本数据分别对应的各个待测文本编
码数据; 利用待测非文本编码数据分别和各个待
测文本编码数据生成待测相似度数据; 将最大待
测相似度数据对应的情绪标签确定为待测视频
对应的情绪识别结果; 该方法引入了标签的本身
所包含的语义信息, 提高准确率。
权利要求书3页 说明书14页 附图4页
CN 115050077 A
2022.09.13
CN 115050077 A
1.一种情绪识别方法, 其特 征在于, 包括:
获取待测视频和待测音频;
在待测视频中确定多个待测视频帧, 并利用标签集合中的各个情绪标签分别与待测文
本模板拼接生成各个所述情绪标签分别对应的待测文本数据;
将所述待测视频帧、 所述待测文本数据和所述待测音频输入情绪识别模型, 得到待测
非文本编码数据和各个待测文本数据分别对应的各个待测文本编码数据;
利用所述待测非文本编码数据分别和各个所述待测文本编码数据生成待测相似度数
据;
将最大待测相似度数据对应的情绪标签确定为所述待测视频对应的情绪识别结果。
2.根据权利要求1所述的情绪识别方法, 其特征在于, 所述利用标签集合中的各个情绪
标签分别与待测文本模板拼接生成各个所述情绪标签分别对应的待测文本数据, 包括:
从预设模板库中选取 所述待测文本模板;
对所述待测文本模板分别和各个所述情绪标签进行向量映射处理, 得到一个待测模板
向量和各个标签向量;
将所述模板向量分别和各个所述标签向量进行拼接, 得到所述待测文本数据。
3.根据权利要求1所述的情绪识别方法, 其特征在于, 所述情绪识别模型的训练过程,
包括:
获取训练视频、 训练音频和情绪标签;
在所述训练视频中确定多个训练视频帧, 并利用所述情绪标签生成训练文本数据;
将所述训练视频帧、 所述训练文本数据和所述训练音频输入初始模型, 得到训练文本
编码数据以及训练非文本编码数据;
利用所述训练文本编码数据和所述训练非文本编码数据生成相似度数据;
利用所述相似度数据生成损失值, 并基于所述损失值对所述初始模型进行参数调节;
若检测到满足训练完成条件, 则将参数调节后的所述初始模型确定为情绪识别模型。
4.根据权利要求3所述的情绪识别模型训练方法, 其特征在于, 所述初始模型包括文本
编码器、 图像编 码器和音频编码器, 还包括池化网络模块和时间递归网络模块, 所述文本编
码器的输出为所述池化网络模块的输入, 所述图像编 码器的输出为所述时间递归网络模块
的输入。
5.根据权利要求4所述的情绪识别模型训练方法, 其特征在于, 所述将所述训练视频
帧、 所述训练文本数据和所述训练音频输入初始模型, 得到训练文本编码数据以及训练非
文本编码数据, 包括:
将所述训练文本 输入所述文本编码器, 得到多个初始文本编码;
将所述多个初始文本编码输入所述池化网络模块, 得到所述训练文本编码数据;
将所述训练视频帧输入所述图像编码器, 得到多个初始图像编码, 并将所述训练音频
输入所述音频编码器, 得到初始音频编码;
将所述多个初始图像编码输入所述时间递归网络模块, 得到中间图像编码;
将所述中间图像编码和所述初始音频编码进行拼接, 得到所述训练非文本编码数据。
6.根据权利要求4所述的情绪识别模型训练方法, 其特征在于, 所述文本编码器和所述
图像编码器属于语言图像对比学习预训练模型, 所述音频编码器 被预训练完毕。权 利 要 求 书 1/3 页
2
CN 115050077 A
27.根据权利要求6所述的情绪识别模型训练方法, 其特征在于, 所述基于所述损失值对
所述初始模型进行参数调节, 包括:
基于所述损失值对所述初始模型中的所述池化网络模块和所述时间递归网络模块进
行参数调节。
8.根据权利要求3所述的情绪识别模型训练方法, 其特征在于, 所述利用所述情绪标签
生成训练文本数据, 包括:
从预设模板库中选取一个目标文本模板;
对所述目标文本模板和所述情绪标签进行向量映射处 理, 得到模板向量和标签向量;
对所述模板向量和所述标签向量进行拼接, 得到所述训练文本数据。
9.根据权利要求3所述的情绪识别模型训练方法, 其特征在于, 所述检测到满足训练完
成条件, 包括:
利用测试 数据对参数调节后的所述初始模型进行准确率测试, 得到测试 结果;
若所述测试 结果大于预设阈值, 则确定满足所述训练完成条件。
10.根据权利要求9所述的情绪识别模型训练方法, 其特征在于, 所述测试数据包括多
组测试子数据, 其中包括目标测试子数据, 所述目标测试子数据包括目标测试视频、 目标测
试音频和目标测试 标签。
11.根据权利要求10所述的情绪识别模型训练方法, 其特征在于, 所述利用测试数据对
参数调节后的所述初始模型进行准确率测试, 得到测试 结果, 包括:
在所述目标测试视频中确定多个目标测试视频帧, 并利用标签集合中的各个情绪标签
生成多个目标测试文本数据; 其中, 所述目标测试文本数据对应于 至少一个文本模板;
将所述目标测试视频帧、 所述目标测试文本数据和所述目标测试音频输入参数调节后
的初始模型, 得到目标非文本编码数据和多个目标文本编码数据;
计算所述目标非文本编码数据分别和各个目标文本编码数据之间的测试相似度 数据,
并利用所述测试相似度数据确定所述至少一个文本模板分别对应的至少一个最大相似度
数据;
将所述至少一个最大相似度数据对应的情绪标签确定为所述目标测试视频对应的初
始预测结果, 并对所述初始预测结果进行最大 数量筛选, 得到预测结果;
基于所述预测结果和所述目标测试 标签确定所述目标测试子数据对应的测试子结果;
统计所述测试 数据对应的全部测试子结果, 得到所述测试 结果。
12.根据权利要求3所述的情绪识别模型训练方法, 其特征在于, 所述检测到满足训练
完成条件, 包括:
检测到训练时长 达到预设时长限值的情况 下, 确定满足所述训练完成条件;
或检测到训练轮数达 到预设训练次数的情况 下, 确定满足所述训练完成条件。
13.一种情绪识别装置, 其特 征在于, 包括:
待测获取模块, 用于获取待测视频和待测音频;
待测数据处理模块, 用于在待测视频中确定多个待测视频帧, 并利用标签集合中的各
个情绪标签分别与待测文本模板拼接生成各个所述情绪标签分别对应的待测文本数据;
待测输入模块, 用于将所述待测视频帧、 所述待测文本数据和所述待测音频输入情绪
识别模型, 得到待测非文本编 码数据和各个待测文本数据分别对应的各个待测文本编 码数权 利 要 求 书 2/3 页
3
CN 115050077 A
3
专利 情绪识别方法、装置、设备及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:05上传分享