专利 情绪识别方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210760941.X (22)申请日 2022.06.30 (71)申请人浪潮电子信息产业股份有限公司地址 250101 山东省济南市高新区浪潮路 1036号 (72)发明人张润泽　李仁刚　赵雅倩　郭振华　范宝余　李晓川　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师马小青 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) (54)发明名称情绪识别方法、装置、设备及存储介质 (57)摘要本申请公开了情绪识别方法、装置、设备及存储介质，应用于神经网络技术领域，该情绪识别模型训练方法包括：获取待测视频和待测音频；在待测视频中确定多个待测视频帧，并利用标签集合中的各个情绪标签分别与待测文本模板拼接生成各个情绪标签分别对应的待测文本数据；将待测视频帧、待测文本数据和待测音频输入情绪识别模型，得到待测非文本编码数据和各个待测文本数据分别对应的各个待测文本编码数据；利用待测非文本编码数据分别和各个待测文本编码数据生成待测相似度数据；将最大待测相似度数据对应的情绪标签确定为待测视频对应的情绪识别结果；该方法引入了标签的本身所包含的语义信息，提高准确率。权利要求书3页说明书14页附图4页 CN 115050077 A 2022.09.13 CN 115050077 A 1.一种情绪识别方法，其特征在于，包括：获取待测视频和待测音频；在待测视频中确定多个待测视频帧，并利用标签集合中的各个情绪标签分别与待测文本模板拼接生成各个所述情绪标签分别对应的待测文本数据；将所述待测视频帧、所述待测文本数据和所述待测音频输入情绪识别模型，得到待测非文本编码数据和各个待测文本数据分别对应的各个待测文本编码数据；利用所述待测非文本编码数据分别和各个所述待测文本编码数据生成待测相似度数据；将最大待测相似度数据对应的情绪标签确定为所述待测视频对应的情绪识别结果。 2.根据权利要求1所述的情绪识别方法，其特征在于，所述利用标签集合中的各个情绪标签分别与待测文本模板拼接生成各个所述情绪标签分别对应的待测文本数据，包括：从预设模板库中选取所述待测文本模板；对所述待测文本模板分别和各个所述情绪标签进行向量映射处理，得到一个待测模板向量和各个标签向量；将所述模板向量分别和各个所述标签向量进行拼接，得到所述待测文本数据。 3.根据权利要求1所述的情绪识别方法，其特征在于，所述情绪识别模型的训练过程，包括：获取训练视频、训练音频和情绪标签；在所述训练视频中确定多个训练视频帧，并利用所述情绪标签生成训练文本数据；将所述训练视频帧、所述训练文本数据和所述训练音频输入初始模型，得到训练文本编码数据以及训练非文本编码数据；利用所述训练文本编码数据和所述训练非文本编码数据生成相似度数据；利用所述相似度数据生成损失值，并基于所述损失值对所述初始模型进行参数调节；若检测到满足训练完成条件，则将参数调节后的所述初始模型确定为情绪识别模型。 4.根据权利要求3所述的情绪识别模型训练方法，其特征在于，所述初始模型包括文本编码器、图像编码器和音频编码器，还包括池化网络模块和时间递归网络模块，所述文本编码器的输出为所述池化网络模块的输入，所述图像编码器的输出为所述时间递归网络模块的输入。 5.根据权利要求4所述的情绪识别模型训练方法，其特征在于，所述将所述训练视频帧、所述训练文本数据和所述训练音频输入初始模型，得到训练文本编码数据以及训练非文本编码数据，包括：将所述训练文本输入所述文本编码器，得到多个初始文本编码；将所述多个初始文本编码输入所述池化网络模块，得到所述训练文本编码数据；将所述训练视频帧输入所述图像编码器，得到多个初始图像编码，并将所述训练音频输入所述音频编码器，得到初始音频编码；将所述多个初始图像编码输入所述时间递归网络模块，得到中间图像编码；将所述中间图像编码和所述初始音频编码进行拼接，得到所述训练非文本编码数据。 6.根据权利要求4所述的情绪识别模型训练方法，其特征在于，所述文本编码器和所述图像编码器属于语言图像对比学习预训练模型，所述音频编码器被预训练完毕。权　利　要　求　书 1/3 页 2 CN 115050077 A 27.根据权利要求6所述的情绪识别模型训练方法，其特征在于，所述基于所述损失值对所述初始模型进行参数调节，包括：基于所述损失值对所述初始模型中的所述池化网络模块和所述时间递归网络模块进行参数调节。 8.根据权利要求3所述的情绪识别模型训练方法，其特征在于，所述利用所述情绪标签生成训练文本数据，包括：从预设模板库中选取一个目标文本模板；对所述目标文本模板和所述情绪标签进行向量映射处理，得到模板向量和标签向量；对所述模板向量和所述标签向量进行拼接，得到所述训练文本数据。 9.根据权利要求3所述的情绪识别模型训练方法，其特征在于，所述检测到满足训练完成条件，包括：利用测试数据对参数调节后的所述初始模型进行准确率测试，得到测试结果；若所述测试结果大于预设阈值，则确定满足所述训练完成条件。 10.根据权利要求9所述的情绪识别模型训练方法，其特征在于，所述测试数据包括多组测试子数据，其中包括目标测试子数据，所述目标测试子数据包括目标测试视频、目标测试音频和目标测试标签。 11.根据权利要求10所述的情绪识别模型训练方法，其特征在于，所述利用测试数据对参数调节后的所述初始模型进行准确率测试，得到测试结果，包括：在所述目标测试视频中确定多个目标测试视频帧，并利用标签集合中的各个情绪标签生成多个目标测试文本数据；其中，所述目标测试文本数据对应于至少一个文本模板；将所述目标测试视频帧、所述目标测试文本数据和所述目标测试音频输入参数调节后的初始模型，得到目标非文本编码数据和多个目标文本编码数据；计算所述目标非文本编码数据分别和各个目标文本编码数据之间的测试相似度数据，并利用所述测试相似度数据确定所述至少一个文本模板分别对应的至少一个最大相似度数据；将所述至少一个最大相似度数据对应的情绪标签确定为所述目标测试视频对应的初始预测结果，并对所述初始预测结果进行最大数量筛选，得到预测结果；基于所述预测结果和所述目标测试标签确定所述目标测试子数据对应的测试子结果；统计所述测试数据对应的全部测试子结果，得到所述测试结果。 12.根据权利要求3所述的情绪识别模型训练方法，其特征在于，所述检测到满足训练完成条件，包括：检测到训练时长达到预设时长限值的情况下，确定满足所述训练完成条件；或检测到训练轮数达到预设训练次数的情况下，确定满足所述训练完成条件。 13.一种情绪识别装置，其特征在于，包括：待测获取模块，用于获取待测视频和待测音频；待测数据处理模块，用于在待测视频中确定多个待测视频帧，并利用标签集合中的各个情绪标签分别与待测文本模板拼接生成各个所述情绪标签分别对应的待测文本数据；待测输入模块，用于将所述待测视频帧、所述待测文本数据和所述待测音频输入情绪识别模型，得到待测非文本编码数据和各个待测文本数据分别对应的各个待测文本编码数权　利　要　求　书 2/3 页 3 CN 115050077 A 3

专利 情绪识别方法、装置、设备及存储介质

专利情绪识别方法、装置、设备及存储介质