专利动作识别模型的训练方法、装置、设备、存储介质和产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210265324.2 (22)申请日 2022.03.17 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人陈柯辛　武子熙　蒋昊青　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 1 1138 专利代理师李文静 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/26(2022.01) G06V 10/762(2022.01) G06V 10/74(2022.01)G06K 9/62(2022.01) (54)发明名称动作识别模型的训练方法、装置、设备、存储介质和产品 (57)摘要本申请提供了一种动作识别模型的训练方法、装置、设备、存储介质和产品，属于人工智能技术领域，能够应用于对多媒体资源的处理场景中。方法包括：获取多个样本视频；对样本视频中的目标对象进行分割，得到样本视频对应的多个动作部位，多个动作部位为目标对象的动作部位；确定多个动作部位之间的相对位置向量，得到样本视频对应的相对位置向量，相对位置向量用于表示多个动作部位之间的位置关系；基于多个样本视频分别对应的相对位置向量，对多个样本视频进行聚类，得到多个视频簇，视频簇包括至少一个样本视频，且同一视频簇中的样本视频的动作相同；基于多个视频簇，训练动作识别模型。该方法提高了动作识别模型的训练效率。权利要求书3页说明书19页附图10页 CN 114842549 A 2022.08.02 CN 114842549 A 1.一种动作识别模型的训练方法，其特征在于，所述方法包括：获取多个样本视频；对所述样本视频中的目标对象进行分割，得到所述样本视频对应的多个动作部位，所述多个动作部位为所述目标对象的动作部位，所述目标对象为做出动作的对象；确定所述多个动作部位之间的相对位置向量，得到所述样本视频对应的相对位置向量，所述相对位置向量用于表示所述多个动作部位之间的位置关系；基于所述多个样本视频分别对应的相对位置向量，对所述多个样本视频进行聚类，得到多个第一视频簇，所述第一视频簇包括至少一个样本视频，且同一第一视频簇中的样本视频的动作相同；基于所述多个第一视频簇，训练动作识别模型。 2.根据权利要求1所述的方法，其特征在于，所述确定所述多个动作部位之间的相对位置向量，得到所述样本视频对应的相对位置向量，包括：基于所述样本视频对应的多个动作部位的部位信息，确定所述多个动作部位中的第一动作部位和多个第二动作部位，所述第一动作部位为所述目标对象的基准动作部位；确定所述多个第二动作部位相对于所述第一动作部位的相对位置向量，得到所述样本视频对应的相对位置向量。 3.根据权利要求2所述的方法，其特征在于，所述确定所述多个第二动作部位相对于所述第一动作部位的相对位置向量，得到所述样本视频对应的相对位置向量，包括：分别确定第一中心位置和第二中心位置，所述第一中心位置为所述第一动作部位的中心位置，所述第二中心位置为所述第二动作部位的中心位置；将所述第一中心位置与所述第二中心位置之间的向量确定为所述第二动作部位相对于所述第一动作部位的相对位置向量；将所述多个第二动作部位相对于所述第一动作部位的相对位置向量，组成所述样本视频对应的相对位置向量。 4.根据权利要求2所述的方法，其特征在于，所述确定所述多个第二动作部位相对于所述第一动作部位的相对位置向量，得到所述样本视频对应的相对位置向量，包括：分别确定第一中心位置和多个边界位置，所述第一中心位置为所述第一动作部位的中心位置，所述多个边界位置分别为所述第二动作部位的边界位置；确定所述第一中心位置分别与所述多个边界位置之间的向量；将所述第一中心位置分别与所述多个边界位置之间的向量进行拼接，得到所述第二动作部位相对于所述第一动作部位的相对位置向量；将所述多个第二动作部位相对于所述第一动作部位的相对位置向量，组成所述样本视频对应的相对位置向量。 5.根据权利要求1所述的方法，其特征在于，所述样本视频包括多个视频帧，所述样本视频对应的相对位置向量包括所述多个视频帧分别对应的相对位置向量；所述基于所述多个样本视频分别对应的相对位置向量，对所述多个样本视频进行聚类，得到多个第一视频簇，包括：将同一视频帧对应的多个相对位置向量进行拼接，得到所述同一视频帧对应的第一相对位置向量；权　利　要　求　书 1/3 页 2 CN 114842549 A 2将同一样本视频的多个同一视频帧对应的第一相对位置向量进行拼接，得到所述样本视频对应的第二相对位置向量；基于所述多个样本视频分别对应的第二相对位置向量，对所述多个样本视频进行聚类，得到所述多个第一视频簇。 6.根据权利要求5所述的方法，其特征在于，所述基于所述多个样本视频分别对应的第二相对位置向量，对所述多个样本视频进行聚类，得到所述多个第一视频簇，包括：基于所述多个样本视频分别对应的第二相对位置向量，确定任意两个第二相对位置向量之间的距离；在所述距离不大于预设距离的情况下，将所述两个第二相对位置向量对应的两个样本视频聚合到同一第一视频簇中。 7.根据权利要求1 ‑6任一项所述的方法，其特征在于，所述方法还包括：获取目标视频，所述目标视频为待识别动作类别的视频；将所述目标视频输入所述动作识别模型，输出所述目标视频的动作类别和所述目标视频中目标对象的多个动作部位的相对位置向量，所述相对位置向量用于解释所述目标视频被识别为所述动作类别的原因。 8.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一视频簇，训练动作识别模型，包括：基于所述多个动作部位的部位信息，确定所述多个动作部位中的第一动作部位和多个第二动作部位，所述第一动作部位为所述目标对象的基准动作部位；从所述多个第二动作部位中确定目标动作部位，所述目标动作部位包含的像素点最少；基于所述多个样本视频的第一动作部位和目标动作部位，对所述多个样本视频进行聚类，得到多个第二视频簇，所述第二视频簇包括至少一个样本视频，且同一第二视频簇中的样本视频的动作相同；基于所述多个第一视频簇和所述多个第二视频簇，训练所述动作识别模型。 9.根据权利要求8所述的方法，其特征在于，所述基于所述多个样本视频的第一动作部位和目标动作部位，对所述多个样本视频进行聚类，得到多个第二视频簇，包括：确定任意两个样本视频的第一相似度和第二相似度，所述第一相似度为所述两个样本视频的第一动作部位之间的相似度，所述第二相似度为所述两个样本视频的目标动作部位之间的相似度；基于所述第一相似度和所述第二相似度，确定所述两个样本视频之间的第三相似度；在所述第三相似度大于预设相似度的情况下，将所述两个样本视频聚合到同一第二视频簇中。 10.根据权利要求1所述的方法，其特征在于，所述对所述样本视频中的目标对象进行分割，得到所述样本视频对应的多个动作部位，包括：从所述样本视频中提取多个视频帧；对所述视频帧中包括的目标对象进行分割，得到所述视频帧对应的多个动作部位；将所述多个视频帧分别对应的动作部位，组成所述样本视频对应的多个动作部位。 11.一种动作识别模型的训练装置，其特征在于，所述装置包括：权　利　要　求　书 2/3 页 3 CN 114842549 A 3

专利 动作识别模型的训练方法、装置、设备、存储介质和产品

专利动作识别模型的训练方法、装置、设备、存储介质和产品