专利音视频生成方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210588655.X (22)申请日 2022.05.27 (71)申请人中国平安人寿保险股份有限公司地址 518000 广东省深圳市福田区福田街道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人徐娟　 (74)专利代理机构深圳市力道知识产权代理事务所(普通合伙) 44507 专利代理师张传义 (51)Int.Cl. G06T 13/00(2011.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G10L 13/02(2013.01)G10L 13/08(2013.01) H04N 21/81(2011.01) (54)发明名称音视频生成方法、装置、计算机设备及存储介质 (57)摘要本申请涉及视频生成领域，提供一种音视频生成方法、装置、设备及计算机存储介质，该方法包括：获取用于生成目标音视频的文本信息；对所述文本信息进行文本分析，确定所述文本信息对应的视频模板；基于预设的语音合成算法，生成所述文本信息对应的语音信息；根据所述文本信息，从预设的素材库中获取所述文本信息对应的目标视频素材；基于所述视频模板，根据所述语音信息和所述目标视频素材，生成目标音视频。通过输入文本信息自动生成高质量的音视频，缩短了动画视频的制作周期，降低了制作成本。本申请还涉及人工智能，本申请的音视频生成方法可以应用于大数据和人工智能平台云计算服务的云服务器。权利要求书2页说明书9页附图2页 CN 114998484 A 2022.09.02 CN 114998484 A 1.一种音视频生成方法，其特征在于，所述音视频生成方法包括：获取用于生成目标音视频的文本信息；对所述文本信息进行文本分析，确定所述文本信息对应的视频模板；基于预设的语音合成算法，生成所述文本信息对应的语音信息；根据所述文本信息，从预设的素材库中获取所述文本信息对应的目标视频素材；基于所述视频模板，根据所述语音信息和所述目标视频素材，生成目标音视频。 2.根据权利要求1所述的音视频生成方法，其特征在于，所述对所述文本信息进行文本分析，确定所述文本信息对应的视频模板，包括：基于预设的文本分析算法，对所述文本信息进行文本分析，确定所述文本信息的语句逻辑结构；基于预设的语句逻辑结构与视频模板的对应关系，根据所述文本信息的语句逻辑结构确定所述文本信息对应的视频模板。 3.根据权利要求1所述的音视频生成方法，其特征在于，所述获取用于生成目标音视频的文本信息，包括：根据预设的分句符号，将所述文本信息划分为至少一个分句；所述基于预设的语音合成算法，生成所述文本信息对应的语音信息，包括：基于预设的语音合成算法，生成各所述分句对应的分句语音信息。 4.根据权利要求3所述的音视频生成方法，其特征在于，所述根据所述文本信息，从预设的素材库中获取所述文本信息对应的目标视频素材，包括：基于预设的实体识别算法，对各所述分句进行识别，得到各所述分句对应的实体关键词；根据所述实体关键词，从预设的素材库中获取各所述分句对应的目标视频素材。 5.根据权利要求4所述的音视频生成方法，其特征在于，所述根据所述实体关键词，从预设的素材库中获取各所述分句对应的目标视频素材，包括：对所述实体关键词与所述素材库中的素材标签进行文字匹配，确定匹配的素材标签对应的视频素材为所述实体关键词对应的目标视频素材；或者，对所述实体关键词与所述素材库中的素材标签进行语义特征向量匹配，确定匹配的素材标签对应的视频素材为所述实体关键词对应的目标视频素材。 6.根据权利要求3所述的音视频生成方法，其特征在于，所述基于所述视频模板，根据所述语音信息和所述目标视频素材，生成目标音视频，包括：基于所述视频模板，根据各所述分句语音信息对所述目标视频素材进行规划，生成目标视频；将所述分句语音信息与所述目标视频进行合成，生成所述目标音视频。 7.根据权利要求6所述的音视频生成方法，其特征在于，所述基于所述视频模板，根据各所述分句语音信息对所述目标视频素材进行规划，生成目标视频，包括：根据各所述分句语音信息的时长，确定各所述分句语音信息对应的目标视频素材展示时长；根据所述视频模板，确定所述目标视频素材展示位置；根据所述目标视频素材展示时长和所述目标视频素材展示位置，生成所述目标视频。权　利　要　求　书 1/2 页 2 CN 114998484 A 28.一种音视频生成装置，其特征在于，所述音视频生成装置包括：文本获取模块，用于获取用于生成目标音视频的文本信息；文本分析模块，用于对所述文本信息进行文本分析，确定所述文本信息对应的视频模板；语音生成模块，用于基于预设的语音合成算法，生成所述文本信息对应的语音信息；素材提取模块，用于根据所述文本信息，从预设的素材库中获取所述文本信息对应的目标视频素材；音视频生成模块，用于基于所述视频模板，根据所述语音信息和所述目标视频素材，生成目标音视频。 9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的音视频生成方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的音视频生成方法的步骤。权　利　要　求　书 2/2 页 3 CN 114998484 A 3

专利 音视频生成方法、装置、计算机设备及存储介质

专利音视频生成方法、装置、计算机设备及存储介质