说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210174087.9 (22)申请日 2022.02.25 (65)同一申请的已公布的文献号 申请公布号 CN 114254158 A (43)申请公布日 2022.03.29 (73)专利权人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 王海峰 田浩 肖欣延 李幸  吴甜  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/73(2019.01)G06F 40/30(2020.01) G06N 3/08(2006.01) (56)对比文件 CN 113269093 A,2021.08.17 CN 113704383 A,2021.1 1.26 CN 1624686 A,20 05.06.08 CN 10137 7769 A,20 09.03.04 CN 106959946 A,2017.07.18 CN 110197521 A,2019.09.0 3 CN 110390397 A,2019.10.2 9 CN 111340920 A,2020.0 6.26 CN 101702 944 A,2010.0 5.05 CN 110110140 A,2019.08.09 CN 113784199 A,2021.12.10 US 2020356589 A1,2020.1 1.12 审查员 董泽华 (54)发明名称 视频生成方法及其装置、 神经网络的训练方 法及其装置 (57)摘要 本公开提供了一种视频生 成方法及其装置、 神经网络的训练方法及其装置, 涉及人工智能领 域, 具体涉及自然语言 处理技术、 深度学习技术、 和图像处理技术等。 视频生成方法包括: 获取文 本的全局语义信息和局部语义信息, 局部语义信 息与文本中的文本片段对应; 基于全局语义信息 在数据库中进行检索, 以得到对应于全局语义信 息的至少一个第一数据; 基于局部语义信息在数 据库中进行检索, 以得到与局部语义信息对应的 至少一个第二数据; 基于至少一个第一数据和至 少一个第二数据, 得到候选数据集; 基于至少一 个文本片段各自和候选数据集中的每一个候选 数据的相关度, 为至少一个文本片段匹配目标数 据; 以及基于至少一个文本片段各自匹配的目标 数据生成视频。 权利要求书10页 说明书25页 附图15页 CN 114254158 B 2022.06.10 CN 114254158 B 1.一种视频生成方法, 其特 征在于, 所述方法包括: 获取文本的全局语义信息和至少一个局部语义信息, 其中, 所述至少一个局部语义信 息与所述文本中的至少一个文本片段一 一对应; 基于所述全局语义信 息在数据库中进行检索, 以得到对应于所述全局语义信 息的至少 一个第一数据, 其中, 所述数据库包括至少一个图像数据或视频 数据; 针对所述至少一个局部语义信 息中的每一个局部语义信 息, 基于该局部语义信 息在所 述数据库中进行检索, 以得到与该局部语义信息对应的至少一个第二数据; 基于所述至少一个第一数据和与所述至少一个局部语义信息各自对应的至少一个第 二数据, 得到候选数据集; 基于所述至少一个文本片段各自和所述候选数据集中的每一个候选数据的相关度, 为 所述至少一个文本片段中的每一个文本片段匹配目标 数据; 以及 基于所述至少一个文本片段 各自匹配的目标 数据生成视频。 2.根据权利要求1所述的方法, 还 包括: 在所述至少一个文本片段中识别至少一个实体词; 以及 针对所述至少一个实体词中的每一个实体词, 基于该实体词在所述数据库中进行检 索, 以得到与该实体词对应的至少一个第三数据, 其中, 所述基于所述至少一个第 一数据和与所述至少一个局部语义信 息各自对应的至 少一个第二数据, 得到候选数据集包括: 基于所述至少一个第 一数据、 与 所述至少一个局部语义信 息各自对应的至少一个第 二 数据、 以及与所述至少一个实体词各自对应的至少一个第三数据, 得到所述 候选数据集。 3.根据权利要求2所述的方法, 其中, 所述针对所述至少一个实体词中的每一个实体 词, 基于该实体词在所述数据库中进行检索, 以得到与该实体词对应的至少一个第三数据 包括: 针对所述至少一个实体词中的每一个实体词, 基于该实体词和该实体词所在的文本片 段两者在所述数据库中进行检索, 以得到所述至少一个第三数据。 4.根据权利要求3所述的方法, 其中, 所述针对所述至少一个实体词中的每一个实体 词, 基于该实体词和该实体词 所在的文本片段两者在所述数据库中进行检索, 以得到与该 实体词对应的至少一个第三数据包括: 针对所述至少一个实体词中的每一个实体词, 基于该实体词在所述数据库中进行检 索, 以得到多个第三检索结果; 以及 基于该实体词所在的文本片段和所述文本两者中的至少一个对所述多个第三检索结 果进行过滤, 以得到所述至少一个第三数据。 5.根据权利要求1 ‑4中任一项所述的方法, 其中, 所述针对所述至少一个局部语义信 息 中的每一个局部语义信息, 基于该局部语义信息在所述数据库中进行检索, 以得到与该局 部语义信息对应的至少一个第二数据包括: 针对所述至少一个局部语义信 息中的每一个局部语义信 息, 基于该局部语义信 息和与 该局部语义信息对应的文本片段两者在所述数据库中进行检索, 以得到所述至少一个第二 数据。 6.根据权利要求5所述的方法, 其中, 所述针对所述至少一个局部语义信 息中的每一个权 利 要 求 书 1/10 页 2 CN 114254158 B 2局部语义信息, 基于该局部语义信息和与该局部语义信息对应的文本片段两者在所述数据 库中进行检索, 以得到所述至少一个第二数据包括: 针对所述至少一个局部语义信 息中的每一个局部语义信 息, 基于该局部语义信 息在所 述数据库中进行检索, 以得到多个第二检索结果; 以及 基于与该局部语义信息对应的文本片段和所述文本两者中的至少一个对所述多个第 二检索结果进行 过滤, 以得到所述至少一个第二数据。 7.根据权利要求5所述的方法, 其中, 所述基于所述全局语义信息在数据库中进行检 索, 以得到对应于所述全局语义信息的至少一个第一数据包括: 基于所述全局语义信 息和所述文本的标题在所述数据库中进行检索, 以得到所述至少 一个第一数据。 8.根据权利要求1所述的方法, 其中, 所述全局语义信 息和所述至少一个局部语义信 息 是利用经训练的统一模态神经网络获取 的, 并且其中, 所述相关度包括相应的文本片段 的 文本信息和对应的候选数据的视觉信息之 间的视觉相关度, 所述视觉相关度是利用所述统 一模态神经网络基于 输入的文本片段和输入的候选数据而确定的。 9.根据权利要求8所述的方法, 还 包括: 对所述候选数据集中的每一个候选数据进行内容理解, 以得到该候选数据的内容语义 信息, 其中, 所述相关度还包括相应的文本片段的文本信 息和对应的候选数据的内容语义信 息之间的第一语义相关度, 所述第一语义相关度是利用所述统一模态神经网络基于输入的 文本片段和输入的内容语义信息而确定的。 10.根据权利要求9所述的方法, 其中, 所述内容理解包括文本识别和实体识别中的至 少一个。 11.根据权利要求8所述的方法, 还 包括: 获取所述候选数据集中的每一个候选数据的描述文本信息, 其中, 所述相关度还包括相应的文本片段的文本信 息和对应的候选数据的描述文本信 息之间的第二语义相关度, 所述第二语义相关度是利用所述统一模态神经网络基于输入的 文本片段和输入的描述文本信息而确定的。 12.根据权利要求8所述的方法, 还 包括: 对所述候选数据集中的每一个候选数据的音频数据进行语音识别, 以得到与 该候选数 据对应的语音 文本信息, 其中, 所述相关度还包括相应的文本片段的文本信 息和对应的候选数据的语音文本信 息之间的第三语义相关度, 所述第三语义相关度是利用所述统一模态神经网络基于输入的 文本片段和输入的语音 文本信息而确定的。 13.根据权利要求8 ‑12中任一项所述的方法, 其中, 所述为所述至少一个文本片段中的 每一个文本片段匹配目标 数据包括: 利用所述统一模态神经网络, 分别为所述至少一个文本片段中的每一个文本片段在所 述候选数据集中确定与该文本片段的视 觉相关度最高的第一数量的候选数据; 以及 基于所述至少一个文本片段各自和对应的第一数量的候选数据中的每一个候选数据 的相关度, 为所述至少一个文本片段中的每一个文本片段匹配目标 数据。权 利 要 求 书 2/10 页 3 CN 114254158 B 3

PDF文档 专利 视频生成方法及其装置、神经网络的训练方法及其装置

文档预览
中文文档 51 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共51页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频生成方法及其装置、神经网络的训练方法及其装置 第 1 页 专利 视频生成方法及其装置、神经网络的训练方法及其装置 第 2 页 专利 视频生成方法及其装置、神经网络的训练方法及其装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。