说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211438643.5 (22)申请日 2022.11.17 (71)申请人 南京硅基智能科技有限公司 地址 210012 江苏省南京市雨 花台区凤信 路20号万博科技园C号楼4层 (72)发明人 司马华鹏 张茂林 王培雨 (74)专利代理 机构 北京弘权知识产权代理有限 公司 11363 专利代理师 逯长明 占园 (51)Int.Cl. G06V 10/82(2022.01) G06V 10/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种生成器、 生成器训练方法及 避免图像坐 标粘连方法 (57)摘要 本申请提供一种基于门控网络的生成器、 生 成器训练方法和避免图像坐标粘 连方法。 所述生 成器通过图像输入层将待处理图像处理为图像 序列, 并将图像序列输入至特征编码层, 由多层 特征编码层使用门控卷积网络对图像序列进行 编码, 得到图像编码。 并由多层图像解码层使用 逆门控卷积单元对图像编码进行解码处理, 得到 目标图像序列, 最后由 图像输出层将目标图像序 列进行拼接处理, 以得到的目标图像。 待处理图 像在经过上述门控卷积网络和逆门控卷积网络 的处理后, 所得到的目标图像中的人物特征更加 明显, 使所生成数字人的面部图像细节更加生 动, 解决现有生成器通过生 成对抗网络生成的数 字人图像出现的图像坐标粘 连问题, 提高了用户 体验。 权利要求书2页 说明书10页 附图4页 CN 115496989 A 2022.12.20 CN 115496989 A 1.一种基于门控网络的生成器, 其特征在于, 所述生成器包括: 图像输入层、 特征编码 层、 特征解码层和图像输出层, 其中, 所述图像输入层被配置为将待处理图像处理为图像序列, 并将所述图像序列输入至所 述特征编码层; 所述待处 理图像中包括至少一个目标 人物; 所述特征编码层被配置为使用门控卷积网络对所述图像序列进行编码处理, 得到图像 编码; 所述特征解码层被配置为使用逆门控卷积网络对所述图像编码进行解码处理, 得到目 标图像序列; 所述图像输出层被配置为将所述目标图像序列进行拼接处理, 得到目标图像, 并输出 所述目标图像。 2.根据权利要求1所述的基于门控 网络的生成器, 其特征在于, 所述门控卷积网络包括 特征过滤单元、 膨胀卷积单 元和归一 化层, 其中, 所述特征过滤单元被配置为将从所述图像序列中提取的图像特征进行过滤, 得到过滤 结果; 所述膨胀 卷积单元被配置为按照 膨胀参数对所述图像特征进行卷积处理, 得到膨胀 卷 积结果; 所述膨胀参数为膨胀卷积单元在进行卷积处理时, 对每个图像特征对应的数值之 间填充的空白数值数量; 所述归一化层被配置为将所述过滤结果与 所述膨胀 卷积结果的乘积进行归一化处理, 得到归一 化结果。 3.根据权利要求2所述的基于门控 网络的生成器, 其特征在于, 所述特征过滤单元包括 2D卷积单 元和激活函数; 所述2D卷积单 元被配置为过 滤所述图像特 征中的深层次特 征; 所述激活函数被 配置在所述深层次特 征中引入非线性属性, 得到所述过 滤结果。 4.根据权利要求1所述的基于门控 网络的生成器, 其特征在于, 所述待处理图像中包括 至少一个目标人物执行说话动作; 所述生成器还包括第一特征编码区、 第二特征编码区和 音频输入层, 其中, 所述第一特 征编码区和第二特 征编码区分别包括预设数量的所述特 征编码层; 所述音频输入层被配置为提取待处理音频的音频特征序列, 并将所述音频特征序列输 入至所述第二特征编码区; 其中, 所述待处理音频为所述待处理图像中目标人物执行所述 说话动作的音频; 所述第一特征编码区被配置为使用门控卷积网络对所述图像序列进行预设数量次的 编码处理; 所述第二特征编码区被配置为按照时间序列合并所述音频特征序列和经过所述第一 特征编码区编码处理后的所述图像序列, 得到图音序列; 并使用门控卷积网络对所述图音 序列进行编码处 理, 得到样本图音编码。 5.根据权利要求1所述的基于门控 网络的生成器, 其特征在于, 所述逆门控卷积网络包 括: 差值采样单 元和门控卷积单 元; 所述差值采样单元被配置为根据差值方法对所述图像编码中的数组进行上采样操作 以及下采样 操作, 得到采样数据;权 利 要 求 书 1/2 页 2 CN 115496989 A 2所述门控卷积单 元被配置为输出 所述采样数据。 6.一种生成器的训练方法, 用于训练权利要求1 ‑5中任意一项所述的基于门控网络的 生成器, 其特 征在于, 所述方法包括: 从样本视频中提取样本 图像; 所述样本视频为预设人物按照预设话术说话的视频; 所 述样本图像为所述样本 视频中至少一帧所对应的图像; 对所述样本图像进行 预处理, 得到样本图像序列; 将所述样本 图像序列输入至未训练的生成器中, 使用门控卷积网络进行编码处理, 得 到样本图像编码; 使用逆门控卷积网络对所述样本图像编码进行解码处 理, 得到训练图像序列; 对所述训练图像序列进行拼接处 理, 得到训练图像; 根据损失函数计算所述样本图像与 所述训练图像之间的图像偏差, 如果所述图像偏差 小于偏差阈值, 得到训练好的生成器。 7.根据权利要求6所述的生成器的训练方法, 其特征在于, 所述根据损失函数计算所述 样本图像与所述训练图像之间的图像偏差的步骤 包括: 获取所述样本图像的预测标签; 获取所述训练图像的实际标签; 计算所述实际标签与所述预测标签的偏差; 根据所述偏差, 通过自适应矩估计算法更新所述 生成器的参数。 8.根据权利要求6所述的生成器的训练方法, 其特 征在于, 所述方法还 包括: 将预设比例数量的样本图像作为测试集; 将所述测试集输入至训练后的生成器中, 得到损失函数反馈的损失值; 如果所述损失值大于损失阈值, 则对所述 生成器进行迭代训练; 如果所述损失值小于所述损失阈值, 得到训练好的生成器。 9.根据权利要求6所述的生成器的训练方法, 其特 征在于, 所述方法还 包括: 从所述样本视频中提取样本音频; 所述样本音频为所述样本图片中预设人物执行预设 话术时对应的音频; 对所述样本音频进行 预处理, 得到样本音频序列; 将所述样本音频序列 与所述样本图像序列进行合并, 得到样本图音数据; 使用门控卷积网络对所述样本图音数据进行编码处 理, 得到所述样本图音编码; 使用逆门控卷积网络对所述样本图音编码进行解码处 理, 得到训练图音序列; 对所述训练图音序列进行拼接处 理, 得到训练音像。 10.一种避免图像坐标粘连方法, 应用于权利要求6 ‑9中任意一项所述的训练方法训练 得到的生成器, 其特 征在于, 所述方法包括: 获取待处 理图像; 所述待处 理图像中包括至少一个目标 人物; 对所述待处 理图像进行 预处理, 得到图像序列; 使用门控卷积网络对所述图像序列进行编码处 理, 得到图像编码; 使用逆门控卷积网络对所述图像编码进行解码处 理, 得到目标图像序列; 将所述目标图像序列进行拼接处 理, 得到目标图像。权 利 要 求 书 2/2 页 3 CN 115496989 A 3
专利 一种生成器、生成器训练方法及避免图像坐标粘连方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:23:47
上传分享
举报
下载
原文档
(760.2 KB)
分享
友情链接
YDT 3799-2020 电信网和互联网网络安全防护定级备案实施指南.pdf
YD-T 4118-2022 分布式运营级网络地址翻译(NAT)的集中备份技术要求.pdf
GB-T 39156-2020 大规格陶瓷板技术要求及试验方法.pdf
GM-T 0035.4-2014 射频识别系统密码应用技术要求 第4部分:电子标签与读写器通信密码应用技术要求.pdf
GB-T 40064-2021 节能技术评价导则.pdf
DB42-T 1726-2021 自然资源“一张图”数据应用服务规范 湖北省.pdf
SY-T 0003-2021 石油天然气工程制图规范.pdf
DB3202-T 1052-2023 特种设备作业人员设置指南 无锡市.pdf
GB-T 42569-2023 工业互联网平台 开放应用编程接口功能要求.pdf
GB-T 39997-2021 加油站埋地用热塑性塑料复合管道系统.pdf
GB-T 32918.5-2017 信息安全技术 SM2椭圆曲线公钥密码算法 第5部分:参数定义.pdf
GB-T 42467.8-2023 中医临床名词术语 第8部分:眼科学.pdf
SY-T 7657.1-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第1部分:总则.pdf
法律法规 西安市工业节能条例2022-02-11.pdf
GB-T 12714-2009 镅铍中子源.pdf
GB-T 14912-2017 1500 11 000 12 000外业数字测图规程.pdf
ISO 21434 Road vehicles Cybersecurity engineering 英文版.pdf
GB-T 13560-2017 烧结钕铁硼永磁材料.pdf
GB-T 2611-2022 试验机 通用技术要求.pdf
GB-T 9439-2023 灰铸铁件.pdf
交流群
-->
1
/
17
评价文档
赞助2元 点击下载(760.2 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。