全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211134913.3 (22)申请日 2022.09.19 (71)申请人 广州图灵科技有限公司 地址 510000 广东省广州市天河区高普路 1033号501室 (72)发明人 赖春媚 何兴国 张越  (51)Int.Cl. G06N 3/04(2006.01) G06F 16/22(2019.01) G06N 3/08(2006.01) (54)发明名称 一种基于生成式对抗网络的结构化数据表 生成方法 (57)摘要 本发明公开了一种基于生成式对抗网络的 结构化数据表生成方法, 涉及机器学习领域。 该 发明包括以下步骤: 建立生 成器网络和判别器网 络; 生成器网络与判别器网络互相对抗进行训 练; 缓解模式崩溃现象; 迭代训练器和判别器。 本 发明通过非人工标注的方式生成能够直接应用 于结构化数据表的高质量数据集, 解决了传统数 据集获取方式成本高且容易出错的弊端, 可生成 高质量的结构化数据, 用于改善模型的训练过 程。 权利要求书1页 说明书3页 附图1页 CN 115511048 A 2022.12.23 CN 115511048 A 1.一种基于生成式对抗网络的结构化数据表生成方法, 其特 征在于: 包括以下步骤: S1、 建立生成器网络和判别器网络; S2、 生成器网络与判别器网络互相对抗进行训练; S3、 缓解模式崩溃现象; S4、 迭代训练生成器和判别器。 2.根据权利要求1所述的一种基于生成式对抗网络的结构化数据表生成方法, 其特征 在于: 所述S1中, 建立生成器网络和判别器网络, 具体为构建生成器G和判别器D, 将符合一 定分布的噪声z与类标签c一起作为生成器G的输入, 判别器的输出进一步指导生成器网络 的训练过程。 3.根据权利要求1所述的一种基于生成式对抗网络的结构化数据表生成方法, 其特征 在于: 所述S2中, 生成器网络与判别器网络相互对抗进行训练, 所使用函数为: , 其中 表示原始数据集, 表示噪声。 4.根据权利要求2所述的一种基于生成式对抗网络的结构化数据表生成方法, 其特征 在于: 所述S2中, 使用上面的公式作为目标易出现生成器梯度消失现象, 从而导致模型极难 训练, 因此还需使用还需使用Earth ‑ Mover (EM) 距离来衡量原始样本与合成样 本之间的距 离, EM距离定义为 其中 为 和 所有可能的联合分布, 计算再次联合分布下样本对距离的期 望, 此期望的下界就是E M距离, 因此, 使用E M距离的目标函数为 。 5.根据权利要求1所述的一种基于生成式对抗网络的结构化数据表生成方法, 其特征 在于: 所述S 3中, 缓解模式崩溃现象具体方法为: 增加生 成器输入噪声z的多样性、 舍弃基于 动量的优化方法而使用RMSProp、 在神经网络模型上增加L2正则化项保证模型训练过程中 的稳定。 6.根据权利要求1所述的一种基于生成式对抗网络的结构化数据表生成方法, 其特征 在于: 所述S4中, 迭代训练生成器和判别器的具体操作为迭代S2、 S3训练生成器和判别器。权 利 要 求 书 1/1 页 2 CN 115511048 A 2一种基于生成式对抗网 络的结构化数据表生成方 法 技术领域 [0001]本发明涉及机器学习领域, 具体是一种基于生成式对抗网络的结构化数据表生成 方法。 背景技术 [0002]在机器学习领域, 一个稳健的模型训练过程需要大量的数据集。 高质量的数据集 可应用于数据库性能基准测试、 降低数据挖掘成本和改进模型训练过程等诸多场景。 而高 质量数据集的获取途径一 直以来是一个非常重要且具有挑战性的问题。 [0003]获取数据集传统的方法为通过领域之间的人工标注, 这不仅成本高, 而且容易出 错。 随着计算机视觉技术领域的迅速发展, 目前也存在许多致力于图像数据集合成的研究, 但该方式的弊端是不能直接应用于结构化数据表。 [0004]如何通过非人工标注的方式生成能够直接应用于结构化数据表的高质量数据集 已成当下机器学习 领域亟需解决的难题。 为此, 本发明提出了一种基于生成式对抗网络的 结构化数据表生成方法, 旨在以生成高质量的结构化数据改善模型的训练过程。 发明内容 [0005]本发明的目的在于提供一种基于生成式对抗网络的结构化数据表方法模型, 以解 决上述背景技 术中提出的问题。 [0006]为实现上述技术问题的解决, 本发明的目的在于提供一种基于生成式对抗网络的 结构化数据表方法模型, 包括如下步骤: S1、 建立生成器网络和判别器网络; S2、 生成器网络与判别器网络互相对抗进行训练; S3、 缓解模式崩溃现象; S4、 迭代训练生成器和判别器。 [0007]优选地, 建立生成器网络和判别器网络, 具体为构建生成器G和判别器D, 将符合一 定分布的噪声z与类标签c一起作为生成器G的输入, 判别器的输出进一步指导生成器网络 的训练过程。 [0008]优选地, 生成器网络与判别器网络互相对抗进行训练, 具体为使用以下目标函数 进行: 在训练的过程中, 使用上面公式作为目标易出现生成器梯度消失现象, 从而导致 模型极难训练。 因此, 还需使用Earth ‑ Mover (EM) 距离来衡量原始样本与合成样本之间的 距离, 即使2个分布没有重叠或重叠的部 分非常少, 依然能够反映2个 分布的远近, EM距离定 义为 。 [0009]其中 为 和 所有可能的联合分布, 计算再次联合分布下样本对距离的说 明 书 1/3 页 3 CN 115511048 A 3

.PDF文档 专利 一种基于生成式对抗网络的结构化数据表生成方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于生成式对抗网络的结构化数据表生成方法 第 1 页 专利 一种基于生成式对抗网络的结构化数据表生成方法 第 2 页 专利 一种基于生成式对抗网络的结构化数据表生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:32:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。