说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210182346.2 (22)申请日 2022.02.25 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 (72)发明人 李靖 郑邦东 林明 单晟  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 郝博 沈珍珠 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01) (54)发明名称 基于语义的文档查重方法及装置 (57)摘要 本发明公开了一种基于语义的文档查重方 法及装置, 可应用于人工智能技术领域, 该方法 包括: 生成文档集的语义向量集, 所述文档集包 括待查重文档和多个历史文档; 对语义向量集进 行向量量化, 获得压缩后的向量集; 基于压缩后 的向量集, 检索出与待查重文档距离最近的历史 文档, 将所述与待查重文档距离最近的历史文 档, 确定为相似文档; 对待 查重文档句子分割, 获 得第一句子集合, 对相似文档进行句子分割, 获 得第二句子集合; 对第一句子集合和第二句子集 合中的句子进行两两组合, 获得多组句子对; 从 多组句子对中, 筛选出相似句子对。 本发明可 以 实现对文档进行查重, 效率高。 权利要求书3页 说明书7页 附图4页 CN 114564935 A 2022.05.31 CN 114564935 A 1.一种基于语义的文档查重方法, 其特 征在于, 包括: 生成文档集的语义向量 集, 所述文档集包括待查重文档和多个历史文档; 对语义向量 集进行向量 量化, 获得压缩后的向量 集; 基于压缩后的向量集, 检索出与待查重文档距离最近的历史文档, 将所述与待查重文 档距离最近的历史文档, 确定为相似文档; 对待查重文档句子分割, 获得第 一句子集合, 对相似文档进行句子分割, 获得第 二句子 集合; 对第一句子集 合和第二句子集 合中的句子进行两 两组合, 获得多组句子对; 从多组句子对中, 筛 选出相似句子对。 2.如权利要求1所述的方法, 其特 征在于, 生成文档集的语义向量 集, 包括: 对文档集中的每个文档, 将该文档输入至语义训练模型中, 获得语义的二维矩阵, 所述 二维矩阵的第一维为句子的长度信息, 第二维为语义信息的向量; 沿着二维矩阵的第一维, 将第 二维的向量相加后取均值, 获得该文档的语义向量, 将该 文档的语义向量添加至语义向量 集中。 3.如权利要求2所述的方法, 其特征在于, 在沿着二维矩阵的第一维, 将第二维的向量 相加后取均值, 还 包括: 在二维矩阵的第一维中句子的长度大于预设长度时, 对超过预设长度的部分进行截 断; 在二维矩阵的第一维中句子的长度小于预设长度时, 采用预设符号对第一维进行补 足。 4.如权利要求1所述的方法, 其特征在于, 对语义向量集进行向量量化, 获得压缩后的 向量集, 包括: 对语义向量集的向量维度进行切分, 获得多组语义子向量, 每组语义子向量中语义子 向量个数为语义向量 集中语义向量的个数, 语义子向量的维度小于语义向量的维度; 对每组语义子向量进行聚类, 获得每组语义子向量对应的多个类中心, 其中, 每组语义 子向量对应的多个 类中心的个数小于语义子向量个数; 对每组语义子向量中每个语义子向量, 查找该组语义子向量对应的多个类中心中与 该 语义子向量距离最近的类中心, 标记为该语义子向量的标签; 其中, 所有语义子向量的标签构成压缩后的向量 集。 5.如权利要求4所述的方法, 其特征在于, 采用K ‑means聚类方法对每个语义向量子集 进行聚类。 6.如权利要求4所述的方法, 其特征在于, 基于压缩后的向量集, 检索出与待查重文档 距离最近的历史文档, 包括: 构建多个距离表, 其中, 每个距离表对应一组语义子向量, 每个距离表以每组语义子向 量对应的多个类中心的任意两个类中心的标签为索引值, 以所述任意两个类中心的距离为 距离值进行存 储; 对待查重文档的每个语义子向量, 基于该语义子向量的标签, 从该语义子向量所在组 对应的距离表中, 查询该语义子向量与每个历史文档的语义子 向量之间的距离值; 对获得 的多个距离值进行加 和计算, 获得与每 个历史文档的距离加 和值;权 利 要 求 书 1/3 页 2 CN 114564935 A 2确定距离加 和值最小的历史文档为与待查重文档距离最近的历史文档。 7.如权利要求1所述的方法, 其特 征在于, 从多组句子对中, 筛 选出相似句子对, 包括: 计算每组句子对之间的编辑距离, 在所述编辑距离小于预设阈值时, 确定该句子对为 相似句子对。 8.如权利要求7所述的方法, 其特征在于, 采用 如下公式, 计算每组句子对之间的编辑 距离: 其中, leva,b(i,j)为句子ai和句子bj之间的编辑距离 。 9.一种基于语义的文档查重装置, 其特 征在于, 包括: 语义向量集生成模块, 用于生成文档集的语义向量集, 所述文档集包括待查重文档和 多个历史文档; 向量量化模块, 用于对语义向量 集进行向量 量化, 获得压缩后的向量 集; 相似文档确定模块, 用于基于压缩后的向量集, 检索出与待查重文档距离最近的历史 文档, 将所述与待查重文档距离最近的历史文档, 确定为相似文档; 句子分割模块, 用于对待查重文档句子分割, 获得第 一句子集合, 对相似文档进行句子 分割, 获得第二句子集 合; 句子对获得模块, 用于对第一句子集合和第二句子集合中的句子进行两两组合, 获得 多组句子对; 相似句子对筛 选模块, 用于从多组句子对中, 筛 选出相似句子对。 10.如权利要求9所述的装置, 其特 征在于, 语义向量 集生成模块具体用于: 对文档集中的每个文档, 将该文档输入至语义训练模型中, 获得语义的二维矩阵, 所述 二维矩阵的第一维为句子的长度信息, 第二维为语义信息的向量; 沿着二维矩阵的第一维, 将第 二维的向量相加后取均值, 获得该文档的语义向量, 将该 文档的语义向量添加至语义向量 集中。 11.如权利要求10所述的装置, 其特 征在于, 语义向量 集生成模块具体用于: 在沿着二维矩阵的第一维, 将第二维的向量相加后取均值之前, 在二维矩阵的第一维 中句子的长度大于预设长度时, 对超过预设长度的部分进行截断; 在二维矩阵的第一维中 句子的长度小于预设长度时, 采用预设符号对第一维进行补足。 12.如权利要求9所述的装置, 其特 征在于, 向量 量化模块具体用于: 对语义向量集的向量维度进行切分, 获得多组语义子向量, 每组语义子向量中语义子 向量个数为语义向量 集中语义向量的个数, 语义子向量的维度小于语义向量的维度; 对每组语义子向量进行聚类, 获得每组语义子向量对应的多个类中心, 其中, 每组语义 子向量对应的多个 类中心的个数小于语义子向量个数; 对每组语义子向量中每个语义子向量, 查找该组语义子向量对应的多个类中心中与 该 语义子向量距离最近的类中心, 标记为该语义子向量的标签;权 利 要 求 书 2/3 页 3 CN 114564935 A 3

PDF文档 专利 基于语义的文档查重方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于语义的文档查重方法及装置 第 1 页 专利 基于语义的文档查重方法及装置 第 2 页 专利 基于语义的文档查重方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。