(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210182346.2
(22)申请日 2022.02.25
(71)申请人 中国建设银行股份有限公司
地址 100033 北京市西城区金融大街25号
(72)发明人 李靖 郑邦东 林明 单晟
(74)专利代理 机构 北京三友知识产权代理有限
公司 11127
专利代理师 郝博 沈珍珠
(51)Int.Cl.
G06F 40/194(2020.01)
G06F 40/30(2020.01)
(54)发明名称
基于语义的文档查重方法及装置
(57)摘要
本发明公开了一种基于语义的文档查重方
法及装置, 可应用于人工智能技术领域, 该方法
包括: 生成文档集的语义向量集, 所述文档集包
括待查重文档和多个历史文档; 对语义向量集进
行向量量化, 获得压缩后的向量集; 基于压缩后
的向量集, 检索出与待查重文档距离最近的历史
文档, 将所述与待查重文档距离最近的历史文
档, 确定为相似文档; 对待 查重文档句子分割, 获
得第一句子集合, 对相似文档进行句子分割, 获
得第二句子集合; 对第一句子集合和第二句子集
合中的句子进行两两组合, 获得多组句子对; 从
多组句子对中, 筛选出相似句子对。 本发明可 以
实现对文档进行查重, 效率高。
权利要求书3页 说明书7页 附图4页
CN 114564935 A
2022.05.31
CN 114564935 A
1.一种基于语义的文档查重方法, 其特 征在于, 包括:
生成文档集的语义向量 集, 所述文档集包括待查重文档和多个历史文档;
对语义向量 集进行向量 量化, 获得压缩后的向量 集;
基于压缩后的向量集, 检索出与待查重文档距离最近的历史文档, 将所述与待查重文
档距离最近的历史文档, 确定为相似文档;
对待查重文档句子分割, 获得第 一句子集合, 对相似文档进行句子分割, 获得第 二句子
集合;
对第一句子集 合和第二句子集 合中的句子进行两 两组合, 获得多组句子对;
从多组句子对中, 筛 选出相似句子对。
2.如权利要求1所述的方法, 其特 征在于, 生成文档集的语义向量 集, 包括:
对文档集中的每个文档, 将该文档输入至语义训练模型中, 获得语义的二维矩阵, 所述
二维矩阵的第一维为句子的长度信息, 第二维为语义信息的向量;
沿着二维矩阵的第一维, 将第 二维的向量相加后取均值, 获得该文档的语义向量, 将该
文档的语义向量添加至语义向量 集中。
3.如权利要求2所述的方法, 其特征在于, 在沿着二维矩阵的第一维, 将第二维的向量
相加后取均值, 还 包括:
在二维矩阵的第一维中句子的长度大于预设长度时, 对超过预设长度的部分进行截
断;
在二维矩阵的第一维中句子的长度小于预设长度时, 采用预设符号对第一维进行补
足。
4.如权利要求1所述的方法, 其特征在于, 对语义向量集进行向量量化, 获得压缩后的
向量集, 包括:
对语义向量集的向量维度进行切分, 获得多组语义子向量, 每组语义子向量中语义子
向量个数为语义向量 集中语义向量的个数, 语义子向量的维度小于语义向量的维度;
对每组语义子向量进行聚类, 获得每组语义子向量对应的多个类中心, 其中, 每组语义
子向量对应的多个 类中心的个数小于语义子向量个数;
对每组语义子向量中每个语义子向量, 查找该组语义子向量对应的多个类中心中与 该
语义子向量距离最近的类中心, 标记为该语义子向量的标签;
其中, 所有语义子向量的标签构成压缩后的向量 集。
5.如权利要求4所述的方法, 其特征在于, 采用K ‑means聚类方法对每个语义向量子集
进行聚类。
6.如权利要求4所述的方法, 其特征在于, 基于压缩后的向量集, 检索出与待查重文档
距离最近的历史文档, 包括:
构建多个距离表, 其中, 每个距离表对应一组语义子向量, 每个距离表以每组语义子向
量对应的多个类中心的任意两个类中心的标签为索引值, 以所述任意两个类中心的距离为
距离值进行存 储;
对待查重文档的每个语义子向量, 基于该语义子向量的标签, 从该语义子向量所在组
对应的距离表中, 查询该语义子向量与每个历史文档的语义子 向量之间的距离值; 对获得
的多个距离值进行加 和计算, 获得与每 个历史文档的距离加 和值;权 利 要 求 书 1/3 页
2
CN 114564935 A
2确定距离加 和值最小的历史文档为与待查重文档距离最近的历史文档。
7.如权利要求1所述的方法, 其特 征在于, 从多组句子对中, 筛 选出相似句子对, 包括:
计算每组句子对之间的编辑距离, 在所述编辑距离小于预设阈值时, 确定该句子对为
相似句子对。
8.如权利要求7所述的方法, 其特征在于, 采用 如下公式, 计算每组句子对之间的编辑
距离:
其中, leva,b(i,j)为句子ai和句子bj之间的编辑距离 。
9.一种基于语义的文档查重装置, 其特 征在于, 包括:
语义向量集生成模块, 用于生成文档集的语义向量集, 所述文档集包括待查重文档和
多个历史文档;
向量量化模块, 用于对语义向量 集进行向量 量化, 获得压缩后的向量 集;
相似文档确定模块, 用于基于压缩后的向量集, 检索出与待查重文档距离最近的历史
文档, 将所述与待查重文档距离最近的历史文档, 确定为相似文档;
句子分割模块, 用于对待查重文档句子分割, 获得第 一句子集合, 对相似文档进行句子
分割, 获得第二句子集 合;
句子对获得模块, 用于对第一句子集合和第二句子集合中的句子进行两两组合, 获得
多组句子对;
相似句子对筛 选模块, 用于从多组句子对中, 筛 选出相似句子对。
10.如权利要求9所述的装置, 其特 征在于, 语义向量 集生成模块具体用于:
对文档集中的每个文档, 将该文档输入至语义训练模型中, 获得语义的二维矩阵, 所述
二维矩阵的第一维为句子的长度信息, 第二维为语义信息的向量;
沿着二维矩阵的第一维, 将第 二维的向量相加后取均值, 获得该文档的语义向量, 将该
文档的语义向量添加至语义向量 集中。
11.如权利要求10所述的装置, 其特 征在于, 语义向量 集生成模块具体用于:
在沿着二维矩阵的第一维, 将第二维的向量相加后取均值之前, 在二维矩阵的第一维
中句子的长度大于预设长度时, 对超过预设长度的部分进行截断; 在二维矩阵的第一维中
句子的长度小于预设长度时, 采用预设符号对第一维进行补足。
12.如权利要求9所述的装置, 其特 征在于, 向量 量化模块具体用于:
对语义向量集的向量维度进行切分, 获得多组语义子向量, 每组语义子向量中语义子
向量个数为语义向量 集中语义向量的个数, 语义子向量的维度小于语义向量的维度;
对每组语义子向量进行聚类, 获得每组语义子向量对应的多个类中心, 其中, 每组语义
子向量对应的多个 类中心的个数小于语义子向量个数;
对每组语义子向量中每个语义子向量, 查找该组语义子向量对应的多个类中心中与 该
语义子向量距离最近的类中心, 标记为该语义子向量的标签;权 利 要 求 书 2/3 页
3
CN 114564935 A
3
专利 基于语义的文档查重方法及装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:26上传分享