(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210041129.1
(22)申请日 2022.01.14
(71)申请人 平安科技 (深圳) 有限公司
地址 518048 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 李鹏宇 李剑锋
(74)专利代理 机构 北京辰权知识产权代理有限
公司 11619
代理人 付婧
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 40/211(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
(54)发明名称
文本数据处理方法、 装置、 计算机设备和存
储介质
(57)摘要
本发明涉及一种文本数据处理方法方法、 装
置、 计算机设备和存储介质, 该方法包括: 获取目
标文本, 并确定目标文本的长度; 若目标文本的
长度大于 预设的长度阈值, 则对目标文本进行摘
要提取, 得到长度小于或等于长度阈值的目标文
本; 基于预先建立的候选文本的倒排索引, 根据
目标文本的关键词, 从候选文本中检索与关键词
相关的候选文本; 其中, 预先建立的候选文本的
倒排索引包括: 使用倒排索引算法对候选文本进
行统计计算, 形成单词 ‑倒排列表, 并将结果存储
到数据库中; 基于目标文本与各候选文本之间的
海明距离确定目标文本与候选文本是否重合。 上
述方法可以提升 了文本查重的准确率。
权利要求书2页 说明书9页 附图3页
CN 114385777 A
2022.04.22
CN 114385777 A
1.一种文本数据处 理方法, 其特 征在于, 所述方法包括:
获取目标文本, 并确定所述目标文本的长度;
若所述目标文本的长度大于预设的长度阈值, 则对所述目标文本进行摘要提取, 得到
长度小于或等于所述长度阈值的目标文本;
基于预先建立的候选文本的倒排索引, 根据所述目标文本的关键词, 从所述候选文本
中检索与所述关键词相关的候选文本; 其中, 所述预先建立的候选文本的倒排索引包括: 使
用倒排索引算法对所述候选文本进 行统计计算, 形成单词 ‑倒排列表, 并将结果存储到数据
库中;
基于所述目标文本与各所述候选文本之间的海明距离确定所述目标文本与所述候选
文本是否 重合。
2.根据权利要求1所述的文本数据处理方法, 其特征在于, 在基于所述目标文本与 各所
述候选文本之间的海明距离确定所述目标文本与所述 候选文本是否 重合之后, 还 包括:
若所述目标文本与任一所述 候选文本均不重合, 则生成所述目标文本的倒排索引。
3.根据权利要求1所述的文本数据处理方法, 其特征在于, 所述对所述目标文本进行摘
要提取, 得到 长度小于或等于所述长度阈值的目标文本, 包括:
对所述目标文本进行分词, 基于text rank算法计算得到每 个句子的权 重;
将权重最高的多个句子按照权重从大到小的顺序进行拼接, 得到长度小于或等于所述
长度阈值的目标文本 。
4.根据权利要求1所述的文本数据处理方法, 其特征在于, 所述基于预先建立的候选文
本的倒排索引, 根据所述 目标文本的关键词, 从所述候选文本中检索与所述关键词相关的
候选文本, 包括:
将所述目标文本进行向量表示, 得到目标向量;
基于所述关键词, 对所述目标文本进行分词;
针对分词后的所述目标文本, 从分词后的所述目标文本的第一个词开始, 以预设窗口
长度进行取词, 并以预设步长移动, 直到所述目标文本的最后一个词, 得到多个连续子序
列, 各子序列包括所述目标文本的倒排文件;
基于所述候选文本的倒排索引, 获取所述目标文本的相关的候选文本, 所述候选文本
为具有与所述目标文本具有相同倒排文件最多的候选文本 。
5.根据权利要求4所述的文本数据处理方法, 其特征在于, 所述将所述目标文本进行向
量表示, 得到目标向量, 包括:
将所述目标文本 输入预训练的BERT模型进行向量 转换, 得到第一向量;
基于随机投影法, 将所述第一向量 转变为预设格式的目标向量;
其中, 所述目标向量的预设格式为长度为预设长度, 元 素取值为0或1。
6.根据权利要求5所述的文本数据处理方法, 其特征在于, 所述基于随机投影法, 将所
述第一向量 转变为预设格式的目标向量, 包括:
对所述预训练的BERT模型最后一层Transformer的输出进行平均池化, 基于正态分布
随机生成长度为预设长度的随机向量p1,p2,……pi;
按位比较第 一向量中的各向量值与 所述随机向量中的各向量值, 得到预设长度的一维权 利 要 求 书 1/2 页
2
CN 114385777 A
2向量qi, 其中,
对所述随机向量 求和得到v ’1
计算得到目标向量v2, 其中
7.根据权利要求1所述的文本数据处理方法, 其特征在于, 所述基于每篇所述候选文本
与所述目标文本之间的海明距离判定所述目标文本是否与所述 候选文本 重复, 包括:
分别将各 所述候选文本表示 为预设长度的目标向量;
针对每个所述候选文本, 计算所述目标文本的目标向量与所述候选文本的目标向量之
间的海明距离;
若所述海明距离小于设定海明距离 阈值, 则确定所述候选文本为所述目标文本的重复
文本。
8.一种文本数据处 理装置, 其特 征在于, 包括:
输入单元, 用于获取目标文本, 并确定所述目标文本的长度;
裁剪单元, 用于若所述目标文本的长度大于预设的长度阈值, 则对所述目标文本进行
摘要提取, 得到 长度小于或等于所述长度阈值的目标文本;
检索单元, 用于基于预先建立的候选文本的倒排索引, 根据 所述目标文本的关键词, 从
所述候选文本中检索与所述关键词相关的候选文本; 其中, 所述预先建立的候选文本的倒
排索引包括: 使用倒排索引算法对所述候选文本进行统计计算, 形成单词 ‑倒排列表, 并将
结果存储到数据库中;
判定单元, 用于基于所述目标文本与各所述候选文本之间的海明距离确定所述目标文
本与所述 候选文本是否 重合。
9.一种计算机设备, 包括存储器和处理器, 所述存储器中存储有计算机可读指令, 所述
计算机可读指 令被所述处理器执行时, 使 得所述处理器执行如权利要求 1至7中任一项权利
要求所述文本数据处 理方法的步骤。
10.一种存储有计算机可读指令的存储介质, 所述计算机可读指令被处理器执行时, 使
得处理器执行如权利要求1至7中任一项权利要求所述文本数据处 理方法的步骤。权 利 要 求 书 2/2 页
3
CN 114385777 A
3
专利 文本数据处理方法、装置、计算机设备和存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:25上传分享