专利 文本数据处理方法、装置、计算机设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210041129.1 (22)申请日 2022.01.14 (71)申请人平安科技（深圳）有限公司地址 518048 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人李鹏宇　李剑锋　 (74)专利代理机构北京辰权知识产权代理有限公司 11619 代理人付婧 (51)Int.Cl. G06F 16/31(2019.01) G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称文本数据处理方法、装置、计算机设备和存储介质 (57)摘要本发明涉及一种文本数据处理方法方法、装置、计算机设备和存储介质，该方法包括：获取目标文本，并确定目标文本的长度；若目标文本的长度大于预设的长度阈值，则对目标文本进行摘要提取，得到长度小于或等于长度阈值的目标文本；基于预先建立的候选文本的倒排索引，根据目标文本的关键词，从候选文本中检索与关键词相关的候选文本；其中，预先建立的候选文本的倒排索引包括：使用倒排索引算法对候选文本进行统计计算，形成单词 ‑倒排列表，并将结果存储到数据库中；基于目标文本与各候选文本之间的海明距离确定目标文本与候选文本是否重合。上述方法可以提升了文本查重的准确率。权利要求书2页说明书9页附图3页 CN 114385777 A 2022.04.22 CN 114385777 A 1.一种文本数据处理方法，其特征在于，所述方法包括：获取目标文本，并确定所述目标文本的长度；若所述目标文本的长度大于预设的长度阈值，则对所述目标文本进行摘要提取，得到长度小于或等于所述长度阈值的目标文本；基于预先建立的候选文本的倒排索引，根据所述目标文本的关键词，从所述候选文本中检索与所述关键词相关的候选文本；其中，所述预先建立的候选文本的倒排索引包括：使用倒排索引算法对所述候选文本进行统计计算，形成单词 ‑倒排列表，并将结果存储到数据库中；基于所述目标文本与各所述候选文本之间的海明距离确定所述目标文本与所述候选文本是否重合。 2.根据权利要求1所述的文本数据处理方法，其特征在于，在基于所述目标文本与各所述候选文本之间的海明距离确定所述目标文本与所述候选文本是否重合之后，还包括：若所述目标文本与任一所述候选文本均不重合，则生成所述目标文本的倒排索引。 3.根据权利要求1所述的文本数据处理方法，其特征在于，所述对所述目标文本进行摘要提取，得到长度小于或等于所述长度阈值的目标文本，包括：对所述目标文本进行分词，基于text rank算法计算得到每个句子的权重；将权重最高的多个句子按照权重从大到小的顺序进行拼接，得到长度小于或等于所述长度阈值的目标文本。 4.根据权利要求1所述的文本数据处理方法，其特征在于，所述基于预先建立的候选文本的倒排索引，根据所述目标文本的关键词，从所述候选文本中检索与所述关键词相关的候选文本，包括：将所述目标文本进行向量表示，得到目标向量；基于所述关键词，对所述目标文本进行分词；针对分词后的所述目标文本，从分词后的所述目标文本的第一个词开始，以预设窗口长度进行取词，并以预设步长移动，直到所述目标文本的最后一个词，得到多个连续子序列，各子序列包括所述目标文本的倒排文件；基于所述候选文本的倒排索引，获取所述目标文本的相关的候选文本，所述候选文本为具有与所述目标文本具有相同倒排文件最多的候选文本。 5.根据权利要求4所述的文本数据处理方法，其特征在于，所述将所述目标文本进行向量表示，得到目标向量，包括：将所述目标文本输入预训练的BERT模型进行向量转换，得到第一向量；基于随机投影法，将所述第一向量转变为预设格式的目标向量；其中，所述目标向量的预设格式为长度为预设长度，元素取值为0或1。 6.根据权利要求5所述的文本数据处理方法，其特征在于，所述基于随机投影法，将所述第一向量转变为预设格式的目标向量，包括：对所述预训练的BERT模型最后一层Transformer的输出进行平均池化，基于正态分布随机生成长度为预设长度的随机向量p1,p2,……pi；按位比较第一向量中的各向量值与所述随机向量中的各向量值，得到预设长度的一维权　利　要　求　书 1/2 页 2 CN 114385777 A 2向量qi，其中，对所述随机向量求和得到v ’1 计算得到目标向量v2，其中 7.根据权利要求1所述的文本数据处理方法，其特征在于，所述基于每篇所述候选文本与所述目标文本之间的海明距离判定所述目标文本是否与所述候选文本重复，包括：分别将各所述候选文本表示为预设长度的目标向量；针对每个所述候选文本，计算所述目标文本的目标向量与所述候选文本的目标向量之间的海明距离；若所述海明距离小于设定海明距离阈值，则确定所述候选文本为所述目标文本的重复文本。 8.一种文本数据处理装置，其特征在于，包括：输入单元，用于获取目标文本，并确定所述目标文本的长度；裁剪单元，用于若所述目标文本的长度大于预设的长度阈值，则对所述目标文本进行摘要提取，得到长度小于或等于所述长度阈值的目标文本；检索单元，用于基于预先建立的候选文本的倒排索引，根据所述目标文本的关键词，从所述候选文本中检索与所述关键词相关的候选文本；其中，所述预先建立的候选文本的倒排索引包括：使用倒排索引算法对所述候选文本进行统计计算，形成单词 ‑倒排列表，并将结果存储到数据库中；判定单元，用于基于所述目标文本与各所述候选文本之间的海明距离确定所述目标文本与所述候选文本是否重合。 9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求 1至7中任一项权利要求所述文本数据处理方法的步骤。 10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被处理器执行时，使得处理器执行如权利要求1至7中任一项权利要求所述文本数据处理方法的步骤。权　利　要　求　书 2/2 页 3 CN 114385777 A 3

专利 文本数据处理方法、装置、计算机设备和存储介质

专利文本数据处理方法、装置、计算机设备和存储介质