专利 相似文本检索方法、系统、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211452104.7 (22)申请日 2022.11.21 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人陈恩红　何理扬　黄振亚　刘淇　童世炜　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 专利代理师郑立明　韩珂 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称相似文本检索方法、系统、设备及存储介质 (57)摘要本发明公开了一种相似文本检索方法、系统、设备及存储介质，使用自编码器（编码器 ‑解码器）框架构建哈希映射模型，通过关系传播的编码器模块解决了在低维哈希码情况下信息损失的问题，通过全局均衡优化模块进行全局的均衡性优化，有效地增强了检索效率，通过噪声感知的解码器模块增强了哈希码的鲁棒性，从而解决文本中存在噪声的问题，根据实验结果显示，本发明提出的方法在准确率和检索效率两类的评价指标上均有一定提高。权利要求书5页说明书12页附图2页 CN 115495546 A 2022.12.20 CN 115495546 A 1.一种相似文本检索方法，其特征在于，包括：构建哈希映射模型，并使用无监督方式训练；所述哈希映射模型包括：关系传播的编码器模块、全局均衡优化模块与噪声感知的解码器模块；训练时，所述关系传播的编码器模块输入包括训练文本以及每一训练文本对应的噪声文本，对于训练文本，依次生成第一类表征与第二类表征，再利用第二类表征生成对应的哈希码，以及利用生成的第一类表征与第二类表征计算相关性传播损失函数，所述第一类表征的维度高于所述第二类表征的维度；对于噪声文本，依次生成第一类表征与第二类表征；所述全局均衡优化模块，存储所有训练文本对应的哈希码，并对训练过程中新生成的哈希码进行全局均衡性信息的优化指导，以及计算全局均衡优化损失函数；所述噪声感知的解码器模块利用训练文本和噪声文本对应的第二类表征分别重构对应的训练文本，利用分别重构出的训练文本，以及噪声文本与其对应训练文本的相关性计算重构损失函数；结合相关性传播损失函数、全局均衡优化损失函数与重构损失函数构建训练时的整体损失函数；利用训练后的哈希映射模型中的关系传播的编码器模块分别生成每一候选文本的哈希码，并构建哈希表；对于输入的查询文本，利用训练后的哈希映射模型中的关系传播的编码器模块生成哈希码，并在所述哈希表中进行查询，对查询获得的初步结果进行相关性评估，获得最终的相似文本检索结果。 2.根据权利要求1所述的一种相似文本检索方法，其特征在于，所述关系传播的编码器模块的处理流程包括：对于输入的训练文本，使用带有ReLU激活层的多层前馈网络和获得文本的深度表征：其中，t1表示中间特征， Bow(x)表示训练文本x在词袋模型下的特征表示， ReLU表示修正线性单元， W1与W2表示带有ReLU激活层的多层前馈网络的权重参数， b1与b2表示带有ReLU激活层的多层前馈网络的偏置参数， t2表示深度特征；之后，依次通过两个带有tanh激活层的前馈网络分别获得第一类表征 l和第二类表征：其中， tanh表示双曲正切函数， e表示自然常数，为超参数， W3与b3分别为第一个带有 tanh激活层的前馈网络中的权重参数与偏置参数， W4与b4分别为第二个带有tanh激活层的前馈网络中的权重参数与偏置参数；使用中值法，对第二类表征中每一维度的数值进行处理，获得哈希码。 3.根据权利要求1或2所述的一种相似文本检索方法，其特征在于，所述利用生成的第一类表征与第二类表征计算相关性传播损失函数，表示为：权　利　要　求　书 1/5 页 2 CN 115495546 A 2其中，Lrp表示相关性传播损失函数，表示第一类表征的维度长度， NB表示当前训练批次中训练文本的数目， lk与lj分别表示当前训练批次中第 k个训练文本与第 j个训练文本的第一类表征，与分别表示当前训练批次中第 k个训练文本与第 j个训练文本的第二类表征，b表示第二类表征的维度长度，等同于哈希码的维度长度。 4.根据权利要求1所述的一种相似文本检索方法，其特征在于，所述全局均衡优化模块，存储所有训练文本对应的哈希码，并对训练过程中新生成的哈希码进行全局均衡性信息的优化指导包括：将所有训练文本对应的哈希码存储在一个全局存储模块M中，每一个训练文本在所述全局存储模块M中均设有一个对应的存储位置，将所有训练文本中的第i个训练文本xi的存储位置记为Mi；在每个训练批次中，从所述全局存储模块M中选取部分哈希码用于计算全局均衡性信息的权重，选取方式如下：为每个存储位置设置一个计时器，并初始化为0，每个训练批次开始前将计时器数值加1；在当前训练批次时，如果某个存储位置对应的训练文本属于当前训练批次的训练文本，则将相应存储位置的计时器数值重置为0；如果不属于当前训练批次的训练文本，则判断相应存储位置的计时器数值是否满足设定的取出条件值，若满足，则选取相应存储位置存储的哈希码；所有选取的哈希码构成一个集合，使用集合计算全局均衡性信息的权重对新生成的哈希码进行全局均衡性信息的优化指导。 5.根据权利要求1或4所述的一种相似文本检索方法，其特征在于，所述全局均衡优化损失函数包括：比特均衡损失函数与比特无关损失函数；全局均衡性信息包括：比特均衡性和比特无关性；比特均衡性是指哈希码中每个维度的值，具有相同概率为1或者 ‑1，使用集合计算一个用于衡量全局情况下的比特均衡性权重，表示为：其中，为选取的部分哈希码构成的集合，表示集合中第t个哈希码中第c个维度的值， b表示哈希码的维度长度，表示集合中哈希码的数目，表示哈希码中第c个维度比特均衡性权重；利用比特均衡性权重对当前批次中训练文本对应第二类表征进行约束，得到比特均衡损失函数Lbb，表示为：权　利　要　求　书 2/5 页 3 CN 115495546 A 3

专利 相似文本检索方法、系统、设备及存储介质

专利相似文本检索方法、系统、设备及存储介质