说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211452104.7 (22)申请日 2022.11.21 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 陈恩红 何理扬 黄振亚 刘淇  童世炜  (74)专利代理 机构 北京凯特来知识产权代理有 限公司 1 1260 专利代理师 郑立明 韩珂 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 相似文本检索方法、 系统、 设备及存 储介质 (57)摘要 本发明公开了一种相似文本检索方法、 系 统、 设备及存储介质, 使用自编码器 (编码器 ‑解 码器) 框架构建哈希映射模型, 通过关系传播的 编码器模块解决了在低维哈希码情况下信息损 失的问题, 通过全局均衡优化模块进行全局的均 衡性优化, 有效地增强了检索效率, 通过噪声感 知的解码器模块增强了哈希码的鲁棒性, 从而解 决文本中存在噪声的问题, 根据实验结果显示, 本发明提出的方法在准确率和检索效率两类的 评价指标上均有一定提高。 权利要求书5页 说明书12页 附图2页 CN 115495546 A 2022.12.20 CN 115495546 A 1.一种相似文本检索方法, 其特 征在于, 包括: 构建哈希映射模型, 并使用无监督方式训练; 所述哈希映射模型包括: 关系传播的编码 器模块、 全局均衡优化模块与噪声感知的解码 器模块; 训练 时, 所述关系传播的编码 器模块 输入包括训练文本以及每一训练文本对应的噪声文本, 对于训练文本, 依 次生成第一类表 征与第二类表征, 再利用第二类表征生成对应的哈希码, 以及利用生成的第一类表征与第 二类表征计算相关性传播损失函数, 所述第一类表征 的维度高于所述第二类表征 的维度; 对于噪声文本, 依次生成第一类表征与第二类表征; 所述全局均衡优化模块, 存储所有训练 文本对应的哈希码, 并对训练过程中新生成的哈希码进行全局均衡性信息的优化指导, 以 及计算全局均衡优化损失函数; 所述噪声感知的解码 器模块利用训练文本和噪声文本对应 的第二类表征分别重构对应的训练文本, 利用分别重构出 的训练文本, 以及噪声文本与其 对应训练文本的相关性计算重构损失函数; 结合相关性传播损失函数、 全局均衡优化损失 函数与重构损失函数构建训练时的整体损失函数; 利用训练后的哈希 映射模型中的关系传播的编码器模块分别生成每一候选文本的哈 希码, 并构建哈希 表; 对于输入的查询文本, 利用训练后的哈希映射模型中的关系传播的编码器模块生成哈 希码, 并在所述哈希表中进行查询, 对查询获得的初步结果进 行相关性评估, 获得最 终的相 似文本检索结果。 2.根据权利要求1所述的一种相似文本检索方法, 其特征在于, 所述关系传播的编码器 模块的处 理流程包括: 对于输入的训练文本, 使用带有ReLU激活层的多层前馈网络和获得文本的深度表征: 其中,t1表示中间特征, Bow(x)表示训练文本x在词袋模型下的特征表示, ReLU表示修正 线性单元, W1与W2表示带有ReLU激活层的多层前馈网络的权重参数, b1与b2表示带有ReLU激 活层的多层前馈网络的偏置参数, t2表示深度特 征; 之后, 依次通过两个带有tanh激活层的 前馈网络分 别获得第一类表征 l和第二类表征 : 其中, tanh表示双曲正切函数, e表示自然常数, 为超参数, W3与b3分别为第一个带有 tanh激活层的前馈网络中的权重参数与偏置参数, W4与b4分别为第二个带有tanh激活层的 前馈网络中的权 重参数与偏置参数; 使用中值法, 对第二类表征中每一维度的数值进行处 理, 获得哈希码。 3.根据权利要求1或2所述的一种相似文本检索方法, 其特征在于, 所述利用生成的第 一类表征与第二类表征计算相关性传播损失函数, 表示 为:权 利 要 求 书 1/5 页 2 CN 115495546 A 2其中,Lrp表示相关性传播损失函数, 表示第一类表征的维度长度, NB表示当前训练 批次中训练文本的数目, lk与lj分别表示当前训练批次中第 k个训练文本与第 j个训练文本 的第一类表征, 与 分别表示当前训练批次中第 k个训练文本与第 j个训练文本的第二 类表征,b表示第二类表征的维度长度, 等同于哈希码的维度长度。 4.根据权利要求1所述的一种相似文本检索方法, 其特征在于, 所述全局均衡优化模 块, 存储所有训练文本对应的哈希码, 并对训练过程中新生成的哈希码进行全局均衡性信 息的优化指导包括: 将所有训练文本对应的哈希码存储在一个全局存储模块M中, 每一个训练文本在所述 全局存储模块M中均设有一个对应的存储位置, 将 所有训练文本中 的第i个训练文本xi的存 储位置记为Mi; 在每个训练批次中, 从所述全局存储模块M中选取部分哈希码用于计算全局均衡性信 息的权重, 选取方式如下: 为每个存储位置 设置一个计时器, 并初始 化为0, 每个训练批次开 始前将计时器数值加1; 在当前训练批次时, 如果某个存储位置对应的训练文本属于 当前训 练批次的训练文本, 则将相应存储位置的计时器数值重置为0; 如果不属于 当前训练批次的 训练文本, 则判断相应存储位置的计时器数值是否满足设定的取出条件值, 若满足, 则选取 相应存储位置存 储的哈希码; 所有选取的哈希码构成一个集合 , 使用集合 计算全局均衡性信息的权重对新生 成的哈希码进行全局均衡性信息的优化指导。 5.根据权利要求1或4所述的一种相似文本检索方法, 其特征在于, 所述全局均衡优化 损失函数包括: 比特均衡损失函数与比特无关损失函数; 全局均衡性信息包括: 比特均衡性 和比特无关性; 比特均衡性是指哈希码中每个维度的值, 具有相同概率为1或者 ‑1, 使用集合 计算一 个用于衡量全局情况 下的比特均衡性权 重, 表示为: 其中, 为选取的部分哈希码构成的集合, 表示集合 中第t个哈希码中第c个 维度的值, b表示哈希码的维度长度, 表示集合 中哈希码的数目, 表示哈希码 中 第c个维度比特均衡性权 重; 利用比特均衡性权重对当前批次中训练文本对应第 二类表征进行约束, 得到比特均衡 损失函数Lbb, 表示为:权 利 要 求 书 2/5 页 3 CN 115495546 A 3

PDF文档 专利 相似文本检索方法、系统、设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 相似文本检索方法、系统、设备及存储介质 第 1 页 专利 相似文本检索方法、系统、设备及存储介质 第 2 页 专利 相似文本检索方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。