说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211452104.7 (22)申请日 2022.11.21 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 陈恩红 何理扬 黄振亚 刘淇 童世炜 (74)专利代理 机构 北京凯特来知识产权代理有 限公司 1 1260 专利代理师 郑立明 韩珂 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 相似文本检索方法、 系统、 设备及存 储介质 (57)摘要 本发明公开了一种相似文本检索方法、 系 统、 设备及存储介质, 使用自编码器 (编码器 ‑解 码器) 框架构建哈希映射模型, 通过关系传播的 编码器模块解决了在低维哈希码情况下信息损 失的问题, 通过全局均衡优化模块进行全局的均 衡性优化, 有效地增强了检索效率, 通过噪声感 知的解码器模块增强了哈希码的鲁棒性, 从而解 决文本中存在噪声的问题, 根据实验结果显示, 本发明提出的方法在准确率和检索效率两类的 评价指标上均有一定提高。 权利要求书5页 说明书12页 附图2页 CN 115495546 A 2022.12.20 CN 115495546 A 1.一种相似文本检索方法, 其特 征在于, 包括: 构建哈希映射模型, 并使用无监督方式训练; 所述哈希映射模型包括: 关系传播的编码 器模块、 全局均衡优化模块与噪声感知的解码 器模块; 训练 时, 所述关系传播的编码 器模块 输入包括训练文本以及每一训练文本对应的噪声文本, 对于训练文本, 依 次生成第一类表 征与第二类表征, 再利用第二类表征生成对应的哈希码, 以及利用生成的第一类表征与第 二类表征计算相关性传播损失函数, 所述第一类表征 的维度高于所述第二类表征 的维度; 对于噪声文本, 依次生成第一类表征与第二类表征; 所述全局均衡优化模块, 存储所有训练 文本对应的哈希码, 并对训练过程中新生成的哈希码进行全局均衡性信息的优化指导, 以 及计算全局均衡优化损失函数; 所述噪声感知的解码 器模块利用训练文本和噪声文本对应 的第二类表征分别重构对应的训练文本, 利用分别重构出 的训练文本, 以及噪声文本与其 对应训练文本的相关性计算重构损失函数; 结合相关性传播损失函数、 全局均衡优化损失 函数与重构损失函数构建训练时的整体损失函数; 利用训练后的哈希 映射模型中的关系传播的编码器模块分别生成每一候选文本的哈 希码, 并构建哈希 表; 对于输入的查询文本, 利用训练后的哈希映射模型中的关系传播的编码器模块生成哈 希码, 并在所述哈希表中进行查询, 对查询获得的初步结果进 行相关性评估, 获得最 终的相 似文本检索结果。 2.根据权利要求1所述的一种相似文本检索方法, 其特征在于, 所述关系传播的编码器 模块的处 理流程包括: 对于输入的训练文本, 使用带有ReLU激活层的多层前馈网络和获得文本的深度表征: 其中,t1表示中间特征, Bow(x)表示训练文本x在词袋模型下的特征表示, ReLU表示修正 线性单元, W1与W2表示带有ReLU激活层的多层前馈网络的权重参数, b1与b2表示带有ReLU激 活层的多层前馈网络的偏置参数, t2表示深度特 征; 之后, 依次通过两个带有tanh激活层的 前馈网络分 别获得第一类表征 l和第二类表征 : 其中, tanh表示双曲正切函数, e表示自然常数, 为超参数, W3与b3分别为第一个带有 tanh激活层的前馈网络中的权重参数与偏置参数, W4与b4分别为第二个带有tanh激活层的 前馈网络中的权 重参数与偏置参数; 使用中值法, 对第二类表征中每一维度的数值进行处 理, 获得哈希码。 3.根据权利要求1或2所述的一种相似文本检索方法, 其特征在于, 所述利用生成的第 一类表征与第二类表征计算相关性传播损失函数, 表示 为:权 利 要 求 书 1/5 页 2 CN 115495546 A 2其中,Lrp表示相关性传播损失函数, 表示第一类表征的维度长度, NB表示当前训练 批次中训练文本的数目, lk与lj分别表示当前训练批次中第 k个训练文本与第 j个训练文本 的第一类表征, 与 分别表示当前训练批次中第 k个训练文本与第 j个训练文本的第二 类表征,b表示第二类表征的维度长度, 等同于哈希码的维度长度。 4.根据权利要求1所述的一种相似文本检索方法, 其特征在于, 所述全局均衡优化模 块, 存储所有训练文本对应的哈希码, 并对训练过程中新生成的哈希码进行全局均衡性信 息的优化指导包括: 将所有训练文本对应的哈希码存储在一个全局存储模块M中, 每一个训练文本在所述 全局存储模块M中均设有一个对应的存储位置, 将 所有训练文本中 的第i个训练文本xi的存 储位置记为Mi; 在每个训练批次中, 从所述全局存储模块M中选取部分哈希码用于计算全局均衡性信 息的权重, 选取方式如下: 为每个存储位置 设置一个计时器, 并初始 化为0, 每个训练批次开 始前将计时器数值加1; 在当前训练批次时, 如果某个存储位置对应的训练文本属于 当前训 练批次的训练文本, 则将相应存储位置的计时器数值重置为0; 如果不属于 当前训练批次的 训练文本, 则判断相应存储位置的计时器数值是否满足设定的取出条件值, 若满足, 则选取 相应存储位置存 储的哈希码; 所有选取的哈希码构成一个集合 , 使用集合 计算全局均衡性信息的权重对新生 成的哈希码进行全局均衡性信息的优化指导。 5.根据权利要求1或4所述的一种相似文本检索方法, 其特征在于, 所述全局均衡优化 损失函数包括: 比特均衡损失函数与比特无关损失函数; 全局均衡性信息包括: 比特均衡性 和比特无关性; 比特均衡性是指哈希码中每个维度的值, 具有相同概率为1或者 ‑1, 使用集合 计算一 个用于衡量全局情况 下的比特均衡性权 重, 表示为: 其中, 为选取的部分哈希码构成的集合, 表示集合 中第t个哈希码中第c个 维度的值, b表示哈希码的维度长度, 表示集合 中哈希码的数目, 表示哈希码 中 第c个维度比特均衡性权 重; 利用比特均衡性权重对当前批次中训练文本对应第 二类表征进行约束, 得到比特均衡 损失函数Lbb, 表示为:权 利 要 求 书 2/5 页 3 CN 115495546 A 3
专利 相似文本检索方法、系统、设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:23:46
上传分享
举报
下载
原文档
(853.0 KB)
分享
友情链接
GB-T 33746.1-2017 近场通信(NFC)安全技术要求 第1部分:NFCIP-1安全服务和协议.pdf
GB-T 19831.3-2023 石油天然气工业 套管扶正器 第3部分:刚性和半刚性扶正器.pdf
GB-T 34349-2017 输气管道内腐蚀外检测方法.pdf
GB-T 24181-2022 金刚石焊接锯片基体用钢.pdf
CSA 大数据安全和隐私手册中文版.pdf
DB13-T 5557-2022 村庄规划技术规范 河北省.pdf
GB-T 3624-2023 钛及钛合金无缝管.pdf
T-JSJCXH T-JSJCXH4—2023 先张法预应力超高强混凝土管桩.pdf
GB-T 3954-2022 电工圆铝杆.pdf
T-ZJASE 024—2023 呼吸阀定期校验规则.pdf
DB14-T 2322-2021 高速公路运营隧道突发事件应急预案编制指南 山西省.pdf
GB-T 31495.1-2015 信息安全技术 信息安全保障指标体系及评价方法 第1部分:概念和模型.pdf
T-CEA 022—2019 电梯用随行电缆.pdf
专利 一种汽车散热器格栅用成型模具.PDF
软件开发管理制度.pdf
信通院 数据中心智能化运维发展研究报告 2023年.pdf
信息安全工程师 每日一记 高频考点口袋书 2022适用 .pdf
GB-T 35625-2017 公共安全 业务连续性管理体系 业务影响分析指南(BIA).pdf
GB-T 26973-2011 空气源热泵辅助的太阳能热水系统 储水箱容积大于0.6m3 技术规范.pdf
GB-T 29362-2023 法庭科学 电子数据搜索检验规程.pdf
交流群
-->
1
/
20
评价文档
赞助2元 点击下载(853.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。