全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111663511.8 (22)申请日 2021.12.31 (71)申请人 杭州趣链科技有限公司 地址 310051 浙江省杭州市滨江区丹 枫路 399号2号楼 A楼2001室 (72)发明人 尚璇 胡麦芳 张帅 邵羽  汪小益  (74)专利代理 机构 杭州奥创知识产权代理有限 公司 33272 代理人 王佳健 (51)Int.Cl. G06F 21/60(2013.01) G06F 21/62(2013.01) (54)发明名称 一种中文多关键字权重模糊搜索隐私保护 方法 (57)摘要 本发明公开了一种中文多关键字权重模糊 搜索隐私保护方法。 本发明采用自动文本摘要技 术, 让数据拥有者对文档内容提取主要信息, 然 后使用依存句法关系表示不同关键字的重要程 度, 计算相应的权重值, 对每一个文档使用一个 布隆过滤器去存储该文档中所有的关键字, 通过 敏感哈希函数映射将相对应的比特位设置为该 关键字的权重值, 然后对关键字索引和所有文档 分别加密, 上传到云服务器。 云服务进行同态内 积的计算过程, 返回内积值最高的前k个加密文 档, 用户使用私钥对返回的加密文档进行解密。 本发明为所有的关键字都计算了相应的权重, 并 且存储在布隆过滤器中, 使用敏感哈希函数可以 从一定程度上解决模糊搜索问题。 权利要求书1页 说明书3页 附图1页 CN 114386065 A 2022.04.22 CN 114386065 A 1.一种中文 多关键字权重模糊搜索隐私保护方法, 其特 征在于: 包括以下步骤: 1) 数据拥 有者为每一个文档使用自动文本摘要技术概括出文档的主要信息, 对主要信 息使用依存句法分析, 用来表示关键 字之间的重要程度; 2) 数据拥有者为每一个文档生成一个m比特的布隆过滤器, 将每一个文档中所有的中 文关键字转化为拼音向量; 将拼音向量 通过局部敏感哈希函数的映射, 存 储到布隆过 滤器中, 形成关键 字索引; 3) 数据拥 有者分别对文档和关键字索引进行加密, 将加密后的文档和关键字索引上传 到云服务器; 4) 数据使用者输入想要查询的关键字, 使用依存句法关系计算关键字的权重, 将关键 字转化为拼音向量; 将所有的查询关键字通过局部敏感哈希函数映射到布隆过滤器中, 将相对应的比特位 的值设置为该关键 字的权重值, 形成查询索引; 5) 数据使用者对查询索引进行加密, 将加密后查询索引发给云服 务器; 6) 云服务器执行同态内积的评估匹配过程, 将内积值大的也就是相关度高的前k个加 密的文档返回给 数据使用者; 7) 数据使用者对返回的相关的加密文档进行解密。 2.根据权利要求1所述 一种中文 多关键字权重模糊搜索隐私保护方法, 其特 征在于: 步骤1) 中的对数据进行预处理包括使用自动文本摘要技术概括出文档主要信 息, 然后 根据依存句法关系计算每 个关键字权重。 3.根据权利要求1所述 一种中文 多关键字权重模糊搜索隐私保护方法, 其特 征在于: 步骤2) 每一个布隆过滤器 中会存储当前文档中所有的关键字, 并且将每一个关键字的 权重填入通过 敏感哈希函数映射的相对应的比特位上, 形成了关键 字索引。 4.根据权利要求1所述 一种中文 多关键字权重模糊搜索隐私保护方法, 其特 征在于: 步骤3) 对文档和对关键 字索引使用不同的加密方式: 对文档加密使用公钥加密, 即用数据拥有者的自己的私钥和数据使用者的公钥加密; 对关键字索引的加密使用同态加密实现 向量内积的计算, 数据使用者用主私钥对关键 字索引进行加密, 将加密后的索引上传到云服 务器。 5.根据权利要求1所述 一种中文 多关键字权重模糊搜索隐私保护方法, 其特 征在于: 步骤4) 数据使用者输入想要查询的关键 字包括单关键 字和多关键 字。 6.根据权利要求1所述 一种中文 多关键字权重模糊搜索隐私保护方法, 其特 征在于: 步骤6) 云服务器在执行同态内积评估匹配的过程中, 如果两个向量内积的数值越大, 说明查询的内容在此文档的几率越大, 云服务器通过计算查询索引与所有关键字索引的内 积值之后, 将内积值 最大的前k个加密文件返回给 数据使用者。权 利 要 求 书 1/1 页 2 CN 114386065 A 2一种中文多关键字权重 模糊搜索隐私 保护方法 技术领域 [0001]本发明涉及数据隐私保护及数据查询领域, 尤其涉及对一种中文多关键字权重模 糊搜索隐私保护方法。 背景技术 [0002]基于可搜索加密技术实现了在不诚实的云服务器中, 用户也可以对密文进行搜 索, 保护了用户的查询隐私。 在今天, 仍然存在数据 泄漏等隐私保护问题。 近年来基于关键 字的可搜索加密发展成熟, 但是所提出 的大部分方案都只能实现精准匹配, 在实际生活中 并不实用, 用户在搜索时可能会输入错 误的关键 字, 将不能返回正确的结果。 [0003]发布内容 为了弥补现有技术只能实现简单拼写错误的模糊搜索, 本发明提供一种中文多关 键字权重模糊搜索隐私保护方法。 [0004]本发明采用的技 术方案为: 一种中文 多关键字权重模糊搜索隐私保护方法包括以下的步骤: 1) 数据拥有者 (DO) 需要对数据文件进行预处理, 为每一个文档使用自动文本摘要 技术概括出文档的主要内容, 对主要内容使用依存句法分析, 用来表示关键字之间的重要 程度。 [0005]2) 为每一个文档生成一个m位的布隆过滤器 (Bloom  Filter) , 将每一个文档中所 有的中文关键字转化为拼音字符串, 将字符串通过局部敏感 哈希 (LSH) 函数存储到布隆过 滤器中, 形成关键 字索引。 [0006] 3) 对文档和关键 字索引分别加密, 把加密后的文件和索引上传到云服 务器 (CS) 。 [0007]4) 数据使用者 (DU) 输入想要查询的关键字, 使用依存句法关系计算关键字的权 重, 将关键字转化为拼音向量, 将所有的查询关键字通过局部敏感哈希函数映射到布隆过 滤器中, 将权 重值设置在相对应的位中, 形成查询索引。 [0008]5) 数据使用者 (DU) 对查询索引进行加密, 将加密后查询索引发给云服 务器 (CS) 。 [0009]6) 云服务器 (CS) 执行 同态内积的评估过程, 将内积值大的也就是相关度高的前k 个加密的文档返回给 数据使用者 (DU) 。 [0010]7) 数据使用者 (DU) 对返回的相关的加密文档进行解密。 [0011]本发明与现有技术相比, 其有益的效果为: 本发明为所有的关键字都计算了相应 的权重, 并且存储在布隆过滤器中, 使用敏感哈希函数可以从一定程度上解决模糊搜索问 题, 本发明使用了新的关键 字权重的计算方式可以提高模糊关键 字搜索的准确性。 附图说明 [0012]图1为本发明涉及各 方的信息交 互图。说 明 书 1/3 页 3 CN 114386065 A 3

.PDF文档 专利 一种中文多关键字权重模糊搜索隐私保护方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种中文多关键字权重模糊搜索隐私保护方法 第 1 页 专利 一种中文多关键字权重模糊搜索隐私保护方法 第 2 页 专利 一种中文多关键字权重模糊搜索隐私保护方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:12:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。