(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210207064.3
(22)申请日 2022.03.03
(71)申请人 北京伽睿智能科技 集团有限公司
地址 100192 北京市海淀区西小口路6 6号
中关村东升科技园北领地C-1楼1层
106(东升地区)
(72)发明人 姜晓丹 张晶 王双 张成凯
傅天隆 吕子祺 韩兴源
(74)专利代理 机构 北京知呱 呱知识产权代理有
限公司 1 1577
专利代理师 孙志一
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 16/36(2019.01)G06F 16/31(2019.01)
(54)发明名称
一种基于知识库应用的语义搜索方法
(57)摘要
本发明公开了一种基于知识库应用的语义
搜索方法, 所述方法为: S1、 录入文档, 通过分词
器将文档拆分为词语, 统计词语出现的次数, 记
录词语和文档映射关系, 将所有词语和映射关系
放入内存当做索引; S2、 将索引分成多个分片, 并
对每个分片进行备份, 每个分片和备份 分布在多
台服务器上, 以分布式的方式提供查询服务; S3、
输入关键词进行智能搜索, 基于关键词进行索引
匹配和语义相似性扩展搜索, 基于关键词图谱的
语义扩展搜索具体实现逻辑; S4、 根据确定的基
于用户行为的语义相似度及语义扩展结果, 预测
用户对知识库资源的评分, 将 评分高资源信息作
为推荐列表返回给用户。 本发明解决了现有资源
搜索速度慢、 准确率低的问题。
权利要求书2页 说明书6页 附图4页
CN 114547253 A
2022.05.27
CN 114547253 A
1.一种基于知识库应用的语义搜索方法, 其特 征在于, 所述方法为:
S1、 录入文档, 通过分词器将文档拆分为词语, 统计词语出现的次数, 记录词语和文档
映射关系, 将所有词语和映射关系放入内存当做索引;
S2、 将索引分成多个分片, 并对每个分片进行备份, 每个分片和备份分布在多台服务器
上, 以分布式的方式提供查询服 务;
S3、 输入关键词进行智能搜索, 基于关键词进行索引匹配和语义相似性扩展搜索, 基于
关键词图谱的语义扩展搜索具体实现逻辑;
S4、 根据确定的基于用户行为的语义相似度及语义扩展结果, 预测用户对知识库资源
的评分, 将评分高资源信息作为推荐列表返回给用户。
2.如权利要求1所述的一种基于知识库应用的语义搜索方法, 其特征在于, 所述S1步骤
中, 还包括将词语转换成成拼音和拼音 首字母, 建立索引结构并放入内存, 根据拼音和拼音
首字母能够检索查询文档; 对词语配置同义词表达, 检索词语时能够 扩展同义词; 词语中配
置相应的屏蔽词, 屏蔽用户违规 查询。
3.如权利要求1所述的一种基于知识库应用的语义搜索方法, 其特征在于, 所述索引分
片后, 每个 分片放在不同服务器, 在管理服务器上记录 分片和分片对应的服务器, 针对每个
分片进行备份, 把备份 分片分布不同服务器上, 用户使用关键词查询时, 请求被转给分片所
在的服务器, 请求被负载均衡到多个服务器; 所述分片损坏时, 管 理服务器选择一个备份做
为正式分片, 继续 提供服务, 为查询提供了容 灾性。
4.如权利要求1所述的一种基于知识库应用的语义搜索方法, 其特征在于, 所述智能搜
索过程中, 将关键字转换成拼音和拼音首字母, 分别在汉字索引, 拼音索引, 拼音首字母索
引, 查找文章列表, 获取文章列表后排重, 提取关键 字所在的句子, 高亮显示关键 字;
进行结果筛选, 服务器按照关键词出现的次数作为权重自动排序, 容许用户指定返回
条数, 通过日期筛 选结果;
智能推荐, 服 务器会对关键字进行联想, 做出推荐列表, 方便用户选择。
5.如权利要求4所述的一种基于知识库应用的语义搜索方法, 其特征在于, 所述智能搜
索过程中, 能够进行句子查找, 用户将句 子录入, 服务器将句 子拆分为词语进行查找, 在结
果中反馈含有词语的文章;
在文章展示时同样能够进行搜索, 按照关键词出现的位置建立目录, 帮助用户直接定
位到具体位置 。
6.如权利要求4所述的一种基于知识库应用的语义搜索方法, 其特征在于, 所述智能搜
索过程中, 用户输入待查询的相关关键词, 将关键词在内存中索引或数据存储库中进行概
念性内容匹配, 查询请求用于对应业务相关资源, 如果其匹配成功, 则相对应执行依据于本
体搜索关键词进行进一步的语义扩展, 如果其匹配失败, 则执行基于关键词图谱的语义扩
展功能。
7.如权利要求6所述的一种基于知识库应用的语义搜索方法, 其特征在于, 所述匹配失
败, 基于关键词图谱的语义扩展功能的依据为:
依据于用户搜索历史数据与当前用户行为语义的相似度进行关键词匹配;
依据于用户行为语义的相似性, 极其相似的关联匹配度基于以上特征, 预测用户对资
源的匹配程度, 将匹配信息作为推荐列表推送给搜索用户群 体。权 利 要 求 书 1/2 页
2
CN 114547253 A
28.如权利要求6所述的一种基于知识库应用的语义搜索方法, 其特征在于, 所述匹配成
功进行语义扩展, 扩展内容 为:
如若匹配成功, 则所得关键词会 映射到数据库中; 计算的各个待扩展体概念与本体库
中其他概念语义的相似度; 将语义相似度大于预设的第一阈值时, 其它的本体词汇将会作
为待扩展的扩展词。
9.如权利要求8所述的一种基于知识库应用的语义搜索方法, 其特征在于, 所述语义相
似度的表达式为:
其中, SimONT(c1,c2)表示基于本体的语义相似度, f1和f2分别表示实体概念c1和c2与最
近的公共父节点之间的最短路径, D是c1和c2所在本体层次结构中的最大深度;
如果执行失败, 则进行拓展, 根据构建的检索图谱, 对待扩展实体概念与知识库内的本
体概念各自进行继承关联及路径关联计算; 关联值之和大于设置的第二阈值时, 知识库图
谱的本体概念将会作为待扩展实体概念 扩展词。
10.如权利要求9所述的一种基于知识库应用的语义搜索方法, 其特征在于, 所述继承
关联计算公式为:
其中, Inherit(ci,cj)表示实体概念ci和cj的继承关联值, k表示实体概念ci和cj的局部
深度最大的共同祖先数量, an是ci和cj的局部深度最大的共同祖先, 是 an在本体层次结构中
的深度, 是an所在分支的最大深度;
所述路径关联计算公式为:
其中, Path(ci,cj)表示实体概念ci和cj的路径关联值, m表示实体概念ci和cj的路径关
联条数, lengthn为ci和cj之间第n条路径关联长度; 关联值之和表示为: SimKG(ci,cj)=
Inherit(ci,cj)+Path(ci,cj), 其中, SimKG(ci,cj)表示继承关联值和路径关联值的和。权 利 要 求 书 2/2 页
3
CN 114547253 A
3
专利 一种基于知识库应用的语义搜索方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:53:23上传分享