全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210240186.2 (22)申请日 2022.03.10 (71)申请人 北京中知智慧科技有限公司 地址 100088 北京市海淀区马甸南村一 号9 幢202号 (72)发明人 程义 李峰 孙正茂 潘磊  杨长青 李君令 张尧尧 郭来中  孙伟  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 薛平 郝博 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/33(2019.01) G06F 16/35(2019.01)G06F 16/31(2019.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/211(2020.01) G06N 20/00(2019.01) (54)发明名称 基于语义分析的文献相似度确定方法及装 置 (57)摘要 本发明公开了一种基于语义分析的文献相 似度确定方法及装置, 其中该方法包括: 将每一 待比较文献划分为多个部分; 对每一部分进行语 义分析得到每一部分的语义分析结果; 根据每一 部分的语义 分析结果, 确定每一待比较文献的每 一部分的权重值; 根据每一待比较文献的每一部 分的权重值, 得到每一待比较文献的加权平均结 果; 根据每一待比较文献的加权平均结果, 确定 待比较文献之间的相似度。 本发 明可以实现基于 语义分析准确地确定文 献不同部分的权重, 进而 准确地确定文献相似度。 权利要求书2页 说明书18页 附图5页 CN 114580557 A 2022.06.03 CN 114580557 A 1.一种基于语义分析的文献相似度确定方法, 其特 征在于, 包括: 将每一待比较文献划分为多个部分; 对每一部分进行语义分析 得到每一部分的语义分析 结果; 根据每一部分的语义分析 结果, 确定每一待比较文献的每一部分的权 重值; 根据每一待比较文献的每一部分的权 重值, 得到每一待比较文献的加权平均结果; 根据每一待比较文献的加权平均结果, 确定待比较文献之间的相似度。 2.如权利要求1所述的基于语义分析的文献相似度确定方法, 其特征在于, 对每一部分 进行语义分析 得到每一部分的语义分析 结果, 包括: 对每一部分进行分词处 理, 得到每一部分对应的多个关键词; 根据每一部分对应的多个关键词, 以及预设的文献特征提取策略, 从每一部分中提取 出多个类型的关键特 征, 构成每一部分对应的特 征集合; 根据每一部分对应的特征集合, 对每一部分进行词级、 句法级和篇章级的语义分析, 得 到每一部分的语义分析 结果。 3.如权利要求2所述的基于语义分析的文献相似度确定方法, 其特征在于, 还包括: 利 用主成分分析法、 线性判别分析法和互信息法, 对每一部分对应的特征集合进行特征 的筛 选和组合, 得到特 征降维处 理后的每一部分对应的特 征集合; 根据每一部分对应的特征集合, 对每一部分进行词级、 句法级和篇章级的语义分析, 得 到每一部 分的语义分析结果, 包括: 根据特征降维处理后的每一部 分对应的特征集合, 对每 一部分进行词级、 句法级和篇 章级的语义分析, 得到每一部分的语义分析 结果。 4.如权利要求2所述的基于语义分析的文献相似度确定方法, 其特征在于, 所述多个类 型的关键特 征包括: 文献静态特 征, 文献与查询关联的特 征, 以及查询的特 征。 5.如权利要求2所述的基于语义分析的文献相似度确定方法, 其特征在于, 所述预设的 文献特征提取策略包括: 根据关键词在文 献中出现的频率, 关键词的逆文档频率, 关键词的 词性, 关键词是否为专 业词, 关键词出现在文 献中的位置, 关键词的text ‑rank值, 关键词的 信息熵值, 关键词的词向量与整体偏差值, 关键词长度, 关键词作为句 子的成分, 关键词是 否再被切分成子关键词, 关键词在文献中第一次出现与最后一次出现位置的长度, 关键词 分布偏差的其中之一或任意组合, 进行文献 特征提取。 6.如权利要求5所述的基于语义分析的文献相似度确定方法, 其特征在于, 在关键词能 再被切分到子 关键词时, 所述预设的文献特征提取策略还包括: 根据子 关键词的词频 ‑逆文 档频率, 子关键词的词性, 子关键词 是否为专业词的其中之一或任意组合进行文献特征提 取。 7.一种基于语义分析的文献相似度确定装置, 其特 征在于, 包括: 划分单元, 用于将每一待比较文献划分为多个部分; 语义分析 单元, 用于对每一部分进行语义分析 得到每一部分的语义分析 结果; 权重值确定单元, 用于根据每一部分的语义分析结果, 确定每一待比较文献的每一部 分的权重值; 处理单元, 用于根据每一待比较文献的每一部分的权重值, 得到每一待比较文献的加 权平均结果; 相似度确定单元, 用于根据每一待比较文献的加权平均 结果确定待比较文献之间的相权 利 要 求 书 1/2 页 2 CN 114580557 A 2似度。 8.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至6任一所述方 法。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序被处 理器执行时实现权利要求1至 6任一所述方法。 10.一种计算机程序产品, 其特征在于, 所述计算机程序产品包括计算机程序, 所述计 算机程序被处 理器执行时实现权利要求1至 6任一所述方法。权 利 要 求 书 2/2 页 3 CN 114580557 A 3

.PDF文档 专利 基于语义分析的文献相似度确定方法及装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于语义分析的文献相似度确定方法及装置 第 1 页 专利 基于语义分析的文献相似度确定方法及装置 第 2 页 专利 基于语义分析的文献相似度确定方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。