全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111632562.4 (22)申请日 2021.12.2 9 (71)申请人 上海云思智慧信息技 术有限公司 地址 200336 上海市长 宁区天山路641号19 幢 (1号楼) 5 01G室 (72)发明人 孙建伟 许佑骏  (74)专利代理 机构 上海互顺专利代理事务所 (普通合伙) 31332 代理人 成秋丽 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 16/28(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 面向会议知识图谱的检索方法 (57)摘要 本发明公开了面向会议图谱的检索方法, 具 体地, 包含以下三个步骤: 1)用户请求图建立。 2) 会议知识图谱候选子图集 建立。 3)用户请求图与 候选子图匹配, 本发明采用用户请求图来建模自 然语言问题中的查询意图, 在此基础上将会议检 索简化为用户请求图与候选子图匹配问题。 一方 面解决了会议信息的检索中自然语言问题的模 糊性, 提高了精度, 大 大提高了查询性能。 权利要求书2页 说明书5页 附图1页 CN 114385827 A 2022.04.22 CN 114385827 A 1.一种面向面向会议图谱的检索方法, 其特 征在于, 包 含以下步骤: 步骤S1:用户请求图建立, 包括以下步骤: 步骤S1.1:使用jieba分词, 将用户输入的检索句划分为实体集; 步骤S1.2:使用Stanford  parser进行检索句的依赖树构建; 步骤S1.3:结构构建, 输入为检索句子N, 节点集合V以及依赖树Y; 输出为检索图Q; 首先 初始化visit 集合为空集, 对于V中的每一个节 点u, 如果V中的节 点v在依赖树Y中与u联通且 v不属于visit集 合, 则将v添加到visit集 合; 步骤S2:; 候选 子图建立, 包括以下步骤: 步骤S2.1:匹配边, 输入为关系集合T以及关系支持集合S; 输出为k个可能的路径L, 首 先, 找到关系支持集合S中的节 点v1和v2所有图中有长度小于阈值θ 的简单路径 L, 加入path 集合中; 将所有节 点之间的path加入PS集合; 如果关系集合T中的某个 关系rel在PS集合中, 计算该关系对应的所有L的TF ‑IDF值, 选择k个具有最大IF ‑IDF值的路径, 作为该关系的谓 词路径; 将TF ‑IDF作为关系rel映射为路径 L的置信概率; 构建关系词典, 关系词典为一个列 数为3的表格, 第一列为关系短语, 第二列为路径, 第三列为置信概率; 根据关系词典, 将检 索图中的边映射到会议知识图谱中; 步骤S2.2: 匹配点, 输入检索图Q和会议知识图谱G; 输出为G中k个与Q匹配的候选 子图; 步骤S3:用户请求图与候选子图匹配, 采用一个端到端的神经网络来学习用户请求图 与k个候选 子图的关系, 最终生成一个预测匹配矩阵; 包括以下步骤: 步骤S3.1: 节点嵌入, 将每个图的节点转换为一个向量, 通过GCN对每个节点周围的特 征和结构信息进行编码; 计算节点间的相似性和执行注意机制需要节点级嵌入, 将每个节 点表示为向量, 采用图卷积 网络GCN作为节点级嵌入算法, 一方面由于GCN对于测试集中任 何不可见的图都具有图表示不变性, 一方面由于GCN是节点嵌入最简 洁的空间模型; GCN模 型使用图的结构来聚合邻居节点信息, 然后通过非线性激活函数更新节点表示; 其核心操 作是空间图卷积层, 表示如下: Hl+1=f1(AHlW1l) 其中, A是一个归一化的邻接矩阵, Hl是第l层GCN的节点级嵌入, W1l是第l层GCN的可学 习权重, f1是非线性激活函数; 应用到候选子图与用户检索图中, 分别 得出用户请求图Q的节点级嵌入HQ与候选子图H 的节点级嵌入HG, 这里GCN的权 重对于Q和G是共享的; 步骤S3.2: 通过以下基于神经网络的函数计算两个实体处于某种关系中的可能性的分 数: 其中, f2是一个非线性激活函数, V2和b2都是可学习的参数, e1和e2是两个实体的 表示;权 利 要 求 书 1/2 页 2 CN 114385827 A 2应用到候选 子图与用户检索图中, 可建模得到 两个节点之间的关系为: OPl=Sl*ATTl 其中, 和 是用户请求图Q与候选子图G的一个节点的嵌入; ATTl是节点到节点的注 意力, Sl是经过GCN层后得出的节点与节点之间的相似度, f2是sigmoid函数, σ是一个 softmax函数用来保证AT Tl的每一行之和为1, OPl是第l层GCN的相似性张量; 步骤S3.3: 输出; 前面步骤获得l个OPl, 通过对它们执行连接操作; 使用1x1卷积将连接 的相似张量的维数减少到与ground ‑truth矩阵形状相同输出; OP=σ(Co nv1×1(concatenati on(OP1,...,OPl))) 其中, OP是最终输出, σ 是一个softmax函数用来保证OP的每一行之和为1, 训练阶段, 通 过与ground ‑truth矩阵M逼近来收敛模型, 训练阶段 所使用的损失函数为: 其中, D为训练集, |D|为训练集中样本的个数; 训练集的构建, 使用一个无向图生成器, 生成器有三个参数, 包括要生成的图的大小|g |、 在节点和节点之间生成一条边的概率p以及节点特征N的最大值; 每个节 点都被分配一个 范围为[1, N]的随机整数作为节 点特征; 将查询图Q随机插入到每个中候选字图G, 从而得到 样本, 每个样本都是一个包 含一个数据图和一个查询图的图对。权 利 要 求 书 2/2 页 3 CN 114385827 A 3

.PDF文档 专利 面向会议知识图谱的检索方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向会议知识图谱的检索方法 第 1 页 专利 面向会议知识图谱的检索方法 第 2 页 专利 面向会议知识图谱的检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:45:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。