专利 面向会议知识图谱的检索方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111632562.4 (22)申请日 2021.12.2 9 (71)申请人上海云思智慧信息技术有限公司地址 200336 上海市长宁区天山路641号19 幢（1号楼） 5 01G室 (72)发明人孙建伟　许佑骏　 (74)专利代理机构上海互顺专利代理事务所 (普通合伙) 31332 代理人成秋丽 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 16/28(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称面向会议知识图谱的检索方法 (57)摘要本发明公开了面向会议图谱的检索方法，具体地，包含以下三个步骤： 1)用户请求图建立。 2) 会议知识图谱候选子图集建立。 3)用户请求图与候选子图匹配，本发明采用用户请求图来建模自然语言问题中的查询意图，在此基础上将会议检索简化为用户请求图与候选子图匹配问题。一方面解决了会议信息的检索中自然语言问题的模糊性，提高了精度，大大提高了查询性能。权利要求书2页说明书5页附图1页 CN 114385827 A 2022.04.22 CN 114385827 A 1.一种面向面向会议图谱的检索方法，其特征在于，包含以下步骤：步骤S1:用户请求图建立，包括以下步骤：步骤S1.1:使用jieba分词，将用户输入的检索句划分为实体集；步骤S1.2:使用Stanford parser进行检索句的依赖树构建；步骤S1.3:结构构建，输入为检索句子N，节点集合V以及依赖树Y；输出为检索图Q；首先初始化visit 集合为空集，对于V中的每一个节点u，如果V中的节点v在依赖树Y中与u联通且 v不属于visit集合，则将v添加到visit集合；步骤S2:；候选子图建立，包括以下步骤：步骤S2.1:匹配边，输入为关系集合T以及关系支持集合S；输出为k个可能的路径L，首先，找到关系支持集合S中的节点v1和v2所有图中有长度小于阈值θ 的简单路径 L，加入path 集合中；将所有节点之间的path加入PS集合；如果关系集合T中的某个关系rel在PS集合中，计算该关系对应的所有L的TF ‑IDF值，选择k个具有最大IF ‑IDF值的路径，作为该关系的谓词路径；将TF ‑IDF作为关系rel映射为路径 L的置信概率；构建关系词典，关系词典为一个列数为3的表格，第一列为关系短语，第二列为路径，第三列为置信概率；根据关系词典，将检索图中的边映射到会议知识图谱中；步骤S2.2：匹配点，输入检索图Q和会议知识图谱G；输出为G中k个与Q匹配的候选子图；步骤S3:用户请求图与候选子图匹配，采用一个端到端的神经网络来学习用户请求图与k个候选子图的关系，最终生成一个预测匹配矩阵；包括以下步骤：步骤S3.1：节点嵌入，将每个图的节点转换为一个向量，通过GCN对每个节点周围的特征和结构信息进行编码；计算节点间的相似性和执行注意机制需要节点级嵌入，将每个节点表示为向量，采用图卷积网络GCN作为节点级嵌入算法，一方面由于GCN对于测试集中任何不可见的图都具有图表示不变性，一方面由于GCN是节点嵌入最简洁的空间模型； GCN模型使用图的结构来聚合邻居节点信息，然后通过非线性激活函数更新节点表示；其核心操作是空间图卷积层，表示如下： Hl+1＝f1(AHlW1l) 其中， A是一个归一化的邻接矩阵， Hl是第l层GCN的节点级嵌入， W1l是第l层GCN的可学习权重， f1是非线性激活函数；应用到候选子图与用户检索图中，分别得出用户请求图Q的节点级嵌入HQ与候选子图H 的节点级嵌入HG，这里GCN的权重对于Q和G是共享的；步骤S3.2：通过以下基于神经网络的函数计算两个实体处于某种关系中的可能性的分数：其中， f2是一个非线性激活函数， V2和b2都是可学习的参数， e1和e2是两个实体的表示；权　利　要　求　书 1/2 页 2 CN 114385827 A 2应用到候选子图与用户检索图中，可建模得到两个节点之间的关系为： OPl＝Sl*ATTl 其中，和是用户请求图Q与候选子图G的一个节点的嵌入； ATTl是节点到节点的注意力， Sl是经过GCN层后得出的节点与节点之间的相似度， f2是sigmoid函数， σ是一个 softmax函数用来保证AT Tl的每一行之和为1， OPl是第l层GCN的相似性张量；步骤S3.3：输出；前面步骤获得l个OPl，通过对它们执行连接操作；使用1x1卷积将连接的相似张量的维数减少到与ground ‑truth矩阵形状相同输出； OP＝σ(Co nv1×1(concatenati on(OP1,...,OPl))) 其中， OP是最终输出， σ 是一个softmax函数用来保证OP的每一行之和为1，训练阶段，通过与ground ‑truth矩阵M逼近来收敛模型，训练阶段所使用的损失函数为：其中， D为训练集， |D|为训练集中样本的个数；训练集的构建，使用一个无向图生成器，生成器有三个参数，包括要生成的图的大小|g |、在节点和节点之间生成一条边的概率p以及节点特征N的最大值；每个节点都被分配一个范围为[1， N]的随机整数作为节点特征；将查询图Q随机插入到每个中候选字图G，从而得到样本，每个样本都是一个包含一个数据图和一个查询图的图对。权　利　要　求　书 2/2 页 3 CN 114385827 A 3

专利 面向会议知识图谱的检索方法

专利面向会议知识图谱的检索方法