专利基于三重视图神经网络的多样化社区检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210424210.8 (22)申请日 2022.04.22 (71)申请人之江实验室地址 311100 浙江省杭州市余杭区中泰街道之江实验室南湖总部 (72)发明人张阳　余婷　张吉　王彪　佳维　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师陈洁 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/762(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于三重视图神经网络的多样化社区检测方法 (57)摘要本发明属于图数据挖掘领域，公开了一种基于三重视图神经网络模型的多样化社区检测方法，包括一：从输入的属性图中提取特征；二：将输入的序列信息通过编码器转换成一个指定长度的中间语义向量Z，中间语义向量Z蕴含了X 中的信息；三：对输出向量Z进行结构紧密属性多样化聚类；四：解码器对Encoder生成的Z作为输入，解码出目标序列，从而得到Decoder输出序列，用异构损失、聚类损失、以及X与之间的重构信息损失共同构造损失函数，通过对损失函数最小化的方法对模型进行训练求解。本发明通过对属性图上的结构信息、属性信息、异构信息三个视图分别进行构造以及嵌入学习，能有效地挖掘结构紧密、属性多样化的社区结构。权利要求书2页说明书6页附图4页 CN 114863119 A 2022.08.05 CN 114863119 A 1.一种基于三重视图神经网络模型的多样化社区检测方法，其特征在于，包括以下步骤：步骤一：从输入的属性图中提取特征：从图数据的空间结构和节点属性矩阵提取第一视图特征，从图数据的异构信息中提取第二视图特征、从属性共现矩阵中提取第三视图特征；步骤二：将输入的序列信息X＝{x1， x2， x3....xN}， N为输入数据长度，通过编码器转换成一个指定长度的中间语义向量Z，中间语义向量Z蕴含了X中的信息；步骤三：对输出向量Z进行结构紧密属性多样化聚类；步骤四：解码器对Encoder生成的Z作为输入，解码出目标序列，从而得到Decoder输出序列X′＝{x′1， x′2， x′3，…， x′N}，用异构损失、聚类损失、以及X与X ′之间的重构信息损失共同构造损失函数，通过对损失函数最小化的方法对模型进行训练求解。 2.根据权利要求1所述的基于三重视图神经网络模型的多样化社区检测方法，其特征在于，所述步骤一包括如下具体步骤：步骤1.1：提取图的空间结构：根据节点和边信息，构造图的邻接矩阵As∈RN*N表示图的拓扑结构特征；根据节点带有的属性信息，构造节点属性矩阵F∈RN*M，其中， N为节点的总数， M为属性空间的总维度；步骤1.2：提取图的异构信息：根据节点和属性的异构性构造“节点‑属性”和“节点‑节点”两种元路径的异构图，将每个属性信息当作为一种节点，图的原始节点为另一种节点，即定义异构图GH＝( υ， ε)，节点映射函数表示节点类型，也就是说属性就是一类节点类型，图原始节点也是一种节点类型，所以为2， ε为边集，这里只有节点和属性的连边；步骤1.3：提取图的属性共现矩阵：根据图属性矩阵Aa，通过点互信息熵PMI计算属性间的相关性，构造属性图，得到属性矩阵使用PPMI来避免节点存在不共现导致的 PMI为负无穷情况： PPMI(x,y)＝max(PMI(x,y),0) (1) 3.根据权利要求1所述的基于三重视图神经网络模型的多样化社区检测方法，其特征在于，所述步骤二包括如下具体步骤：步骤2.1：用GCN模型对属性共现矩阵Aa进行表示学习，具体操作GCN＝σ(LXW)可以描述为通过矩阵运算完成消息传递，其中L是拉普拉斯矩阵， L＝D ‑Aa， D为度矩阵， Aa为共现矩阵， W为权重矩阵,以1号节点为例，在第一次卷积时，节点将自身携带的信息传递到相邻节点间，同时也会获取邻居节点的信息,在这里进行两次GCN卷积，节点将拥有两跳邻居节点的信息，分别得到属性的嵌入向量表Za∈RM*d，再将节点属性矩阵通过属性嵌入向量的转化得到一个向量表达F*Za∈RN*d；步骤2.2：使用GAT对图的结构信息As和节点属性矩阵F进行表示学习， GAT模型采用图卷积操作，利用边的信息对节点进行聚合，从而生成新的节点表示，在图卷积的基础上对不同的邻接点赋予不同权重，通过加权平均的方式来获得聚合的值，最终得到节点的嵌入向量表示Zs∈RN*d， d是嵌入空间的维度；权　利　要　求　书 1/2 页 2 CN 114863119 A 2步骤2.3：使用HGCN对节点和属性的异构信息进行表示学习，在异构图中，两个对象可以通过不同的语义路径连接，这些语义路径称为元路径，使用节点 ‑属性，节点‑节点两种元路径，每个属性为不同的节点类型，不同类型的节点有不同的特征空间，根据不同属性构建映射矩阵X，通过映射函数f将不同节点映射到同一特征空间： h′i＝f(X⊙hi) (2) 然后使用自注意力机制学习不同类型的节点权重，对于给定元路径的节点对来说，节点的注意力依赖与节点对的特征，然后聚合得到节点的嵌入表达Zh∈RN*d，异构信息表示学习的过程，采用交叉熵损失函数Lh来训练： Lh＝cross_ent(F(Zh),labels) (4) 最终拼接三个视图的嵌入向量得到最终的嵌入表达 Z∈RN*d。 4.根据权利要求1所述的基于三重视图神经网络模型的多样化社区检测方法，其特征在于，所述步骤三包括如下具体步骤：步骤3.1：使用k ‑means初始化聚类中心C1， C2， C3， ...， Ck；步骤3.2：基于找到的聚类中心，采用学生t分布来拟合出节点嵌入向量在嵌入空间的分布，寻找最佳聚类中心C1， C2， C3， ...， Ck；步骤3.3：通过训练三重视图神经网络模型，不断优化迭代聚类结果，最终实现结构紧密属性多样化聚类。 5.根据权利要求1所述的基于三重视图神经网络模型的多样化社区检测方法，其特征在于，所述步骤四包括如下具体步骤：步骤4.1：将Zs， Za作为输入，解码出目标图结构矩阵和属性共现矩阵，从而得到A ′s， A′a；步骤4.2：损失函数设置如下：使得结构相对熵尽可能小，属性熵尽可能大，聚类损失重构属性和空间信息损失为Lre＝α·cross_ent(As,A's)+β·cross_ent(Aa,A'a)，模型整体损失函数为L＝τLclu+ γLre+λLh。权　利　要　求　书 2/2 页 3 CN 114863119 A 3

专利 基于三重视图神经网络的多样化社区检测方法

专利基于三重视图神经网络的多样化社区检测方法