专利一种基于并行多图卷积神经网络的无监督专利聚类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210695144.8 (22)申请日 2022.06.20 (71)申请人浙江大学滨江研究院地址 310051 浙江省杭州市滨江区东信大道66号二号楼301 (72)发明人韩蒙　梁兵　况欢　陈灏毅　陈唯　林昶廷　 (74)专利代理机构杭州天勤知识产权代理有限公司 33224 专利代理师曹兆霞 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于并行多图卷积神经网络的无监督专利聚类方法 (57)摘要本发明公开了一种基于并行多图卷积神经网络的无监督专利聚类方法，在构建4类专利图和自编码器对专利数据的编码向量的基础上，通过图卷积操作以充分提取4类专利图和编码向量，以此全面提取专利数据的有效特征向量，通过并行单图自注意力模块每类特征向量分配权值，提高单图重要特征的重要程度以得到单图注意力向量，通过多图注意力模块融合所有类的单图注意力向量进行学习，以此为重要的单图分配更大的权重，使得得到的全局注意力向量综合了多方面特征信息，进而提升聚类的精度。权利要求书2页说明书8页附图5页 CN 114781553 A 2022.07.22 CN 114781553 A 1.一种基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，包括以下步骤：对待聚类的专利数据进行向量化，以得到向量化专利数据；依据向量化专利数据构建多类专利图，包括基于专利相似度构建的KNN专利图、共同申请人专利图，共同发明人专利图和共同关键词专利图；利用基于无监督学习构建的模型对待聚类的专利数据进行计算，包括：利用自编码器包含的编码器对每个向量化专利数据进行向量编码得到编码向量；利用并行图卷积神经网络模块包含的每个图卷积神经网络并行提取结合编码向量的每类专利图的特征向量；利用并行单图自注意力模块包含的每个单图自注意力层并行根据每类特征向量计算单图注意力向量；利用多图注意力模块根据所有类单图注意力向量计算每个专利数据的全局注意力向量；对所有专利数据的全局注意力向量聚类以得到聚类结果。 2.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，每个专利数据包括发明名称、摘要、申请人、发明人，对这些数据进行向量化以得到向量化专利数据。 3.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，在构建多类专利图时，以每个专利作为节点，以向量化专利数据作为节点属性，节点之间的连边依据专利图的种类不同，构建方式也不同，包括：针对KNN专利图，对所有专利数据进行任意两个专利数据之间的相似度计算，并依据相似度值筛选前k大个相似度对应的专利数据作为邻域专利数据，用于构建节点之间的连边，即在所有邻域专利数据任意两者对应的节点之间构建连边；针对共同申请人专利图，在共同申请人对应的节点之间构建连边；针对共同发明人专利图，在共同发明人对应的节点之间构建连边；针对共同关键词专利图，在共有关键词对应的节点之间构建连边。 4.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，所述编码器包含L个编码层，输入的向量化专利数据经过多个编码层的向量编码以得到每层输出的编码向量；每类专利图对应的每个图卷积神经网络包含L个图卷积层，图卷积层数与编码层数相等，每个图卷积层首先对对应编码层输出的编码向量和上一层图卷积层输出的特征向量进行权重分配后，再将分配权重的特征向量作为当前图卷积操作的输入，结合每类专利图的邻接矩阵进行图卷积操作，以输出特征向量，用公式表示为：其中，l表示为网络层层数的索引， v表示专利图种类的索引，表示权重，用于平衡编码向量和特征向量的重要性程度，表示第l‑1层编码层输出的编码向量，和分权　利　要　求　书 1/2 页 2 CN 114781553 A 2别表示第 v类专利图对应的第 l‑1层和第l层图卷积操作输出的特征向量，表示分配权重的特征向量，表示第v类专利图对应的第 l层图卷积操作的权重，表示第v类专利图的邻接矩阵与单位矩阵之和， D表示的对角线矩阵， ReLU()表示relu激活函数；针对第一个图卷积层，表示每类专利图的节点矩阵X。 5.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，每个单图自注意力层并行根据每类特征向量计算单图注意力向量，包括：首先根据每类特征向量计算特征的注意力权重，然后根据注意力权重对每类特征向量进行激活计算，以得到每类特征向量对应的单图注意力向量。 6.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，利用多图注意力模块根据所有类单图注意力向量计算每个专利数据的全局注意力向量，包括：首先对每类单图注意力向量进行非线性变换，以得到每类多层注意力值；然后对每类多层注意力值进行相对于所有类多层注意力值的归一化处理，以得到每类全局注意力权重；最后根据每类全局注意力权重对每类单图注意力向量进行加权求和，以得到每个专利数据的全局注意力向量。 7.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，所述模型在被应用之前需要进行参数优化，包括：利用自编码器包含的解码器对编码器输出的编码向量进行解码操作得到每个向量化专利数据对应的重构专利数据；构建总损失，包括基于自编码器输入的向量化专利数据与输出的重构专利数据构建重构损失，基于所有类单图注意力向量构建多图相关损失，重构损失和多图相关损失的加权求和作为总损失；利用总损失并采用无监督学习方式优化模型参数，以得到参数优化后的模型。 8.根据权利要求7所述的基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，所述基于自编码器输入的向量化专利数据与输出的重构专利数据构建重构损失，包括：根据所有专利数据对应的向量化专利数据与重构专利数据之间欧几里得范数的平方构建重构损失。 9.根据权利要求7所述的基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，基于所有类单图注意力向量构建多图相关损失，包括：首先计算每类单图注意力向量的自相关相似度；然后根据任意两类单图注意力向量的自相关相似度之间欧几里得范数的平方构建多图相关损失。 10.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法，其特征在于，所述无监督专利聚类方法还包括：依据聚类结果对每个专利数据进行CPC代码分类，包括：认为属于同一聚类簇的专利数据具有相同的CPC代码，在人工判断聚类簇中的一个专利数据的CPC时，即可得到所属聚类簇的其他所有专利数据的CPC代码。权　利　要　求　书 2/2 页 3 CN 114781553 A 3

专利 一种基于并行多图卷积神经网络的无监督专利聚类方法

专利一种基于并行多图卷积神经网络的无监督专利聚类方法