专利模拟分叉与脑启发认知的混合聚类方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210179638.0 (22)申请日 2022.02.25 (71)申请人上海图灵智算量子科技有限公司地址 201203 上海市浦东新区芳春路40 0号 1幢3层 (72)发明人方波　 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/762(2022.01) (54)发明名称模拟分叉与脑启发认知的混合聚类方法 (57)摘要本发明涉及到模拟分叉与脑启发认知的混合聚类方法。初始化簇核心，通过组合优化聚类提取数据点的分布特征，从全局角度自动获取数据点重心即初始簇核。引入大脑激发的认知技术，通过引入选择性注意机制，将注意力集中在簇核的中间区域。通过量子启发算法进行求解建立的QUBO模型。重复迭代直到收敛且聚类结果保持不变。权利要求书3页说明书13页附图9页 CN 114399004 A 2022.04.26 CN 114399004 A 1.一种模拟分叉与脑启发认知的混合聚类方法，其特征在于，包括：创建一个二次无约束二进制优化模型以对数据进行聚类，所述二次无约束二进制优化模型基于模拟分叉的方式来计算出每个数据所对应的二值性的变量，每个数据根据其对应的二值性的变量的值而被划分到相应的一个簇中。 2.根据权利要求1所述的方法，其特征在于：所述数据的类型包括带有地理位置信息的车辆行程数据。 3.根据权利要求1所述的方法，其特征在于：将所述数据分成多个聚类并提取每个聚类的簇核，通过选择性注意力机制将注意力集中在各个以簇核为中心的聚类之间的一个交叠区域处，交叠区域的数据视为关键数据。 4.根据权利要求3所述的方法，其特征在于：基于非关键数据到各簇中心的距离和关键数据到各簇中心的距离，来构建所述二次无约束二进制优化模型。 5.根据权利要求3所述的方法，其特征在于：基于关键数据与余下其他数据之间的夹角，来构建所述二次无约束二进制优化模型。 6.根据权利要求1所述的方法，其特征在于：所述二次无约束二进制优化模型进行多次迭代求解，每次计算出每个数据对应的二值性的变量时，每个数据根据其更新的二值性变量的值而重新划分到相应的一个簇，直至数据的聚类结果保持不变。 7.根据权利要求6所述的方法，其特征在于：每个簇在每次更新数据之后，计算出其更新后的数据的平均值，作为新的簇核。 8.根据权利要求1所述的方法，其特征在于：用变量qi、 qj表示数据xi、 xj所在的簇 C0或C1，各聚类之间的距离 E(q)表述为：当xi∈C0时， qi＝0；当xi∈C1时， qi＝1； dij是数据xi和数据xj之间的距离；根据变量的结果，将任意一个簇的中心坐标点初始化成其簇核的重心。 9.根据权利要求3所述的方法，其特征在于：计算数据xi到簇C0的中心Ca的距离dia和到簇C1的中心Cb的距离dib，若满足： dia＜dab、 dib＜dab、 |dia‑dib|/dab＜1/3；中心Ca到Cb的距离为dab，则中心分别为Ca到Cb的聚类之间的交叠区域处的数据视为关键数据。 10.根据权利要求 4所述的方法，其特征在于：计算非关键数据xn到簇C0的中心Ca的距离dna和到簇C1的中心Cb的距离dnb，计算出关键数据xk到中心Ca的距离dka和到中心Cb的距离dkb；非关键数据xn与中心Ca、 Cb的距离相似度Dna、 Dnb满足Dna＝dna、 Dnb＝dnb，关键数据xk与中心Ca、 Cb的距离相似度Dka、 Dkb满足Dka＝3dka/dab、 Dkb＝3dkb/dab。 11.根据权利要求10所述的方法，其特征在于：用变量qn表示数据xn所在的簇C0或C1、变量qk表示数据xk所在的簇C0或C1，所述二次无约束二进制优化模型包括代价函数CF1：权　利　要　求　书 1/3 页 2 CN 114399004 A 2当qn的系数大于0时数据xn属于簇C0，否则数据xn属于簇C1；当qk的系数大于0时数据xk属于簇C0，否则数据xk属于簇C1。 12.根据权利要求5所述的方法，其特征在于：若数据xi到簇C0的中心Ca的距离dia和数据xk到Ca的距离dka与阈值 ε1满足： |dka‑dia|＜ ε1 则数据xi归属于一个集合{xs}，计算集合{xs}中所有的数据到Ca的距离集{dsa}，和计算出dka和dsa距离差的绝对值dksa以组成集合{dksa}，集合{dksa}中的最大值m ax(dksa)与最小值 min(dksa)将集合{dksa}中的数据归一化为nor(dksa)，数据xk属于关键数据； 13.根据权利要求12所述的方法，其特征在于：定义的一个长度权重满足： nor(dksa)≤0.3时或0.3＜n or(dksa)时计算xs和xk间的夹角 θksa，定义的一个角度权重满足： 0≤θksa≤π/6时或5π/6＜θksa≤π时或π/6＜θksa≤5π/6时 14.根据权利要求13所述的方法，其特征在于：长度权重和角度权重聚合，得到总权重所述二次无约束二进制优化模型包括代价函数CF2：当变量qk及qs的系数大于0时，与变量qk、 qs对应的数据xk、 xs属于簇C0；当变量qk及qs的系数小于 0时，与变量qk、 qs对应的数据xk、 xs属于簇C1。 15.根据权利要求5所述的方法，其特征在于：若数据xi到簇C1的中心Cb的距离dib和数据xk到Cb的距离dkb与阈值 ε2满足： |dkb‑dib|＜ ε2 则数据xi归属于一个集合{xt}，计算集合{xt}中所有的数据到Cb的距离集{dta}，和计算出dkb和dta距离差的绝对值dktb以组成集合{dktb}，集合{dktb}中的最大值m ax(dktb)与最小值 min(dktb)将集合{dktb}中的数据归一化为nor(dktb)，数据xk属于关键数据； 16.根据权利要求15所述的方法，其特征在于：定义的一个长度权重满足： nor(dktb)≤0.3时或0.3＜n or(dktb)时计算xt和xk间的夹角 θktb，定义的一个角度权重满足：权　利　要　求　书 2/3 页 3 CN 114399004 A 3

专利 模拟分叉与脑启发认知的混合聚类方法

专利模拟分叉与脑启发认知的混合聚类方法