(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211396624.0
(22)申请日 2022.11.09
(71)申请人 上海交通大 学
地址 215200 江苏省苏州市吴江区盛泽 镇
西二环路1188号中 国盛泽纺织科技创
业园10幢208室
申请人 苏州京脉生物科技有限公司
(72)发明人 刘阿显 邵志峰 李华 郭妍
胡传圣 丹尼尔·马克·恰科夫
胡苗苗 邓永卓
(74)专利代理 机构 苏州视界专利代理事务所
(普通合伙) 32684
专利代理师 陈海霞
(51)Int.Cl.
G16B 30/00(2019.01)G06K 9/62(2022.01)
(54)发明名称
一种单细胞组学 数据的聚类分析方法
(57)摘要
本申请涉及一种单细胞组学数据的聚类分
析方法, 包括步骤: S1, 将单细胞基因组学数据进
行标准化预处理, 获得预处理数据; S2, 将S1的预
处理数据进行多层次聚类, 根据不断增加干扰条
件来分析单细胞聚类的结构特征, 再采用细胞聚
类流向获得聚类结果; S3, 对S2获得的聚类 结果,
采用罚函数计算聚类结果的稳定性分值, 从而 得
到稳定性高的聚类结果; S4, 根据S3获得的稳定
性高的聚类结果的稳定性变化体系及对应的聚
类数目出现的频次, 得到最适聚类数目及细胞子
群的类型和聚类结果。
权利要求书2页 说明书10页 附图6页
CN 115527610 A
2022.12.27
CN 115527610 A
1.一种单细胞组学 数据的聚类分析 方法, 其特 征在于, 包括 步骤:
S1, 将单细胞基因 组学数据进行 标准化预处理, 获得预处理数据;
S2, 将S1的预处理数据进行多层次聚类, 根据不断增加干扰条件来分析单细胞聚类的
结构特征, 再采用细胞聚类流向获得聚类结果;
S3, 对S2获得的聚类结果, 采用罚函数计算聚类结果的稳定性分值, 从而得到稳定性高
的聚类结果;
S4, 根据S3获得的稳定性高的聚类结果的稳定性变化体系及对应的聚类数目出现的频
次, 得到最 适聚类数目及 细胞子群的类型和聚类结果。
2.如权利要求1所述的单细胞组学数据的聚类分析方法, 其特征在于, 在步骤S1中, 所
述单细胞基因组学数据为能够用于聚类分析的单细胞数据, 单细胞数据采用软件与人类参
考基因组进行比对, 数据质控后获得相应的可直接用于聚类分析 的单细胞基因组学数据;
单细胞数据包括: 单细胞转录组测序(scRNA ‑Seq)数据、 单细胞核转录组测序(snRNA ‑Seq)
数据、 单细胞ATAC测序(sc ‑ATAC‑Seq)数据、 单细胞Hi ‑C测序数据; 将单细胞基因组学数据
采用相应的软件进行 标准化预处理。
3.如权利要求1所述的单细胞组学数据的聚类分析方法, 其特征在于, 在步骤S2中, 对
预处理数据, 使用聚类算法中表征划分尺度参数的增加为聚类稳定性的干扰条件进行多层
次聚类, 多层次聚类包括 步骤:
(1)将S1中预处理数据作 为输入, 根据单细胞信息表征的细胞间权重, 使用起始聚类参
数完成初始聚类划分; 使用模块度对初始聚类划分结果进行质量评估, 并根据模块度得分
情况, 对处于聚类边 缘的细胞进行重新调整, 得到可靠的初始聚类结果;
(2)定义聚类划分干扰单位和层级聚类变化范围, 以初始聚类结果为基准, 首先增加一
个干扰单位, 完成新的聚类划分; 使用模块度对当前聚类划分进 行评分, 并根据当前干扰单
位下细胞间权重进 行聚类结果的进一步调整, 进而得到 当前聚类“粒度”下的可靠的聚类结
果;
(3)以当前聚类结果为基准, 计算下一个干扰单位下的聚类结果; 通过依次对同一基准
下的聚类结果增加干扰, 得到单细胞组学数据多层级聚类结果的聚类数目和不同层级聚类
之间细胞的流向。
4.如权利 要求3所述的单细胞组学数据的聚类分析方法, 其特征在于, 定义0.1至1.5的
“粒度”单位为层级 聚类变化范围, 定义0.1为干扰单位, 能够提供足够的聚类干扰能力, 同
时足以捕捉数据中的结构和子结构。
5.如权利要求1所述的单细胞组学数据的聚类分析方法, 其特征在于, 在步骤S2中, 借
助可视化工具显示不同参数下的聚类结果之间细胞的流向关系, 并追踪每一个细胞在
cluster数 目逐步增加的过程中流 向或定位, 初步探究单细胞数据在聚类分析中体现 的数
据结构特征; 在随聚类 分辨率参数变化的过程中, 部 分细胞出现归属跳跃及分群现象, 被认
为是一种相对不稳定的聚类状态, 聚类结果在随分辨率参数增加后, 其细胞归属保持不变,
对应的聚类结果 最为稳定, 从而获得聚类结果。
6.如权利要求5所述的单细胞组学数据的聚类分析方法, 其特征在于, 单细胞数据的整
体结构的稳定性及其变化, 可以利用聚类结果的无间断表征, 通过构建连续参数 的聚类结
果稳定性评分系统, 将相邻划分单位下 的聚类稳定性进行关联, 评估相邻 分辨率参数下聚权 利 要 求 书 1/2 页
2
CN 115527610 A
2类结果的一 致性得分。
7.如权利要求1所述的单细胞组学数据的聚类分析方法, 其特征在于, 在步骤S3中, 根
据不同层级下每一个细胞子群中细胞的聚类流向定义罚函数, 根据罚函数量化不同层级 下
聚类结果的稳定性特 征。
8.如权利要求7所述的单细胞组学数据的聚类分析方法, 其特征在于, 包括选自下组 的
一个或多个特 征:
(1)不同层级下每一个细胞子群中细胞的聚类流向包含: 经聚类干扰条件保持不变的
细胞子群、 出现独立分支的细胞子群以及出现汇入 行为的细胞子群; 其中, 细胞归属保持不
变的细胞子群表征了该单细胞数据稳定的细胞类群, 计作 V, 出现分支及出现汇入行为的细
胞子群表征了该单细胞数据中不稳定的细胞对 数目, 分别计作C1、 C2, 根据公 式C1计算出相
邻划分单位下的聚类结果 不一致的细胞对数目UI, 公式C1为:
(2)根据标准化原理, 构建罚函数F, 计算相邻参数下聚类结果的稳定性, 罚函数F的计
算公式C2为:
其中, UI为相邻划分单位下的聚类结果不一致的细胞对数目, E(UI)为邻划分单位下的
聚类结果不一致细胞对数目的期望值, max(UI)为随机模型下相邻划分单位聚类结果不一
致的理论 最大值;
(3)使用罚函数F计算得到各层级下聚类结果的对应的稳定性得分scScore(i), 计算公
式为C3:
scScore(i)=1 ‑F(i)
其中, F(i)为对应干扰条件下稳定性罚分, scScore(i)为对应干扰单位下的聚类结果
的稳定性得分;
(4)根据各干扰单位下的稳定性得分, 构建不同层级下聚类结果稳定性得分的变化体
系; 以整体得分的平均值作为稳定性阈值, 过滤掉稳定性低于稳定性阈值的聚类结果, 得到
稳定性高的聚类结果。
9.如权利要求1所述的单细胞组学数据的聚类分析方法, 其特征在于, 在步骤S4中, 包
括步骤:
(1)根据S3获得的稳定性高的聚类结果的稳定性得分变化趋势, 确定出现连续稳定性
得分的变化区间;
(2)统计连续稳定性得分的变化区间聚类数目的变化情况, 选择稳定区间内具有一定
一致性的聚类数目作为待选最 适聚类数目;
(3)比较待选最适数目的稳定性得分, 选择前两个稳定性区间中稳定性得分最高的聚
类数目, 作为 最终的最 适聚类数目。
10.如权利要求9所述的单细胞组学数据的聚类分析方法, 其特征在于, 所述待选最适
聚类数目为2 ‑3个, 通常第一个稳定点下的聚类结果对应了该数据的基础细胞类型, 第二个
稳定点则是包 含了亚细胞类型或亚细胞状态的聚类结果。权 利 要 求 书 2/2 页
3
CN 115527610 A
3
专利 一种单细胞组学数据的聚类分析方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:40:56上传分享