(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210552093.3
(22)申请日 2022.05.20
(71)申请人 南开大学
地址 300071 天津市津南区海河教育园区
同砚路38号
(72)发明人 刘健 阮志涵 陈娇
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
专利代理师 李圣梅
(51)Int.Cl.
G16B 20/00(2019.01)
G16B 20/20(2019.01)
G16B 25/00(2019.01)
G16B 30/00(2019.01)
G16B 40/30(2019.01)G06V 10/26(2022.01)
G06V 10/30(2022.01)
G06V 10/762(2022.01)
(54)发明名称
整合单细胞转录组与空间转录组数据的分
析方法及系统
(57)摘要
本发明提出了整合单细胞转录组与空间转
录组数据的分析方法及系统, 包括: 获取空间转
录组数据, 对空间转录组数据进行预处理; 通过
聚类方法将空间转录组数据中的采样点划分为
若干个类别, 每一个类别表示组织切片图像中一
个组织区域; 根据去污染后的空间基因表达数
据, 和空间聚类步骤的结果, 筛选出在空间中具
有差异性表达的基因; 根据输入的单细胞数据进
行分析, 基于筛选出在空间中具有差异性表达的
基因得出每个细胞亚群的表达模式; 根据单细胞
数据集中的细胞亚群表达模式, 将所有spot的基
因表达作为输入, 获得细胞类型在各个组织区域
中的分布。
权利要求书2页 说明书8页 附图1页
CN 114944193 A
2022.08.26
CN 114944193 A
1.整合单细胞转录组与空间转录组数据的分析 方法, 其特 征是, 包括:
获取空间转录组数据, 对空间转录组数据进行 预处理;
预处理之后去除空间转录组数据中游离的mRNA和处理基因表达的缺失值, 得到去污染
后的空间表达矩阵;
利用去污染后的空间表达矩阵、 采样点在组织切片中的位置信息和 组织学影像, 通过
聚类方法将空间转录组数据中的采样点划分为若干个类别, 每一个类别表示组织切片图像
中一个组织区域;
根据去污染后的空间基因表达数据, 和 空间聚类步骤的结果, 筛选出在空间中具有差
异性表达的基因;
根据输入的单细胞数据进行分析, 得出每个细胞亚群在单细胞高表达基因下的表达模
式;
根据单细胞数据集中的细胞亚群表达模式, 将所有spot的基因表达作为输入, 获得细
胞类型在各个组织区域中的分布。
2.如权利要求1所述的整合单细胞转录组与空间转录组数据的分析方法, 其特征是, 还
包括可视化步骤: 在组织切片图像上, 标注出采样点的所在位置, 然后用不同颜色标记每个
采样点的类别, 每一种类别表示 一个组织区域, 以表示组织区域分割结果。
3.如权利要求1所述的整合单细胞转录组与空间转录组数据的分析方法, 其特征是, 获
取的空间转录组数据, 包括:
每个采样点的基因表达组成的表达矩阵、 不同分辨率下的组织切片图像、 每个采样点
在组织切片图像中的具体位置和原 始高分辨 率图像与低分辨 率图像之间的比例因子;
其中, 组织切片, 指的是载有生物组织的染色芯片, 其上的采样点呈点阵排列, 一部分
采样点位于组织上, 一部分采样点 位于组织外 。
4.如权利要求1所述的整合单细胞转录组与空间转录组数据的分析方法, 其特征是, 对
空间转录组数据进行 预处理, 具体包括:
筛选出位于组织上的采样点;
过滤在所有采样点中表达值过低的基因和线粒体 基因;
其中, 线粒体基因, 指线粒体中携带的遗传信息, 在基因信息中以 “MT‑”为前缀进行标
记。
5.如权利要求1所述的整合单细胞转录组与空间转录组数据的分析方法, 其特征是, 去
除空间转录组数据中游离的mRNA, 具体包括:
读取组织外采样点的表达值进行建模, 推断出背景噪声的分布, 再将组织区域内的
spot表达值分解为 实际的表达值和背景噪声两部 分, 消去组织内的背 景噪声, 其中, 背 景噪
声指组织外采样点的基因表达模式。
6.如权利要求1所述的整合单细胞转录组与空间转录组数据的分析方法, 其特征是, 处
理空间转录组基因表达的缺失值, 具体包括:
分别在每个采样点在组织切片图像中的具体位置信 息层面, 以及空间表达矩阵层面层
面上分别寻找相似的采样点, 然后进行 KNN平滑, 以反映出组织中的RNA丰度。
7.如权利要求1所述的整合单细胞转录组与空间转录组数据的分析方法, 其特征是, 通
过聚类方法将空间转录组数据中的采样点划分为若干个组织区域, 具体包括:权 利 要 求 书 1/2 页
2
CN 114944193 A
2对去污染后的空间表达矩阵中的基因进行降维, 之后对降维后的每一个维度采用多元
t分布模型进行建模和聚类, 最后进行参数的更新;
或者, 整合空间位置信息和组织学影像信息, 计算去污染后的空间表达矩阵中每个
spot之间的距离, 并采用图卷积神经网络, 整合距离信息与基因表达量, 最后基于图卷积网
络的输出, 采用无监督深度嵌入聚类分析方法将空间转录组数据中的采样点划分为若干个
组织区域;
或者, 通过对每个采样点对应染色图区域和邻域信息对基因的表达进行均一化, 再进
行无监督聚类;
优选的, 根据输入的单细胞 数据进行分析, 得 出每个细胞亚群的表达模式, 具体包括:
对单细胞转录组数据集进行质量控制;
过滤基因含量过低的细胞以及未在 细胞中表达的基因;
筛选出具有高表达的基因;
利用数据集给出的细胞类型标注, 对细胞亚群进行随机下采样, 每个细胞亚群中提取
出少量细胞作为该细胞亚群的表达模式, 最后得到单细胞参 考表达矩阵。
8.整合单细胞转录组与空间转录组数据的分析系统, 其特 征是, 包括:
数据获取模块, 其用于获取空间转录组数据, 判断测序数据类型;
去污染模块, 其用于去除背景中游离的mRNA和处理基因表达的缺失值, 提高空间中每
个spot中mRNA的纯度和丰度;
空间聚类模块, 其利用spot的基因表达、 spot在组织切片中的位置信息和组织学影像,
通过聚类方法将组织区域划分为若干个 类别;
空间差异基因识别模块, 其根据基因表达的数据流形, 和空间聚类的先验知识, 筛选出
在空间中具有差异性表达的基因;
单细胞分析模块, 其根据用户输入的单细胞数据进行分析, 得出每个细胞亚群的表达
模式;
解卷积模块, 其根据单细胞数据集中的细胞亚群表达模式, 将所有spot的基因表达作
为输入, 获得细胞类型在各个组织区域中的分布;
可视化模块, 其用于将组织区域中的空间差异基因和细胞亚群分布进行 可视化。
9.一种计算机装置,包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征是, 所述处理器执行所述程序时实现上述权利要求 1‑7任一所述的方法的
步骤。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征是, 该程序被处理器执
行时执行上述权利要求1 ‑7任一所述的方法的步骤。权 利 要 求 书 2/2 页
3
CN 114944193 A
3
专利 整合单细胞转录组与空间转录组数据的分析方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:36:51上传分享