(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111649916.6
(22)申请日 2021.12.2 9
(65)同一申请的已公布的文献号
申请公布号 CN 114334006 A
(43)申请公布日 2022.04.12
(73)专利权人 纳昂达 (南京) 生物科技有限公司
地址 210031 江苏省南京市江北新区华康
路142号南京生物医药谷加速器三期
A01栋南侧3 -4层
(72)发明人 蒋才 戴鹏 程陶然 朱文鑫
(74)专利代理 机构 北京康信知识产权代理有限
责任公司 1 1240
专利代理师 路秀丽
(51)Int.Cl.
G16B 30/10(2019.01)
G06K 9/62(2022.01)
G06F 16/16(2019.01)
(56)对比文件
CN 109971827 A,2019.07.0 5
CN 111081318 A,2020.04.28CN 111534579 A,2020.08.14
US 20210 65847 A1,2021.0 3.04
WO 20131386 04 A1,2013.09.19
CN 108350498 A,2018.07.31
WO 0190415 A 2,2001.11.29
林木飞.高通 量测序技 术在非小细胞肺癌基
因检测中的应用研究. 《中国优秀硕士学位 论文
全文数据库 医药卫 生科技辑》 .2018,
程陶然 等.利用2b-RAD技 术检测基因 组区
段缺失变异的应用潜力评价. 《中国海 洋大学学
报》 .2018,第48卷(第9期),
王晶.基于基因序列可视化与深度学习的结
构变异基因型判别. 《中国优秀硕士学位 论文全
文数据库 信息科技 辑》 .2019,
Feng Yan 等.From reads to i nsight: a
hitchhiker"s guide to ATAC -seq data
analysis. 《Gen ome Biology》 .2020, (续)
审查员 袁玉
(54)发明名称
过滤酶切建库方式引入噪音的方法和装置
(57)摘要
本发明公开了一种过滤酶切建库方式引入
噪音的方法和装置。 该方法包括: 获取酶切建库
双端测序下机数据并比对至参考基因组序列, 再
从中提取含有Soft Clip标记的读段, 并统计各
读段中Soft Clip碱基 数; 将Soft Clip碱基 数大
于阈值T1的读段记为候选处理序列, 并提取各候
选处理序列的比对位置以及Soft Clip碱基序
列; 根据各候选处理序列的比对位置前后延伸D
长度得到延伸区域, 并寻找与Soft Clip碱基序
列相似的序列, 若相似度大于阈值T2, 视为含有
酶切噪音的读段存于去除文件中; 过滤掉含有的
读段, 得到去除噪音的比对文件。 有效过滤
artifact序列, 提高检测准确性。
[转续页]
权利要求书3页 说明书9页 附图3页
CN 114334006 B
2022.11.29
CN 114334006 B
(56)对比文件
Kevin R. Roy 等.Robust map ping of
polyadenylated and n on-polyadenylated RNA 3′ ends at nucleotide reso lution by 3"-
end sequenci ng. 《Methods》 .2019,2/2 页
2[接上页]
CN 114334006 B1.一种过 滤酶切建库方式引入噪音的方法, 其特 征在于, 所述方法包括:
获取酶切建库双端测序下机数据与参 考基因组序列的初始比对结果文件;
从所述初始比对结果文件中提取含有Soft Clip标记的读段, 并统计各所述读段中
Soft Clip碱基数;
将所述Soft Clip碱基数大于阈值T1的所述读段记为候选处理序列, 并提取各所述候
选处理序列在所述参考基因组上的比对位置以及所述候选处理序列中的Soft Clip碱基序
列;
根据各所述候选处理序列在所述参考基因组上的比对位置前后延伸D长度, 得到延伸
区域, 并在各所述延伸区域内寻找与所述Soft Clip碱基序列相似的序列, 如果所述相似序
列的相似度大于阈值T2时, 所述读段视为含有酶切噪音的读段, 存放于去除文件中;
从所述初始比对结果文件中过滤掉所述去除文件中含有的读段, 得到去除酶切建库方
式引入噪音的比对文件;
其中, 相似度是指所述延伸区域内与所述Soft Clip碱基序列的比对匹配率。
2.根据权利要求1所述的方法, 其特征在于, 从所述初始比对结果文件中提取含有So ft
Clip标记的读段, 并统计各所述读段中Soft Clip碱基数的步骤中, 将所述初始比对 结果文
件切割成若干份进行多 进程并行处 理。
3.根据权利要求2所述的方法, 其特征在于, 将所述初始比对结果文件切割成若干份进
行多进程并行处理时, 根据所述初始比对结果文件的行数M和进程数目N, 按照int (M/N) +1
计算每个分割文件大小, 得到均等分割比对文件。
4.根据权利要求1所述的方法, 其特征在于, 将所述Soft Clip碱基数大于阈值T1的所
述读段记为 候选处理序列包括如下情形:
(i) 分布在所述读段的前端或后端的Soft Clip碱基, 若所述Soft Clip碱基数大于阈
值T1时, 所述读段记为 候选处理序列;
(ii) 同时出现在所述读段的前端和后 端的Soft Clip碱基, 至少一端的所述Soft Clip
碱基数大于阈值T1时, 所述读段记为 候选处理序列;
(iii) 同时出现在所述读段的前端和后端的Soft Clip碱基, 前端和后端Soft Clip碱
基数分别小于阈值T1, 且 前端和后端Soft Clip碱基数之和大于阈值T1时, 所述读段不记为
候选处理序列。
5.根据权利要求1所述的方法, 其特征在于, 根据 各所述候选处理序列在所述参考基因
组上的比对位置, 按如下规则前后延伸D长度:
(i) 当所述比对位置位于染色体起始位置区域, 且距离所述染色体起始位置的长度小
于D时, 仅延伸至染色体起始位置;
(ii) 当所述比对位置位于染色体末端位置区域, 且距离是所述染色体末端位置的长度
小于D时, 仅延伸至染色体末端位置;
(iii) 当所述比对位置位于染色体中间位置, 且距离所述染色体起始位置和所述染色
体末端位置的长度均大于D时, 前后延伸D长度。
6.根据权利要求5所述的方法, 其特 征在于, 所述D为20 0~400bp。
7.根据权利要求5所述的方法, 其特 征在于, 所述D为25 0bp~350bp。
8.根据权利要求1所述的方法, 其特征在于, 通过局部比对的方法在各所述延伸区域内权 利 要 求 书 1/3 页
2
CN 114334006 B
3
专利 过滤酶切建库方式引入噪音的方法和装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:45:46上传分享