|
发表于 2022-10-26 12:39:37
|
查看: 10517 |
回复: 0
一、纳米孔测序在宏基因组中的应用
基于鸟枪法(Shotgun Sequencing)的高通量测序已经走过 10 多年,在宏基因组领域的应用也超过 10 年,在这 10 多年里,基于二代测序高通量的特性,在宏基因组,16S 测序中已经取得了非常大的进展。然而,二代测序读长短、建库周期长、无法实时测序等技术特点,依然限制了宏基因组数据分析的发展。尤其是读长短,只有不到 2X300bp,比对唯一性差,会造成一对多的比对,并且短读长无法得到好的拼接效果,无法直接从宏基因组中拼接出完整细菌基因组等。而这些技术缺点,通过新一代的纳米孔测序可以很好的解决,纳米孔诸多的优点为宏基因组研究带来了新的突破,下面我们来总结一下 nanopore 测序技术在宏基因组中的应用。
1、在采样点直接测序分析
在采样点直接进行测序,能够消除取样和样品分析中可能存在的许多障碍,包括减少微生物存储,运输过程中发生的降解,最快得到分析结果。但是传统测序平台通常笨重、易碎、不易装运,需要稳定的实验室条件,例如恒温恒湿,而且需要大量的电力基础设施。再加上普遍缺乏设施和经培训的合格人员,使得这些技术难以部署在偏远地区或移动环境中。而纳米孔测序的便携性,而纳米孔测序 MinION 重量不足 100g,不到一台 iPhone 手机的重量,MinION利用笔记本电脑上的 USB 接口通电,对 DNA 或 RNA 进行测序,是一种适用于实地研究的独一无二的便携式设备。而最新推出的以及 MinION Mk1C,集成计算模块,更加方便。纳米孔测序可实现数据流的实时传送,支持即时分析。可以最快时间得到结果。
2、病原微生物快速鉴定
对于病原微生物鉴定来说,快速得到鉴定结果至关重要。例如在监测疾病爆发或在危及生命的感染性疾病中鉴定病原微生物都需要快速获得准确的基因组信息。
在病毒爆发期间,前瞻性的基因组数据有助于提供该病毒与其他病毒的亲缘关系、进化模式、地理分布和人类宿主等相关信息。这些信息可用于协助流行病学调查,尤其是在结合使用其他类型的数据(例如病例数量)时。更快速的获取并共享数据,将有助于更好的响应公共卫生挑战。而快速获得病原体序列数据同样能够支持开发疫苗和提升诊断能力。
利用纳米孔便携,快速建库,实时测序等特点,可以最快时间得到鉴定结果。纳米孔测序是目前病原微生物鉴定最快速高通量测序平台。纳米孔测序目前已经应用在埃博拉病毒,寨卡病毒、黄热病毒和麻疹病毒等多次疫情中。在 2019 年爆发的新冠病毒疫情中,纳米孔测序同样发挥了重要作用。使用纳米孔测序仪,利用纳米孔测序的 ArticNetwork 工作流程,从拿到样品,只需 7 小时即可得到新冠病毒全基因组序列。
3、耐药基因识别
在研究环境下,对病原体样品进行快速抗微生物药物耐药性表征使得研究者能更好地了解耐药性及进化情况。在临床环境中,包括世界卫生组织 (WHO) 在内的多家机构及相关报告均提倡进行快速诊断以表征抗微生物药物耐药性,从而帮助选择恰当治疗方式,避免出现开药过多或使用无效抗菌药物。
纳米孔数据对细菌、病毒和原生动物等病原体的耐药性分析十分有用。长读长测序不仅可作为独立方法采用,还可与短长测序联合应用,均可取得良好效果。
纳米孔超长读长在解决复杂的重复基因座结构方面具有显著优势。与采用细胞培养的方法相比,纳米孔测序还是一种更快速的抗微生物药物耐药性分析方法。结核分枝杆菌 TB 感染的抗微生物药物耐药性表征。使用培养法,往往需数周时间完成。而使用纳米孔测序法可将患者 BCG 鉴定、吡嗪酰胺耐药性检测及系统发生定位的总时间缩短至 7.5 小时以内,同时 5小时后即可获得完整的敏感性结果。
4、长读长具有更高的准确性
传统的短读长测序长度通常在 200-300bp,双端测序也只能达到 16S 序列长度的 1/3。由于微生物之间的同源性,经常会出现同一片段比对到多个物种的情况,无法精确鉴定到具体的物种。而纳米孔测序长度最大可达到 2M 以上,N50 可以达到 25K。长度越长,比对唯一性越好,可以很好比对到唯一物种。甚至可以对整个核糖体操纵子进行测序(16S 序列+23S序列等),精确进行物种鉴定。
5、基因组中拼接细菌完成图
目前,利用纳米孔长读长可以很好的跨越基因组上的重复序列,可以很容易的完成细菌全基因组的拼接,直接得到完整染色体。同理,在足够高测序深度以及超长读长(utral long)的条件下,在纳米孔宏基因组测序中,也可以得到拼接得到细菌基因组完成图。这是一项划时代的技术。无需培养,直接测序得到细菌完成图。这极大的丰富了细菌基因组的数据库。
二、Centrifuge 软件配置
2.1 centrifuge 简介
Centrifuge 是一款快速有效的宏基因组物种组成分类的软件,采用了结合 BWT 变换(Burrows-Wheeler transform,BWT)和 FM 索引(Ferragina-Manzini ,FM)的策略对序列分类进行优化,通过基因组压缩策略有效降低了内存的需求,因此可以处理 NT 库级别的库索引。Centrifuge 为 Johns Hopkins University CCB(The Center for Computational Biology)出品, 采用的软件架构和 bowtie2、hisat2 等还是比较类似,命令行接口也类似,学习成本比较低。Centrifuge 目前是纳米孔官方分析平台 EPI2ME 中 WIMP 模块采用的软件。
Centrifuge 允许一条序列可以有多个 taxonomy 标签,并允许通过设置阈值将多个 hits 回归到 LCA 模式,针对 multi-hit 模式,通过 EM 算法可以进行丰度定量。centrifuge-kreport 提供了将 Centrifuge 的结果转换成 Kraken 风格的结果。
官网以及github主页如下:
- http://www.ccb.jhu.edu/software/centrifuge/
- https://github.com/infphilo/centrifuge
复制代码
2.2 下载公共数据库索引
centrifuge 的数据库建库比较麻烦,所以可以选择一些公共数据库。Genexa 公司官方网站为我们提供了建立好的数据库。直接下载就可以使用。
h+v+c: 人基因组+病毒基因组+106 SARS-CoV-2 基因组,
h+p+v+c: 人基因组+细菌基因组+病毒基因组+106 SARS-CoV-2 基因组
当前库版本 p+h+v(Bacteria,Viruses, Human),大小 13G, 包含了 28718 条核酸序列,14871 个 NCBI Taxonomy 节点,8382 species , NT 库 77G 大小, 包含了 39648092 条核酸序列,1028487 个物种信息。
下载已有数据
h+v+c: 人基因组+病毒基因组+106 SARS-CoV-2 基因组
- https://zenodo.org/record/3732127/files/h+v+c.tar.gz?download=1
复制代码
h+p+v+c: 人基因组+细菌基因组+病毒基因组+106 SARS-CoV-2 基因组
- https://zenodo.org/record/3732127/files/h+p+v+c.tar.gz?download=1
复制代码 2.3 建立自己的索引
1、NCBI refseq 数据库
如果想要自行建库也可以,首先下载 NCBI ref 数据库,例如全部细菌基因组,古细菌基因组以及病毒基因组,以及物种分类数据库 taxonomy,如果要比对宿主,也可以添加人或者小鼠全基因组。友情提示:网速一定要好,否则很难成功。
- #下载 ncbi 数据库
- ./centrifuge-download -o taxonomy taxonomy
- #下载 refseq 细菌(17927),古细菌(366)以及病毒基因组()
- centrifuge-download -o library -m -d "archaea,bacteria,viral" refseq > seqid2taxid.map
- #加入人以及小鼠基因组
- centrifuge-download -o library -d "vertebrate_mammalian" -a "Chromosome" -t 9606,10090 -c 'reference genome' >> seqid2taxid.map
- #合并数据
- cat library/*/*.fna > input-sequences.fna
- #建立索引
- centrifuge-build -p 4 --conversion-table seqid2taxid.map --taxonomy-tree taxonomy/nodes.dmp --name-table taxonomy/names.dmp input-sequences.fna abv
复制代码 2、使用 nt 库索引
nt 库包含全部测序序列,内容比较全,但是缺点是数据量太大,无论是建立索引还是比对都比较耗时。
- #nt库创建索引
- zcat nucl_gb.accession2taxid.gz | awk '{print $2"\t"$3}' >acc_to_tid.dmp
- python2 /ifs1/Software/biosoft/centrifuge/centrifuge-build --conversion-table acc_to_tid.dmp --taxonomy-tree nodes.dmp --name-table names.dmp nt nt
复制代码
|
|