0 收听	12 听众	279 主题

混合拼接

发表于 2022-4-15 11:08:07 | 查看: 882| 回复: 0

背景
   在当前测序市场条件下，一代二代三代测序平台共存，这是因为每一个测序平台都不是完美的，都有优缺点，例如一代测序准确性高，读长长，但是相应的通量低，价格贵。二代测序显著特点是通量大，准确性高，价格便宜，但是读长短，而三代测序读长长，通量高，但是错误率高，这就需要我们能够根据每种数据的特点，充分利用每一种测序平台数据，得到最优的方案。例如当前基因组拼接中，尤其对于一些大型的基因组，往往混合多种测序平台数据进行拼接，达到最佳的拼接效果。
一、混合拼接方案
   我们对同一样品，分别进行了二代 illumina 双末端测序，三代单分子 pacbio 测序以及三代纳米孔 nanopore 测序数据。这些数据有多种分析方案，例如以下方案：
   方案一：二代 illumina 数据单独拼接
   方案二：三代数据单独拼接
   方案三：二代 illumina 数据为主+三代测序连接+补洞；
   方案四：三代测序单独拼接，利用二代数据连接+纠错；
   由于另种数据拼接结果肯定要优于只使用一种数据，因此，这里只需要比较方案三与方案四。也就是以哪种测序数据为主，哪种方案为辅。
当前大型基因组最佳方案：
   nanopore搭建框架
   illumina补洞
   Hi-C挂载基因组

二、Hi-C
   高通量染色体构象捕获（High-throughput chromosome conformation capture, Hi-C）则是一种可用于研究基因组三维结构的创新技术。自2009年美国Job Dekker 研究组开发出了Hi-C 技术，现已广泛应用于细菌、酵母、拟南芥、棉花、水稻、玉米、小鼠及人类基因组研究中。
   参考文献：PMID：24185095

Hi-C实验步骤


实验步骤示意图（Lieberman-Aiden E. et al. Science. 2009）
   1、使用多聚甲醛处理细胞，固定DNA的构象；
   2、裂解细胞后，使用限制性内切酶处理交联的 DNA，产生粘性末端；
   3、DNA末端补平修复，并同时引入生物素，标记寡核苷酸末端；
   4、使用DNA连接酶连接DNA 片段；
   5、蛋白酶消化解除与 DNA 的交联状态，纯化 DNA并随机打断至长度为 300~500bp 的片段；
   6、使用亲和素磁珠捕获标记的DNA ，进行二代建库测序。
   采用高通量测序获得的互作数据具有两个规律，一是染色体内的互作强度大于染色体间的互作；二是同一染色体内互作强度随线性距离的增加而减弱。Hi-C技术可研究基因组空间调控机制，还可将Hi-C数据用于基因组组装中，对三代测序组装获得的contig序列进行scaffolding，达到染色体水平。

Hi-C辅助染色体定位

   基于Hi-C数据上述规律，首先，基于Hi-C互作强度对Hi-C read聚类，判断scaffolds/Contigs分组；针对group内部互作强度，确定scaffolds/Contigs前后相邻关系；最后进一步确定相邻scaffolds/Contigs方向，最后获得染色体水平参考基因组序列。

三、不同基因组拼接方案比较
1 单独使用 illumina 拼接

spades.py --isolate -o ill -t 24 -1 /share/home/xiehs/05.assembly/data/clean.1.fq.gz -2 /share/home/xiehs/05.assembly/data/clean.2.fq.gz 1>spades.log 2>spades.err

复制代码

2 利用 illumina 数据+pacbio 数据拼接

spades.py --isolate -o ill_pac -t 24 -1 /share/home/xiehs/05.assembly/data/clean.1.fq.gz -2 /share/home/xiehs/05.assembly/data/clean.2.fq.gz --pacbio /share/home/xiehs/05.assembly/data/pacbio.fastq.gz 1>ill_pac.log 2>ill_pac.err

复制代码

3 利用 illumina 数据+nanopore 数据拼接

spades.py --isolate -o ill_ont -t 24 -1 /share/home/xiehs/05.assembly/data/clean.1.fq.gz -2 /share/home/xiehs/05.assembly/data/clean.2.fq.gz --nanopore /share/home/xiehs/05.assembly/data/nanopore.fastq.gz 1>ill_ont.log 2>ill_ont.err

复制代码

比较前三种

seqkit seq -m 500 ill/scaffolds.fasta | seqkit stat
seqkit seq -m 500 ill_ont/scaffolds.fasta | seqkit stat
seqkit seq -m 500 ill_pac/scaffolds.fasta | seqkit stat

复制代码

4 unicycler 混合拼接

conda activate unicycler
echo "unicycler -1 /share/home/xiehs/05.assembly/data/clean.1.fq.gz -2 /share/home/xiehs/05.assembly/data/clean.2.fq.gz --long /share/home/xiehs/05.assembly/data/nanopore.fastq.gz -o unicycler -t 12 >unicycler.log 2>unicycler.err" > unicycler.sh

复制代码

结果统计

seqkit stat assembly.fasta
file format type num_seqs sum_len min_len avg_len max_len
assembly.fasta FASTA DNA 6 5,691,015 3,478 948,502.5 5,311,635

复制代码

四、quast 比较不同拼接方案
利用 quast 比较不同拼接方案的拼接结果，选择最优的拼接结果。

quast.py -r MGH78578.fasta ill.fa ill_pac.fa ill_ont.fa uni.fa -o quast

复制代码

   结果report.html

   报告可以看出unicycler的结果最接近参考序列。

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册