2.3 生成一致性序列
生成一致性序列是病毒基因组拼接中最重要的一个步骤,由于目前还没有同一的标准,使用软件众多,就会造成结果的不一致。尤其是在处理比对过程中的插入缺失问题,不同的软件可能采用不同的策略。另外,有些人采用类似基因组“纠错”的方法生成一致性序列,只是对与原参考序列不一致的位点进行替换,其他位点不处理,这样生成的一致性序列与参考序列差别较小,也不包含 N 碱基。另外一种方法类似,比对之后将每个位点出现频率最高的碱基提取出来,没有比对的位置选择 N 碱基替换,最终结果长度会与参考序列不同,里面也有可能包含很多 N 碱基。目前采用的软件有 bcftools,ivar,medaka 等方法。下面分别来试一下,然后分别比较一些结果。
samtools mpileup -A -d 1000 -B -Q 0 --reference MN908947.3.fa
ncov.primertrim.sorted.bam | ivar consensus -p ivar_consensus -n N