3、筛选最长序列
将最长一条序列挑选出来,进行验证,如果能够比对到新冠病毒序列,则该序列为冠状病毒。
#排序筛选最长序列
- seqkit sort -l -r final.contigs.fa | seqkit seq -w 0 | head -2 >longest.fa
复制代码 #统计长度
#统计结果- file format type num_seqs sum_len min_len avg_len max_len
- longest.fa FASTA DNA 1 29,863 29,863 29,863 29,863
复制代码 #修改名字
4 验证结果
接下来我们将验证结果的准确性和完整性,主要包括该序列是否完整,29863bp 是否已经是完整基因组,拼接结果中是否还包含其他冠状病毒序列,序列是否连接错误,测序位点是否正确?
4.1 与已发表 NC_045512 进行比对
比较拼接得到的 ncov.fa 与已发表 NC_045512 之间的差别,本次拼接结果比已发表的NC_045512 少 40bp,这 40bp 刚好在序列的头尾部分。
- $ seqkit stat NC_045512.fa ncov.fa
- file format type num_seqs sum_len min_len avg_len max_len
- NC_045512.fa FASTA DNA 1 29,903 29,903 29,903 29,903
- ncov.fa FASTA DNA 1 29,863 29,863 29,863 29,863
复制代码 最后将重新拼接得到 ncov.fa 与已发表序列 NC_045512 进行比较,二者相似性达到 100%。其中 NC_045512 尾部 39bp 没有比对上 ncov。
- $ lastz NC_045512.fa ncov.fa --out=lastz.axt
- #比对结果局部
- 0 NC_045512.2 1 29862 k141_5526 2 29863 + 2819610
- ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTT
- AAAATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAAC
- TTTAAA
复制代码 通过直接观察两个比对结果首位序列,我们发现以下两点:
第一:NC_045512 头部比 ncov.fa 少了一个碱基 G;
第二:NC_045512 尾部多了 GAATGACAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA。
- $ seqkit subseq -r 1:100 NC_045512.fa ncov.fa
- >NC_045512.2 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genom
- ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCT
- GTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTC
- >k141_5526 flag=1 multi=191.8580 len=29863
- <font color="#ff0000">G</font>ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATC
- TGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACT
- (base) meta 15:13:43 /ifs1/User/meta/xinguan/sra
- $ seqkit subseq -r -100:-1 NC_045512.fa ncov.fa
- >NC_045512.2 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu1, complete genome
- TAATGTGTAAAATTAATTTTAGTAGTGCTATCCCCATGTGATTTTAATAGCTTCTTAGG<font color="#ff0000">A
- GAATGACAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA</font>
- >k141_5526 flag=1 multi=191.8580 len=29863
- AGTGAACAATGCTAGGGAGAGCTGCCTATATGGAAGAGCCCTAATGTGTAAAATTAATTT
- TAGTAGTGCTATCCCCATGTGATTTTAATAGCTTCTTAGG
复制代码
4.2 PCR 产物验证
得到全基因组序列之后,可以进行 PCR 扩增,如果能够扩增出全基因组,则证明基因组没有问题。PCR 扩增产物可以覆盖全部基因组。对于尾部 A 的问题,如果 PCR 产物可以比对到 NC_045512 尾部 A,则可以证明基因组中包含该段区域。
- #PCR 产物验证
- #下载 PCR 扩增测序数据
- prefetch SRR14867660 -O ./
- locate SRR14867660.sra
- fasterq-dump SRR14867660.sra
- #与拼接结果比对
- bwa-mem2 index ncov.fa
- bwa-mem2 mem -t 12 ncov.fa SRR14867660_1.fastq SRR14867660_2.fastq >pcr.sam
- #samtools 处理比对结果
- samtools sort -@ 12 -o pcr.sorted.bam pcr.sam
- samtools index pcr.sorted.bam
- #对 ncov.fa 建立索引
- samtools faidx ncov.fa
- #tablet 可视化
- #将文件拷贝至 windows 下使用 tablet 可视化
- mkdir tablet
- mv ncov.fa ncov.fa.fai pcr.sorted.bam pcr.sorted.bam.bai tablet
复制代码
PCR 扩增测序序列 tablet 可视化
与 NC_045512 参考序列比对,尾部有 4 条 reads 覆盖到,基因组中包含该区域。
PCR 扩增序列可以比对到参考序列尾部 A 尾巴
|