生信喵 发表于 2022-6-29 15:52:55

全局比对

一、全局比对
       全局比对是用来衡量两条序列整体的相似性,满足整体相似性最大化。若两条序列长度不同,则必须插入一些空位使所有位点都能对应起来。而局部比对则不同,两条亲缘关系较远的DNA 或氨基酸可能只在一些片段上相似,这就需要找到这些相似性的片段,和其相应的匹配方式。通常这样的分析就需要进行局部比对,而不是全局比对。
       全局比对与局部比对有什么不同呢。全局序列比对尝试找到两个完整的序列之间的最佳比对。而局部序列比对不必对两个完整的序列进行比对;可以在每个序列中使用某些部分来获得最大得分。两种比对采取不同的比对算法和策略,因此,同样的一段序列,采用全局比对和局部比对不同的比对方法结果也会有很大的不同。
       例如我们现在有两条序列 S1 和 S2,如果采用全局比对,会得到这种比对效果,而采用局部比对,序列中间的 GCG 满足了最优比对。大家可以理解为,全局比对需要从全局出发,是需要全局达到最佳效果,而局部比对则不需要考虑全局,只要局部达到最佳效果即可。
       全局比对主要用来比较比较两个基因组之间的同源性,绘制共线性图等,另外,全局比对也常常用于基因组结构变异的检测。因为,局部比对的话,遇到大的空位往往就断开了,例如上面的例子,采用局部比对的算法中,只追求局部的最优比对,而不会考虑整体的空位等。所以,基因组的大片段的插入或者缺失检测,可以使用全局比对软件。而局部比对软件主要搜索同源序列,例如判断那两个基因是否同源,寻找一段序列的同源序列等,就可以使用局部比对。

二、mummer 比对
2.1 软件介绍
       MUMmer 是 TRIG 在 1999 年开发的,经历了多个版本的更新,现在最新的版本是 3.0,Mummer 的一个最大特点就是比对速度非常快,对资源的消耗比较少,官方的给出的数据是两个 5M 左右的基因组,只用 20 秒左右的时间就可以比对完成,消耗的内存大约是 90M,它是使用一种后缀树的算法。适合台式机水平的计算机来做大型基因组之间的比对。那么在实际使用过程中,Mummer 确实比对的比较快,对资源消耗也比较小。
       Mummer 官网介绍该软件是一个多才多艺的软件包,因为它可以完成生物数据分析中很多的功能。Mummer 其实是一个软件包,里面包含了很多工具,这些工具搭配起来使用,可以完成非常多的工作。例如基因组比对,共线性分析,同源序列搜索,重复序列查找,SNP和 Indel 检测等。
       官网:http://mummer.sourceforge.net/
       案例:http://mummer.sourceforge.net/examples/
       手册:http://mummer.sourceforge.net/manual/

2.2 软件使用:
       mumer 这个软件不常用,而使用最多的是 nucmer 这个程序,根据命名我们可以看出,(NUCleotide MUMmer) ,是在核酸水平进行比对的工具,其实 nucmer 是一个 perl 脚本,它是调用了 mummer 程序,首先找到两条序列之间准确匹配区域,然后进行延伸,在使用mgaps 进行 cluter 程序,最终保留那些满足设定阈值的比对结果。找出全局比对的同源序列。
       首先介绍一下软件包中的mummer软件,mummer的名字来源于Maximal Unique Matcher ,最大唯一性比对。mummer 这个程序主要是找到参考序列和 query 序列之间准确匹配的区域。query 最大可以有 32 个。mummer 是不容错配的,适合用来画共线性图,但是我们通常的比对都是必须容许一定的错配和 gap 的,mummer 比对完了之后可以使用 mummerplot这个程序绘制出共线性图。
#nucmer比对
nucmer --mum --maxgap=500 --mincluster=100 --prefix=nucmer ../data/ref.fna ../data/mgh78578.fasta
delta-filter -1 -q -r nucmer.delta > nucmer.filter

#显示比对结果
grep ">" nucmer.delta
show-aligns nucmer.filter NC_016846.1 contig_1_pilon

#显示差别
show-diff nucmer.filter -q
show-diff nucmer.filter -r

#显示突变位点
show-snps -C -H -I -T -r -l nucmer.filter >nucmer.snp

#显示坐标
show-coords nucmer.filter -r >nucmer.coords

#show-tiling 轨迹
cp ../../05.assembly/35.illumina/4.soapdenovo/kmer45/kmer45.scafSeq .
nucmer --mum --maxgap=500 --mincluster=100 --prefix=kmer45 ../data/ref.fna kmer45.scafSeq
delta-filter -1 -q -r kmer45.delta > kmer45.filter
show-tiling kmer45.filter -a
show-tilingkmer45.filter -l 10000 >kmer45.tiling

#mummerplot绘图
mummerplot -p p1 nucmer.filter --png
mummerplot -p p2 nucmer.filter --png --medium
mummerplot -p kmer45 kmer45.tiling --png --medium

#promer比对
promer --mum --maxgap=500 --mincluster=100 --prefix=promer ../data/ref.fna ../data/mgh78578.fasta

#dnadiff比对
dnadiff ../data/ref.fna ../data/mgh78578.fasta
页: [1]
查看完整版本: 全局比对