生信喵 发表于 2022-4-10 17:35:51

BUSCO 评估

背景
      用于转录组和基因组组装质量进行评估的软件,前面介绍了quast,今天的是busco,对于动物植物较大的基因组拼接结果评估,这个软件很好用。
busco简介
      BUSCO(Benchmarking Universal Single-Copy Orthologs)主要用于转录组和基因组组装质量进行评估的软件。BUSCO 对拼接结果的评估与 quast 不同,它并不追求基因组拼接的长度,而关注的是是否将一些单拷贝直系同源基因拼接出来。在相近的物种之间总有一些保守的序列,而 BUSCO 就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。
      BUSCO 评估的原理其实不难,软件根据 OrthoDB 数据库,构建了几个大的进化分支的单拷贝基因集。将拼接结果预测得到的基因集与该基因集进行比较,根据比对上的比例、完整性,来评价拼接结果的准确性和完整性。也就是比对上已知基因集的基因越多,说明拼接的结果越好。
      软件官网:https://gitlab.com/ezlab/busco
      数据下载:https://www.orthodb.org/?page=filelist
      可以从 http://busco.ezlab.org/下载,包括以下内容。Bacteria: 细菌(5609),Eukaryotes 真核生物(1271),Viruses 病毒(6488),Archaea 古细菌 404)。
      
      摘自大蒜基因组与枇杷基因组文章

软件安装:

mamba create -n busco -y busco=5.2.2配置数据库运行
      选择自己近源物种下载。

conda activate busco
#列出数据库
busco --list-datasets
#下载数据
busco --download bacteria_odb10
busco -i kmer45.scafSeq -o busco -m geno -c 12 --offline -l busco_downloads/lineages/bacteria_odb10/
#利用 busco 结果绘图
generate_plot.py -wd busco
选项参数:
      -o 输出文件夹
      -in 输入文件 (基因组组组装文件、转录组组装文件,基因预测文件,全为 fasta 格式) t
      -l 保守序列文件(Lineage data
      -m 分析的模式。包括基因组组装评估(all)、转录组组装评估(OGS)以及基因预测评估(trans)
其他选项
      -sp :做 AUGUSTUS 用于训练的物种名字
      -e :blast 的 e 值 Default: 0.01
      -flank:AUGUSTUS 做预测时向两侧延伸的长度 Default: 根据基因组大小在 5 到 20kbp 之间
      -f 更新之前的运行结果

      
      这就是busco结果,完全覆盖且单拷贝的基因是蓝色标注的,基本都超过了60%,也就是比对上已知基因集的基因多,说明拼接的结果较好,比较完整。

页: [1]
查看完整版本: BUSCO 评估