生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

279

主题
发表于 2022-4-10 17:35:51 | 查看: 1020| 回复: 0
背景
      用于转录组和基因组组装质量进行评估的软件,前面介绍了quast,今天的是busco,对于动物植物较大的基因组拼接结果评估,这个软件很好用。
busco简介
      BUSCO(Benchmarking Universal Single-Copy Orthologs)主要用于转录组和基因组组装质量进行评估的软件。BUSCO 对拼接结果的评估与 quast 不同,它并不追求基因组拼接的长度,而关注的是是否将一些单拷贝直系同源基因拼接出来。在相近的物种之间总有一些保守的序列,而 BUSCO 就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。
      BUSCO 评估的原理其实不难,软件根据 OrthoDB 数据库,构建了几个大的进化分支的单拷贝基因集。将拼接结果预测得到的基因集与该基因集进行比较,根据比对上的比例、完整性,来评价拼接结果的准确性和完整性。也就是比对上已知基因集的基因越多,说明拼接的结果越好。
      软件官网:https://gitlab.com/ezlab/busco
      数据下载:https://www.orthodb.org/?page=filelist
      可以从 http://busco.ezlab.org/下载,包括以下内容。Bacteria: 细菌(5609),Eukaryotes 真核生物(1271),Viruses 病毒(6488),Archaea 古细菌 404)。
      
      摘自大蒜基因组与枇杷基因组文章

软件安装:

  1. mamba create -n busco -y busco=5.2.2
复制代码
配置数据库运行
      选择自己近源物种下载。

  1. conda activate busco
  2. #列出数据库
  3. busco --list-datasets
  4. #下载数据
  5. busco --download bacteria_odb10
  6. busco -i kmer45.scafSeq -o busco -m geno -c 12 --offline -l busco_downloads/lineages/bacteria_odb10/
  7. #利用 busco 结果绘图
  8. generate_plot.py -wd busco
复制代码

选项参数:
      -o 输出文件夹
      -in 输入文件 (基因组组组装文件、转录组组装文件,基因预测文件,全为 fasta 格式) t
      -l 保守序列文件(Lineage data
      -m 分析的模式。包括基因组组装评估(all)、转录组组装评估(OGS)以及基因预测评估(trans)
其他选项
      -sp :做 AUGUSTUS 用于训练的物种名字
      -e :blast 的 e 值 Default: 0.01
      -flank:AUGUSTUS 做预测时向两侧延伸的长度 Default: 根据基因组大小在 5 到 20kbp 之间
      -f 更新之前的运行结果

      
      这就是busco结果,完全覆盖且单拷贝的基因是蓝色标注的,基本都超过了60%,也就是比对上已知基因集的基因多,说明拼接的结果较好,比较完整。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-5-7 00:19 , Processed in 0.048482 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表