生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

318

主题
发表于 2022-4-8 22:58:12 | 查看: 1745| 回复: 0
一、组装结果评估
1、准确性
      基因组大小接近真实大小,拼出来的一般小于真实大小;
      GC含量接近真实GC含量,一个物种含量固定,可以判断污染;
      基因组框架没有问题;
      单碱基准确性,首先保证框架不错,单碱基位点可以纠错。

2、完整性
      拼接序列条数接近染色体数据;
      片段长度长;
      N50,N90长;
      基因完整性高;

      一般是互斥的,准确性高完整性低,准确性低完整性高。
      1、首先保证准确性;
      2、在保证准确性前提下,追求完整性。


二、N50与N90
      N50:N50是基因组拼接之后一个评价指标,将拼接得到的所有的序列,根据序列大小从大到小进行排序,然后逐步开始累加,当加和长度超过总长一半时,加入的序列长度即为N50长度。N50越长,拼接得到的更长的序列越多,类似的还有N90等

      
      一般软件都有统计的结果可以找下日志。

三、quast评估
今天给大家介绍一款,quast
      QUAST: Quality Assessment Tool for Genome Assemblies,可以对不同软件拼接的基因组序列,或者同一软件,不同选项参数拼接的结果进行比较,然后将结果进行可视化,我们可以从中挑选出最好的拼接结果。如果有近源参考序列,加入近源参考序列,可以比较基因组结构连接信息,与参考序列最近源的则为最佳结果。如果没有参考序列,软件会将两两序列进行比较。
      软件官网:QUAST:http://bioinf.spbau.ru/quast

  1. #quast 评估案例:
  2. quast.py -r MGH78578.fasta spades.fa soapdenovo.fa -o quast
复制代码
     -o --output-dir 输出结果目录。
      -r 参考序列文件,不带的话,结果就没有和参考序列比较,只是spade和soapdenovo比较。
      -G --genes 参考序列基因坐标,一般 BED 或者 GFF 格式文件,ncbi下载genome即可。
      -m --min-contig 最小 contig 长度,也就是小于这个阈值的不参与计算。
      -t --threads 使用线程数目,默认使用四分之一的 cpu。
      --help 列出全部选项参数,大部分情况下,默认这些选项即可。

      
      结果report.html,可以去浏览器打开。
  1. #quast
  2. conda activate quast
  3. quast -o quast -r GCF_000240185.1_ASM24018v2_genomic.fna -t 12 -g GCF_000240185.1_ASM24018v2_genomic.gff soapdenovo.fa spades.fa  --glimmer
复制代码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-21 19:43 , Processed in 0.093054 second(s), 31 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表