生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

309

主题
发表于 2023-7-22 21:19:24 | 查看: 5834| 回复: 1
本帖最后由 生信喵 于 2023-7-22 22:11 编辑

背景
       人类基因组测序数据分析得到的变异位点,如 SNV、INDEL 等,只是给出了位点信息,不便于解读。需要经过注释。注释主要包括基因定位、人群频率计算、进化保守性预测、蛋白功能影响预测等分析,才能用于遗传分析和解读。
       目前知的主流变异位点注释软件包括 SnpEff、ANNOVAR、GATK Funcotator、VEP、CADD等。但是由于不同变异检测软件生成的 vcf 文件有差别,且不同软件依赖不同的运行环境和注释数据库。因此,注释起来比较麻烦,经常出错。
       bcftools 提供了一些简单的注释功能,但信息不全。可以使用一些专门的工具。SNPeff比 bcftools 具有更多的注释功能。snpeff 是用于变异注释的软件,其中的 eff 是 effect 的意思,也就是变异的影响,虽然叫做 snpeff,但是变异的位点不仅仅包括 snp,也包括小的插入,缺失等。
       VEP 是 ensembl 出品,质量有保障。VEP 发布了在线版和下载版,对于非生物信息背景的各位,可以用在线版实现相关信息的注释。
       GATK Funcotator 是 GATK 下游分析软件,可以很好兼容 GATK 的结果。

一、注释原理
       注释软件可以选用 annovar,vep,snpeff,oncotator 等,原理都是将 SNP 位点信息与已知数据库位点信息进行匹配,可以判断 SNP 氨基酸的影响,或者改突变对表型带来的影响。
       例如是否对某种靶向药物敏感或者耐药。例如在非小细胞肺腺癌里,EGFR 基因的突变频率非常高,尤其是亚裔非吸烟的女性患者。针对 EGFR 基因的突变位点和相对应的靶向药物也研究的比较清楚。
      
       肿瘤基因突变影响耐药性
      
       不同基因突变对耐药性的影响

二、SNPeff 注释
       snpeff 是用于变异注释的软件,其中的 eff 是 effect 的意思,也就是变异的影响,虽然叫做 snpeff,但是变异的位点不仅仅包括 snp,也包括小的插入,缺失等。SNPeff 软件包中包含两个程序 snpeff 与 snpsift。
       snpeff 主要用来预测 snp 突变的影响,包括氨基酸变化等,这个根据密码字表就可以判断,不需要依赖数据库,输入文件是变异检测得到的 vcf 文件;
       snpsift 的功能是用来操作变异结果文件,包括过滤,注释,统计,合并,分割等等操作。在进行注释的时候,需要使用相关数据库。和其他所有注释工具一样,注释内容严重依赖数据库的信息。
  1. https://pcingola.github.io/SnpEff/
复制代码
  1. #列出所有数据库   
  2. snpEff databases | less
  3. #筛选人基因组数据库   
  4. snpEff databases | grep "Homo"
  5. #下载注释文件
  6. snpEff download GRCh38.105

  7. #与dbsnp进行注释得到rs号  
  8. SnpSift annotate /share/home/xiehs/data/GATK/hg38/dbsnp_138.hg38.vcf.gz merge.HC.snps.indel.VQSR.vcf.gz >merge.anno.rs.vcf
复制代码

三、Annovar 注释
       ANNOVAR 是一个高效的注释工具,能够利用最新的数据来分析各种基因组中的遗传变异。由 perl 编写,支持包括 VCF 在内的多种输入和输出文件格式。但是 annovar 是收费软件,需要使用教育邮箱进行注册下载使用。
       ANNOVAR 能够利用最新的数据来分析各种基因组中的遗传变异。主要包含三种不同的注释方法,Gene-based Annotation(基于基因的注释)、Region-based Annotation(基于区域的注释)、Filter-based Annotation(基于筛选的注释)。
  1. https://annovar.openbioinformatics.org/en/latest/
复制代码
      Annovar 包含多个软件,分别为
       annotate_variation.pl #主程序
       coding_change.pl #推断蛋白质序列
       convert2annovar.pl #格式转换为 annovar 输入歌会
       retrieve_seq_from_fasta.pl #用于自行建立其他物种的转录本
       able_annovar.pl #注释程序,可一次性完成三种类型的注释
       variants_reduction.pl #可用来更灵活地定制过滤注释流程
       example #存放示例文件
       humandb #人类注释数据库
  1. #下载数据库
  2. /share/home/xiehs/biosoft/annovar/annotate_variation.pl -downdb -webfrom annovar refGene humandb/
  3.     NOTICE: The --buildver is set as 'hg18' by default
  4.     NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done
  5.     NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg18_refGene.txt.gz

  6. #生成annovar格式  
  7. /share/home/xiehs/biosoft/annovar/convert2annovar.pl -format vcf4old merge.HC.snps.indel.VQSR.vcf.gz >merge.annovar.input
  8. #gene-based注释  
  9. /share/home/xiehs/biosoft/annovar/annotate_variation.pl --geneanno -buildver hg18 --outfile merge.geneanno.anno merge.annovar.input /share/home/xiehs/20.human/annovar/humandb/

  10. #clinvar临床数据库注释
  11. /share/home/xiehs/biosoft/annovar/convert2annovar.pl -format vcf4old merge.HC.snps.indel.VQSR.vcf.gz >merge.annovar.input  
  12. #下载临床数据,这个地方基因组版本不一致,建议用最新的hg38——clinvar_20220320
  13. /share/home/xiehs/biosoft/annovar/annotate_variation.pl -downdb -webfrom annovar --buildver hg19 clinvar_20180603 humandb/
  14. #这个地方基因组版本不一致,报错hg18_clinvar_20180603找不到
  15. /share/home/xiehs/biosoft/annovar/annotate_variation.pl --filter -buildver hg18 --outfile merge.clinvar.anno merge.annovar.input -dbtype clinvar_20180603 /share/home/xiehs/20.human/humandb
复制代码

四、在线注释
       SNPedia:
  1. https://www.snpedia.com/
复制代码
      自动生成报告系统:
  1. https://promethease.com/
复制代码
      vep 在线注释:
  1. https://useast.ensembl.org/Tools/VEP
复制代码


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-10-11 17:33 , Processed in 0.074598 second(s), 29 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表