生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

279

主题
发表于 2022-6-22 21:28:32 | 查看: 968| 回复: 0
一、同源基因比对
  1. #下载参考序列基因集
  2. https://www.ncbi.nlm.nih.gov/genome/?term=NC_009648
  3. wget -c
  4. https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/240/185/GCF_000240185.1_ASM24
  5. 018v2/GCF_000240185.1_ASM24018v2_protein.faa.gz
  6. #建立索引
  7. $ makeblastdb -in GCF_000240185.1_ASM24018v2_protein.faa -dbtype prot
  8. -parse_seqids -out GCF_000240185.1_ASM24018v2_protein.faa
  9. #blastx 比对
  10. blastx -query MGH78578.fasta -out blast.out -db
  11. GCF_000240185.1_ASM24018v2_protein.faa -outfmt 6 -evalue 1e-5 #提取比对区域,生成 bed 文件
  12. awk '{if ($7 < $8) print $1"\t"$7-1"\t"$8;else print $1"\t"$8-1"\t"$7}'
  13. blast.out >gene.bed
  14. #根据比对位点,提取序列
  15. seqkit subseq --bed gene.bed MGH78578.fasta >MGH78578_gene.ffn
复制代码


二、真核生物基因预测
       真核生物的开放阅读框不仅含有编码蛋白的外显子,而且还有内含子,并且内含子将开放阅读框分割为若干个小片段。开放阅读框的长度变化范围非常大,因此真核生物的基因预测远比原核生物困难。但是,在真核生物的开放阅读框中,外显子与内含子之间的连接绝大部分情况下满足 GT-AG 规律:即内含子序列 5' 端的起始两个核苷酸总是 GT,并且其 3'端的最后两个核苷酸总是 AG,即:5'-GT ……AG-3',这个规律有助于真核生物开放阅读框的识别。因此真核生物的预测基因更加复杂。常用的软件包括 augustus,snap,GlimmerHMM,GENSCAN,genemarks 等工具。

利用 augustus 预测真核生物基因
       官网:http://bioinf.uni-greifswald.de/augustus/

  1. #安装 augustus 软件
  2. mamba create -n augustus -y augustus=3.4.0
  3. #激活环境
  4. conda activate augustus
  5. #查看软件自带模型
  6. augustus --species=help
  7. augustus --strand=both --genemodel=partial --singlestrand=false --protein=on
  8. --introns=on --start=on --stop=on --cds=on --codingseq=on
  9. --alternatives-from-evidence=true --gff3=on --UTR=on --outfile=out.gff
  10. --species=arabidopsis ninanjie.fa
复制代码
选项参数:
       -strand 预测序列的方向,是正向还是反向,还是正反链都预测,一般基因正反链都有分布,所以选择 both
       --genemodel 预测基因的模式,允许部分的基因结构,例如基因含有 N 碱基,或者选择完整结构或者是无内含子的基因
       --singlestrand 分别单独预测每个链方向的基因,例如先预测正链方向,然后反链方向,允许基因之间的 overlap。
       --hintsfile hints 表示基因的边缘信息,例如上下游的非翻译区,此选项用于输入 gff 格式的基因上下游非编码区信息,辅助基因预测
       --AUGUSTUS_CONFIG_PATH=path 软件配置文件目录,没指定从环境变量中获取下面的 --alternatives-from-evidence , --alternatives-from-sampling , --sample ,
       --minexonintronprob,--minmeanexonintronprob,--maxtracks 等,这些选项都是关于基因可变剪切的选项,关于此选项的具体含义,可以查看 README 文件的第四部分介绍
       --proteinprofile 读入一个氨基酸序列文件,作为训练集,关于此选项的具体含义,可以查看 README 文件的第七部分
       --predictionStart=A, --predictionEnd=B A 和 B 表示预测的优先级,优先基因结构头部还是尾部
       --gff3 是否输出 gff 格式结果文件
       --UTR 是否预测非翻译的 UTR 区域,此选项目前只对人基因组,新秀丽线虫,弓形体等起作用
       --outfile 输出文件名
       --noprediction 如果输入的序列是 genebank 格式进行基因预测,并将预测结果和genebank 的结果进行比较后 得出一个精确性的统计结果。 由于 genebank 格式文件中有些 sequences 没有 cds 的注释结果,因此可以使用该参数进行检测,从而得到没有 cds 的序列号,在人为去去除这些没有 cds 注释的序列,再去进行预测准确性的评估。
       --paramlist 输出全部参数列表

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-5-7 05:05 , Processed in 0.049983 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表