真核生物基因预测

生信喵 发表于 2022-6-22 21:28:32

一、同源基因比对
#下载参考序列基因集
https://www.ncbi.nlm.nih.gov/genome/?term=NC_009648
wget -c
https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/240/185/GCF_000240185.1_ASM24
018v2/GCF_000240185.1_ASM24018v2_protein.faa.gz
#建立索引
$ makeblastdb -in GCF_000240185.1_ASM24018v2_protein.faa -dbtype prot
-parse_seqids -out GCF_000240185.1_ASM24018v2_protein.faa
#blastx 比对
blastx -query MGH78578.fasta -out blast.out -db
GCF_000240185.1_ASM24018v2_protein.faa -outfmt 6 -evalue 1e-5 #提取比对区域，生成 bed 文件
awk '{if ($7 < $8) print $1"\t"$7-1"\t"$8;else print $1"\t"$8-1"\t"$7}'
blast.out >gene.bed
#根据比对位点，提取序列
seqkit subseq --bed gene.bed MGH78578.fasta >MGH78578_gene.ffn

二、真核生物基因预测
   真核生物的开放阅读框不仅含有编码蛋白的外显子，而且还有内含子，并且内含子将开放阅读框分割为若干个小片段。开放阅读框的长度变化范围非常大，因此真核生物的基因预测远比原核生物困难。但是，在真核生物的开放阅读框中，外显子与内含子之间的连接绝大部分情况下满足 GT-AG 规律：即内含子序列 5' 端的起始两个核苷酸总是 GT，并且其 3'端的最后两个核苷酸总是 AG，即：5'-GT ……AG-3'，这个规律有助于真核生物开放阅读框的识别。因此真核生物的预测基因更加复杂。常用的软件包括 augustus，snap，GlimmerHMM，GENSCAN，genemarks 等工具。

利用 augustus 预测真核生物基因
   官网：http://bioinf.uni-greifswald.de/augustus/

#安装 augustus 软件
mamba create -n augustus -y augustus=3.4.0
#激活环境
conda activate augustus
#查看软件自带模型
augustus --species=help
augustus --strand=both --genemodel=partial --singlestrand=false --protein=on
--introns=on --start=on --stop=on --cds=on --codingseq=on
--alternatives-from-evidence=true --gff3=on --UTR=on --outfile=out.gff
--species=arabidopsis ninanjie.fa选项参数：
   -strand 预测序列的方向，是正向还是反向，还是正反链都预测，一般基因正反链都有分布，所以选择 both
   --genemodel 预测基因的模式，允许部分的基因结构，例如基因含有 N 碱基，或者选择完整结构或者是无内含子的基因
   --singlestrand 分别单独预测每个链方向的基因，例如先预测正链方向，然后反链方向，允许基因之间的 overlap。
   --hintsfile hints 表示基因的边缘信息，例如上下游的非翻译区，此选项用于输入 gff 格式的基因上下游非编码区信息，辅助基因预测
   --AUGUSTUS_CONFIG_PATH=path 软件配置文件目录，没指定从环境变量中获取下面的 --alternatives-from-evidence ， --alternatives-from-sampling ， --sample ，
   --minexonintronprob，--minmeanexonintronprob，--maxtracks 等，这些选项都是关于基因可变剪切的选项，关于此选项的具体含义，可以查看 README 文件的第四部分介绍
   --proteinprofile 读入一个氨基酸序列文件，作为训练集，关于此选项的具体含义，可以查看 README 文件的第七部分
   --predictionStart=A, --predictionEnd=B A 和 B 表示预测的优先级，优先基因结构头部还是尾部
   --gff3 是否输出 gff 格式结果文件
   --UTR 是否预测非翻译的 UTR 区域，此选项目前只对人基因组，新秀丽线虫，弓形体等起作用
   --outfile 输出文件名
   --noprediction 如果输入的序列是 genebank 格式进行基因预测，并将预测结果和genebank 的结果进行比较后得出一个精确性的统计结果。由于 genebank 格式文件中有些 sequences 没有 cds 的注释结果，因此可以使用该参数进行检测，从而得到没有 cds 的序列号，在人为去去除这些没有 cds 注释的序列，再去进行预测准确性的评估。
   --paramlist 输出全部参数列表

页: [1]

生信人's Archiver

真核生物基因预测