七、gff 与 gtf 格式文件
gff,gtf 与 bed 都属于基因组区间坐标文件,是生物信息分析中常用的三种列表格式。基因预测的结果,一般以 gff 格式展示。
7.1 GFF 格式
general feature format,是由 sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式,已经成为序列注释的通用格式,许多软件都支持输入或者输出 gff 格式。
基因组上每个功能区域成为一个 feature。gff 文件是一种用来描述基因组特征的文件,现在更新到第三版,通常称为 gff3。GFF 是文本文件,由 TAB 键隔开的 9 列组成,主要是用来存储基因组注释信息,可以直接使用 Excel 打开查看。
说明文档:https://github.com/The-Sequence- ... blob/master/gff3.md
网址:https://genome.ucsc.edu/FAQ/FAQformat.html#format1
- seq_id:序列的编号,一般为 chr 或者 scanfold 编号;
- source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替
- type: 注释信息的类型,比如 Gene、cDNA、mRNA、CDS 等;
- start: 该基因或转录本在参考序列上的起始位置;(从 1 开始,包含);
- end: 该基因或转录本在参考序列上的终止位置;(从 1 开始,包含);
- score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的 E-values 值或者基
- 因预测是的 P-values 值,.表示为空;
- strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
- phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为 0、12. (对于编码蛋白质的
- CDS 来说,本列指定下一个密码子开始的位置。每 3 个核苷酸翻译一个氨基酸,从 0 开始,CDS 的
- 起始位置,除以 3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区第
- 一个密码子的位置,取值 0,1,2。0 表示该编码框的第一个密码子第一个碱基位于其 5’末端;1 表
- 示该编码框的第一个密码子的第一个碱基位于该编码区外;2 表示该编码框的第一个密码子的第一、
- 二个碱基位于该编码区外;如果 Feature 为 CDS 时,必须指明具体值。);
- attributes: 一个包含众多属性的列表,格式为“标签=值”(tag=value),以多个键值对组成的
- 注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”
- 分割。注意如果描述中包括 tab 键以及“,= ;”,要用 URL 转义规则进行转义,如 tab 键用 代替。
- 键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。
复制代码
7.2 GTF 格式
GTF(GeneTransfer Format)格式与 GFF 格式类似,也是由 TAB 键分开的列表格式,一共由9 列组成,前 8 列与 GFF 格式相同,只是第九列不同,主要是用来对基因进行注释。其中的T 代表着转录本,也即是 GTF 中会列出一个基因的转录本组成。gtf 在 RNAseq 分析中要使用到。
- 1) seq_id:序列的编号,一般为 chr 或者 scanfold 编号;
- 2) source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替;
- 3) type: 注释信息的类型,比如 Gene、cDNA、mRNA、CDS 等
- 4) start:该基因或转录本在参考序列上的起始位置;
- 5) end: 该基因或转录本在参考序列上的终止位置;
- 6) score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的 E-values 值或
- 者基因预测是的 P-values 值,“.”表示为空;
- 7) strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
- 8) phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为 0、1、2(对于编码蛋白
- 质的 CDS 来说,本列指定下一个密码子开始的位置。每 3 个核苷酸翻译一个氨基酸,从 0 开始,CDS
- 的起始位置,除以 3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区
- 第一个密码子的位置,取值 0,1,2。0 表示该编码框的第一个密码子第一个碱基位于其 5'末端;1
- 表示该编码框的第一个密码子的第一个碱基位于该编码区外;2 表示该编码框的第一个密码子的第
- 一、二个碱基位于该编码区外;如果 Feature 为 CDS 时,必须指明具体值。);
- 9) attributes:一个包含众多属性的列表,格式为“标签=值”(tag=value),标签与值之间以
- 空格分开,且每个特征之后都要有分号;(包括最后一个特征),其内容必须包括 gene_id 和
- transcript_id。以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;
复制代码 GTF 文件可以通过从 ensembl 网站或者 ucsc 网站下载:
- #人基因组 gtf 文件
- wget
- http://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.
- gtf.gz
复制代码 或者通过 gffread 软件,将 gff 转换为 gtf,该软件来自于 cufflinks 软件包中。
- #gff2gtf
- gffread my.gff3 -T -o my.gtf
- #gtf2gff
- gffread merged.gtf -o- > merged.gff3
复制代码
|