生信喵 发表于 2022-12-31 22:47:30

宏基因组基因功能注释

本帖最后由 生信喵 于 2023-1-13 07:57 编辑

一、eggnog-mapper简介
       拼接完的宏基因组序列,进行基因预测,去冗余,最终得到宏基因组测序的基因组。那么这些基因都有哪些功能呢?这就需要进行基因功能注释。基因功能注释就是将待查基因与已知数据库进行比对,如果比对上则认为二者为同源基因,执行相同的功能。宏基因组中通常包括很多新发现的基因,无法比对上已知数据库。所以,在宏基因组研究中,一部分或者大部分基因无法注释得到功能属于正常现象。
       这里我们使用 eggnog-mapper 工具来进行基因功能注释。eggnog-mapper 是一个非常方便的基因功能注释流程 。可以自动化完成基因功能注释工作,其内置了COG/KOG/KEGG/GO/BiGG 等数据库,也可以自行创建注释数据库。
       eggnog-mapper 在不同的系统分类水平都进行了构建直系同源簇,当前使用的 eggNOG v5.0 版本数据库,包含 5,090 代表性的基因组,其中包括 4445 个细菌,168 古细菌,477个真核生物以及 2502 个病毒。当前 v2 版本的 eggnog-mapper,不在支持 hmmer 比对。

二、软件安装
       网址:https://github.com/eggnogdb/eggnog-mapper
       在线版本:http://eggnog-mapper.embl.de/
       文档:https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2
#安装eggnog-emapper
conda create -n eggnog-mapper python=2.7
conda activate eggnog-mapper
conda install -c bioconda -y eggnog-mapper
mkdir eggnog_database
cd eggnog_database
#镜像数据下载
axel -n 100 http://download.nmdc.cn/tools/eggnog/eggnog.db.gz
axel -n 100 http://download.nmdc.cn/tools/eggnog/eggnog_proteins.dmnd.gz
#基因功能注释
diamond --version
        diamond version 0.8.22 #diamond提示数据库版本不对,就安装2.0.13版本
conda install diamond=2.0.13
三、软件使用emapper.py -i mg.filter.faa --output annotation -m diamond --data_dir eggnog_database选项参数:
       -i: 输入文件,最好基因的氨基酸文件
       -o: 输出结果前缀
       -m: 使用 HMMER 策略还是 DIAMOND 策略,默认使用 HMMER,新版本只支持 diamond
       --cpu:使用的线程数
       --translate:如使用的核酸序列,选择 HMMER 策略时需要先翻译成氨基酸序列
       --usemem: 将 emapper.db 读入内存
       --output_dir:输出结果文件夹
       --report_orthologs: 列出所有进行功能转移的直系同源基因
       --no_annot: 只汇总鉴定的最佳 seed 序列以及相应的 E 值和 Bitscore 值
       --no_search:可直接基于--no_annot 的结果进行后续功能注释
       --target_orthologs: one2one,many2one,one2many,many2many,all 可选。
       --data_dir: 数据库目录
       --tax_scope: 指定选择的直系同源基因的物种分类范围,默认为自动判断。

四、结果解读

       最终会生成两个文件,分别是 mg.emapper.annotations 和 mg.emapper.seed_orthologs
       第一列:查询序列名称;
       第二列:eggNOG 种子序列;
       第三列:eggNOG 种子序列 evalue;
       第四列:eggNOG 种子序列 bit score;
       第五列:预测基因名称;
       第六列:GO_terms, 预测的 GO,分号分隔;
       第七列:KEGG_KO: 预测的 KO,分号分隔;
       第八列:BiGG_Reactions: BiGG 代谢反应预测,分号分隔;
       第九列:eggNOG Taxonomic Scope 信息;
       第十列:匹配的 OGs;
       第十一列:best_OG|evalue|score: Best matching Orthologous Groups (only in HMM mode)
       第十二列:COG 功能分类;
       第十三列:eggNOG 功能描述;



页: [1]
查看完整版本: 宏基因组基因功能注释