|
发表于 2022-11-9 10:37:51
|
查看: 17442 |
回复: 2
背景
HUMAnN,The HMP Unified Metabolic Analysis Network,是一款快速获得宏基因组、宏转录组物种和功能组成的软件。metaphlan 主要进行物种的组成分析,而 humann 更进一步,除了物种组成,还包括功能组成分析。humann 通过调用 metaphlan 完成物种组成部分。与metaphan 类似,humann 使用简单,运行速度快,与传统的翻译比对方法相比,采用分层式算法比对标记基因、泛基因组和蛋白数据库,速度更快且准确率更高;
humann 在宏基因组研究中非常有用,通过这个分析,不仅能获得微生物的物种丰度信息,还能准确有效地获得微生物代谢途径和功能模块信息。目前已发布 HUMAnN3。
humann 的名字来源于人类微生物组计划,Human Microbiome Project,是可以应用于所有领域的宏基因组的功能组成分析,不单单局限于人体微生物基因组。
官方网站:
- http://huttenhower.sph.harvard.edu/humann
复制代码 文章:
- https://www.nature.com/articles/s41592-018-0176-y
复制代码 帮助文档:- https://github.com/biobakery/humann
- https://github.com/biobakery/biobakery/wiki/humann3
复制代码
一、软件使用
- conda activate biobakery
- humann --input-format fastq.gz --input SRS011243_1.fq.gz --input SRS011243_2.fq.gz --output humannSRS011243 --threads 12 --search-mode uniref90
- bsub -q fat -n 12 -o %J.log -e %J.err sh hum.sh
复制代码
二、结果解读
输出文件位于输入目录中的输出目录,默认会输出三个结果文件
1、基因家族文件
群体中每个基因家族的丰度。基因家族是一组进化上相关的编码蛋白序列,通常具有相似功能。基因家族的丰度在群体水平分级显著,显示已知和未知物种的贡献度。
使用 MetaPhlAn2 软件和 ChocoPhlAn 数据库,检索核酸翻译的蛋白数据库,基因家族的丰度采用 RPK(每 Kb 的 reads)以标准化不同的基因长度;RPK 单位代表基因或转录本在群体中的拷贝数;RPK 值可进一步求和标准化,用于不同样品测序深度的比较。如果输入文件是基因表,不会创建基因家族文件
UNMAPPED 是两步核酸和蛋白搜索后,仍无法比对的 reads 数量。
UniRef50_unknown 代表可比对 ChocoPhlAn,但没有注释
2、 通路丰度文件
文件名:OUTPUT_DIR/$SAMPLENAME_pathabundance.tsv
代表群体中通路的丰度,即有群体水平,又有物种水平丰度。通路按丰度大小排序,物种组分也按丰度大小排序,全为 0 的通路不输出,通路的比例是是完整拷贝的丰度,如线性通路Gene1-4,分别为 10,5,5,5。则按 5 计算。
与基因不同,通路的丰度并一定是群体组分的总合。A 物种[5, 5, 10, 10]为 5 个拷贝,B 物种[10, 10, 5, 5]为 5 个拷贝,而总体有 15 个拷贝;对于单个基因必须的反应步骤为零丰度时,可进行所需最低丰度填充。MetaCyc 默认定义最简通路解析群体观测的代谢通路;非线性基因拷贝数、无法比对序列处理方法请参考英文原文
3. 通路覆盖度文件
文件名:$OUTPUT_DIR/$SAMPLENAME_pathabundance.tsv
文件提供了一种有(1)和无(0)的群体通路计算法,而不是相对丰度,每个反应有置信得分计算通路覆盖与相对丰度一致,通路丰度在群体水平和物种水平计算群体水平比物种水平更可信,只输出非零丰度的通路,通路覆盖度与通路丰度顺序相同。
三、合并结果
与前面介绍Metaphlan的合并一样,Humann 结果格式是一种非常常用的物种分类展示格式。这种格式可以很方便进行下游处理,例如导入 megan,转换为 stamp 支持的格式,使用 pivian 可视化,转换为krona 可视化,导入 graphlan 中可视化,利用 metaphlan_hclust_heatmap.py 绘制热图,以及 lefse 分析等。
|
|