|
发表于 2023-5-24 11:46:38
|
查看: 6657 |
回复: 2
本帖最后由 生信喵 于 2023-5-24 17:10 编辑
一、软件安装
- #1 下载biconda
- wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
- #2 安装
- sh Miniconda3-latest-Linux-x86_64.sh
- source ~/.bashrc
- #3 添加软件源
- conda config --add channels bioconda
- conda config --add channels conda-forge
- #4 安装mamba
- conda install -y mamba
- #创建虚拟环境
- conda create -n human -y
- conda activate human
- conda install -y fastqc
- conda install -y multiqc
- conda install -y fastp
- conda install -y gatk4
- conda install -y bwa
- conda install -y bwa-mem2
- conda install -y samtools
- conda install -y bcftools
- conda install -y minimap2
- conda install -y longshot
- conda install -y cutesv 没装上
- conda install -y ngmlr
- conda install -y sniffles
- conda install -y seqkit
- conda install -y snpeff
- conda install -y snpsift 没装上
- conda install -y freebayes
复制代码
二、参考序列下载
变异检测需要将测序数据与参考序列进行序列比对,比较二者基因组上的差异。因此在做变异检测的过程中,除了样品本身测序对分析结果有影响,参考序列同样有重要的影响。一些重要物种往往有多个版本的参考序列可供选择,因此选择合适的参考序列是非常重要的准备工作。
2.1 人全基因组版本介绍
做人全基因的变异检测,首先需要下载人全基因组参考序列。参考序列主要是一些已发表物种基因组的一些信息,可以包括基因组序列,基因的核酸序列,基因的氨基酸序列,坐标文件,注释信息等,需要针对不同的分析目的,选择合适的数据进行下载。由于分析目的的不同,人全基因组参考序列包含很多的版本,同一版本有衍生出很多特殊版本,例如重复序列是否屏蔽,是否带端粒,中心粒,孢疹病毒,ALT 序列,rCRS mitochondrial,是否包含没有定位到基因组上的序列,以及参考序列 ID 是否与后续注释数据库相同等。需要考虑的因素比较多。
常见的参考序列主要存储在国际三大核酸数据库 NCBI,EMBL,DDBJ 等,还包括 UCSC 以及一些物种单独的网站上。由于参考序列一般比较大,这里推荐使用 ftp 工具进行下载,ftp工具是专门的针对 ftp 文件传输协议的工具,下载速度更快,并且支持断点续传,可以使用xftp 或者 filezilla 等访问 ftp 进行下载,也可以直接通过命令行 ftp 工具进行下载,例如 lftp命令等。
- NCBI: ftp://ftp.ncbi.nlm.nih.gov/
- EMBL:ftp://ftp.ensembl.org/pub/
- UCSC: http://genome.ucsc.edu/
- JGI:https://jgi.doe.gov/
- ENSEMBL:http://asia.ensembl.org/info/about/species.html
复制代码
2.2 不同版本人参考序列之间的关系
众所周知人类基因组主要构成包括 22 条常染色体(1-22),2 条性染色体(X,Y)和线粒体 DNA(mtDNA),但是由于拼接结果不完整等原因,人全基因组参考序列存在多个版本。
而且即使是同样的序列,存储在不同数据库的命名也有很大差别,例如来自 UCSC 数据库中,一般命名为 hg18,19,hg38。而在 NCBI 数据库中命名为 GRch36,37,38,GRC 是 Genome Reference Consortium 的简称,而 embl 数据库中则是 release 然后跟一个版本号,有非常多的版本,千人基因组命名为 b36,b37。
目前,广泛使用的版本是GRCH37和GRCH38。2009年,the Genome Reference Consortium (GRC)发布了第 19 版人类基因组 GRCH37,也常被称为 hg19。GRCH37 被广泛应用于数据分析。2013年,GRC 发布了 GRCH38。但由于注释工具、数据库的不健全及升级基因组工作繁杂,时至今日,GRCH37 仍被相当程度地使用。
不同数据库采用不同的命名方式,UCSC 命名最简单,就是 hg 加数字,比如 hg18,hg19 和hg38 这些版本比较常用;NCBI 的命名更复杂一些,是 GRCH 开头,然后数字,36,37,38 等。而 ENSEMBL 命名就更复杂了,只给出版本比如 52,59,61,80,81,82 等。这三种命名方式有一个对应关系。如下表所示:
不同版本基因组比较
发布时间 | UCSC | NCBI | ENSEMBL | 1000G | - | hg18 | GRCh36 | release_52 | b36 | 2009 | hg19 | GRCh37 | release_59/61/64/68/69/75 | b37 | 2013 | hg38 | GRCh38 | 76/77/78/80/81/82 | --- |
2.3 GRCH37 与 GRCH38 版本详细差别
根据 GRC 的官方文件,GRCH38 是最精确的人类基因组。GRCH38 基于金标准 Sanger 测序组装,读长约为 1000bp,精确度是高通量测序的 10 倍。与 GRCH37 相比,GRCH38 替换了 8000 个等位基因位点,校正了数个组装错误的基因组区域,补全了 gap,添加了着丝粒序列,在 178个区域组装了 261 条 alternate loci,丰富了基因组的多样性。
已发表的论文认为 GRCH38 是 GRCH37 的重大升级,可提供更精确的生物信息学和基因组学分析。我们设计了实验量化基于 GRCH38 和 GRCH37 的数据分析差异。
- 参考材料 1:https://doi.org/10.1016/j.ygeno.2017.01.005
- 参考材料 2:
- https://bitesizebio.com/38335/get-to-know-your-reference-genome-grch37-vs-grch38/
复制代码 GRCH37 与 GRCH38 详细比较
不算线粒体 DNA,GRCH37 和 GRCH38 分别有 3095677412 和 3088269832 个核苷酸。最常用的线粒体基因组是 1999 年剑桥发布的 rCRS,因此两者线粒体基因组是一样的。在基因组 fasta文件中,’N’表示 gap 或者未注释区域,GRCH37 共有 234350281 个‘N’,而 GRCH38 中有150630719 个,减少了 83719562 个,占比 35.7%。从表 1 中看出,每条染色体上的‘N’数量都有减少。有文献研究表明 GC 含量影响 Illumina 测序深度及测序均一性,这与后续的CNV 检测密切相关。GC 位点的总数从 GRCH37 的 1170371008 增加到 GRCH38 的 1200551672,共计增加了 30180664 个核苷酸。
外显子可以编码氨基酸,是人类基因组最重要的组成部分。从 Ensembl (GRCh37 v37.75, GRCh38 v38.82)下载最新的 Gene Feature Format (GTF)文件统计外显子区域。外显子区域由 GRCH37 的 75231228 个核苷酸增加到 GRCH38 的 95505476 个,约有 26.9%的增幅。从全基因组水平看,外显子占比由 2.43%增至 3.09%。外显子区域扩大的主要原因有 3 个:i.在GRCH38 中,外显子的总数从 327058 个增加到 457748 个;ii.每个基因的外显子数从 13 个增加到 19 个;iii.每个外显子核苷酸的中位数从 140 增加到 146。
2.4 选择合适的基因组版本
那么到底该选择哪个版本的基因组呢?首先要清楚不同版本之间的详细差别。不同版本的参考基因组,主要有几点差别:
第一、序列不同,早前测序的基因组版本与后面测序的基因组版本,例如 hg19 和 hg38 之间,序列会有所差别,导致基因组坐标也不同。
第二、里面包含的内容不同,由于人的全基因组并不是非常完美的 24 条,会有很多序列指导染色体号但是无法定位到具体位置,例如 chr2_KI270716v1_random;还有一些无法定位到具体染色体上,例如 chrUn 开头的,还有一些包含 EBA,HLA 序列等。
第三、同一个序列,在不同库之间命名会有所有不同,例如有的版本基因组命名包括 chr,例如 chr1,chr2,而有些则只包含染色体号。
第四、重复序列屏蔽方式,对于重复区域,有些基因组中会将重复序列替换为 N,成为“hardmask”,或者替换为小写字母,称为“soft mask”,有些则不作任何处理。
除此之外,还与具体的分析目的有关系,例如要做 SNP 检测,就需要屏蔽重复序列,如果做RNAseq 则不需要。这里有有一篇博客,详细阐述不同版本基因组选择的问题。
- https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use
复制代码
三、不同版本人全基因组序列下载
下面具体来介绍一下各个版本之间的差别,以及如何下载具体的序列。
3.1 ncbi
Genome Reference Consortium(基因组参照序列联盟),由英国 Wellcome Trust Sanger 研究中心(the Wellcome Trust Sanger Center)、华盛顿大学基因组中心(The WashingtonUniversity Genome Center)、欧洲生物信息研究所(the European Bioinformatics Institute)和美国国家生物技术信息中心(NCBI)联合组成。
该版本包含人类 chr1 到 chr22,chrX,chrY,MT 染色体以及
• “unlocalized sequences”:知道来自哪条染色体但不知道具体位置的序列
• “unplaced sequences”:知道来自人类基因组序列,但不知道与染色体的关系
• “alternate loci”:来自基因组特定区域,代表该区域序列的多样性
“1” to “22”, “X”, “Y” and “MT”命名比较规范,ENSEMBL, genome browser, the NCBI dbSNP (in VCF files), the Sanger COSMIC (in VCF files),都依照该规范。
下载地址:
- https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/
复制代码
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
|