生信喵 发表于 2021-12-14 21:04:59

测序数据下载

本帖最后由 生信喵 于 2021-12-14 21:07 编辑

背景
      做生物信息的过程中,除了可以分析自己研究的测序数据,也可以分析公开的测序数据。目前已经累积了大量的测序数据可供下载分析。目前测序数据主要发表在 NCBI,EBI,CNDB,DDBJ 等几大站点。

一、SRA 数据库简介
      SRA(Sequence Read Archive)数据库是 NCBI 用于存储测序的原始数据的数据库,包括 454,Illumina,SOLiD,IonTorren,pacbio,nanopore 等。我们经常会看到文献中给出数据名字为 SRA 然后后面接一些数字。我们根据这个 SRA 的 ID 就可以进行下载了,然后进行数据的分析,重复文献的分析内容。
      链接地址:https://www.ncbi.nlm.nih.gov/sra/
      根据 SRA 数据产生的特点,将 SRA 数据分为四类:
      Studies-- 研究课题,ERP 或 SRP 表示 Studies;
      Experiments-- 实验设计,SRX 表示 Experiments;
      Samples-- 样品信息,SRS 表示 Samples;
      Runs-- 测序结果集,SRR 表示 Runs。
      这四种分类有一个层次关系。首先是 Studies->Experiments->Samples->Runs。这也是一个研究项目正常的逻辑关系。SRA 数据可以使用 NCBI 提供的 sratoolkit 工具来进行处理。

二、利用 sratookit 管理 SRA 数据库
      sra 工具包里面包含了很多工具,可以用来管理和操作 sra 数据库的资源,可以处理多种测序平台的数据。 fastq-dump: 最常用的,将 SRA 数据转换为 fastq 格,也可以直接下载数据 prefetch 下载 sra 数据。
      网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
下载指定版本
ubuntu
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-ubuntu64.tar.gz
centos 版本
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-centos_linux64.tar.gz
tar -zxvf sratoolkit.2.10.8-centos_linux64.tar.gz
首次运行需要进行配置
vdb-config --interactive
三、下载文献数据
3.1 数据介绍
      下载测序数据只要获得该数据在 SRA 数据库中对应的 SRA 号即可,一般会在文章中的 Data
部分。如果存在多样本,则需要得到 PROJECT 号,在 PROJECT 号下面找对应的数据。
      Data bibliography
      1. Raw sequencing data: NCBI BioProject Accession PRJNA422511
      (https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511).
      2. Assemblies: FigShare doi https://doi.org/10.6084/m9.figshare.      7649051 (https://doi.org/10.6084/m9.figshare.7649051).
      3. NCBI GenBank reference sequences:
      a. CFT073: NC_004431.1 (chromosome)
      b. MGH78578: NC_009648.1 (chromosome); NC_009649.
      《Comparison of long-read sequencing technologies in the hybrid assembly of complex bacterial genomes》
      

3.2 获取 PRJNA422511 项目数据
      https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511

3.3 下载测序数据
prefetch SRR8482567 -O ./
2021-09-22T02:46:15 prefetch.2.9.3: 1) Downloading 'SRR8482567'...
观察该提示是 https 还是 fasp
2021-09-22T02:46:15 prefetch.2.9.3: Downloading via https...
3.4 下载参考序列:
      Klebsiella pneumoniae MGH78578
      基因组: NC_009648.1
      https://www.ncbi.nlm.nih.gov/nuccore/NC_009648.1/
      质粒: NC_009649.1
      https://www.ncbi.nlm.nih.gov/nuccore/NC_009649


页: [1]
查看完整版本: 测序数据下载