生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

281

主题
发表于 2021-12-14 21:04:59 | 查看: 1479| 回复: 0
本帖最后由 生信喵 于 2021-12-14 21:07 编辑

背景
      做生物信息的过程中,除了可以分析自己研究的测序数据,也可以分析公开的测序数据。目前已经累积了大量的测序数据可供下载分析。目前测序数据主要发表在 NCBI,EBI,CNDB,DDBJ 等几大站点。

一、SRA 数据库简介
      SRA(Sequence Read Archive)数据库是 NCBI 用于存储测序的原始数据的数据库,包括 454,Illumina,SOLiD,IonTorren,pacbio,nanopore 等。我们经常会看到文献中给出数据名字为 SRA 然后后面接一些数字。我们根据这个 SRA 的 ID 就可以进行下载了,然后进行数据的分析,重复文献的分析内容。
      链接地址:https://www.ncbi.nlm.nih.gov/sra/
      根据 SRA 数据产生的特点,将 SRA 数据分为四类:
      Studies-- 研究课题,ERP 或 SRP 表示 Studies;
      Experiments-- 实验设计,SRX 表示 Experiments;
      Samples-- 样品信息,SRS 表示 Samples;
      Runs-- 测序结果集,SRR 表示 Runs。
      这四种分类有一个层次关系。首先是 Studies->Experiments->Samples->Runs。这也是一个研究项目正常的逻辑关系。SRA 数据可以使用 NCBI 提供的 sratoolkit 工具来进行处理。

二、利用 sratookit 管理 SRA 数据库
      sra 工具包里面包含了很多工具,可以用来管理和操作 sra 数据库的资源,可以处理多种测序平台的数据。 fastq-dump: 最常用的,将 SRA 数据转换为 fastq 格,也可以直接下载数据 prefetch 下载 sra 数据。
      网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
  1. 下载指定版本
  2. ubuntu
  3. https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-ubuntu64.tar.gz
  4. centos 版本
  5. wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-centos_linux64.tar.gz
  6. tar -zxvf sratoolkit.2.10.8-centos_linux64.tar.gz
  7. 首次运行需要进行配置
  8. vdb-config --interactive
复制代码

三、下载文献数据
3.1 数据介绍
      下载测序数据只要获得该数据在 SRA 数据库中对应的 SRA 号即可,一般会在文章中的 Data
部分。如果存在多样本,则需要得到 PROJECT 号,在 PROJECT 号下面找对应的数据。
      Data bibliography
      1. Raw sequencing data: NCBI BioProject Accession PRJNA422511
      (https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511).
      2. Assemblies: FigShare doi https://doi.org/10.6084/m9.figshare.      7649051 (https://doi.org/10.6084/m9.figshare.7649051).
      3. NCBI GenBank reference sequences:
      a. CFT073: NC_004431.1 (chromosome)
      b. MGH78578: NC_009648.1 (chromosome); NC_009649.
      《Comparison of long-read sequencing technologies in the hybrid assembly of complex bacterial genomes》
      

3.2 获取 PRJNA422511 项目数据
      https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511

3.3 下载测序数据
  1. prefetch SRR8482567 -O ./
  2. 2021-09-22T02:46:15 prefetch.2.9.3: 1) Downloading 'SRR8482567'...
  3. 观察该提示是 https 还是 fasp
  4. 2021-09-22T02:46:15 prefetch.2.9.3: Downloading via https...
复制代码

3.4 下载参考序列:
      Klebsiella pneumoniae MGH78578
      基因组: NC_009648.1
      https://www.ncbi.nlm.nih.gov/nuccore/NC_009648.1/
      质粒: NC_009649.1
      https://www.ncbi.nlm.nih.gov/nuccore/NC_009649


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-5-21 11:47 , Processed in 0.047752 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表