生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

278

主题
发表于 2022-3-7 21:32:04 | 查看: 1342| 回复: 0
本帖最后由 生信喵 于 2022-3-7 21:32 编辑

背景
       目前有关新冠病毒的数据已经有很多了,包括发表出来的新冠病毒全基因组序列,有 SARS病毒参考序列,各个平台的测序数据。本文档中使用公共序列,我们需要下载序列,各个突变株的基因组序列,测序数据等。目前的数据分散在各个平台之上,需要从多个平台,采用多种方法来进行下载。
一、新冠病毒序列下载站点
       首先我们介绍如何从 NCBI 下载新冠,SARS,batSARS 等参考序列的方法,除了 NCBI,还有其他几个站点可以下载序列,这节内容中,我们分别来进行介绍。
1.1 NCBI 下载
       NCBI 存储目前已经发表出来了很多新冠病毒的基因组数据,并且 NCBI 还专门提供了一个新冠病毒的页面。除此之外,我们还需要下载一些 SARS 病毒的序列作为比较分析。
       NCBI 新冠数据专题页:https://www.ncbi.nlm.nih.gov/sars-cov-2/
       批量下载页面:
       https://www.ncbi.nlm.nih.gov/lab ... 20pneumonia%20virus,%20taxid:2697049
       可以直接选中,然后批量下载,同时 NCBI 也提供了比对和绘制系统发育树的功能,直接在网页端操作即可,非常方便。因为这些片段并不是都是全基因组长度,有些只是片段,也可以根据长度进行过滤,只下载全基因组序列。
      

1.2 GISAID
       GISAID(https://www.gisaid.org/)的全称是 Global Initiative on Sharing All Influenza Data,之前这是一个收集一个流感病毒的数据库,如果不是这次疫情没有多少人会知道它,目前GISAID 收集了很多新冠病毒的序列,NCBI 搜集的超过 70 万,更多的需要从 GISAID 下载。
不过如果想要从该网站下载数据,需要使用教育类邮箱下载数据,并且一堆严格的责权信息。这条规则被 biostar 网站作者疯狂吐槽,该网站不仅要求注册下载,并且下载的时候不能批量操作,需要一条条下载,样品元数据为 PDF 各二十,无法在流程中批量检索,并且更为严重的是,里面的内容杂乱无章,有些序列 ID 重复,所以还是放弃它吧,NCBI 可以下载到同样的序列。

      

1.3 中国国家基因库 CNGB
       中国国家基因组也搜集了很多数据,可以公开下载,并且国家基因组还与 GISAID 合作,可以从 CNGB 上下载 GISAID 的数据。不过目前还需要链接到 GISAID 网站。但是其中由国家基因库搜集到的部分序列,可以免费下载。
       中国国家基因库 CNGB 新冠数据下载中心:https://db.cngb.org/datamart/disease/DATAdis19/
      

1.4 国家生物信息中心
       国家生物信息中心专门提供一个界面下载新冠病毒序列,这个比较好用,统计信息也非常清晰,下载比较容易,直接选中下载即可。也可以直接点击下载全部序列,一键下载全部序列,非常方便。但是请注意其中一行小字。如果是来自 GISAID 站点的部分序列不能下载。
       国家生物信息中心新冠数据下载中心:https://bigd.big.ac.cn/ncov/release_genome

      

二、下载序列实战代码
       目前有关新冠病毒的数据已经有很多了,包括发表出来的新冠病毒全基因组序列,有 SARS病毒参考序列,各个平台的测序数据。本文档中使用公共序列,我们需要下载序列,各个突变株的基因组序列,测序数据等。目前的数据分散在各个平台之上,需要从多个平台,采用多种方法来进行下载。
1、参考序列下载
       为了做比较分析,我们需要首先下载一些新冠病毒的参考序列,还需要下载之前 SARS 病毒的序列,根据 Accession Number,就可以从 NCBI 下载。
       https://datascience.nih.gov/covid-19-open-access-resources
       新冠数据包:https://www.ncbi.nlm.nih.gov/dat ... /sars-cov-2-genome/
1.1 新冠病毒参考基因组
       目前使用的新冠病毒参考序列为 NC_045512.2,该序列为 2020 年 1 月 18 日第一株公布出来的新型冠状病毒序列。样品来自武汉采集样本,原始 GenBank accession number 为MN908947,refseq 库 accession number 为 NC_045512.2,长度 29903bp,原始数据为SRR10971381。
       参考序列网址:https://www.ncbi.nlm.nih.gov/nuccore/NC_045512
       文章:https://www.nature.com/articles/s41586-020-2008-3.pdf
       #下载参考序列
  1. efetch -db nuccore -format fasta -id NC_045512 > NC_045512.fa
复制代码
1.2 SARS 基因组
       下载 SARS 基因组序列用于与新冠病毒进行比对分析,构建系统发育树等。SARS 参考基因组 accession number 为 NC_004718.3,物种分类 ID 为 694009。
       SARS 参考基因组网址:https://www.ncbi.nlm.nih.gov/nuccore/NC_004718.3
       #下载序列
  1. efetch -db nuccore -format fasta -id KT444582 > SARS_ref.fa
复制代码
      从网页端下载全部 SARS 基因组序列。
       1、搜索关键字“SARS”

      
       2、选择保存文件
      
       3、过滤 batSARS 序列
       由于 SARS 关键字中会带有 batSARS,很难过滤掉,因此下载的序列中会混有蝙蝠分离株的冠状病毒序列。这是因为命名不规则所致,这里就需要人为去做检验,将 batSARS 部分删除掉。

1.3 蝙蝠分离株
       蝙蝠分离株为从蝙蝠体内分离出来的冠状病毒序列,该序列与 SARS 序列具有较高的同源性,因此正式 SARS 病毒来自于蝙蝠。蝙蝠分离株命名为 batSARS,参考序列株为MG772933。

       #下载序列
  1. efetch -db nuccore -format fasta -id MG772933 > batSARS_ref.fa
复制代码
      https://www.ncbi.nlm.nih.gov/nuccore/MG772933
       1、搜索关键字“Bat SARS-like”
       2、左侧进行筛选,选择核酸序列,序列长度从 20000-40000bp。筛选完成之后,满足条件的一共有 33 株样本。


      
       3、从网页端直接输出文件,一次选择“sendto”,选择 file,fasta 格式,create file。
      

1.4 不同地区代表株
       由于目前新冠病毒已发表出来的基因组超过 200 多万个样本,其中 NCBI 可以下载的超过78 万,无法对全部数据进行比对分析,并且其中很多序列差别很小,这里我们只随机挑选一些典型突变株作为演示。按照 WHO 最新命名规则,最早于 2020 年 9 月发现于英国的新冠变种病毒(编号 B.1.1.7)被命名为 Alpha;2020 年 5 月发现于南非的新冠变种病毒(编号 B.1.351 )被命名为 Beta;2020 年 11 月和 4 月发现于巴西的新冠变种病毒(编号分别为 P.1、P.2)分别被命名为 Gamma、Zeta;2020 年 10 月发现于印度的两种新冠变种病毒(编号 B.1.617.2、B.1.617.1)分别被命名为 Delta、Kappa。
       WHO 新冠病毒变种株命名规则:
       https://www.who.int/en/activities/tracking-SARS-CoV-2-variants/

      
      
       利用 efetch 进行下载,efetch 可以批量下载,这里我们单独下载每个序列,方便重新命名DI 和文件名。

  1. efetch -db nuccore -format fasta -id MZ310552 >UK_B117.fa;sed -i "s/>.*/>UK_B117        MZ310552/g" UK_B117.fa
  2. efetch -db nuccore -format fasta -id MZ202314 >SouthAfrica_B1351.fa;sed -i "s/>.*/>SouthAfrica_B1351        MZ202314/g" SouthAfrica_B1351.fa
  3. efetch -db nuccore -format fasta -id MZ169911 >Brazil_P1.fa;sed -i "s/>.*/>Brazil_P1        MZ169911/g" Brazil_P1.fa
  4. efetch -db nuccore -format fasta -id MZ318159 >India_B16172.fa;sed -i "s/>.*/>India_B16172        MZ318159/g" India_B16172.fa
  5. efetch -db nuccore -format fasta -id MZ373479 >USA_B1427.fa;sed -i "s/>.*/>USA_B1427        MZ373479/g" USA_B1427.fa
  6. efetch -db nuccore -format fasta -id MZ169912 >Brazil_P2.fa;sed -i "s/>.*/>Brazil_P2        MZ169912/g" Brazil_P2.fa
  7. efetch -db nuccore -format fasta -id MW852494 >USA_B1525.fa;sed -i "s/>.*/>USA_B1525        MW852494/g" USA_B1525.fa
  8. efetch -db nuccore -format fasta -id MZ257684 >Philippines_P3.fa;sed -i "s/>.*/>Philippines_P3        MZ257684/g" Philippines_P3.fa
  9. efetch -db nuccore -format fasta -id MZ310903 >USA_B1526.fa;sed -i "s/>.*/>USA_B1526        MZ310903/g" USA_B1526.fa
  10. efetch -db nuccore -format fasta -id MZ310580 >india_B16171.fa;sed -i "s/>.*/>india_B16171        MZ310580/g" india_B16171.fa
复制代码


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-4-30 01:47 , Processed in 0.047504 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表