生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

278

主题
发表于 2023-5-24 18:26:34 | 查看: 2237| 回复: 0
一、瓶中基因组计划
       所谓瓶中基因组,来自于 Genome in a Bottle,简称 GIAB,根据字面含义就是在一个瓶子中的基因组。这个计划来自于美国国家标准与技术研究所(NIST)。这就是为了解决基因组研究中一直以来都面临的一个很大的问题,就是参考标准的问题。比如我们利用软件分析出的基因,或者变异位点,是否准确呢,没有参考标准。人类基因组计划就是为了建立一个参考。但是这 30 亿个碱基对都准确吗,显然不是。如果有一个位点发生了错误,那么后面所有的分析都会带来影响。因此,有一个能参考的金标准是非常重要的。而 NIST 就是做这个事情的。
       网址:
  1. https://www.nist.gov/programs-projects/genome-bottle
复制代码
      瓶中基因组并不是要得到一个标准的基因组序列,比如得到一条更准确的 hg19 或者 hg38。
       瓶中基因组是对同一个 DNA 样品反复测序,也就是制定标准 DNA 材料,这个 DNA 样本最初由一位犹他州的妇女在 1980 年捐献,来自于千人基因组计划,被认为是世界上研究最透彻的二倍体人类基因组,这个样品标号为 NA12878,她的 DNA 材料提取很多份,放到瓶子中,也就是存放 DNA 的小容器,这就是所谓的瓶中基因组的由来。
       那么全球各地的测序中心都可以买这份材料,然后回去自己测序,由于大家都用同一份材料,因此会最大程度减小误差,而且采用不同的测序平台,包括 illumina,IonTorrent,Pacbio,BGIseq,10Xgenomics,CompletGenomics,SOLID 等,不同测序平台的测序数据可以用来进行取交集,更加准确。
       实验室可利用参考材料来评估它的文库制备方法、测序仪和生物信息学过程,如定位、比对和变异检出。“这种材料可用于评估变异检出的真阳性、假阳性、真阴性和假阴性,其实这也是一次测序仪之间性能的比较,以后也可以成为新测序的评价标准之一。
  1. https://www.nist.gov/news-events/news/2016/09/nist-releases-new-family-standardized-genomes
复制代码
      目前 NIST 处理提供这个妇女的 DNA 材料之外,还提供了更多的材料。包括最初的犹他州妇女 NA12878 的材料,东欧一个犹太家庭,包括父母和儿子,这样的材料更加珍贵,因为子女的 DNA 是父母的组合,通过三份材料更容易看出 DNA 的重组杂合情况,还有一个中国男性,另外是细菌的。这些材料可以在 NIST 上面购买到。这些材料都是以 RM 开头命令的,rm 表示 Reference Material。这些材料编号不要弄混了。例如:
  1. NISTRM 8398—全称是 Human DNA for Whole-Genome Variant Assessment(Daughter of
  2. Utah/European Ancestry),就是 NA12878,这个是最重要的材料;
  3. NIST RM 8391— 东欧犹太家庭的小男孩;
  4. NIST RM 8392— 这个是一次提供三个样品,就是东欧犹太家庭,包括父亲,母亲,和儿子,也就
  5. 是包括了 RM8391 的样品;
  6. NIST RM 8393—来自中国家庭男孩的材料编号,其实中国这个样品也是一个家庭,只不过目前卖的
  7. 材料还只是小男孩的,可能还没做好。
  8. NIST RM 8375—四个细菌基因组,沙门氏菌,葡萄球菌,金黄色葡萄球菌,绿脓假单胞菌以及产芽
  9. 胞梭状芽胞杆菌;
复制代码
      瓶中基因组已经发布了很多公共测序数据,我们可以利用这些数据进行测试,评估软件。
       所有的数据都放到 NCBI ftp 上,NCBI 专门提供了一个 giab 目录,所有数据都在里面。
       数据下载地址:
  1. ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/
复制代码
      github 主页:
  1. https://github.com/genome-in-a-bottle/giab_data_indexes
复制代码

二、练习数据下载
2.1 二代测序数据下载
  1. https://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/NA12878/
复制代码
  1. #1 illumina全基因组测序
  2. ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:giab/ftp/data/NA12878/NIST_NA12878_HG001_HiSeq_300x/140407_D00360_0017_BH947YADXX/ ./
  3. #2 illumina外显子测序
  4. ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:giab/ftp/data/NA12878/Garvan_NA12878_HG001_HiSeq_Exome/ ./
复制代码

2.2 纳米孔测序数据下载
       下载测序数据只要获得该数据在 SRA 数据库中对应的 SRA 号即可,一般会在文章中的 Data部分。如果存在多样本,则需要得到 PROJECT 号,在 PROJECT 号下面找对应的数据。
  1. #3 纳米孔测序
  2. ~/.aspera/connect/bin/ascp -i  ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:/giab/ftp/data/AshkenazimTrio/HG002_NA24385_son/UCSC_Ultralong_OxfordNanopore_Promethion/ ./
复制代码

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-4-26 01:42 , Processed in 0.039856 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表