生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

318

主题
发表于 2021-12-27 21:29:18 | 查看: 1968| 回复: 1
一、了解病毒基因组
1.1 病毒的基本特点
      病毒是目前已知地球上最古老的生物,同时也是最简单的物种,因为不具备细胞结构,只能以寄生模式生活。病毒的一生最大的目的就是感染更多宿主,复制更多后代。病毒的感染能力非常强,既可以感染人类,也可以感染其他动物,植物,微生物等,也就是病毒可以感染除了自身以外任何物种。一般来说一种病毒只感染一类宿主,比如植物病毒不会感染动物,但是现在越来越多的研究发现人畜共患病的情况,比如禽流感病毒可以感染人,猪流感病毒感染人等情况。尤其是哺乳动物之间更容易发生感染。例如 21 世纪以来的几次病毒大流行包括 SARS,MERS,COVID-19 等,都是在人与动物之间相互感染的。
病毒感染细胞示意图
      
      病毒完全是寄生生活,因此必须生活在活细胞内。病毒的一生就是与宿主“相互斗争”的一生。病毒离开活体之后只能生存一段时间,不能永久存活,病毒有不同的性格,有的温和,有的烈性,例如埃博拉病毒感染之后会快速杀死宿主;HIV 病毒感染之后会整合到人基因组上慢慢的杀死宿主。而新冠病毒则处于中间状态,一直与宿主进行战斗,此消彼长。

1.2 谈“毒”色变
      一提到病毒,我们都非常害怕,其实我们也完全没有必要听到病毒就感到害怕,因为并不是所有的病毒都对人体有危害。人体内天然就带有很多病毒,尤其是肠道微生物中,不过这些病毒对人没有影响。而且人体基因组的 30 亿个碱基中就包含很多与病毒相似的序列,也就是我们的人体基因组内已经整合了很多病毒的序列。
人体不同部位病毒分布
      

1.3 病毒基因组的大小
      病毒没有细胞结构,并且寄生生活,因此,只需要完成感染和传代两大功能即可,从最有效率的角度来说,基因组必须精简。因此,病毒基因组显著的特点就是非常小,目前已知最 小 的 病 毒 Circoviridae 只 有 2000 多 个 碱 基 , 编 码 两 个 基 因 。 而 最 大 的 病 毒pandoraviruses 大小达到了 200 万个碱基,不过绝大部分的病毒都只有几十 K 大小,这次的新冠病毒基因组大小在 30K 左右,人基因组是 3G,二者相差了 10 万倍。

1.4 病毒基因组分类
      按照构成基因组碱基的不同,病毒分为 DNA 病毒和 RNA 病毒,DNA 病毒又分为单链DNA 病毒和双链 DNA 病毒,单链 RNA 和双链 RNA 病毒。单双链的不同也决定了病毒基因组的一些显著特点,单链病毒由于没有互补结构,稳定性更差,因此在复制的过程中更容易出错,也就是更容易发生突变。不过这也不是绝对的,在生物研究领域总是会出现例外。按照病毒遗传物质存在形式有可以分为环形,线形,分段的形态。

二、现在测序了多少病毒序列
      根据 NCBI 物种分类数据库现在的统计,截止到目前,一共测序出来 4500 多个种,2100多个属,与其他物种相比还远远落后,我们对病毒的研究还远远不够。
      https://www.ncbi.nlm.nih.gov/Tax ... mp;unspecified=hide
NCBI 物种分类数据库不同物种统计(截止到 2021 年 12 月)
      

三、了解冠状病毒
      本部分内容摘自中国疾病预防与控制中心网站,更多内容见下面链接:
      参考链接:https://www.chinacdc.cn/jkzt/crb ... 0200121_211326.html
      冠状病毒属于套式病毒目、冠状病毒科、冠状病毒属,是一类具有囊膜、基因组为线性单股正链的 RNA 病毒,是自然界广泛存在的一大类病毒。病毒基因组 5′端具有甲基化的帽状结构,3′端具有 poly(A)尾,基因组全长约 27-32kb,是目前已知 RNA 病毒中基因组最大的病毒。冠状病毒仅感染脊椎动物,与人和动物的多种疾病有关,可引起人和动物呼吸道、消化道和神经系统疾病。
新冠病毒结构示意图
      
      根据系统发育树,冠状病毒可分为四个属:α、β、γ、δ,其中β属冠状病毒又可分为四个独立的亚群 A、B、C 和 D 群。

冠状病毒系统发生树
      
1.可感染人的冠状病毒
      迄今为止,除本次在武汉引起病毒性肺炎暴发疫情的新的冠状病毒外,共发现 6 种可感染人类的冠状病毒(HCoV-229E、HCoV-OC43、SARS-CoV、HCoV-NL63、HCoV-HKU1 和MERS-CoV)。HCoV-229E 和 HCoV-NL63 属于 α 属冠状病毒,HCoV-OC43、SARS-CoV、HCoV-HKU1 和 MERS-CoV 均为 β 属冠状病毒,其中,HCoV-OC43 和 HCoV-HKU1 属于A 亚群,SARS-CoV 属于 B 亚群,MERS-CoV 属于 C 亚群。
2.动物冠状病毒
      包括哺乳动物冠状病毒和禽冠状病毒。哺乳动物冠状病毒主要为 α、β 属冠状病毒,可感染包括猪、犬、猫、鼠、牛、马等多种动物。禽冠状病毒主要来源于 γ、δ 属冠状病毒,可引起多种禽鸟类如鸡、火鸡、麻雀、鸭、鹅、鸽子等发病。


四、为什么要分析新冠病毒数据
4.1 更加了解新冠病毒
      唯物主义哲学告诉我们认识事物,才能改变事物。我们需要对新冠病毒有很好的了解才能更好的去战胜它,知己知彼,方能百战不殆。从生物学角度来说,对一个物种的研究主要包括形态学,生理生化,生态学,进化学,基因组学等几个角度来逐渐认识。所以,通过对新冠病毒进行全基因组学测序分析,能够更好的认识它,因为一个物种的基因组包括了其全部遗传信息密码。
      通过对新冠病毒全基因组的序列分析,我们才能更好的认识和了解病毒。目前全球已经有超超 3 万多株新冠病毒基因组被测序出来,同时每天还有更多的数据产出。有这么多数据,我们必须好好分析和挖掘这些数据,充分利用数据的价值,为疫情防控,疾病溯源等提供理论指导,在实践中才有更重要的意义。

4.2 开发快速检测试剂
      有了全基因组序列之后,就可以基于这个全基因组序列,进行快筛试剂盒的开发,因为病毒很难像细菌等进行纯培养,分离提取很难,需要选择基因组上特异的一些位点作为扩增接头,再结合反转录,荧光标记等技术制造成 RT-PCR 快速检测试剂盒。本次疫情中,快速检测技术为控制疫情传播发挥了巨大的作用,不敢想象,如果没有快筛技术,今天的疫情会传播到什么情况。

4.3 推测传播途径

      通过对全球多地的病毒基因组进行测序,根据序列之间的亲缘关系,就可以绘制病毒的传播路线图,推测可能的传播途径。目前已经累积了大量新冠病毒样本。得到新的基因组之后,可以快速进行定位,例如在我国各地散发的一些疫情,通过测序,可以快速定位出病毒来源。

4.4 流行病学溯源
      病毒来自哪里?这是一个非常重要的问题,也可以说是最重要的一个问题。不过,还是坚持要做流行病学的溯源,可以说,目前只有全基因组测序这一条路。


4.5 病毒发生突变了吗
      目前已经证实新冠病毒发生了突变,而且一些突变株感染力更强了。病毒在不同宿主之间传播要大量的进行 DNA 或者 RNA 的复制,这个过程中是会发生基因的突变,并且新冠病毒作为单链 RNA 病毒,缺乏基因组内的有效的修复机制,突变率会更高,通过对基因组的测序可以检测到这些突变的位点。通过全基因组测序,可以直接检测到具体突变位点,识别突变类型。


4.6 开发疫苗
      目前全球最期待的东西就是疫苗了。所谓疫苗就是病毒的减毒或者灭活株,本次新冠疫情,还开发出了 mRNA 类疫苗。在人体试打疫苗之后产生抗体,形成人体免疫屏障,可以抵御新冠病毒的感染。目前大量研究事实已经证明试打疫苗是最有效的群体免疫手段。然而开发疫苗需要一定周期,有一定滞后性,目前的 Delta 突变株已经突破了疫苗屏障,后面还需要继续开发针对 Delta 突变株的疫苗,这就需要对病毒致病机理有所了解。这里还是需要全基因组测序,了解病毒的感染和致病机理,然后在进行基因的修饰,制造出新的有效疫苗。

4.7 开发药物
      同疫苗开发一样,需要了解病毒的生命机理,代谢途径,然后找到合适的药物来阻断病毒的生命途径中的一环,比如无法识别 ACE2 蛋白,阻断 RNA 复制,无法产生固定的蛋白等等途径杀死病毒。由于病毒结构简单,治疗起来反而比细菌和真菌更难,因为药物“靶点”太少,我们需要更好的了解其生命机理才能开发出合适治疗药物。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

发表于 2021-12-27 21:30:09
五、病毒基因组分析难点
      由于病毒的基因组很小,一般只有几十 K 的长度,所以很多人觉得,这么少小的基因组,应该很容易分析。但其实病毒基因组分析难度很大,因为不容易得到病毒的全基因组序列,主要有以下几个原因:
5.1 分离富集问题
      由于大部分病毒都是细胞内寄生生活,因此很难单独进行纯培养,即使体外培养也是使用活细胞作为宿主,因此很难获得完全“纯净”的无宿主污染的遗传物质。而且,由于病毒基因组太小,遗传物质的丰度也很低。举个简单的例子,新冠病毒的基因组大小于约等于30K,人全基因组大于 30G。假设一个人细胞中有 1000 个病毒颗粒。那么提取这个人的单细胞进行测序。在全部遗传物质中,人基因组与病毒基因组的比率为 30G:30K*1000,也就是 1000:1,也就是每测序 1000 条数据,才有 1 条是病毒的。而实际情况下,病毒比率可能达不到 1000 个,而且并不是所有宿主细胞都感染病毒。这样丰度可能更低,测序10G 数据,其中病毒只占几 K 的样子,如果测序不到病毒数据,那么也就无从分析。
      因此,如果想要分析病毒的基因组数据,分离和富集就是最大的问题。首先如何将病毒与宿主分开,实际上是不容易的,一种常见的方式是离心,因为病毒的基因组长度小于宿主基因组长度,还有一种方法是通过凝胶电泳,同样的原理。不过这些方法也是存在问题的。例如 RNA 病毒与宿主细胞中表达的 RNA 长度不容易进行区分,不能采用以上方法。

5.2 基因组拼接问题
      即使完成了分离富集的问题,测序得到了病毒基因组的测序片段,从这些测序片段到全基因组序列,依然也是非常困难的。虽然测序已经覆盖了全基因组,但是由于以下几个问题,依然很难拼接出完整的病毒全基因组序列:
1、病毒的高杂合序列
      由于病毒本身容易基因组突变,虽然来自同一样本的病毒序列,同一等位位点也会出现多种位点组合,比如可以是 A,也可以 G,这种称为杂合位点,这种位点已经在很多病毒的基因组拼接中遇到过了,这就给基因组拼接带来的很大的难度;
2、高覆盖度
      对于基因组的拼接,并不是数据越多越好,病毒测序的覆盖深度通常都 2000 以上,这么多的数据是很难拼出结果的,如果取的数据太少,又可能出现偏差,在结合上高度杂合的情况,拼接就更难了。
3、测序错误
      测序错误位点与杂合位点不容易区分开,同样给病毒基因组拼接造成很大的困难。目前发表出来的新冠病毒基因组基本上都是采用与参考序列进行比对,然后生成一致性序列的方法得到的,虽然这种方法可以,但依然存在一些问题,我们我们会早后面的内容中详细介绍这种方法。

六、发现新病毒
      1、提取总DNA或RNA;
      2、去除宿主;
      3、与病毒库进行比对;
      4、拼接;
下载病毒数据库
      1、NCBI病毒数据库:
      https://ftp.ncbi.nlm.nih.gov/genomes/Viruses/
      2、从NT库提取全部病毒序列

七、信息学方法去除宿主污染
方法一:与宿主基因组比对,提取没有比对上
#提取没有比对到参考序列上的比对结果
  1. samtools view -f 4 A1.sorted.bam
复制代码
方法二:与病毒数据库比对,提取比对上的
#提取比对到参考序列上的比对结果
  1. samtools view -F 4 A1.sorted.ba
复制代码

回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-22 03:05 , Processed in 0.082463 second(s), 31 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表