1.2 GISAID
GISAID(https://www.gisaid.org/)的全称是 Global Initiative on Sharing All Influenza Data,之前这是一个收集一个流感病毒的数据库,如果不是这次疫情没有多少人会知道它,目前GISAID 收集了很多新冠病毒的序列,NCBI 搜集的超过 70 万,更多的需要从 GISAID 下载。
不过如果想要从该网站下载数据,需要使用教育类邮箱下载数据,并且一堆严格的责权信息。这条规则被 biostar 网站作者疯狂吐槽,该网站不仅要求注册下载,并且下载的时候不能批量操作,需要一条条下载,样品元数据为 PDF 各二十,无法在流程中批量检索,并且更为严重的是,里面的内容杂乱无章,有些序列 ID 重复,所以还是放弃它吧,NCBI 可以下载到同样的序列。