生信喵 发表于 2022-6-22 11:35:51

不同物种拼接练习

1 拟南芥
1.1 项目介绍
《High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell》
Nature Communication
文章地址:https://www.nature.com/articles/s41467-018-03016-2/
https://www.biorxiv.org/content/10.1101/149997v1

拟南芥基因组文章
要求至少要低于 62 条,N50 长度超过 12.3 Mb。
Bionano 光学图谱数据:PRJNA390205
PacBio Sequel 测序数据:PRJEB23084
Oxford Nanopore MinION 数据:PRJEB21270


1.2 安装软件以及下载数据
文章中用到的案例脚本:https://github.com/fbemm/onefc-oneasm/wiki/Assembly-Generation
#3 数据:illumina+pacbio+nanopore
PRJEB21270:
#BioNano https://www.ncbi.nlm.nih.gov/bioproject/PRJNA390205
https://www.ncbi.nlm.nih.gov/bioproject/PRJNA390205
esearch -db sra -query PRJEB21270 | efetch -format runinfo > runinfo.csv
cat runinfo.csv | cut -d , -f 1,10,19
Run,download_path,Platform
ERR2173371,https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos5/sra-pub-zq-11/ERR002/2173/ERR2173371/ERR2173371.lite.1,PACBIO_SMRT
ERR2173372,https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos5/sra-pub-zq-11/ERR217/3372/ERR2173372.sralite.1,ILLUMINA
ERR2173373,https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos5/sra-pub-zq-11/ERR002/2173/ERR2173373/ERR2173373.lite.1,OXFORD_NANOPORE

wget -c https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos5/sra-pub-zq-11/ERR002/2173/ERR2173371/ERR2173371.lite.1 -O pacbio.sra
wget -c https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos5/sra-pub-zq-11/ERR217/3372/ERR2173372.sralite.1 -O illumina.sra
wget -c https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos5/sra-pub-zq-11/ERR002/2173/ERR2173373/ERR2173373.lite.1 -O nano.sra
fastq-dump nano.sra --gzip -O ./
conda activate nanoplot
#Arabidopsis thaliana参考序列下载
https://www.ncbi.nlm.nih.gov/data-hub/taxonomy/3702/参考序列还可以去embl站点下载:https://www.ensembl.org/toplevel代表全部数据,没有做处理的,适用于rnaseq。

1.3 拼接基因组
echo "flye --nano-raw nanopore/ont.fq.gz --out-dir flye --genome-size 120m
--threads 12 --iterations 3 --scaffold " >flye.sh
#运行脚本
nohup sh flye.sh & #监控进程
jobs
top
页: [1]
查看完整版本: 不同物种拼接练习