背景
拼接结果统计及评估
拼接完基因组之后最重要的事就是对拼接结果进行统计,一般很难一次就得到满意的结果。而是需要进行多次拼接,尝试不同的软件,不同的选项参数,得到多个拼接结果。然后从选择一个合适的结果。这就需要对每个结果进行统计。包括拼接出基因组的大小,条数,最长长度,最短长度等。
今天的部分是fasta格式文件介绍与处理。 一、fasta 文件格式
FASTA 文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名 fa,fasta,fna 等。 1.1 fasta 文件格式介绍
fasta 文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列 ID 部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。