生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

279

主题
发表于 2022-4-7 21:57:13 | 查看: 1340| 回复: 0
本帖最后由 生信喵 于 2022-4-8 08:51 编辑

背景
拼接结果统计及评估
      拼接完基因组之后最重要的事就是对拼接结果进行统计,一般很难一次就得到满意的结果。而是需要进行多次拼接,尝试不同的软件,不同的选项参数,得到多个拼接结果。然后从选择一个合适的结果。这就需要对每个结果进行统计。包括拼接出基因组的大小,条数,最长长度,最短长度等。
今天的部分是fasta格式文件介绍与处理。
一、fasta 文件格式
      FASTA 文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名 fa,fasta,fna 等。
1.1 fasta 文件格式介绍
      fasta 文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列 ID 部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。

  1. >NP_214518.1 hypothetical protein
  2. ATGACGGGTTCTGTTGACCGGCCCGACCAGAATCGCGGTGAGCGATCAATGAAGTCACCAGGGTTGGATTTGGTCAGG
  3. CGCACCCTGGACGAAGCTCGTGCTGCTGCCCGCGCGCGCGGACAAGACGCCGGTCGAGGGCGGGTCGCTTCCGTTGCG
  4. TCGGGTCGGGTGGCCGGACGGCGACGAAGCTGGTCGGGTCCGGGGCCCGACATTCGTGATCCACAACCGCTGGGTAAG
  5. GCCGCTCGTGAGCTGGCAAAGAAACGCGGCTGGTCGGTGCGGGTCGCCGAGGGTATGGTGCTCGGCCAGTGGTCTGCG
  6. GTGGTCGGCCACCAGATCGCCGAACATGCACGCCCGACTGCGCTAAACGACGGGGTGTTGAGCGTGATTGCGGAGTCG
  7. ACGGCGTGGGCGACGCAGTTGAGGATCATGCAGGCCCAGCTTCTGGCCAAGATCGCCGCAGCGGTTGGCAACGATGTG
  8. GTGCGATCGCTAAAGATCACCGGGCCGGCGGCACCATCGTGGCGCAAGGGGCCTCGCCATATTGCCGGTAGGGGTCCG
  9. CGCGACACCTACGG
  10. ATAA
复制代码

1.2 fasta 文件格式处理案例
  1. # fasta 文件格式处理案例
  2. #案例一:统计
  3. seqkit stats kmer45.scafSeq
  4. #分别统计每一条序列长度
  5. seqkit fx2tab kmer45.scafSeq |awk '{print $1"\t"length($2)}'
  6. #案例二:格式化
  7. seqtk seq -l 0 kmer45.scafSeq
  8. #每行显示 50 个碱基
  9. seqtk seq -l 50 kmer45.scafSeq
  10. #案例三:逐条统计
  11. seqtk seq -l 0 kmer45.scafSeq | grep -v ">" | awk '{print length($0)}' | head
  12. #统计长度并按照长度计算频数
  13. seqtk seq -l 0 kmer45.scafSeq |grep -v ">" | awk '{print length($0)}' | sort |
  14. uniq -c
  15. #案例四:成分分析
  16. seqtk comp kmer45.scafSeq | head
  17. #案例五:提取序列
  18. seqkit grep -r -p "C2877" kmer45.scafSeq
  19. #案例六:截取序列
  20. seqkit subseq -r 1000:3000 kmer45.scafSeq
  21. seqkit subseq -r 1000:3000 kmer45.scafSeq --chr C2689
  22. #案例七:排序
  23. seqkit sort -l -r kmer45.scafSeq | less -S
  24. #案例八:按照长度过滤
  25. seqkit seq -m 1000 kmer45.scafSeq
  26. #过滤长度大于 1000bp 序列
  27. seqkit seq -M 1000 kmer45.scafSeq
  28. # 案例九:反向互补
  29. #seqkit 取反向序列
  30. seqkit seq -r test.fasta
  31. #seqkit seq 加-r -p 同时取反向互补序列
  32. seqkit seq -r -p test.fasta
  33. #案例十:转换大小写
  34. seqkit seq -l kmer45.scafSeq| head
  35. seqkit seq -u kmer45.scafSeq| head
复制代码




您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-5-6 20:00 , Processed in 0.038376 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表