生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

338

主题
发表于 2021-12-15 20:11:49 | 查看: 3899| 回复: 0
本帖最后由 生信喵 于 2021-12-15 20:23 编辑

一、fastq 文件格式
  1. @DJB775P1:248:D0MDGACXX:7:1202:12362:49613
  2. TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
  3. +
  4. JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
  5. @DJB775P1:248:D0MDGACXX:7:1202:12782:49716
  6. CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG
  7. +
  8. IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC
复制代码
     第一行:以‘@’开头,是这一条 read 的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条 read 的唯一标识符,同一份 FASTQ 文件中不会重复出现,甚至不同的 FASTQ 文件里也不会有重复;
      第二行:测序 read 的序列,由 A,C,G,T 和 N 这五种字母构成,这也是我们真正关心的DNA 序列,N 代表的是测序时那些无法被识别出来的碱基;
      第三行:以‘+’开头,在旧版的 FASTQ 文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);
      第四行:测序 read 的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用 ASCII 码表示。


二、质量值体系
      phred 质量值体系
      
      illumina 测序质量值体系
      
      从表中可以看到下限有 33 和 64 两个值,我们把加 33 的的质量值体系称之为 Phred33,加64 的称之为 Phred64(Solexa 的除外,它叫 Selexa64)。不过,现在一般都是使用 Phred33这个体系,而且 33 也恰好是 ASCII 的第一个可见字符('!')
      文件格式:https://genome.ucsc.edu/FAQ/FAQformat.html#format1


三、fastq 格式文件处理
  1. 1 压缩与解压缩
  2. 解压缩
  3. gunzip illumina_1.fastq.gz
  4. gzip -d illumina_2.fastq.gz
  5. 压缩
  6. gzip illumina_1.fastq
  7. gzip illumina_2.fastq
  8. 2 fastq 文件统计
  9. seqkit stats illumina_1.fastq.gz illumina_2.fastq.gz
  10. 3 统计 fastq 文件每条序列 ATCG 四种碱基组成以及质量值分布
  11. seqtk comp illumina_1.fastq.gz illumina_2.fastq.gz
  12. 4 ATCG 以及质量值分布
  13. seqtk fqchk illumina_1.fastq.gz
  14. seqtk fqchk illumina_2.fastq.gz
  15. 57 交叉合并 pairend 文件
  16. seqtk mergepe illumina_1.fastq.gz illumina_2.fastq.gz >merge.fastq
  17. 6 过滤短的序列
  18. 过滤小于 150bp 序列,并压缩输出
  19. seqkit seq -m 150 nanopore.fastq.gz | gzip - >filter_150.fq.gz
  20. 保留小于 150bp 序列
  21. seqkit seq -M 150 nanopore.fastq.gz
  22. 7 转换为列表格式
  23. seqkit fx2tab nanopore.fastq.gz
  24. 8 分别统计每一条序列长度
  25. seqkit fx2tab nanopore.fastq.gz |awk -F "\t" '{print length($2) }'
  26. 9 质量值转换
  27. 将 illumina 1.8 转换为 1.5
  28. seqkit convert --to Illumina-1.5+ illumina_1.fastq.gz |head -4
  29. 将 illumina 1.5 转换为 1.8,什么都不加就是转换为 1.8
  30. seqkit convert illumina_illmina1.5.gz
  31. 10 排序,按照长度
  32. seqkit sort -l -r nanopore.fastq.gz
  33. 11 #seqkit 抽样,按照百分比
  34. seqkit sample -p 0.1 illumina_1.fastq.gz
  35. 12 seqkit 抽样,按照条数
  36. seqkit sample -n 1000 illumina_1.fastq.gz
  37. 13 拆分数据
  38. seqkit split2 -1 illumina_1.fastq.gz -2 illumina_2.fastq.gz -p 2 -f
  39. 14 转换为 fasta
  40. seqkit 工具
  41. seqkit fq2fa nanopore.fastq.gz >nanopore.fasta
  42. 15 只输出 20 行 ID
  43. seqkit seq -n -i nanopore.fastq.gz |head -20 >id.list
  44. 16 提取序列
  45. seqkit grep -f id.list nanopore.fastq.gz
  46. 17 截取头尾
  47. seqtk trimfq -b 15 -e 15 -Q illumina_1.fastq.gz
  48. 17 修改 reads ID
  49. seqkit replace -p "SRR8494939\.sra" -r 'reads' nanopore.fastq.gz
  50. 18 长度分布直方图
  51. seqkit watch -L -f ReadLen hairpin.fa
  52. 19 平均质量直方图
  53. seqkit watch -p 500 -O qhist.pdf -f MeanQual nanopore.fastq.gz
  54. 20 选取固定范围
  55. seqkit range -r 200:300 nanopore.fastq.gz
  56. 21 移除重名序列
  57. seqkit rmdup -n nanopore.fastq.gz -o clean.fa.gz
  58. 22 将小于 Q20 的替换为小写字母
  59. seqtk seq -q 20 illumina_1.fastq.gz
复制代码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-12-28 17:18 , Processed in 0.072738 second(s), 31 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表