| 
 
 | 
 
 
发表于 2022-7-5 15:02:07
|
查看: 2555 |
回复: 0  
 
 
一、软件介绍 
        bioawk 是 bwa,samtools 等软件作者李恒写的另一个工具,在 awk 的基础上增加一些专门处理生物文件的使用功能。可以处理 fasta/q,bam,gff,vcf 等格式文件。 
- #安装
 
 - mamba install -y bioawk
 
 - #显示文件格式
 
 - bioawk -c help
 
  复制代码        软件地址:https://github.com/lh3/bioawk 
 
二、使用案例 
- #输出fasta/q名字部分
 
 - bioawk -c fastx ' { print $name } ' demo.fastq.gz
 
 - #计算gc含量
 
 - bioawk -c fastx ' { print $name, gc($seq) } ' demo.fastq.gz
 
 - bioawk -c fastx ' { print $name, gc($seq) } ' demo.fasta
 
  
- #输出CIGAR为deletions的列
 
 - samtools view -f 2 demo.bam | awk '$6 ~ /D/ { print $6 }' | head
 
 - samtools view -f 2 demo.bam | bioawk -c sam '$cigar ~ /D/ { print $cigar }' | head
 
  
- #打印vcf文件中的CHROM与POS列
 
 - grep -v "^##" demo.vcf | bioawk -tc hdr '{print $_CHROM,$POS}'
 
  
- #输出比对上的行
 
 - samtools view demo.bam | bioawk -Hc sam '!and($flag,4)' | le
 
 -  
 
 - #反向互补fasta
 
 - bioawk -c fastx '{print ">"$name;print revcomp($seq)}' demo.fasta
 
  
- #输出vcf中特定genotypes类型
 
 - grep -v "^##" in.vcf | bioawk -tc hdr '{print $foo,$bar}'
 
  复制代码 
 
 |   
 
  
 |