生信喵 发表于 2022-7-5 15:02:07

bioawk

一、软件介绍
      bioawk 是 bwa,samtools 等软件作者李恒写的另一个工具,在 awk 的基础上增加一些专门处理生物文件的使用功能。可以处理 fasta/q,bam,gff,vcf 等格式文件。
#安装
mamba install -y bioawk
#显示文件格式
bioawk -c help      软件地址:https://github.com/lh3/bioawk

二、使用案例
#输出fasta/q名字部分
bioawk -c fastx ' { print $name } ' demo.fastq.gz
#计算gc含量
bioawk -c fastx ' { print $name, gc($seq) } ' demo.fastq.gz
bioawk -c fastx ' { print $name, gc($seq) } ' demo.fasta

#输出CIGAR为deletions的列
samtools view -f 2 demo.bam | awk '$6 ~ /D/ { print $6 }' | head
samtools view -f 2 demo.bam | bioawk -c sam '$cigar ~ /D/ { print $cigar }' | head

#打印vcf文件中的CHROM与POS列
grep -v "^##" demo.vcf | bioawk -tc hdr '{print $_CHROM,$POS}'

#输出比对上的行
samtools view demo.bam | bioawk -Hc sam '!and($flag,4)' | le

#反向互补fasta
bioawk -c fastx '{print ">"$name;print revcomp($seq)}' demo.fasta

#输出vcf中特定genotypes类型
grep -v "^##" in.vcf | bioawk -tc hdr '{print $foo,$bar}'

页: [1]
查看完整版本: bioawk