|
发表于 2022-7-5 15:02:07
|
查看: 1703 |
回复: 0
一、软件介绍
bioawk 是 bwa,samtools 等软件作者李恒写的另一个工具,在 awk 的基础上增加一些专门处理生物文件的使用功能。可以处理 fasta/q,bam,gff,vcf 等格式文件。
- #安装
- mamba install -y bioawk
- #显示文件格式
- bioawk -c help
复制代码 软件地址:https://github.com/lh3/bioawk
二、使用案例
- #输出fasta/q名字部分
- bioawk -c fastx ' { print $name } ' demo.fastq.gz
- #计算gc含量
- bioawk -c fastx ' { print $name, gc($seq) } ' demo.fastq.gz
- bioawk -c fastx ' { print $name, gc($seq) } ' demo.fasta
- #输出CIGAR为deletions的列
- samtools view -f 2 demo.bam | awk '$6 ~ /D/ { print $6 }' | head
- samtools view -f 2 demo.bam | bioawk -c sam '$cigar ~ /D/ { print $cigar }' | head
- #打印vcf文件中的CHROM与POS列
- grep -v "^##" demo.vcf | bioawk -tc hdr '{print $_CHROM,$POS}'
- #输出比对上的行
- samtools view demo.bam | bioawk -Hc sam '!and($flag,4)' | le
-
- #反向互补fasta
- bioawk -c fastx '{print ">"$name;print revcomp($seq)}' demo.fasta
- #输出vcf中特定genotypes类型
- grep -v "^##" in.vcf | bioawk -tc hdr '{print $foo,$bar}'
复制代码
|
|