生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

279

主题
发表于 2022-6-29 16:55:44 | 查看: 854| 回复: 0
利用 MCScanX 绘制共线性图
       MCScanx:Multiple Collinearity Scan toolkit,MCScanX 是检测基因共线性和进化分析的软件。需要使用基因集进行自身比对。MCScanX 的输入需要两个文件:*.blast 和 *.gff。文件前缀名需要完全一致。*.blast 文件可以直接用 all-vs-all 出结果。首先将预测的蛋白质文件的 fasta文件整合一下。另外的列表文件,需要从 gff 文件中提取获得。一共分为四列,分别是第一列是物种名和染色体编号,第二列是基因号,第三列是起始位置,第四列是终止位置。
       网址:https://github.com/wyp1125/MCScanx

一、安装 mscanx
  1. git clone https://github.com/wyp1125/MCScanX.git
  2. cd MCScanx
  3. make
复制代码
      准备输入文件
  1. #下载参考序列与gff文件
  2. #https://www.ncbi.nlm.nih.gov/genome/?term=Klebsiella%20pneumoniae
  3. wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/240/185/GCF_000240185.1_ASM24018v2/GCF_000240185.1_ASM24018v2_genomic.fna.gz
  4. wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/240/185/GCF_000240185.1_ASM24018v2/GCF_000240185.1_ASM24018v2_genomic.gff.gz
  5. wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/240/185/GCF_000240185.1_ASM24018v2/GCF_000240185.1_ASM24018v2_protein.faa.gz

  6. #处理gff或者bed格式文件
  7. perl -F'\t' -lane 'next unless $F[2] eq "CDS";print join qq{\t},$F[0],$F[-1]=~s/ID=cds-([^;]+).Parent=.*$/$1/r,$F[3],$F[4]' GCF_000240185.1_ASM24018v2_genomic.gff >ref.gff
  8. grep ">" mgh78578.faa | awk '{print "contig\t"$1"\t"$3"\t"$5}' | sed -e 's/>//' >mgh78578.gff

  9. #合并文件
  10. cat GCF_000240185.1_ASM24018v2_protein.faa mgh78578.faa >all.faa
  11. cat cat ref.gff mgh78578.gff >test/all.gff
复制代码

二、运行软件
  1. #blast比对
  2. makeblastdb -in all.faa -dbtype prot -out all -parse_seqids
  3. blastp -query all.faa -db all -out all.blast -evalue 1e-10 -num_threads 12 -outfmt 6 -num_alignments 5

  4. #运行结果
  5. mkdir all;
  6. mv all.blast all.gff all
  7. ~/biosoft/MCScanX/MCScanX all/all
复制代码
      *.collinearity: 成对的共线性区域
       *.tandem: 串联基因
       *.html: 共线性可视化的 html 文件,里面有很多小文件,文件名称是根据参考基因组染色体编号来的。

三、下游分析
  1. #过滤duplicate_gene
  2. ~/biosoft/MCScanX/duplicate_gene_classifier all/all

  3. #下游分析,将downstream_analyses程序拷贝至结果目录
  4. #案例地址:https://github.com/wyp1125/MCScanx#the-following-is-the-list-of-executable-programs
  5. cp ~/biosoft/MCScanX/downstream_analyses/* .

  6. #1 Detect_syntenic_tandem_arrays
  7. detect_collinear_tandem_arrays -g os_sb.gff -b os_sb.blast -c os_sb.collinearity -o exam1.txt

  8. #2 Dissect_multiple_alignment
  9. dissect_multiple_alignment -g os_sb.gff -c os_sb.collinearity -o exam2.txt

  10. #3 dot_plotter
  11. java dot_plotter -g os_sb.gff -s os_sb.collinearity -c dot.ctl -o exam3.png

  12. #4 dual_synteny_plotter
  13. java dual_synteny_plotter -g os_sb.gff -s os_sb.collinearity -c dot.ctl -o exam4.png

  14. #5 Circle_plotter
  15. java circle_plotter -g os_sb.gff -s os_sb.collinearity -c circle.ctl -o exam5.png

  16. #6 Bar_plotter
  17. java bar_plotter -g os_sb.gff -s os_sb.collinearity -c bar.ctl -o exam6.png

  18. #7 add_kaks_to_synteny.pl
  19. perl add_kaks_to_synteny.pl -i os_sb.collinearity -d cds_file -o exam7

  20. #8 group_collinear_genes.pl
  21. perl group_collinear_genes.pl -i os_sb.collinearity -o exam8.cluster
复制代码

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-5-3 05:51 , Processed in 0.044491 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表