生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

318

主题
发表于 2022-10-8 17:10:33 | 查看: 1557| 回复: 0
背景
       RNAseq 分析需要的数据主要包括参考序列与 GTF 文件,参考序列可以从 NCBI,ENSEMBL,UCSC 等网站下载,GTF 文件可以从 ENSEMBL 与 UCSC 网站下载。


一、ENSEMBL 网站下载
       EMBL:https://asia.ensembl.org/index.html

  1. wget http://ftp.ensembl.org/pub/release-107/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  2. wget http://ftp.ensembl.org/pub/release-107/gtf/homo_sapiens/Homo_sapiens.GRCh38.107.gtf.gz
复制代码

二、UCSC 下载
  1. #UCSC hg19
  2. wget https://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz
  3. #UCSC hg38
  4. wget https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
  5. #GTF下载
  6. http://www.genome.ucsc.edu/cgi-bin/hgTables
复制代码


三、GFF3 转换为 GTF
       如果参考序列没有现成的 GTF 文件,可以通过 GFF 文件进行转换,通过gtfread 工具进行操作。

  1. #GFF转换为GTF
  2. wget http://ftp.ensembl.org/pub/release-107/gff3/homo_sapiens/Homo_sapiens.GRCh38.107.gff3.gz
  3. #gffread处理GTF与GFF
  4. #gff2gtf
  5. gffread Homo_sapiens.GRCh38.107.gff3 -T -o genome.gtf
  6. #gtf2gff
  7. #gffread Homo_sapiens.GRCh38.107.gtf -o genome.gff
  8. #获取CDS序列
  9. gffread Homo_sapiens.GRCh38.107.gff3 -g Homo_sapiens.GRCh38.dna.primary_assembly.fa -x cds.fa
  10. #获取蛋白序列
  11. gffread Homo_sapiens.GRCh38.107.gff3 -g Homo_sapiens.GRCh38.dna.primary_assembly.fa -y protein.fa
  12. #获取转录本序列
  13. gffread Homo_sapiens.GRCh38.107.gff3 -g Homo_sapiens.GRCh38.dna.primary_assembly.fa -w transcripts.fa
复制代码

       从人基因组中剥离出21号染色体信息。
  1. #提取21号染色体信息
  2. seqkit grep  -p "21" Homo_sapiens.GRCh38.dna.primary_assembly.fa >chr21.fa
  3. grep "^21" Homo_sapiens.GRCh38.107.gtf >chr21.gtf
复制代码

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-22 01:25 , Processed in 0.076879 second(s), 29 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表