生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

279

主题
发表于 2022-6-28 09:48:25 | 查看: 678| 回复: 0
背景
       DNA、RNA 和蛋白质是三种重要的生物大分子,传统的观念认为 DNA 携带着遗传信息,蛋白质是体现生物功能的分子,而 RNA 在这二者间起传递遗传信息的桥梁作用。随着新一代测序技术的发展,越来越多的生物基因组被测序出来,而且,随着 RNAseq 技术的发展,我们对非编码 RNA 的认识也逐渐深入,甚至改变了一些我们传统的认识。人体每个细胞都具有相同的染色体,为什么最终会分化成不同的形态执行不同的功能呢?这些都是由于转录翻译的 RNA 的不同。
       通常我把 RNA 按照是否编码蛋白质分为两大类:
       1、Coding RNA,也就是我们经常说的 mRNA。
       2、Non-CodingRNA,如核糖体 RNA、转运 RNA、核仁 RNA、小 RNA 等。
       基因组上除了包含大量编码基因的 mRNA 外,还包含大量非编码 RNA,也叫做 ncRNA。由于很多 ncRNA 都有固定的结构,例如核糖体 RNA 比较保守,而转运 RNA 具有倒三叶草二级结构,因此这两种 ncRNA 的分析直接通过软件预测即可,准确性非常高。由于核糖体 RNA属于重复序列,如果能够拼接出核糖体 RNA,也是作为基因组拼接效果的一个衡量指标。

一、核糖体 RNA 预测
1.1 安装软件
  1. #安装软件 rnammer
  2. #首先需要下载安装hmmer
  3. mamba install -y hmmer=2.3.2
  4. mamba install -y perl-xml-simple
  5. mamba install -y perl-getopt-long

  6. #rnammer 需使用教育edu邮箱单独申请
  7. https://services.healthtech.dtu.dk

  8. #下载之后解压缩
  9. mkidr rnammer-1.2
  10. tar zxvf rnammer-1.2.src.tar.gz -C rnammer-1.2

  11. #修改rnammer程序路径
  12. $INSTALL_PATH
  13. $HMMSEARCH_BINARY
复制代码

1.2 运行软件
  1. #运行程序
  2. mkdir ncrna;cd ncrna;
  3. rnammer -S bac -m tsu,lsu,ssu -gff MGH78578.gff -f MGH78578_rrna.frn MGH78578.fa
复制代码
      -S:物种类型,古细菌,细菌或者真菌
       -m:需要 rRNA 类型,如果真要 16S,则单独选择 lsu
       -gff:输出 gff 格式结果
       -f:输出 fasta 格式序列

二、转运 RNA 预测
2.1 安装软件
  1. #安装软件 trnascan-se
  2. mamba install -y trnascan-se
复制代码

2.2 运行软件
       转运 RNA 可以通过 tRNAscan 软件进行预测。
  1. #检查默认 perl 版本
  2. perl ~/miniconda3/bin/tRNAscan-SE
  3. perl ~/miniconda3/bin/tRNAscan-SE -B -o tRNAScan.out -f tRNAScan.out.structure
  4. -m stat.list MGH78578.fasta
复制代码
      -B :物种为细菌
       -A :物种为古细菌
       -O :输入序列为细胞器
       -G :包括全部类型
       -o:输出结果
       -f:tRNA 二级结构
       -m:统计结果

2.3 提取序列
  1. #提取序列
  2. perl get_tRNA.pl tRNAScan.out MGH78578.fasta MGH78578_trna.ffn
复制代码
提取序列程序
  1. #!/usr/bin/perl
  2. if (@ARGV !=3) {
  3. die "This program is used to get tRNA sequence
  4. Usage:perl $0 <tRNAScan.out> <genome.fasta> <result>\n";
  5. }
  6. open(A,"$ARGV[1]") ;
  7. while (<A>) {
  8. chomp;
  9. $_=~s/[^ACGTNX\d]$//gi;
  10. if($_=~/^>/){
  11. @temp=split;
  12. $temp[0]=~s/^>//;
  13. $name=$temp[0];
  14. }else{
  15. $genome_seq{$name}.=$_;
  16. } }
  17. close(A);
  18. open(A,"$ARGV[0]") ;
  19. open O,">$ARGV[2]";
  20. $flag=0;
  21. while (<A>) {
  22. chomp;
  23. if($_=~/^\-\-\-\-\-/){
  24. $flag=1;
  25. }else{
  26. if($flag==1){
  27. @temp=split;
  28. if($temp[2]<$temp[3]){
  29. $trna=uc(substr($genome_seq{$temp[0]},$temp[2]-1,$temp[3]-$temp[2]+1));
  30. $trna=~s/(.{50})/$1\n/g;
  31. print O ">$temp[0]_tRNA$temp[1] $temp[2] $temp[3] $temp[4]
  32. $temp[5]\n$trna\n";
  33. }else{

  34. $trna=reverse(uc(substr($genome_seq{$temp[0]},$temp[3]-1,$temp[2]-$temp[3]+1))
  35. );
  36. $trna=~tr/ACGT/TGCA/;
  37. $trna=~s/(.{50})/$1\n/g;
  38. print O ">$temp[0]_tRNA$temp[1] $temp[2] $temp[3] $temp[4]
  39. $temp[5]\n$trna\n";
  40. }
  41. }
  42. } }
  43. close(A);
  44. close O;
复制代码

2.4 查看二级结构
http://rna.tbi.univie.ac.at/forna/
序列格式
  1. #在线分析
  2. >molecule_name
  3. CGCUUCAUAUAAUCCUAAUGAUAUGGUUUGGGAGUUUCUACCAAGAGCCUUAAACUCUUGAUUAUGAAGUG
  4. ...(((((((..((((((.........))))))......).((((((.......))))))..))))))...
复制代码

三、 其他 ncRNA
1、lncRNA
网址:http://www.noncode.org/
2、lncATLAS
lncRNA 亚细胞定位的数据库
网址:http://lncatlas.crg.eu/
3、miRNA
网址: http://www.mirbase.org/
4、ceRNA
ceRNA 功能探究数据库
网址: http://starbase.sysu.edu.cn/
5、circBase-
网址: http://www.circbase.org/

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-5-3 06:28 , Processed in 0.053488 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表