|
发表于 2022-6-28 09:48:25
|
查看: 1243 |
回复: 0
背景
DNA、RNA 和蛋白质是三种重要的生物大分子,传统的观念认为 DNA 携带着遗传信息,蛋白质是体现生物功能的分子,而 RNA 在这二者间起传递遗传信息的桥梁作用。随着新一代测序技术的发展,越来越多的生物基因组被测序出来,而且,随着 RNAseq 技术的发展,我们对非编码 RNA 的认识也逐渐深入,甚至改变了一些我们传统的认识。人体每个细胞都具有相同的染色体,为什么最终会分化成不同的形态执行不同的功能呢?这些都是由于转录翻译的 RNA 的不同。
通常我把 RNA 按照是否编码蛋白质分为两大类:
1、Coding RNA,也就是我们经常说的 mRNA。
2、Non-CodingRNA,如核糖体 RNA、转运 RNA、核仁 RNA、小 RNA 等。
基因组上除了包含大量编码基因的 mRNA 外,还包含大量非编码 RNA,也叫做 ncRNA。由于很多 ncRNA 都有固定的结构,例如核糖体 RNA 比较保守,而转运 RNA 具有倒三叶草二级结构,因此这两种 ncRNA 的分析直接通过软件预测即可,准确性非常高。由于核糖体 RNA属于重复序列,如果能够拼接出核糖体 RNA,也是作为基因组拼接效果的一个衡量指标。
一、核糖体 RNA 预测
1.1 安装软件
- #安装软件 rnammer
- #首先需要下载安装hmmer
- mamba install -y hmmer=2.3.2
- mamba install -y perl-xml-simple
- mamba install -y perl-getopt-long
- #rnammer 需使用教育edu邮箱单独申请
- https://services.healthtech.dtu.dk
- #下载之后解压缩
- mkidr rnammer-1.2
- tar zxvf rnammer-1.2.src.tar.gz -C rnammer-1.2
- #修改rnammer程序路径
- $INSTALL_PATH
- $HMMSEARCH_BINARY
复制代码
1.2 运行软件
- #运行程序
- mkdir ncrna;cd ncrna;
- rnammer -S bac -m tsu,lsu,ssu -gff MGH78578.gff -f MGH78578_rrna.frn MGH78578.fa
复制代码 -S:物种类型,古细菌,细菌或者真菌
-m:需要 rRNA 类型,如果真要 16S,则单独选择 lsu
-gff:输出 gff 格式结果
-f:输出 fasta 格式序列
二、转运 RNA 预测
2.1 安装软件
- #安装软件 trnascan-se
- mamba install -y trnascan-se
复制代码
2.2 运行软件
转运 RNA 可以通过 tRNAscan 软件进行预测。
- #检查默认 perl 版本
- perl ~/miniconda3/bin/tRNAscan-SE
- perl ~/miniconda3/bin/tRNAscan-SE -B -o tRNAScan.out -f tRNAScan.out.structure
- -m stat.list MGH78578.fasta
复制代码 -B :物种为细菌
-A :物种为古细菌
-O :输入序列为细胞器
-G :包括全部类型
-o:输出结果
-f:tRNA 二级结构
-m:统计结果
2.3 提取序列
- #提取序列
- perl get_tRNA.pl tRNAScan.out MGH78578.fasta MGH78578_trna.ffn
复制代码 提取序列程序
- #!/usr/bin/perl
- if (@ARGV !=3) {
- die "This program is used to get tRNA sequence
- Usage:perl $0 <tRNAScan.out> <genome.fasta> <result>\n";
- }
- open(A,"$ARGV[1]") ;
- while (<A>) {
- chomp;
- $_=~s/[^ACGTNX\d]$//gi;
- if($_=~/^>/){
- @temp=split;
- $temp[0]=~s/^>//;
- $name=$temp[0];
- }else{
- $genome_seq{$name}.=$_;
- } }
- close(A);
- open(A,"$ARGV[0]") ;
- open O,">$ARGV[2]";
- $flag=0;
- while (<A>) {
- chomp;
- if($_=~/^\-\-\-\-\-/){
- $flag=1;
- }else{
- if($flag==1){
- @temp=split;
- if($temp[2]<$temp[3]){
- $trna=uc(substr($genome_seq{$temp[0]},$temp[2]-1,$temp[3]-$temp[2]+1));
- $trna=~s/(.{50})/$1\n/g;
- print O ">$temp[0]_tRNA$temp[1] $temp[2] $temp[3] $temp[4]
- $temp[5]\n$trna\n";
- }else{
-
- $trna=reverse(uc(substr($genome_seq{$temp[0]},$temp[3]-1,$temp[2]-$temp[3]+1))
- );
- $trna=~tr/ACGT/TGCA/;
- $trna=~s/(.{50})/$1\n/g;
- print O ">$temp[0]_tRNA$temp[1] $temp[2] $temp[3] $temp[4]
- $temp[5]\n$trna\n";
- }
- }
- } }
- close(A);
- close O;
复制代码
2.4 查看二级结构
http://rna.tbi.univie.ac.at/forna/
序列格式
- #在线分析
- >molecule_name
- CGCUUCAUAUAAUCCUAAUGAUAUGGUUUGGGAGUUUCUACCAAGAGCCUUAAACUCUUGAUUAUGAAGUG
- ...(((((((..((((((.........))))))......).((((((.......))))))..))))))...
复制代码
三、 其他 ncRNA
1、lncRNA
网址:http://www.noncode.org/
2、lncATLAS
lncRNA 亚细胞定位的数据库
网址:http://lncatlas.crg.eu/
3、miRNA
网址: http://www.mirbase.org/
4、ceRNA
ceRNA 功能探究数据库
网址: http://starbase.sysu.edu.cn/
5、circBase-
网址: http://www.circbase.org/
|
|