生信喵 发表于 2022-6-28 09:48:25

ncRNA分析

背景
       DNA、RNA 和蛋白质是三种重要的生物大分子,传统的观念认为 DNA 携带着遗传信息,蛋白质是体现生物功能的分子,而 RNA 在这二者间起传递遗传信息的桥梁作用。随着新一代测序技术的发展,越来越多的生物基因组被测序出来,而且,随着 RNAseq 技术的发展,我们对非编码 RNA 的认识也逐渐深入,甚至改变了一些我们传统的认识。人体每个细胞都具有相同的染色体,为什么最终会分化成不同的形态执行不同的功能呢?这些都是由于转录翻译的 RNA 的不同。
       通常我把 RNA 按照是否编码蛋白质分为两大类:
       1、Coding RNA,也就是我们经常说的 mRNA。
       2、Non-CodingRNA,如核糖体 RNA、转运 RNA、核仁 RNA、小 RNA 等。
       基因组上除了包含大量编码基因的 mRNA 外,还包含大量非编码 RNA,也叫做 ncRNA。由于很多 ncRNA 都有固定的结构,例如核糖体 RNA 比较保守,而转运 RNA 具有倒三叶草二级结构,因此这两种 ncRNA 的分析直接通过软件预测即可,准确性非常高。由于核糖体 RNA属于重复序列,如果能够拼接出核糖体 RNA,也是作为基因组拼接效果的一个衡量指标。

一、核糖体 RNA 预测
1.1 安装软件
#安装软件 rnammer
#首先需要下载安装hmmer
mamba install -y hmmer=2.3.2
mamba install -y perl-xml-simple
mamba install -y perl-getopt-long

#rnammer 需使用教育edu邮箱单独申请
https://services.healthtech.dtu.dk

#下载之后解压缩
mkidr rnammer-1.2
tar zxvf rnammer-1.2.src.tar.gz -C rnammer-1.2

#修改rnammer程序路径
$INSTALL_PATH
$HMMSEARCH_BINARY
1.2 运行软件
#运行程序
mkdir ncrna;cd ncrna;
rnammer -S bac -m tsu,lsu,ssu -gff MGH78578.gff -f MGH78578_rrna.frn MGH78578.fa       -S:物种类型,古细菌,细菌或者真菌
       -m:需要 rRNA 类型,如果真要 16S,则单独选择 lsu
       -gff:输出 gff 格式结果
       -f:输出 fasta 格式序列

二、转运 RNA 预测
2.1 安装软件
#安装软件 trnascan-se
mamba install -y trnascan-se
2.2 运行软件
       转运 RNA 可以通过 tRNAscan 软件进行预测。
#检查默认 perl 版本
perl ~/miniconda3/bin/tRNAscan-SE
perl ~/miniconda3/bin/tRNAscan-SE -B -o tRNAScan.out -f tRNAScan.out.structure
-m stat.list MGH78578.fasta       -B :物种为细菌
       -A :物种为古细菌
       -O :输入序列为细胞器
       -G :包括全部类型
       -o:输出结果
       -f:tRNA 二级结构
       -m:统计结果

2.3 提取序列
#提取序列
perl get_tRNA.pl tRNAScan.out MGH78578.fasta MGH78578_trna.ffn提取序列程序
#!/usr/bin/perl
if (@ARGV !=3) {
die "This program is used to get tRNA sequence
Usage:perl $0 <tRNAScan.out> <genome.fasta> <result>\n";
}
open(A,"$ARGV") ;
while (<A>) {
chomp;
$_=~s/[^ACGTNX\d]$//gi;
if($_=~/^>/){
@temp=split;
$temp=~s/^>//;
$name=$temp;
}else{
$genome_seq{$name}.=$_;
} }
close(A);
open(A,"$ARGV") ;
open O,">$ARGV";
$flag=0;
while (<A>) {
chomp;
if($_=~/^\-\-\-\-\-/){
$flag=1;
}else{
if($flag==1){
@temp=split;
if($temp<$temp){
$trna=uc(substr($genome_seq{$temp},$temp-1,$temp-$temp+1));
$trna=~s/(.{50})/$1\n/g;
print O ">$temp_tRNA$temp $temp $temp $temp
$temp\n$trna\n";
}else{

$trna=reverse(uc(substr($genome_seq{$temp},$temp-1,$temp-$temp+1))
);
$trna=~tr/ACGT/TGCA/;
$trna=~s/(.{50})/$1\n/g;
print O ">$temp_tRNA$temp $temp $temp $temp
$temp\n$trna\n";
}
}
} }
close(A);
close O;
2.4 查看二级结构
http://rna.tbi.univie.ac.at/forna/
序列格式
#在线分析
>molecule_name
CGCUUCAUAUAAUCCUAAUGAUAUGGUUUGGGAGUUUCUACCAAGAGCCUUAAACUCUUGAUUAUGAAGUG
...(((((((..((((((.........))))))......).((((((.......))))))..))))))...
三、 其他 ncRNA
1、lncRNA
网址:http://www.noncode.org/
2、lncATLAS
lncRNA 亚细胞定位的数据库
网址:http://lncatlas.crg.eu/
3、miRNA
网址: http://www.mirbase.org/
4、ceRNA
ceRNA 功能探究数据库
网址: http://starbase.sysu.edu.cn/
5、circBase-
网址: http://www.circbase.org/

页: [1]
查看完整版本: ncRNA分析