0 收听	12 听众	422 主题

重复序列分析

发表于 2022-6-28 10:39:37 | 查看: 5126| 回复: 0

背景
   基因组上有很多的重复区域，重复序列是物种基因组一个明显的特征。在真核生物中重复区序列占据很大的比率，例如人的基因组中重复序列占据了 90%以上的区域。在植物基因组中这个比例更高。
   重复序列可以简单分为散在重复和串联重复，散在重复指某一个相同或相似的片段分散在基因组上。而串联重复则指重复序列片段单元连续出现在一起。如图中所示，这里面注意，对于重复单元可以完全相同，也可以存在差异。

   散在重复与串联重复
   串联重复序列根据重复序列的重复单位的长度可分为卫星 DNA（satellites DNA）、小卫星DNA（mimisatellites DNA）和微卫星 DNA（microsatellites DNA）。微卫星 DNA 由 1～6 个核苷酸组成的基本单位重复多次构成的一段 DNA，广泛分布于基因组的不同位置，长度一般在 200bp 以下。分散重复序列分四种：LTR、LINE、SINE 和 DNA 转座子。

一、串联重复序列分析
   对于串联重复序列，可以使用 trf 软件，Trf 是（Tandem Repeat Finder）的简称，用来搜寻DNA 序列中的串联重复序列。重复单元可以从 1bp 到 500bp，DNA 查询序列大小可以超过 5M。

#安装软件
mamba install -y trf
#串联重复序列预测
trf MGH78578.fasta 2 7 7 80 10 50 500 -f -d -m

复制代码

   2 7 7 80 10 50：为运行模式选项，各种罚分标准。
   -m：输出屏蔽序列
   -f ：输出侧翼序列
   -d ：输出结果文件
   -h：输出 html 格式结果

二、与已知数据库比对
   目前，识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker 软件，识别与已知重复序列相似的序列，并对其进行分类。我们利用Repeatmasker 识别与已知重复序列相似的重复序列或蛋白质序列。通过构建 Repbase 数据库在 DNA 水平和蛋白质水平的重复序列，Repeatmasker 能够分别识别在 DNA 水平和蛋白质水平重复的序列，提高了识别率。
2.1 软件安装

#安装软件 RepeatMasker
mamba install -y repeatmasker

复制代码

下载数据库：
网址：https://www.girinst.org/server/RepBase/index.php

#数据库下载，需注册
#https://www.girinst.org/server/RepBase/index.php
RepBaseRepeatMaskerEdition-20181026.tar
#配置数据库
#数据库路径：/ifs1/User/meta/miniconda3/share/RepeatMasker/Libraries/
tar -zxvf RepBaseRepeatMaskerEdition-20181026.tar
mv Libraries/* /ifs1/User/meta/miniconda3/share/RepeatMasker/Libraries/

复制代码

2.2 运行软件

mkdir repeatmasker
RepeatMasker -pa 2 -species bacteria -q -html -gff -dir
repeatmasker MGH78578.fasta

复制代码

   -pa：线程数
   -q：快速模式，敏感性稍低，-s 为慢速模式，敏感性更高
   -species：物种名
   -html：输出 html 结果
   -gff：输出 gff 格式结果
   -dir：输出文件夹

2.3 结果解读
   *.tbl：重复序列注释结果报告信息汇总表格 overview
   *.out.html: 网页版结果详细，同 RepeatMasker 在线注释结果报告
   *.masked: 将注释为重复序列区的大项替换为 N 的基因组
   *.out：RepeatMasker 默认输入结果格式，信息基本与 gff 相关
   *.cat.gz: 序列与重复序列比对的文件

三、从头预测 RepeatModeler
Repeatmasker 基于与已知的重复序列数据库比对来寻找重复序列，Repeatmodeler 是通过重续序列的结构特征来进行从头注释，因此可以寻找一些物种特有的重复序列。
网址：http://www.repeatmasker.org/RepeatModeler/
3.1 安装软件

#安装软件
mamba install -y repeatmodeler

复制代码

3.2 软件使用

#软件使用
#下方作为测试，只使用了主要的参数
#建立基因组索引
BuildDatabase -name MGH78578 -engine ncbi MGH78578.fasta
#从头预测
RepeatModeler -pa 8 -engine ncbi -database MGH78578

复制代码

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册