生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

279

主题
发表于 2022-6-28 10:39:37 | 查看: 877| 回复: 0
背景
       基因组上有很多的重复区域,重复序列是物种基因组一个明显的特征。在真核生物中重复区序列占据很大的比率,例如人的基因组中重复序列占据了 90%以上的区域。在植物基因组中这个比例更高。
       重复序列可以简单分为散在重复和串联重复,散在重复指某一个相同或相似的片段分散在基因组上。而串联重复则指重复序列片段单元连续出现在一起。如图中所示,这里面注意,对于重复单元可以完全相同,也可以存在差异。
      
       散在重复与串联重复
       串联重复序列根据重复序列的重复单位的长度可分为卫星 DNA(satellites DNA)、小卫星DNA(mimisatellites DNA)和微卫星 DNA(microsatellites DNA)。微卫星 DNA 由 1~6 个核苷酸组成的基本单位重复多次构成的一段 DNA,广泛分布于基因组的不同位置,长度一般在 200bp 以下。分散重复序列分四种:LTR、LINE、SINE 和 DNA 转座子。

一、串联重复序列分析
       对于串联重复序列,可以使用 trf 软件,Trf 是(Tandem Repeat Finder)的简称,用来搜寻DNA 序列中的串联重复序列。重复单元可以从 1bp 到 500bp,DNA 查询序列大小可以超过 5M。
  1. #安装软件
  2. mamba install -y trf
  3. #串联重复序列预测
  4. trf MGH78578.fasta 2 7 7 80 10 50 500 -f -d -m
复制代码
      2 7 7 80 10 50:为运行模式选项,各种罚分标准。
       -m:输出屏蔽序列
       -f :输出侧翼序列
       -d :输出结果文件
       -h:输出 html 格式结果

二、与已知数据库比对
       目前,识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker 软件,识别与已知重复序列相似的序列,并对其进行分类。我们利用Repeatmasker 识别与已知重复序列相似的重复序列或蛋白质序列。通过构建 Repbase 数据库在 DNA 水平和蛋白质水平的重复序列,Repeatmasker 能够分别识别在 DNA 水平和蛋白质水平重复的序列,提高了识别率。
2.1 软件安装
  1. #安装软件 RepeatMasker
  2. mamba install -y repeatmasker
复制代码
      下载数据库:
       网址:https://www.girinst.org/server/RepBase/index.php
  1. #数据库下载,需注册
  2. #https://www.girinst.org/server/RepBase/index.php
  3. RepBaseRepeatMaskerEdition-20181026.tar

  4. #配置数据库
  5. #数据库路径:/ifs1/User/meta/miniconda3/share/RepeatMasker/Libraries/
  6. tar -zxvf RepBaseRepeatMaskerEdition-20181026.tar
  7. mv Libraries/* /ifs1/User/meta/miniconda3/share/RepeatMasker/Libraries/
复制代码

2.2 运行软件
  1. mkdir repeatmasker
  2. RepeatMasker -pa 2 -species bacteria -q -html -gff -dir
  3. repeatmasker MGH78578.fasta
复制代码
      -pa:线程数
       -q:快速模式,敏感性稍低,-s 为慢速模式,敏感性更高
       -species:物种名
       -html:输出 html 结果
       -gff:输出 gff 格式结果
       -dir:输出文件夹

2.3 结果解读
       *.tbl:重复序列注释结果报告信息汇总表格 overview
       *.out.html: 网页版结果详细,同 RepeatMasker 在线注释结果报告
       *.masked: 将注释为重复序列区的大项替换为 N 的基因组
       *.out:RepeatMasker 默认输入结果格式,信息基本与 gff 相关
       *.cat.gz: 序列与重复序列比对的文件

三、从头预测 RepeatModeler
Repeatmasker 基于与已知的重复序列数据库比对来寻找重复序列,Repeatmodeler 是通过重续序列的结构特征来进行从头注释,因此可以寻找一些物种特有的重复序列。
网址:http://www.repeatmasker.org/RepeatModeler/
3.1 安装软件
  1. #安装软件
  2. mamba install -y repeatmodeler
复制代码

3.2 软件使用
  1. #软件使用
  2. #下方作为测试,只使用了主要的参数
  3. #建立基因组索引
  4. BuildDatabase -name MGH78578 -engine ncbi MGH78578.fasta
  5. #从头预测
  6. RepeatModeler -pa 8 -engine ncbi -database MGH78578
复制代码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-5-3 10:53 , Processed in 0.058029 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表