0 收听	12 听众	383 主题

安装Seurat以及读取数据

发表于 2022-7-20 22:00:36 | 查看: 3134| 回复: 0

一、Seurat 简介
   Seurat 是一款用于单细胞数据分析的软件，它是一款 R 包。可以对单细胞数据从表达矩阵开始分析。主要可以用于 QC，根据线粒体基因比率进行过滤，细胞分群，差异基因识别，亚细胞分群以及数据可视化等功能，是单细胞研究领域非常著名的工具。
   网站：https://satijalab.org/seurat/index.html
   Seurat 教程：https://satijalab.org/seurat/articles/get_started.html
   虽然 cellranger 也可以直接得到单细胞数据分析的结果，使用 Seruat 更加灵活，通过 R 语言交互是的运行，可以实时进行数据探索，更加方便。

二、软件安装

#安装软件
install.packages('Seurat',lib = "/opt/R/4.2.1/lib/R/library",destdir = '/home/xhs/Rpack/download')
install.packages('tidyverse',lib = "/opt/R/4.2.1/lib/R/library",destdir = '/home/xhs/Rpack/download')
install.packages('patchwork',lib = "/opt/R/4.2.1/lib/R/library",destdir = '/home/xhs/Rpack/download')

复制代码

三、案例介绍
   Seurat 官网提供了大量单细胞分析的案例，包括单细胞表达差异分析，多样品分析，空间转录组等案例，每个案例带有代码和案例数据，直接运行既可以完成分析。这里我们首先练习一个常规单细胞的分析。
   https://satijalab.org/seurat/articles/pbmc3k_tutorial.html
   数据下载：https://cf.10xgenomics.com/sampl ... _bc_matrices.tar.gz

四、读入数据

# Load the PBMC dataset
pbmc.data <- Read10X(data.dir = "./16.rscrna/filtered_gene_bc_matrices/hg19/")

复制代码

这个案例中包含了 2700 个细胞的 PBMC 细胞，输入数据为一个 feature-barcode 矩阵，该数据可以直接从 cellranger 的输出结果中获得，文件来自于 filtered_gene_bc_matrices/hg19/目录，里面包含三个文件，分别为

#1 barcodes 文件
barcodes.tsv
#2 基因表达列表
features.tsv
#3 表达矩阵
matrix.mtx

复制代码

   该案例从表达矩阵入手，分别进行了读入数据，创建对象，数据质控过滤。
   稀疏矩阵与稠密矩阵：在矩阵中，若数值为 0 的元素数目远远多于非 0 元素的数目时，则称该矩阵为稀疏矩阵。与之相反，若非 0 元素数目占大多数时，则称该矩阵为稠密矩阵。
   稀疏矩阵（ sparse matrix）

OTU ID sampleA sampleB sampleC
OTU0 0 0 4
OTU1 6 0 0
OTU2 1 0 7
OTU3 0 0 3

复制代码

稠密矩阵（dense matrix）

sampleA OTU1 6
SampleA OTU2 1
SampleB OTU0 4
SamppleC OTU2 7
SampleC OTU3 3

复制代码

由于单细胞中大量基因在不同细胞中不表达，因此包含很多 0 元素。

#查看稀疏矩阵的维度，即基因数和细胞数；
dim(pbmc.data)
dense.size <- object.size(as.matrix(pbmc.data))
dense.size
sparse.size <- object.size(pbmc.data)
sparse.size
#稀疏矩阵占用小空间存储。
rm(list=c('dense.size','sparse.size'))
gc() #释放内存
#预览稀疏矩阵（1~10行，1~6列），. 表示0；
pbmc.data[1:10,1:6]

复制代码

使用 CreateSeuratObject 函数创建对象，该步骤为分析中最核心的步骤，后续操作都是基于SeuratObject 进行操作，如果该步骤没有问题，后续代码大部分情况下都可以正常运行。数据集中测到的少于 200 个基因的细胞（min.features = 200）和少于 3 个细胞覆盖的基因（min.cells = 3）被过滤掉。

#创建Seurat对象，不同数据集修改project选项
pbmc <- CreateSeuratObject(counts = pbmc.data,project = "pbmc3k",min.cells = 3,min.features = 200)
pbmc
str(pbmc)
class(pbmc)
pbmc@assays
[email protected]
[email protected]
[email protected]
pbmc@graphs
[email protected]
pbmc@version
pbmc@misc
pbmc@commands
pbmc@tools
pbmc@images

复制代码

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册