因子列表缺失数据

生信喵 发表于 2022-8-31 20:50:23

一、因子
   所有的数据集合可以分为三类，连续型，名义型和有序型。连续型例如1 2 3 4 5 8 9 10，名义型如sample1 sample2 sample3 ，而有序型 good better best；周一，周二，周三……等。在R中名义型变量和有序性变量称为因子，factor。这些分类变量的可能值称为一个水平level，由这些水平值构成的向量就称为因子。因子主要用于计算频数，可以用来分组。可以通过factor()函数中的labels选项对因子的值进行批量修改。

state.division
state.region
table(state.division)
afactor <- factor(c("blue","red","red","green","red","blue"),levels = c("red",
"green","blue","yellow"))
bfactor <- factor(letters, labels = c("one","two","three","four","five"))
二、列表
   列表就是一些对象的有序集合。列表中可以存储若干向量、矩阵、数据框，甚至其他列表的组合。

genes200 <- read.csv("200genes.csv",header = T,stringsAsFactors = F,row.names = 1)
genes121 <- read.csv("121genes.csv",header = T,stringsAsFactors = F)

gene93 <- unique(genes121$gene)
dta <- genes200
dta <- na.omit(dta)
rownames(dta) <- 1:nrow(dta)#86个行数重命名

alist <- list(dta=dta,genes121=genes121,genes200=genes200)
names(alist)
length(alist)
alist$genes200
a <- alist$genes200
class(a)

三、时间序列
   时间数列类似与数据框，主要是记录随着时间变化值的变化，例如每天，每月，每个季度，每年的变化前框的，主要表现趋势的变化。例如股票数据，经济数据，气候数据等。时间序列分析主要用于预测。

presidents
class(presidents)
plot(presidents)

四、缺失数据

   缺失信息问题在数据科学中非常常见。在大规模数据采集过程中，几乎不可能每次都得到完整的数据，那么该如何处理缺失数据呢？首先我们要清楚为何会出现缺失数据，一种可能是机器断电，设备故障导致某个测量值发生了丢失。或者测量根本没有发生，例如在做调查问卷时，有些问题没有回答，或者有些问题是无效的回答等，这些都算作缺失值。对于缺失信息，R 中提供了一些专门的处理方法。
   在 R 中，NA 代表缺失值，NA 是不可用，not available 的简称，用来存储缺失信息。这里缺失值 NA 表示没有，但注意没有并不一定就是 0，NA 是不知道是多少，也能是 0，也可能是任何值，缺失值和值为零是完全不同的。。

x <- 1:5
x
x <- 7
x
sum(x)
sum(x,na.rm = T)
is.na(x)
mean(x,na.rm = T)
x <- mean(x,na.rm = T)
x
#install.packages('VIM',destdir = '/home/xhs/Rpack/download')
library(VIM)
data(sleep,package = "VIM")
class(sleep)
na.omit(sleep)
a <- aggr(sleep, plot = FALSE)
plot(a, numbers = TRUE, prop=TRUE)

五、类
   类和对象是面向对象编程技术中的最基本的概念。R 中会有很多类，例如在分析生物数据时，会经常遇到各种类，例如 Experiment Set 类。类是现实世界或思维世界中的实体在计算机中的反映，它将数据以及这些数据上的操作封装在一起。对象（object）是具有类类型的变量。R 中类是将各种数据整合在一起，本质上是一种列表。

页: [1]

生信人's Archiver

因子列表缺失数据