生信喵 发表于 2022-8-31 20:50:23

因子列表缺失数据

一、因子
       所有的数据集合可以分为三类,连续型,名义型和有序型。连续型例如1 2 3 4 5 8 9 10,名义型如sample1 sample2 sample3 ,而有序型 good better best;周一,周二,周三……等。在R中名义型变量和有序性变量称为因子,factor。这些分类变量的可能值称为一个水平level,由这些水平值构成的向量就称为因子。因子主要用于计算频数,可以用来分组。可以通过factor()函数中的labels选项对因子的值进行批量修改。

state.division
state.region
table(state.division)
afactor <- factor(c("blue","red","red","green","red","blue"),levels = c("red",
"green","blue","yellow"))
bfactor <- factor(letters, labels = c("one","two","three","four","five"))
二、列表
       列表就是一些对象的有序集合。列表中可以存储若干向量、矩阵、数据框,甚至其他列表的组合。

genes200 <- read.csv("200genes.csv",header = T,stringsAsFactors = F,row.names = 1)
genes121 <- read.csv("121genes.csv",header = T,stringsAsFactors = F)

gene93 <- unique(genes121$gene)
dta <- genes200
dta <- na.omit(dta)
rownames(dta) <- 1:nrow(dta)#86个行数重命名

alist <- list(dta=dta,genes121=genes121,genes200=genes200)
names(alist)
length(alist)
alist$genes200
a <- alist$genes200
class(a)

三、时间序列
       时间数列类似与数据框,主要是记录随着时间变化值的变化,例如每天,每月,每个季度,每年的变化前框的,主要表现趋势的变化。例如股票数据,经济数据,气候数据等。时间序列分析主要用于预测。

presidents
class(presidents)
plot(presidents)

四、缺失数据

       缺失信息问题在数据科学中非常常见。在大规模数据采集过程中,几乎不可能每次都得到完整的数据,那么该如何处理缺失数据呢?首先我们要清楚为何会出现缺失数据,一种可能是机器断电,设备故障导致某个测量值发生了丢失。或者测量根本没有发生,例如在做调查问卷时,有些问题没有回答,或者有些问题是无效的回答等,这些都算作缺失值。对于缺失信息,R 中提供了一些专门的处理方法。
       在 R 中,NA 代表缺失值,NA 是不可用,not available 的简称,用来存储缺失信息。这里缺失值 NA 表示 没有,但注意没有并不一定就是 0,NA 是不知道是多少,也能是 0,也可能是任何值,缺失值和值为零是完全不同的。。

x <- 1:5
x
x <- 7
x
sum(x)
sum(x,na.rm = T)
is.na(x)
mean(x,na.rm = T)
x <- mean(x,na.rm = T)
x
#install.packages('VIM',destdir = '/home/xhs/Rpack/download')
library(VIM)
data(sleep,package = "VIM")
class(sleep)
na.omit(sleep)
a <- aggr(sleep, plot = FALSE)
plot(a, numbers = TRUE, prop=TRUE)

五、类
       类和对象是面向对象编程技术中的最基本的概念。R 中会有很多类,例如在分析生物数据时,会经常遇到各种类,例如 Experiment Set 类。类是现实世界或思维世界中的实体在计算机中的反映,它将数据以及这些数据上的操作封装在一起。对象(object)是具有类类型的变量。R 中类是将各种数据整合在一起,本质上是一种列表。

页: [1]
查看完整版本: 因子列表缺失数据