|
发表于 2022-8-31 20:50:23
|
查看: 1134 |
回复: 0
一、因子
所有的数据集合可以分为三类,连续型,名义型和有序型。连续型例如1 2 3 4 5 8 9 10,名义型如sample1 sample2 sample3 ,而有序型 good better best;周一,周二,周三……等。在R中名义型变量和有序性变量称为因子,factor。这些分类变量的可能值称为一个水平level,由这些水平值构成的向量就称为因子。因子主要用于计算频数,可以用来分组。可以通过factor()函数中的labels选项对因子的值进行批量修改。
- state.division
- state.region
- table(state.division)
- afactor <- factor(c("blue","red","red","green","red","blue"),levels = c("red",
- "green","blue","yellow"))
- bfactor <- factor(letters[1:5], labels = c("one","two","three","four","five"))
复制代码
二、列表
列表就是一些对象的有序集合。列表中可以存储若干向量、矩阵、数据框,甚至其他列表的组合。
- genes200 <- read.csv("200genes.csv",header = T,stringsAsFactors = F,row.names = 1)
- genes121 <- read.csv("121genes.csv",header = T,stringsAsFactors = F)
- gene93 <- unique(genes121$gene)
- dta <- genes200[gene93,]
- dta <- na.omit(dta)
- rownames(dta) <- 1:nrow(dta)#86个行数重命名
- alist <- list(dta=dta,genes121=genes121,genes200=genes200)
- names(alist)
- length(alist)
- alist$genes200
- a <- alist$genes200
- class(a)
复制代码
三、时间序列
时间数列类似与数据框,主要是记录随着时间变化值的变化,例如每天,每月,每个季度,每年的变化前框的,主要表现趋势的变化。例如股票数据,经济数据,气候数据等。时间序列分析主要用于预测。
- presidents
- class(presidents)
- plot(presidents)
复制代码
四、缺失数据
缺失信息问题在数据科学中非常常见。在大规模数据采集过程中,几乎不可能每次都得到完整的数据,那么该如何处理缺失数据呢?首先我们要清楚为何会出现缺失数据,一种可能是机器断电,设备故障导致某个测量值发生了丢失。或者测量根本没有发生,例如在做调查问卷时,有些问题没有回答,或者有些问题是无效的回答等,这些都算作缺失值。对于缺失信息,R 中提供了一些专门的处理方法。
在 R 中,NA 代表缺失值,NA 是不可用,not available 的简称,用来存储缺失信息。这里缺失值 NA 表示 没有,但注意没有并不一定就是 0,NA 是不知道是多少,也能是 0,也可能是任何值,缺失值和值为零是完全不同的。。
- x <- 1:5
- x
- x[7] <- 7
- x
- sum(x)
- sum(x,na.rm = T)
- is.na(x)
- mean(x,na.rm = T)
- x[6] <- mean(x,na.rm = T)
- x
- #install.packages('VIM',destdir = '/home/xhs/Rpack/download')
- library(VIM)
- data(sleep,package = "VIM")
- class(sleep)
- na.omit(sleep)
- a <- aggr(sleep, plot = FALSE)
- plot(a, numbers = TRUE, prop=TRUE)
复制代码
五、类
类和对象是面向对象编程技术中的最基本的概念。R 中会有很多类,例如在分析生物数据时,会经常遇到各种类,例如 Experiment Set 类。类是现实世界或思维世界中的实体在计算机中的反映,它将数据以及这些数据上的操作封装在一起。对象(object)是具有类类型的变量。R 中类是将各种数据整合在一起,本质上是一种列表。
|
|