生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

318

主题
发表于 2022-8-31 20:50:23 | 查看: 1137| 回复: 0
一、因子
       所有的数据集合可以分为三类,连续型,名义型和有序型。连续型例如1 2 3 4 5 8 9 10,名义型如sample1 sample2 sample3 ,而有序型 good better best;周一,周二,周三……等。在R中名义型变量和有序性变量称为因子,factor。这些分类变量的可能值称为一个水平level,由这些水平值构成的向量就称为因子。因子主要用于计算频数,可以用来分组。可以通过factor()函数中的labels选项对因子的值进行批量修改。

  1. state.division
  2. state.region
  3. table(state.division)
  4. afactor <- factor(c("blue","red","red","green","red","blue"),levels = c("red",
  5. "green","blue","yellow"))
  6. bfactor <- factor(letters[1:5], labels = c("one","two","three","four","five"))
复制代码

二、列表
       列表就是一些对象的有序集合。列表中可以存储若干向量、矩阵、数据框,甚至其他列表的组合。

  1. genes200 <- read.csv("200genes.csv",header = T,stringsAsFactors = F,row.names = 1)
  2. genes121 <- read.csv("121genes.csv",header = T,stringsAsFactors = F)

  3. gene93 <- unique(genes121$gene)
  4. dta <- genes200[gene93,]
  5. dta <- na.omit(dta)
  6. rownames(dta) <- 1:nrow(dta)#86个行数重命名

  7. alist <- list(dta=dta,genes121=genes121,genes200=genes200)
  8. names(alist)
  9. length(alist)
  10. alist$genes200
  11. a <- alist$genes200
  12. class(a)
复制代码


三、时间序列
       时间数列类似与数据框,主要是记录随着时间变化值的变化,例如每天,每月,每个季度,每年的变化前框的,主要表现趋势的变化。例如股票数据,经济数据,气候数据等。时间序列分析主要用于预测。

  1. presidents
  2. class(presidents)
  3. plot(presidents)
复制代码


四、缺失数据

       缺失信息问题在数据科学中非常常见。在大规模数据采集过程中,几乎不可能每次都得到完整的数据,那么该如何处理缺失数据呢?首先我们要清楚为何会出现缺失数据,一种可能是机器断电,设备故障导致某个测量值发生了丢失。或者测量根本没有发生,例如在做调查问卷时,有些问题没有回答,或者有些问题是无效的回答等,这些都算作缺失值。对于缺失信息,R 中提供了一些专门的处理方法。
       在 R 中,NA 代表缺失值,NA 是不可用,not available 的简称,用来存储缺失信息。这里缺失值 NA 表示 没有,但注意没有并不一定就是 0,NA 是不知道是多少,也能是 0,也可能是任何值,缺失值和值为零是完全不同的。。

  1. x <- 1:5
  2. x
  3. x[7] <- 7
  4. x
  5. sum(x)
  6. sum(x,na.rm = T)
  7. is.na(x)
  8. mean(x,na.rm = T)
  9. x[6] <- mean(x,na.rm = T)
  10. x
  11. #install.packages('VIM',destdir = '/home/xhs/Rpack/download')
  12. library(VIM)
  13. data(sleep,package = "VIM")
  14. class(sleep)
  15. na.omit(sleep)
  16. a <- aggr(sleep, plot = FALSE)
  17. plot(a, numbers = TRUE, prop=TRUE)
复制代码


五、类
       类和对象是面向对象编程技术中的最基本的概念。R 中会有很多类,例如在分析生物数据时,会经常遇到各种类,例如 Experiment Set 类。类是现实世界或思维世界中的实体在计算机中的反映,它将数据以及这些数据上的操作封装在一起。对象(object)是具有类类型的变量。R 中类是将各种数据整合在一起,本质上是一种列表。

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-23 17:38 , Processed in 0.072661 second(s), 29 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表