一、R 语言简介
1.1 R 语言历史
R 语言是一款统计软件,R 语言也是一门编程语言,R 语言也是一个数据分析平台。R 是一个免费自由且跨平台通用的统计计算与绘图软件,它有 Windows、Mac、Linux 等版本,均可免费下载使用。R 项目(The R Project for Statistical Computing)最早由新西兰奥克兰大学(Auckland University)的 Robert Gentleman(1959-)和 Ross Ihaka(1954-) 开发,故软件取两人名字的首字母命名为 R 。该项目始于 1993 年,2000 年发布了首个官方版本 R 1.0.0 ,后期维护由 R 核心团队(R Core Team)负责。截止 2019 年 4 月,已发布到 3.6 版本。凭借其开源、免费、自由等开放式理念,R 迅速获得流行,目前已成为学术研究和商业应用领域最为常用的数据分析软件之一。随着大数据行业的发展,R 语言变得越来越流行,R 语言发挥了越来越重要的作用。
三、结构化数据与非结构化数据
结构化数据:信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;
非结构化数据:信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。
R 语言更擅长处理结构化数据,因此,在使用 R 之前,尽量确保数据是严格的表格结构。也就是二位的表格,分为行和列。在 R 语言中,行称为“观测”,列称为“变量”。