Basic data types in R
R适用于众多数据类型。最初的一些最基本的类型是:
像4.5等十进制值称为数字。
整个数字如4称为整数。整数也是数字。
布尔值(true或false)称为逻辑。
文本(或字符串)值称为字符。
Create a vector
向量是可以保持数字数据,字符数据或逻辑数据的一维阵列。换句话说,向量是存储数据的简单工具。在r中,您可以使用Combine函数C()创建矢量。
numeric_vector <- c(1, 10, 49)
character_vector <- c("a", "b", "c")
# Complete the code for boolean_vector
boolean_vector <- c(TRUE, FALSE ,TRUE)
What’s a matrix?
在R中,矩阵是排列成固定数量的行和列的相同数据类型(数字,字符或逻辑)的元素的集合。由于您只使用行和列,因此矩阵被称为二维。
您可以使用Matrix( )函数构造R中的矩阵。考虑以下示例:
matrix(1:9, byrow = TRUE, nrow = 3)
What’s a factor and why would you use it?
因子是指用于存储分类变量的统计数据类型。分类变量和连续变量之间的差异是分类变量可以属于有限数量的类别,而连续变量可以对应于无限数量的值。
r知道它是否正在处理连续或一个分类的变量很重要,因为您将在未来的统计模型中发展的统计模型不同。
分类变量
有两种类型的分类变量:名义分类变量和序号分类变量。
没有隐含顺序的名义变量是一个分类变量。这意味着不可能说“一个人比对方更有价值”。
相比之下,序数变量确实有自然排序。如:“低”,“中”和“高”。
Factor levels
分配水平的顺序是很重要的,如果在创建向量时没有指定因子的级别,r 将自动按字母顺序分配它们。
levels(factor_vector) <- c("name1", "name2",...)
Summarizing a factor
最喜欢的 r 函数之一将是 summary (), 这将给你一个变量内容的快速概述:
summary(my_var)
speed_vector应该转换为序数因子,因为它的类别有一个自然的顺序。默认情况下,factor()将 speed_vector 转换为无序因子。要创建有序因子,必须添加两个额外的参数: ordered 和 levels。
factor(some_vector,
ordered = TRUE,
levels = c("lev1", "lev2" ...))
What’s a data frame?
你可能记得在关于矩阵的章节中,你放在矩阵中的所有元素都应该是相同类型的。
您经常会发现自己使用的数据集包含不同的数据类型,而不是只有一种。
数据框:将数据集的变量作为列,将观察值作为行。这将是一个熟悉的概念,为那些来自不同的统计软件包,如 SAS 或 SPSS。
Have a look at the structure
应用str()函数通常是接收新数据集或数据帧时要做的第一件事。这是在进行实际分析之前在数据集中获得更多洞察力的好方法。
Subset
subset(my_df, subset = some_condition)
Subset ()的第一个参数指定需要子集的数据集。通过添加第二个参数,可以向 r 提供选择正确子集所需的信息和条件。
Sorting
在数据分析中,您可以根据数据集中的某个变量对数据进行排序。在 r 中,这是通过函数 order( ) 来完成的。
# Use order() to create positions
positions <- order(planets_df$diameter)
# Use positions to sort planets_df
planets_df[positions,]
Lists, why would you need them?
向量(一维数组) : 可以保存数字、字符或逻辑值。向量中的元素都具有相同的数据类型。
矩阵(二维数组) : 可以保存数字,字符或逻辑值。矩阵中的元素都具有相同的数据类型。
数据帧(二维对象) : 可以保存数字、字符或逻辑值。在一个列中,所有元素都具有相同的数据类型,但是不同的列可以具有不同的数据类型。
R中的列表类似于工作或学校中的待办事项列表: 列表中的不同项目很可能在长度、特征和必须完成的活动类型上有所不同。
R 中的列表允许您以一种有序的方式在一个名称(即列表的名称)下收集各种对象。这些对象可以是矩阵、向量、数据框,甚至是其他列表等。甚至不要求这些对象彼此相关。
可以说列表是某种超级数据类型: 可以在其中存储几乎任何信息!
Creating a named list
my_list <- list(name1 = your_comp1,
name2 = your_comp2)
###或
my_list <- list(your_comp1, your_comp2)
names(my_list) <- c("name1", "name2")
Selecting elements from a list
您的列表通常由许多元素和组件构建而成。因此,从中获取单个元素、多个元素或组件并不总是简单的。
选择组件的一种方法是使用该组件的编号位置:shining_list[[1]]
一个快速的检查方法是在控制台中输入它。重要的是要记住: 要从向量中选择元素,您可以使用单个方括号:[]
您还可以使用 [[ ]] 或 $ 符号来引用组件的名称:
shining_list[[“reviews”]]
shining_list$reviews
除了选择组件外,您通常需要从这些组件中选择特定元素。例如,使用Shining_List[[2]][1]