![文本数据挖掘:基于R语言](https://wfqqreader-1252317822.image.myqcloud.com/cover/707/39130707/b_39130707.jpg)
上QQ阅读APP看书,第一时间看更新
2.2 R的基本数据类型
R语言是一门面向数据的语言,因此用户必须熟悉R体系中的基本数据类型。R中常用的数据类型包括数值型、逻辑型、字符型和因子型4种,以下一一进行介绍。
2.2.1 数值型
数值型,顾名思义就是数字,如19960524。可以用class函数来查看数据的类型。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_01.jpg?sign=1739319915-eXZHKaA8fIhgRdyZUAC4gwa7aUIPo3Sn-0-e6ebba751a1c8233a924f6593599741d)
可看到,这是一个数值型。其实数值还有更深层的分类,就是整数型和双精度型,可以用来表示整数和正整数。如果要表示整数,一般在数字后面加入“L”。可以用typeof函数来看到细分的数据差别。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_02.jpg?sign=1739319915-pkffBnAQREkoBMOEMONuX7SjQfnA4AIs-0-3e3c02df4615dc834425e81c017c0fed)
R中还有一种数据类型叫作复数型,可以表示数学中的虚数,表示方法如下。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_03.jpg?sign=1739319915-SgTOsXhYlMacM2Oe6jPjB22bK1FYzfah-0-5465bf77dec4b0700165f857791f282c)
由于在文本数据挖掘中不常用,这里不展开介绍这种数据类型。
2.2.2 逻辑型
逻辑型的数据,一般是指非黑即白的两种:真(TRUE)与假(FALSE)。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_04.jpg?sign=1739319915-8NxMBe25vkol6qP7UP9Kgqiwx9uONze2-0-037918d895db0278720d26a81df723f2)
TRUE和FALSE都是R中的保留字符,它们还可以分别简写为T和F。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_05.jpg?sign=1739319915-qI1SgRJ5CJEmPKw2eQSj8L45HqCmq8yb-0-6497accfd7647d4aa3282d2847b681c6)
值得注意的是,R中表示缺失值的保留字NA也是逻辑型数据。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_06.jpg?sign=1739319915-PTD8hOZx5A62IxVcygXJIaZNlXcKpldr-0-0001ac05d7fefc8cc367f92c9a24913f)
2.2.3 字符型
字符型就是字符串,在文本数据挖掘中,所有文本格式的数据都属于这种类型,如“R语言”“文本数据挖掘”,就都是字符串。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/24_01.jpg?sign=1739319915-pXwey9R7pb6mkyVd1MYZqmn7Ptwox2Pz-0-498260a8838d27ba3feb0d1cbdf89399)
2.2.4 因子型
因子型是R中独特的数据结构,它代表了字符与数字的映射关系,可以表示离散型的数据。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/24_02.jpg?sign=1739319915-Vk9ZNAci90QWLvCfuzoyeYrBNcnX8a9u-0-cbede6f63bc6da165decd64b38b34d0a)
使用levels函数可以看到因子变量的等级。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/24_03.jpg?sign=1739319915-wlrWd0zG3GqMSONV58dE5ijnXYANySM7-0-b16da2e11f3bd6585ab689173d405075)