Jupyter数据科学实战
上QQ阅读APP看书,第一时间看更新

1.1 数据的概念

描述数据的方式之一是区分数据的类型,数据可分为以下3类。

1.1.1 结构化数据

可用二维表结构表现逻辑且易于处理的数据称为结构化数据,从该类数据中获取信息非常容易。例如,以由行和列组成的二维表形式存储于关系数据库(如SQL)中的数据属于结构化数据;电子表格也是一个结构化数据的范例。结构化数据约占世界上全部数据量的5%~10%。SQL数据表如图1-1所示,存有商家相关的数据。

图1-1 SQL数据表

1.1.2 非结构化数据

非结构化数据需要更高级的工具和软件来获取信息。图形图像、PDF文件、Word文档、视频、音频、邮件、PowerPoint演示文档、网页及其内容、维基百科、流数据和位置坐标等都属于非结构化数据。非结构化数据约占全部数据的80%。各种非结构化数据类型如图1-2所示。

图1-2 非结构化数据类型

1.1.3 半结构化数据

半结构化数据是指不规整的结构化数据。JSON(JavaScript对象表示法)文件、BibTex文件、.csv文件、以制表符分隔的文本文件、XML和其他标记语言都是互联网上半结构化数据的例子。半结构化数据约占全部数据的5%~10%。图1-3是JSON数据的一个示例。

图1-3 JSON数据