大数据及其可视化
上QQ阅读APP看书,第一时间看更新

1.2.3 全数据模式:样本=总体

采样的目的是用最少的数据得到最多的信息,而当人们可以获得海量数据时,采样也就失去了意义。如今,感应器、手机导航、网站点击和微信等被动地搜集了大量数据,而计算机可以轻易地对这些数据进行处理——数据处理技术已经发生了翻天覆地的改变。

在很多领域,从搜集部分数据到搜集尽可能多的数据的转变已经发生。如果可能,人们会搜集所有的数据,即“样本=总体”,这是指人们能对数据进行深度探讨。

分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性。所以,人们经常会放弃样本分析这条捷径,而选择搜集全面而完整的数据。人们需要足够的数据处理和存储能力,也需要最先进的分析技术。同时,简单廉价的数据搜集方法也很重要。过去,这些问题中的任何一个都很棘手。在一个资源有限的时代,要解决这些问题需要付出很高的代价。但现在,解决这些难题已经变得简单容易得多。曾经只有大公司才能做到的事情,现在绝大部分的公司都可以做到。