
1.3.3 纷繁的数据越多越好
通常传统的统计学家都很难容忍错误数据的存在,在搜集样本时,他们会用一整套的策略来减少错误发生的概率。在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。尤其是当搜集所有数据时,在大规模的基础上保持数据搜集标准的一致性不太现实。
如今,人们已经生活在信息时代,人们掌握的数据库也越来越全面,包括了与这些现象相关的大量甚至全部数据。人们不再需要那么担心某个数据点对整套分析的不利影响,要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。
在华盛顿州布莱恩市的英国石油公司(BP)切里波因特炼油厂(见图1-8)中,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。在这里,酷热的恶劣环境和电气设备的存在有时会对感应器读数有所影响,形成错误的数据。但是数据生成的数量之多可以弥补这些小错误。随时监测管道的承压使得BP能够了解到有些种类的原油比其他种类更具有腐蚀性。以前,这都是无法发现也无法防止的。

图1-8 炼油厂
有时候,当人们掌握了大量新型数据时,精确性就不那么重要了,人们同样可以掌握事情的发展趋势。除了一开始会与人们的直觉相矛盾之外,接受数据的不精确和不完美反而能够更好地进行预测,也能够更好地理解这个世界。
值得注意的是,错误性并不是大数据本身固有的特性,而是一个亟需人们去处理的现实问题,并且有可能长期存在,它只是人们用来测量、记录和交流数据的工具的一个缺陷。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常人们不会再花大力气去提升数据的精确性。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据带来的利益,让人们能够接受不精确的存在。