大数据及其可视化
上QQ阅读APP看书,第一时间看更新

1.3.1 允许不精确

对“小数据”而言,最基本、最重要的要求是减少错误,保证质量。因为搜集的信息量比较少,所以必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小,为了使结果更加准确,很多科学家都致力于优化测量的工具,发展了可以准确搜集、记录和管理数据的方法。在采样时,对精确度的要求更高更苛刻。因为搜集信息的有限性意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。

然而,在不断涌现的新情况里,允许不精确地出现已经成为一个亮点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。

同时,人们需要与各种各样的混乱作斗争。混乱,简单地说就是随着数据的增加,错误率也会相应增加。所以,如果桥梁的压力数据量增加1000倍,其中的部分读数就可能是错误的,而且随着读数量的增加,错误率可能也会继续增加。在整合来源不同的各类信息时,因为它们通常不完全一致,所以也会加大混乱程度。

混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。

当然,在萃取或处理数据时,混乱也会发生。因为在进行数据转化时,我们是在把它变成另外的事物。比如,葡萄是温带植物,温度是葡萄生长发育的重要因素,假设要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那就必须确保这个测量仪是精确的而且能够一直工作。反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,可能会更加混乱,但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。

大数据在多大程度上优于算法,这个问题在自然语言处理上表现得很明显。2000年,微软研究中心的米歇尔·班科和埃里克·布里尔一直在寻求改进Word程序中语法检查的方法。但是他们不能确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致的特点更有效。所以,在实施这些措施之前,他们决定往现有的算法中添加更多的数据,看看会有什么不同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最后,他们决定往4种常见的算法中逐渐添加数据,先是一千万字,再到一亿字,最后到十亿。

结果有点令人吃惊。他们发现,随着数据的增多,4种算法的表现都大幅提高。当数据只有500万时,有一种简单的算法表现得很差,但当数据达10亿时,它变成了表现最好的,准确率从原来的75%提高到了95%以上。与之相反地,在少量数据情况下运行最好的算法,在加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行最不好的。

后来,班科和布里尔在他们发表的研究论文中写到,“如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”