大数据及其可视化
上QQ阅读APP看书,第一时间看更新

1.4.3 通过相关关系了解世界

传统情况下,人类是通过因果关系了解世界的。首先,人们的直接愿望就是了解因果关系。即使无因果联系存在,人们也还是会假定其存在。研究证明,这只是人们的认知方式,与每个人的文化背景、生长环境以及教育水平无关。当看到两件事情接连发生的时候,人们会习惯性地从因果关系的角度来看待它们。在小数据时代,很难证明由直觉而来的因果联系是错误的。

将来,大数据之间的相关关系,将经常会用来证明直觉的因果联系是错误的。最终也能表明,统计关系也不蕴含多少真实的因果关系。总之,人们的快速思维模式将会遭受各种各样的现实考验。

与因果关系不同,证明相关关系的实验耗资少,费时也少。与之相比,分析相关关系既有数学方法,也有统计学方法,同时,数字工具也能帮人们准确地找出相关关系。

相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的事物,人们可以在此基础上进行进一步的因果关系分析。如果存在因果关系,人们再进一步找出原因,这种便捷的机制通过实验降低了因果分析的成本。也可以从相互联系中找到一些重要的变量,这些变量可以用到验证因果关系的实验中。

例如,Kaggle公司举办了关于二手车的质量竞赛。二手车经销商将二手车数据提供给参加比赛的统计学家,统计学家们用这些数据建立一个算法系统来预测经销商拍卖的哪些车有可能出现质量问题。相关关系分析表明,橙色的车有质量问题的可能性只有其他车的一半。

这难道是因为橙色车的车主更爱车,所以车被保护得更好吗?或是这种颜色的车子在制造方面更精良些吗?还是因为橙色的车更显眼、出车祸的概率更小,所以转手时,各方面的性能保持得更好?

人们应该陷入各种各样谜一样的假设中。若要找出相关关系,可以用数学方法,但如果是因果关系的话,这却是行不通的。所以,没必要一定要找出相关关系背后的原因,当人们知道了“是什么”的时候,“为什么”其实没那么重要了,否则就会催生一些滑稽的想法。比方说上面提到的例子里,是不是应该建议车主把车漆成橙色呢?毕竟,

考虑到这些,如果把以确凿数据为基础的相关关系和通过快速思维构想出的因果关系相比,前者就更具有说服力。但在越来越多的情况下,快速清晰的相关关系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中体现为通过严格控制的实验来验证的因果关系,而这必然是非常耗时耗力的。

在大多数情况下,一旦完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,人们就会继续向更深层次研究因果关系,找出背后的“为什么”。

因果关系还是有用的,但是它将不再被看成是意义来源的基础。在大数据时代,即使很多情况下,我们依然指望用因果关系来说明所发现的相互联系,但是,我们知道因果关系只是一种特殊的相关关系。相反,大数据推动了相关关系分析。相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。