
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
5.6 本章小结
本章介绍了数据探索的相关内容,包括衍生变量、数据的统计、数据可视化、样本选择和数据降维。从这几个方面的内容可以看出,实际上数据探索集中在数据进一步处理的归约上,它所解决的问题是要对哪些变量建模,用哪些样本。可以说数据探索是深度的数据预处理。相比一般的数据预处理,数据探索阶段更强调探索性,即要探索用哪些变量建模更合适。在数据挖掘中,数据探索的目的是为建模做准备。
衍生变量是为了得到更多有利于描述问题的变量,其要点是通过创造性和务实的设计产生一些与问题的研究有关的变量。衍生变量的方式很多,也很灵活,只要有助于问题的研究就可以,但也要注意适度,过多的衍生变量会稀释原有变量,所以并不是变量越多越好。量化投资领域相对于其他领域有自己的特点,即业务更灵活、更开放,衍生变量的组合形式更多样,所以衍生变量也会更多。
数据的统计和数据可视化的主要目的是进一步了解数据,即了解哪些变量包含的信息更多、更规范,对所研究的事物更有利。这部分的内容相对较简单,也有自己的固定模式,只要掌握这些基本的数据统计方法和可视化方法,能够分析出哪些变量中包含有效的数据信息即可。
样本选择更多是从数据记录中筛选数据,一是注意筛选出的数据对建模来说要足够,二是筛选出的数据要具有代表性。
关于数据降维,这里介绍了两种方法——主成分分析法和相关系数法。在数据挖掘中,并不是所有项目都需要用到这两种方法进行降维。事实上,很少有项目会直接使用主成分分析法进行降维,有时直接使用主成分分析法分析案例中的影响因素。相关系数法是一个既简单灵活,又非常有效的方法,当数据变量较多时,可以使用该法进行变量的筛选。