从零开始学Python数据分析与挖掘
上QQ阅读APP看书,第一时间看更新

前言

为什么写这本书

随着大数据时代的演进,越来越多的企业在搜集数据的同时,也开始关注并重视数据分析与挖掘的价值,因为他们正尝到这项技术所带来的甜头。例如,通过该技术可以帮助企业很好地认识其用户的画像特征,为用户提供个性化的优质服务,进而使用户的忠诚度不断提升;通过该技术提前识别出不利于企业健康发展的“毒瘤”用户(如黄牛群体、欺诈群体等),进而降低企业不必要的损失;通过该技术可以为企业实现某些核心指标的判断和预测,进而为企业高层的决策提供参考依据等。企业对数据分析与挖掘技术的重视就意味着对人才的重视,这就要求希望或正在从事数据相关岗位的人员具备该技术的理论知识和实战能力。

Python作为大数据相关岗位的应用利器,具有开源、简洁易读、快速上手、多场景应用以及完善的生态和服务体系等优点,使其在数据分析与挖掘领域中的地位显得尤为突出。基于Python可以对各种常见的脏数据完成清洗、绘制各式各样的统计图形,并实现各种有监督、无监督和半监督的机器学习算法的落地,在数据面前做到游刃有余,所以说Python是数据分析与挖掘工作的不二之选。根据多家招聘网站的统计,几乎所有的数据分析或挖掘岗位都要求应聘者掌握至少一种编程语言,其中就包括Python。

纵观国内的图书市场,关于Python的书籍还是非常多的,它们主要偏向于工具本身的用法,如关于Python的语法、参数、异常处理、调用以及开发类实例等。但是基于Python的数据分析与挖掘书籍并不是特别多,关于这方面技术的书籍更多的是基于R语言等工具。本书将通过具体的实例讲解数据的处理和可视化技术,同时也结合数据挖掘的理论知识和项目案例讲解10种常用的挖掘算法。

2015年9月,笔者申请了微信公众号,取名为“数据分析1480”,目前已经陆续更新了近200篇文章。一方面是为了将自己所学、所知记录下来,作为自己的知识沉淀;另一方面是希望尽自己的微薄之力,将记录下来的内容分享给更多热爱或从事数据分析与挖掘事业的朋友。但是公众号的内容并没有形成系统的知识框架,在王金柱老师的鼓励和支持下才开始了本书的写作,希望读者能够从中获得所需的知识点。