Jupyter数据科学实战
上QQ阅读APP看书,第一时间看更新

前言

如今,数据科学已经成为每个组织中不可或缺的一部分,并且雇主愿意支付高薪聘请这方面的专业技术人才。行业的需求快速变化,数据不断增长和演变,从而增加了业内对数据科学家的需求。然而,一直困扰着每一家公司的问题是,是否有充足的高技能人才能够进行分析?能够获得多少数据?数据从何而来?分析技术的进步如何为企业提供更深入的见解?通过阅读本书,读者一定能够进一步了解上述情况。

在任何领域要成为专家,每个人都必须从一个切入点开始学习。在本书设计之初就考虑到了这一点,以便作为读者在数据科学领域的起点。当我在这个领域开始职业生涯的时候,几乎不能找到一本可以用来学习数据科学概念、练习案例并在面临类似问题时复习。我很快意识到数据科学是一个非常广阔的领域,把所有知识都放在一本篇幅较短的书里是不可能的。因此,我决定在这本书里传授我的经验,在这里读者将获得成为一名数据科学家所需的基本知识和技能,而不用浪费宝贵的时间去寻找分散在互联网上的材料。

本书的各个章节前后照应,自然衔接。第1章介绍数据和各种现代数据科学技能。第2章介绍如何安装并配置工具,以帮助读者练习本书中讨论的例子。第3章~第6章介绍Python中所有类型的数据结构,它们将用于日常数据科学工作。第7章介绍与数据库交互的方法。第8章介绍数据分析中常用的统计概念。第9章介绍通过学习如何读取、加载和理解Jupyter笔记本中用于分析的不同类型的数据,读者开始了成为一名数据科学家的旅程。第10章和第11章指导读者完成不同的数据清理和可视化技术。

从第12章开始,结合从前几章中获得的知识来对真实用例进行数据预处理。第13章和第14章介绍监督式和无监督式的机器学习问题以及如何解决它们。第15章和第16章涵盖时间序列数据,并介绍如何处理这些数据。在关键概念介绍完毕之后,第17章~第20章中包括了4个不同的案例研究,在其中应用学习到的所有知识,并练习解决现实世界中的问题。

本书是我借助Python简略地介绍数据科学基本原理的一本书,它节省了读者花费在理论上的时间以便能够专注于实际案例。这些练习案例包括真实的数据集和问题,使读者有信心解决类似或相关的数据问题。我希望读者充分利用这本书的价值,它使读者能够在很短的时间内扩展其作为一位实践者的数据科学知识。