
1.2 数据挖掘的概念和原理
1.2.1 什么是数据挖掘
数据挖掘(Data Mining)也称为数据开采、数据采掘等,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又潜在有用的信息和知识的过程。
企业中的数据量非常大,而其中真正有价值的信息却很少。因此,经过深层分析从大量数据中获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。这种新式的商业信息处理技术,可以按商业既定业务目标对大量的商业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析等方法相结合,进行联机分析处理(OLAP),从而得出可供决策参考的统计分析数据。在深层次上,它从数据库中发现前所未有的、隐含的知识。OLAP的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,旨在简化和支持联机分析;而数据挖掘的目的是使这一过程尽可能自动化。
数据挖掘基于的数据库类型主要有关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、文本型数据库、Internet信息库,以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。数据挖掘在数据由数据库转化为知识的过程中所处的位置如图1-3所示。

图1-3 数据挖掘在数据由数据库转化为知识的过程中所处的位置
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识(也包括大量的不公开的数据)。数据挖掘使数据库技术进入了一个更高级的阶段。数据挖掘要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识。挖掘出的信息越是出乎意料,就可能越有价值。能够比市场提前知道这种信息,提前做出决策就会获得超额利润。
所以,数据挖掘与传统的数据分析还是有所不同的。概括说来,数据挖掘技术具有如下几个特点:
(1)处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。
(2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的内容。
(3)在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出反应以随时提供决策支持。
(4)在数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术可能会发现大量的规则。
(5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。
1.2.2 数据挖掘的原理
数据本来只是数据,直观上并没有表现出任何有价值的知识。当采用数据挖掘方法从数据中挖掘出知识后,这种知识是否值得信赖呢?为了说明这种知识是可信的,下面简要介绍数据挖掘的原理。
数据挖掘的实质是综合应用各种技术,对与业务相关的数据进行一系列科学的处理,在这个过程中需要用到数据库技术和统计学、应用数学、机器学习、可视化、信息科学、程序开发及其他学科(见图1-4)。其核心是利用算法对处理好的输入、输出数据进行训练,并得到模型,再对模型进行验证,使得模型能够在一定程度上刻画出数据由输入到输出的关系,然后利用该模型对新输入的数据进行计算,从而得到我们希望得到的新的输出。虽然这种模型不容易解释或很难看到,但它是基于大量数据训练并经过验证的,因此能够反映输入数据和输出数据之间的大致关系,这种关系(模型)就是所需要的知识。这就是数据挖掘的原理。从数据挖掘的原理可以看出,数据挖掘是有一定科学依据的,数据挖掘的结果也是值得信赖的。

图1-4 数据挖掘与其他学科的关系