3.1.3 数据处理
数据处理就是指对收集的数据进行加工、梳理,为数据分析做准备。数据处理在数据分析的整个流程中用时最多,数据处理的质量往往决定了数据分析的质量。
职场人士在日常工作中进行的数据处理主要包含有效性处理和数据分类两种。
1.有效性处理
在数据分析中,能够实际用于分析的数据,称为有效数据或可靠数据。数据分析人员拿到基础数据后,必须对基础数据进行处理,比如,对不规范、不完整、不正确的数据进行处理,该删除的删除、该补充的补充、该转换的转换、该计算的计算等,使之成为有效数据。这个过程便称为有效性处理。
有效性处理要遵守“取舍”“运算”“应求”规则,如图3-2所示。
图3-2
(1)取舍规则。
删除不符合要求的数据,补充不完整的数据。例如,根据实际情况删除可疑值、错误值、空值、超范围值、0、符号等,对于有小数点的数据,通常保留2位小数即可。对于缺失值,一般可用平均数、中位数或众数补充。
(2)运算规则。
在进行数据运算时,有数据不符合运算规则就会出错,因此,在运算前必须先将这类数据处理为可以进行运算的数据。例如,对于文本数据、带符号的数据,在运算之前需要转换成能够进行运算的数据。不同数据的转换操作在后面章节中会详细讲解,这里就不介绍了。
(3)应求规则。
在进行数据分析时,需要根据需求方的诉求来处理数据,有时只需要提取或截取数据中的部分数值或内容,比如提取文本数据中的前4位,或截取后3位、截取中间5位等。
2.数据分类
在数据处理时,要根据需求对数据进行分类,比如按区域、市场、年龄、档次、规格、颜色等进行分类。在数据分析过程中必须进行数据分类,分类就是把具有关联特征的数据放在一起统计、分析。数据分类分为细分和再细分,比如,销售数据已经细分到区域,还可以再细分到门店,还可以再细分到经理,还可以再细分到销售人员,当然还可以再细分到性别、年龄等,此处就不赘述了。