
数字化转型下的电信运营商数据资产管理
实施单位:
中国移动通信研究院
参与完成人:
刘童桐、吴嘉、于杰、万沛超、马静、曾一平、纪春芳、李静婉
引言
大数据浪潮下,中国移动正在推进数字化转型,拓展新业务和新市场。然而,由于公司长期以来采用的是两级系统架构体系,全网业务开展需要总部先制定业务规范和系统改造方案,下发给各省公司,再由各省公司单独实施,这就带来了各省数据标准不统一、数据模型差异较大等问题,导致全网数据资产缺乏集中和统一管理,最终影响整个企业数据质量水平。
面对这一情况,中国移动通信研究院开展了面向运营商数字化转型的数据资产管理项目,利用大数据、数据治理等先进的技术手段和理念,有效填补了公司数据资产管理能力不足的短板,提升了中国移动在数字经济时代的竞争力。
方案概述
中国移动数据资产管理项目,制定了完善的数据资产管理方案,并研发了一套功能完备的数据资产管理系统,用于解决目前存在的各省公司数据模型不一致、数据标准不统一、数据质量不高等问题。该项目通过系统支撑能力,辅助完善规划方案,有效提升了公司的数据质量,提高了数据标准化程度。
该项目的实施主要包括两个阶段。
第一阶段是规划数据资产管理体系,制订落地实施方案,该项工作启动于2016年年初,持续约两年时间。数据资产管理体系以DAMA(国际数据管理协会)数据管理框架模型为依据,结合中国移动的实际情况,为了在企业内更有效地对数据进行管理,提出了如图1所示的企业数据资产管理体系框架,该框架包含了数据资产管理战略、数据资产管理核心活动、数据资产管理保障机制三部分。

图1 企业数据资产管理体系框架
数据资产管理战略包括对企业数据资产管理在目标愿景、战略定位、存在问题、未来机遇等方面的定义和梳理。
数据资产管理核心活动,指的是为了实现数据资产价值的获取、控制、保护、交付以及提升,对企业中的数据规范所做出的各种计划、执行和监督活动,包括数据标准管理、数据模型管理、元数据管理、数据质量管理、参考数据和主数据管理等。
数据资产管理保障机制,定义了企业数据资产管理中应遵循的数据规范(包括数据标准、数据模型、元数据、主数据、参考数据、业务规则等)、相关制度政策和管理流程、组织架构和人员角色,以及数据资产管理涉及的支撑系统。
第二阶段是研发数据管控系统(DGS),支撑方案落地实施,该项工作从2016年中期启动。2017年4月系统V1.0版本发布,并在集团总部部署试运行,此后系统功能每半年都会迭代更新一次。数据管控系统作为数据资产管理体系框架中的技术支撑手段,定位为企业级数据资产管控平台,涵盖企业数据标准、数据模型、元数据、参考数据、业务规则等一系列数据资产的全生命周期管理,为大数据时代的数据资产管理和增值发展提供全面支撑。数据管控系统数据架构如图2所示。
系统基于企业建立的一系列数据规范,对企业数据资产进行规范化管理,这是发挥大数据价值的核心和基础。系统主要功能包括数据标准管理、数据模型管理、元数据采集和分析、数据质量核查、数据资产分析、数据资产图谱6个方面。

图2 数据管控系统数据架构
难点解决
项目实施中最为核心和需要解决的难点,就是遵循数据标准化原则,针对业务支撑系统中的数据,进行标准化梳理和制定出数据规范。制定数据规范,是指制定有关企业核心数据存在性、完整性、质量及归档的测量标准,是为评估企业数据质量提供标准,也是为手动录入、设计数据加载程序、更新信息以及开发应用软件提供约束性规则。
本项目重点梳理了数据标准和数据模型这两种数据规范。
其中数据标准分为基础数据标准和指标数据标准两类。基础数据标准是指企业在日常业务开展过程中所产生的具有共同业务特征的基础性数据的标准。为了实现基础数据标准的管理,首先从现存系统和业务规范等渠道收集用语,依据数据标准管理方法论构建了标准词典,然后将标准化后的用语再应用到系统中,并遵守标准管理的流程,使用数据管控系统固化和管理制定的基础数据标准。
在试点工作中,项目组按照数据标准化体系构建流程,收集业务用语后将其分解到词素单位,从词素中梳理定义出1732个标准单词,根据逻辑数据模型中属性的定义和数据的特征制定出148个标准域,最终基于定义好的标准单词和标准域定义出334个标准用语。制定的基础数据标准示例如图3所示。

图3 基础数据标准示例
指标数据标准是指为满足公司内部管理需要及外部监管要求,按一定统计、分析规则加工后的数据的标准。试点工作中,我们共制定了业务层面重点指标数据标准7000多个,对每个指标从业务口径到技术口径定义了近20个指标项内容,包括计算流程、维度编码及指标数据来源等系统中取数的方式,严格刻画了每个指标的标准化取数口径。指标数据标准示例如图4所示。

图4 指标数据标准示例
数据模型是对现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型从抽象层次上描述了数据的静态特征、动态行为和约束条件。项目实施过程中,项目组设计了CRM系统客户域、产商品域和订单域的标准化数据模型,包括概念模型、逻辑模型和物理模型,模型以SID标准模型为基准,结合了中国移动的实际业务需求和多个省公司试点的经验,对在其他省公司普遍推广具有重要参考意义。逻辑模型示例如图5所示。

图5逻辑模型示例
创新亮点
项目组从DAMA数据治理的理念出发,规划设计了适合中国移动的数据资产管理体系框架,制定了具备可操作性的数据资产管理落地实施方案,并自主研发了数据资产管理工作的支撑系统——数据管控系统(DGS),方案中的数据管控系统贴近中国移动现阶段数据资产管理工作需求和实践,主要创新亮点包括5个方面。
1.提供最细粒度的数据核查手段,从源头提升数据质量
系统通过检查接口文件、字段数据格式及填充内容是否满足质量核查要求,从源头提升数据质量。系统支持的数据质量核查规则如图6所示。

图6 数据质量核查规则
2.实现产品核心能力开放,打造数据资产管理PaaS模式
在安全管理的基础上,系统梳理和开放了产品中数据标准管理、数据质量核查、元数据采集、数据资产分析、数据模型验证等一系列对外API能力接口,并提供SDK包,方便第三方应用集成和二次开发。
3.利用模型标准库进行统一管理,确保数据的一致性
通过建立和维护模型标准库,系统有效地防止了用语的混乱使用,维持企业数据模型的一致性,确保数据的正确性及质量,并可以提高开发效率和数据管理的一致性。
4.支持集成数据模型、数据标准与元数据,构建企业统一数据资产地图
系统支持对企业数据模型、数据标准与元数据的无缝集成,引入知识图谱技术,构建企业统一数据资产地图,对管理的数据资产提供交互式可视化和语义搜索能力,真正实现了企业“数据资产”一站式统一管理和分析。
5.智能化数据质量核查,驱动业务敏捷和创新
针对核心业务数据的质量核查规则,系统选取训练数据样本,经过预处理(特征抽取、选择、转换和降维),利用逻辑回归、决策树、随机森林等多种机器学习算法,生成特征模型,进行模型验证和优化,应用于定位数据质量原因、质量问题预测,数据质量知识库管理等业务场景。
应用成果
2017年上半年,项目组开始在中国移动总部、辽宁公司、河南公司试点实施基于本方案的数据资产管理项目,该项目的实施显著提升了中国移动的数据资产管理水平,具体体现在以下三个方面。
一是通过建立数据口径标准和闭环管控流程,对分散在各系统中的数据提供一套统一的数据命名、数据定义、业务口径、技术口径等基准,防止用语的混乱使用,梳理统一数据口径7000多个,使公司的统计数据口径完整度从30%上升至90%,数据问题解决效率提高50%,可节约人力资源成本30%,有效维护了数据口径的一致性,为提高公司数据标准化水平提供了可靠支撑。
二是选定核心业务主题,针对已有数据进行逆向建模,梳理了3000多个数据实体,针对发现的问题,重构600多个数据实体,并初步建立一套模型标准库,可用于后续的新建系统的模型设计和核查。试点省公司应用系统管理后,数据库(表)存储容量减少了20%,性能提升了30%,新业务的开发速度比原来提升20%,有效提升了数据模型管理工作的效率,保障了数据的一致性及完整性。
三是通过对试点省公司LTE XDR数据开展质量核查,发现DPI系统存在原始码流重复上报、XDR重复上报、IMSI回填失败、小区标识字段空缺等十余种问题,发现完整率问题集中在关联回填上,据此提出的优化建议,使得省公司DPI数据质量整体提升了25%。
该项目首次提出了适用于中国移动业务特点的数据资产管理方案和软件产品,目前已在中国移动多个省公司有规模性应用,并获得一系列公司内部认可和行业荣誉。研发的数据管控系统(DGS)在2017年申请获得国家版权局计算机软件著作权登记证书,于当年进入中国移动集团公司核心能力产品清单。该项目还获得了2017年度“中国数据标准化及治理优秀实践奖”以及2018年度中国移动通信研究院“在岗技术革新优秀技术方案奖”一等奖。