为了能够让CRM系统向企业决策,客户管理等业务提供更准确的数据支持,在整个项目生命周期中,如何从数据库层面和业务层面,双向对数据质量进行有效的管理和控制,从而降低脏数据对企业决策造成的影响。
决定一个CRM系统成败的关键,往往就是数据质量的优劣。劣质的数据来源不一,通过分析,其原因主要有以下几种:
1、缺乏验证程序。很多系统没有在初期就对用户的输入等过程提供完整的验证程序,导致误输入等因素对数据质量造成一定影响。
2、数据格式有效但不正确。往往有些看似有效的数据,但却是错误的。
3、系统更新。在原系统发生结构性变化时,如果管理员新增加了一个字段或下拉值,但是没有及时通知相关的系统工程师,就会导致一线员工继续使用旧的字段或下拉值去匹配新的信息类型。
4、系统接口过多。
5、缺乏参照完整性检查。
6、不匹配的规则和定义。
7、维度渐变。随着时间的推移而可能发生改变的维度,也在某种程度上影响着数据质量。
数据质量管理方案
据实际工作情况来看,往往当我们检查出脏数据时,它已经大量的存在于数据库中了,检查的成本高而效益低。要采用事前预防的方法,从一开始就将质量融入到数据中,以降低脏数据的发生率。在实际项目中,将数据质量的控制在宏观上划分为了三个阶段,由于第三阶段属于数据挖掘范畴,是在建立了准确,完整的数据库基础上实现的。
数据质量规划阶段
完整的信息架构在数据质量管理中占据着重要的位置,这个架构一定是针对业务规则建立的,且能够灵活应对将来可能出现的业务规则或数据流变更。
信息,简要的说就是数据和知识。信息架构的工作在本质上就是将一些数据转化为我们可以直观的理解的知识,或者将我们获得的知识转化为数据,一边可以传递,再利用。它应当是兼具两者的设计过程。大体上应该包含三件工作:
1、架构设计:首先我们要确定系统中信息的单元的大小,并决定这些单元之间的关系。
2、组织方式:将这些组件组合成有意义的,具有特色的类别。也称为逻辑分类。
3、标记:将上一步得到的分类用一个唯一的标签来命名。
数据质量控制阶段
设计质量,即我们上面所说的质量规划阶段,其目的是要收集质量需求并将它们转换为一套标准来执行。接下来的执行过程中,就存在着数据质量控制的问题,宏观上从三个方面来看:可信性、及时性、可用性。
验证生产数据的可信度要制订即包括单变量特征也包括多变量特征的检查规则。对于某些字段,它有可能同时存在多种约束条件,这些检查的规则要在数据结构确立后就明确。此外,这里还应重点考虑的一项工作是重复数据的检查。
结合项目中的实际情况来说,重复数据可以归为两类,一类是在数据库中已经存在重复的记录,所以要将这些冗余的数据清除,或是归档。另一类是根据业务规则需要清洗,但并不违反数据库的逻辑规则。
另一个重要因素就是数据流的控制。往往一些企业的CRM系统的数据流的来源和去向较为复杂。任何环节发现了脏数据先不要急于去做数据清洗,应该顺着数据流去寻找源头,在确定从根本上修复了程序后再开始数据清洗工作。