如何解决数据质量问题

来源:中琛源 浏览次数: 更新时间:2022-01-17 09:04:00

  大数据的建设和管理是一个专业且复杂的工程,涵盖了业务梳理、标准制定、元数据管理、数据模型管理、数据汇聚、清洗加工、中心存储、资源目录编制、共享交换、数据维护、数据失效等等过程。中间任何一个环节出问题,都将导致数据质量问题。


  大部分大型组织经过大数据建设,已经获得比较好的数据建设成果,也有了比较可观的数据量的积累,但将这些数据直接拿来支撑业务的办理却是一个很大的风险,原因就是只要一笔数据不正确,都可能带来很大的业务风险,导致客户的抱怨,这也正是业务部门对大数据建设成果报有怀疑态度的重要原因。


  在大数据建设项目的执行过程,将其分为事前预防、事中监控、事后改善三个阶段。


  1、事前预防


  制定质量管理机制:基于数据管理的复杂性和诱因的多重性特点,解决数据质量问题仅仅依靠一个技术工具是不够的,我们需要建立长效工作机制。即根据组织特点,制定符合自身环境的工作制度,制定每个环节的工作流程,规定各个参与方的责任,确定各项数据的权威部门,制定数据质量指标,制定数据质量修复流程等等。


  制定数据质量标准:数据标准成功定义的与否,直接决定了大数据建设的成果和数据质量的高低,需要在融合国家标准、行业标准和地方标准的基础上,融合组织自身的业务特色需求。


  制定质量监测模型:数据质量模型代表的是业务需求,它是从业务需求的角度而描述出来的质量需求。


  制定质量监测规则:数据监测规则代表的具体的质量检测手段,它是从技术角度来描述数据质量要求是如何被满足的,包括规范性、完整性、准确性、致性、时效性、可访问性,等等。


  2、事中监控


  监控原始数据质量:数据采集工作从数据源头获取最原始的数据,在数据采集过程中将数据分为“好数据”“坏数据”,“好数据”入库,“坏数据”则反馈给源头修复,因为数据来源部门最懂这些数据,也最能在源头上把数据问题彻底修复掉。


  监控数据中心质量:经过各种采集、清洗、加工过程,数据被存入数据仓库中,这些数据也将被业务部门使用,所以,对于这些成果数据的质量监控和修复则犹为重要。对于这类数据问题,我们可能使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来,也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。


  反馈数据质量问题:数据质量监控过程中,会发现两类问题,一类是源头的数据质量问题,一类是数据中心的数据质量问题,数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。


  考核数据质量考核:数据质量的考核是为了能够引起各个参与部门和参与团队对数据质量的重视,需要及时统计分析各种数据质量问题,并制定出相应的应对措施。


  3、事后改善


  修复数据质量问题:发现质量问题不是最终的目标,我们仍要建立相关的流程和工具,通过手工、工单、自动化等等手段将质量问题修复掉,从而为业务创新提供可靠的数据支撑。


  收集数据质量需求:通过数据中心的建设,质量问题的修复,必然能够促进数据的应用,我们仍要建立通畅的数据质量反馈通道,让各个部门参与到数据质量的再次完善中来,从而形成建设、应用和反馈的良性循环。


  完善质量管理制度:制度和流程的建设并不是一蹴而就的,我们要在数据建设和质量完善的过程中,结合自身组织结构和业务特色,不断完善工作制度。


  完善数据质量标准:各行各业不断涌现新的业务形态,原有的业务也在不断的变化,我们要紧跟业务的变化,不断完善符合业务需求的数据标准。


  完善质量监测模型:如前所述,监测模型代表的业务需求,业务形态的变化、数据标准的变化和质量新需求的出现,同样要求监测模型能够做出相应的变化。


  完善质量监测规则:同样,如今的信息化技术发展日新月异,我们要不断引入各种新技术来更加智能地发现和修复数据质量问题。


  中琛魔方大数据平台表示企业信息化正在火热的进行,政府、医院、金融等陆陆续续使用起了数据治理来在竞争中有较强的优势。那么,数据治理项目实施的难题就是企业的数据质量,只要解决了数据治理的问题,那么就离成功不远了。

上一篇:如何更好认识大数据分析
来源:中琛源
更新时间:2022-01-13 09:39:02
下一篇:大数据方向为何会出现质量问题
来源:中琛源
更新时间:2022-01-17 09:07:51