什么是数据和数据质量
1. 什么是数据?
数据(data):是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据或者计量型数据。也可以是离散的,如符号、文字,称为数字数据或计数型数据。在计算机系统中,数据以二进制信息单元0,1的形式表示。
2020年3月30日,中共中央国务院《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》)正式公布。这是中央第一份关于要素市场化配置的文件。文件中分类提出了土地、劳动力、资本、技术、数据五个要素领域改革的方向。当中备受关注的亮点是,“数据”作为一种新型生产要素,首次与其他传统要素并列为要素之一。
2. 什么是数据质量?
2.1数据质量:数据的一组固有属性满足数据消费者要求的程度。
真实性、及时性和相关性是数据的固有属性。
真实性:即数据是客观世界的真实反映;
及时性:即数据是随着变化及时更新的;
相关性:即数据是数据消费者关注和需要的;
2.2 高质量的数据应从组织、战略、运营、项目、质量管理、相关方角度等满足数据消费者的要求。总结起来,数据消费者对数据的需求有如下几个方面。
a. 可得性 - 当需要数据时能够获取到;
b. 及时性 - 当需要时,数据获得且是及时更新的;
c. 完整性 - 数据是完整没有遗漏的;
d. 安全性 - 数据是安全的,避免非授权的访问和操控;
e. 可理解性 - 数据是可理解和解释的;
f. 正确性 - 数据是现实世界的真实反映。
基于以上,需要评估数据是否满足消费者要求,这就是数据质量管理。
3. 什么是数据质量管理?
3.1数据质量管理:是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
3.2数据质量的评估维度:
a. 完整性,是指数据信息是否完整,是否存在缺失情况。
b. 规范性,是指记录是否符合规范,是否按照规定的格式存储(例如标准编码规则)。
c. 一致性,是指数据是否符合逻辑,数据内单项或多项数据间存在逻辑关系。
d. 准确性,用于度量哪些数据和信息是不正确的,或者数据是超期的。
e. 时效性,数据从产生到可以查看的时间间隔,也叫数据的延时时长。
f. 唯一性,用于度量哪些数据是重复数据或者数据的哪些属性是重复的。
g. 合理性,是从业务逻辑角度判断数据是否正确。评估方面可参照规范性、一致性做法。
h. 冗余性,是指多层次数据中,中是否存在不必要的数据冗余。
i. 获取性,是指数据是否易于获取、易于理解和易于使用。
3.3影响数据质量的因素:主要来源于四方面:信息因素、技术因素、流程因素和管理因素。
信息因素:产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质(如:数据源规格不统一)得不到保证和变化频度不恰当等。
技术因素:主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。
流程因素:是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。
管理因素:是指由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷。
组织如何解决数据质量问题?可以从戴明环PDCA的角度,来解决数据存在的质量问题,云质信息总结如下图:
4.云质观点
数据作为一种新型生产要素写入了《意见》。如何解读这背后释放的政策信号?如何让数据要素的分配更加“有数”?大数据交易市场如何从“0”到“1”实现突破?此举旨在通过加快数据要素市场培育,充分发挥数据要素对其他要素效率的倍增作用,使大数据成为推动经济高质量发展的新动能。
国际通用的质量管理体系ISO9001中的不同条款也多次提到,组织应评价和分析数据以改进组织的过程。
在此我们先留下一个问题待分解,即组织如何利用好质量数据来改善组织的过程呢?
ISO9001:2015中摘录部分条款如下:
0.3.1总则
在质量管理体系中应用过程方法能够:
a) 理解并持续满足要求;
b) 从增值的角度考虑过程;
c) 获得有效的过程绩效;
d) 在评价数据和信息的基础上改进过程。
9.1.3 Analysis and evaluation分析和评价
组织应分析和评价通过监视和测量获得的适当的数据和信息。
应利用分析结果评价:
a) 产品和服务的符合性;
b) 顾客满意程度;
c) 质量管理体系的绩效和有效性;
d) 策划是否得到有效实施;
e) 应对风险和机遇所采取措施的有效性;
f) 外部供方的绩效;
g) 质量管理体系改进的需求。
注:数据分析方法可包括统计技术。