查看原文
其他

专题丨基于智能化数据探索的数据质量管理方法

练海荣,孙晓宁 等 信息通信技术与政策 2022-12-10
※  信息社会政策探究的思想库  ※※  信息通信技术前沿的风向标  ※


作者简介




 练海荣 

苏州龙石信息科技有限公司总经理,主要从事数据质量管理标准、体系的研究工作。



 孙晓宁 

苏州龙石信息科技有限公司行业咨询总监,主要从事数据资产管理、数据质量相关产品的规划和研究等工作。



 张未来 

苏州龙石信息科技有限公司技术总监,长期从事大数据和人工智能相关算法和技术的研究工作。


论文引用格式:

练海荣, 孙晓宁, 张未来. 基于智能化数据探索的数据质量管理方法[J]. 信息通信技术与政策, 2022,48(2):16-21. 


基于智能化数据探索的数据质量管理方法


练海荣  孙晓宁  张未来


(苏州龙石信息科技有限公司,苏州 215000)


摘要:数据作为推动经济社会发展及数字化转型的新动能已成为社会共识,数据质量已成为影响数据要素发挥价值的重要因素。在政务领域,随着数据应用的深度和广度逐渐加强,数据质量问题已成为数据深化应用的制约因素。以数据质量管理相关理论为基础,以源头数据质量管控为手段,提出了基于智能化数据探索的数据质量管理方法,即通过数据质量管理激活数据资源价值,该方法在政务数据质量管理工作中具有借鉴意义。

关键词:数据质量;政务大数据;数据探索

中图分类号:TP181     文献标识码:A

引用格式:练海荣, 孙晓宁, 张未来. 基于智能化数据探索的数据质量管理方法[J]. 信息通信技术与政策, 2022,48(2):16-21.

DOI:10.12267/j.issn.2096-5931.2022.2.003


0  引言


现阶段,我国数字政府的基础建设取得了较大的进展,伴随着基础库、交换平台、资源目录、城市大脑等数字政府支撑平台的深化应用,数据量快速增长,数据量的增长必然带来数据质量管理的问题。本文通过对政务数据质量管理体系和工作机制的研究,提出现状评估、问题溯源、质量修复、考核评价的四步走解决方案,结合管理制度、工作指南和考核标准,以及基于智能化的数据探索技术,明晰政务数据质量管理的架构、流程、机制、评价指标、规章制度等工作内容[1],建立健全数据质量管控机制,指导数据质量提升,通过数据质量管理激活数据资源价值[2],为数字政府建设提供良好的数据支撑。


1  我国政务数据发展现状


从2014年大数据首次写入政府工作报告以来,我国的大数据蓬勃发展,技术产业和应用创新不断迈向新高度,融合应用不断深化[3]。在2020年发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》文件中明确规定,要加快培育数据要素市场,推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护,探索建立统一规范的数据管理制度,提高数据质量和规范性。数据作为当前社会经济发展的基础性要素,其地位得到了前所未有的重视。我国政务大数据的发展大致经历了以下几个阶段。


1.1  初步探索阶段

2012年,国家发展和改革委员会印发《“十二五”国家政务信息化工程建设规划》(简称《规划》),《规划》要求深化国家基础信息资源开发利用,提出了人口信息资源库、法人单位信息资源库、空间地理信息资源库、宏观经济信息资源库、文化信息资源库的建设目标,并依法向政务部门和社会开放。2014年,“大数据”首次写入政府工作报告,大数据开始成为国内社会各界关注的热点。


1.2  数据汇聚阶段

数据汇聚阶段以2015年印发的《促进大数据发展行动纲要》(简称《纲要》)为标志,《纲要》提出了我国大数据整体发展的顶层规划和统筹布局,并明确数据已成为国家基础性战略资源,规划了政府数据资源共享开放工程、国家大数据资源统筹发展工程、政府治理大数据工程等十大任务。


1.3  数据共享开放阶段

2016年国务院印发《政务信息资源共享管理暂行办法》(国发〔2016〕51号)、2017年国务院办公厅关于印发《 政务信息系统整合共享实施方案》(国办发〔2017〕39号),以及国家发展和改革委员会、中共中央网络安全和信息化委员会办公室联合印发《政务信息资源目录编制指南(试行)》(发改高技〔2017〕1272号),对我国政务信息资源的开放共享提供了指导方向。自此,政务信息资源的开放共享进入推广应用阶段。


1.4  数据深化应用阶段

经过多年建设,大数据技术框架和基础设施已基本成熟,大数据的应用逐步向上层应用聚焦,国家的大数据战略也逐步走向深化阶段,国家、地方陆续出台了促进大数据产业发展的规划、行动和指导意见,大数据与实体经济深度融合。另一方面,相关的大数据管理职能部门也相继成立,专门负责对大数据发展进行统一管理和规划。大数据的应用在之前互联网、营销、广告等领域的基础上逐步向工业、政务、电信、交通、金融、医疗、教育等领域广泛落地,涌现了一批大数据典型应用[3]


2020年,中共中央、国务院发布《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》(简称《意见》)。《意见》明确提出了土地、劳动力、资本、技术、数据5个要素领域的改革方向和具体举措,以构建更加完善的要素市场化配置体制机制。数据要素化,数据要素市场化、价值化和资产化是下一阶段的发展目标。


2  政务数据治理面临的问题


无论是智慧城市建设还是数字政府建设,其关键因素都在于政务数据。政务数据的发展从数据汇聚、数据共享到现阶段的深化应用,数据已成为数字政府建设的关键因素。但是多年来,由于机构变动、职能调整以及信息化的快速发展等因素,政务数据在快速发展和应用的过程中,数据质量管理机制尚未形成,数据质量参差不齐,无法满足高速发展的数据应用需求。


在实际数据应用的过程中,从数据规划和生产,到数据的融合和增强,再到最后的归档和消除,数据质量问题在数据生命周期的任何环节都会出现,例如数据采集、数据处理、数据共享、数据分析应用等。结合政务行业现状,总结以下几个主要问题。


2.1  数据质量意识薄弱

长期以来,数据被定义为业务系统的附属品,数据所能带来的价值尚未得到充分肯定。这也导致了我国的信息化发展一直侧重于应用系统建设而忽略数据建设,数据应用仅仅停留在统计、分析和展示层面,缺少深层次的应用价值挖掘,进而导致了在整个信息化建设进程中,数据质量一直未得到重视,数据质量文化建设不到位。


2.2  数据质量管理责权体系不健全

在之前政务数据的发展阶段中,政务信息化建设由各个业务部门自发开展,以支撑本部门业务流转为主要目标。直到近几年,随着大数据管理职能部门的成立,政务数据才转为专门的职能部门负责,但是在管理机制和权责方面尚未形成成熟的体系,主要体现在顶层规划、标准体系、评价体系、考核体系等方面的欠缺。尤其是数据质量管控相对滞后,管控工作片段化,没有形成完整的数据质量管控体系和全面的数据质量保障机制,从而制约数据资产价值的充分发挥[4]


2.3  自动化和智能化质量管理技术应用不足

随着大数据的蓬勃发展,政务数据在类型、数量、增速等方面的特点显著增强。数据库规模的不断增加、不同数据源之间的关系愈加复杂、数据处理的实时性要求越来越高,这些因素给数据质量管理工作增加了困难,非自动化的方法、普通脚本监测的方式已无法满足数据质量管理的要求,尤其是在面对复杂业务和海量数据的情况下,缺少必要的技术手段来进行数据质量管理工作。


3  对政务数据质量管理的几点认识


我国的政务大数据在经历了数据交换、数据汇聚和数据共享等基础建设工作之后,已经逐步向数据质量、数据生态和数据价值方面转变。在政务领域,以数据利用和共享为核心、以优化政务服务为目标的跨部门、跨系统的协同不断增多,对数据质量的要求也越来越高,数据质量管理成为一项复杂的系统工程。亟需建立科学、合理、系统的工作机制,以此来提升数据的准确性、一致性、完整性、规范性、时效性和可访问性[5],最终使政务数据作为数字政府和数字经济的核心资产来管理和应用。基于政务数据行业现状和实践经验,本文对政务数据质量的管理工作提出了以下几点认识。


3.1  以建立健全数据质量管理体系为基础

针对目前数据质量管理机制不健全、管理责权不清晰等问题,在当前数据质量管理工作中亟需健全管理机制,界定管理权责、制定统一标准、落实评估考核是当前提升数据质量的第一要务。在国家和地方相关政策和管理办法的基础上,设计和制定切实可行的数据质量工作方案、工作流程、角色和职责以及考核体系,建立相应的组织架构和管理制度,本着实事求是、突出重点、有错必纠的原则有序推进数据质量提升工作。管理体系是整个数据质量工作的重点和基础,必须为数据管理方、数据应用方、数据提供方建立标准和指导方针,保障数据质量管理工作有法可依、有章可循,以此来推动数据质量管理工作的不断进步。


数据质量管理工作需要提升全体质量意识,形成数据质量常态化治理的文化。管理部门制定数据质量管理体系并进行培训宣贯,通过数据质量管理体系的贯彻,数据应用方积极反馈问题,数据责任方积极主动配合管理部门进行问题整改,逐步形成数据质量的良性生态。


3.2  以源头数据质量管控为手段

数据质量问题的解决越靠后,成本越高,因此数据质量管理解决问题必须前移。在数字政府基础库和主题库的建设过程中,数据来源于不同的业务部门,主要的质量问题也集中在业务源头,只有通过对问题进行根因分析,通过优化业务系统、业务规则、业务流程等手段从源头解决问题,才能达到标本兼治的效果。因此,在整个数据质量管理工作中,必须以源头数据质量管控为主要手段,存量问题数据派发至业务源头进行修正,同时找到产生问题的根本原因,从根源解决问题,避免增量问题数据的持续出现。


3.3  以满足应用需求为目标

在当下政务数据快速增长的阶段,有限的时间和资源无法纠正每个数据并分析和改进数据质量。因此,数据质量管理工作必须有明确的目标,应从满足应用需求的角度出发,评估数据并确定优先级,聚焦关键数据,让数据质量管理工作投入产出比最大化。


聚焦关键数据并不意味着忽略其他问题,而是应该按照业务优先级的原则,采用PDCA(Plan、 Do、Check、Act)的工作方式,分批次、分步骤地解决问题,构建常态化的、循序渐进的工作方案,逐步实现数据质量管理的目标。


3.4  以考核评价为驱动力

政务数据质量管理工作涉及部门多、业务多,须从指标定义、问题发现、问题整改、问题跟踪、效果评估几个方面建立问题处理的闭环机制。从业务、技术、管理多个维度出发定义评测指标,由工具自动发现问题并及时通知到责任人,跟踪问题整改进度,通过相应的质量问题督办和考核机制,保证数据质量问题闭环管理。


在实际工作中,将数据质量指标纳入部门高质量发展的考核体系,考核结果不仅仅是简单的排名表,更要注重激励先进和鞭策后进。考核评价是促进数据质量提升的主要驱动力,也是统筹推进全局数据质量提升的重要环节。


4  政务数据质量管理实践经验


在相关理论依据和行业研究的基础上,针对政务数据质量,本文提出现状评估、问题溯源、质量修复和考核评价四步走的解决方案。在不影响现有数据共享交换流程的基础上,形成数据汇聚与质量提升的双循环,独立运转,相互监督,相互促进。并结合大数据技术和机器学习算法,深度挖掘数据质量问题,快速定位根本原因,通过工单派发工作方式,将问题数据派发到责任人,定时督办和考核,实现数据质量管理可控、可管和可追踪。同时,采用PDCA工作方式,不断循环重复数据质量工作过程,直至数据质量达到既定目标。


4.1  现状评估

工作的第一步是对当前数据质量管理工作的现状进行评估,评估的内容包括定义数据质量管理目标、识别关键数据、确定质量标准、评估数据质量水平、评估数据质量改进的成本,并发布数据质量管理工作的基线报告。


4.1.1  定义数据质量管理目标

数据质量管理工作首先要明确所要达到的目标,包括数据应用目标、质量提升目标、流程改进目标以及绩效考核目标,为后续工作指定方向。


4.1.2  识别关键数据

数据质量管理工作需要聚焦于关键数据[6],根据业务影响和业务需求来确定数据质量的管理范围,识别数据干系人,干系人需要包括数据提供者、数据应用者、数据管理者等,并确定数据利益相关方如何使用数据以及对数据质量的期望。通过调研的方式了解部门业务需求和应用需求,并确定支持这些业务和应用所需要的数据,以及数据应用的频率,形成数据/业务流程图、数据/应用流程图以及数据全生命周期图,进而识别数据价值和成本。在综合考虑业务需求、业务影响等因素的前提下,对数据质量管理工作进行优先级排序,确定关键数据。这不仅仅为后续的原因分析提供帮助,也可以使部门对数据现状有一个更加全面、直观的理解和认识。


4.1.3  确定质量标准

结合数据质量目标和识别的关键数据,分析和设计数据质量评价指标。在国家标准、行业标准和地方标准的指导下,结合管理规范、工作流程、数据存储、业务规范等因素,制定数据质量评价指标。在此阶段,可以充分调动各个部门的业务专家和技术人员共同参与指标的制定,保障数据质量指标的完整性和合理性,同时也与业务部门在数据质量标准上达成共识。


数据质量评价指标的设计以《GB/T 36344-2018 信息技术 数据质量评价指标》为指导,需涵盖数据内容的规范性、完整性、准确性、一致性、时效性和可访问性六大类指标框架,以及数据使用维度的可理解性、可追溯性、安全性、可用性、易用性、稳定性、适配性、完善性[7],基于此细分二级指标和三级指标,包括空值检查、数据缺失检查、唯一性检查、值域检查、逻辑关系检查、格式规范性检查、引用完整性检查、一致性检查、时效性检查、更新频率检查、交叉比对检查、波动性检查等。


数据质量评价指标的制定在数据质量管理工作中具有很大的挑战性,尤其是在面对海量数据和复杂业务规则的情况下,如何能够有效地识别问题数据是评价指标定义的难点。在此,可以使用智能推荐相关算法,基于在实践中积累的规则库自动匹配相关规则。例如,根据数据内容中的身份证号码、统一社会信用代码、邮政编码、手机号码、邮箱地址等识别出对应的质量评价指标,字段之间可以采用相关性分析技术,识别出字段之间的逻辑关系规则。规则的自动化探索技术大大降低了制定评价指标工作的难度。


4.1.4  评估数据质量水平

围绕已确定的数据范围和评价指标,从相关数据源提取数据,利用技术工具完成数据质量初始评估,并记录问题的级别和类型。


复杂业务规则的执行需要大量计算和分析,手动的脚本监测已无法满足海量数据实时监测的要求。因此,在此阶段需要充分使用大数据分析技术才能满足海量数据质量监测要求,可以充分利用聚类分析、近邻分析、关联分析、属性分析等数据分析模型和算法进行异常数据自动识别,也可以利用正态性检验、函数相关性等统计分析方法。


4.1.5  评估数据质量改进的成本

针对发现的每一类问题进行根因分析,识别每个缺陷产生的根本原因。产生问题的原因众多,数据流通过程中的任何一个环节都可能产生质量问题。因此,需要透过表面现象不断追踪,直至定位的问题产生的根本原因,进而制定改进流程和评估改进成本。考虑修复成本时,需将当前数据和历史数据区别对待,数据的新鲜度是决定数据价值的一个因素,是否需要修复历史数据需要综合考虑修复成本。此步骤可以使用因果图或鱼骨图等技术来支撑根本原因分析。


4.1.6  发布数据质量管理工作的基线报告

通过数据质量评估报告的发布,让数据干系人充分了解当前的数据质量水平。质量评估报告是对评估的结果分析和解释,通过图形化、统计报表等方式让数据干系人直观了解,主要包括如下几个部分。


(1)数据评估范围。

(2)数据评估方法。

(3)数据评估标准。

(4)数据质量的当前水平,包括组织架构、规章制度、质量缺陷和对应的根本原因。

(5)当前水平与质量目标之间的差距分析。

(6)质量改进的建议。报告中从缺陷改正、流程优化等方面给出改进方法和实施路线,并结合业务/数据流程图、应用/数据流程图以及数据全生命周期图确定所影响的范围。


4.2  问题溯源

在智慧城市和数字政府建设进程中,无论是基础库建设还是专题库建设,数据来源错综复杂,数据经过多环节、多流程加工处理之后,实现“一数一源”的问题定位变成了难点。问题数据发现之后,需要将问题数据定位到来源部门甚至是业务部门的业务办理人员,才能完成问题修复。例如,六大基础库之一的法人信息基础库,其中的基本信息来源于行政审批局、市场监管局、民政局、总工会等部门。因此,可以采用“谁提供谁负责、谁登记谁负责”的策略,结合数据分级分类定义数据的唯一来源,对于多个部门提供的相同信息,通过权威字段的定义,来确定部门的数据权力范围和数据质量责任。通过技术手段,在表级别、字段级别精确定义数据来源,依据工单派发的方式,将问题数据及时通知到责任人,实现“一数一源”的管理。


4.3  质量修复

数据责任部门在接收到问题数据之后,需在源头业务端进行问题修复。修复之后的数据通过现有的数据交换和共享流程重新进行数据更新,保证在数据生命周期中各个环节的问题都能得到及时修正,并通过复评测以确认修正结果是否满足要求,直至该问题关闭。在数据修复过程中,数据管理部门有责任对数据提供部门提供指导和帮助,包括提供统一的支撑工具、问题数据的解释以及工作流程的说明等。


4.4  考核评价

依据数据质量管理制度和考核体系,数据管理部门负责对数据质量工作进行考核评价。考核评价体系需要能够客观、合理、科学地反映数据质量管理工作的实际情况,须从新增问题数、修复问题数、未修复问题数、问题修复及时性、数据是否按照约定频率更新等维度进行考核评价,评价结果可以通过运营门户、内部通报等方式定期发布,以此来督办数据质量管理工作,提高数据干系人的数据质量意识。


5  结束语


针对政务数据质量管理工作,本文提出了现状评估、问题溯源、质量修复和考核评价四步走的解决方案,以满足业务需求为目标,以考核评价为驱动力,突出源头数据质量管控,建立指标定义、问题发现、问题整改、问题跟踪、效果评估的闭环工作机制,并采用PDCA的工作方法,逐步提升数据质量水平,直至达到预期的数据质量目标。同时,在当前海量数据和复杂数据的背景下,强调利用大数据、机器学习等技术进行质量评价指标的定义和数据异常点的探索,实现数据质量管理的自动化和智能化。


政务数据质量是当前数字政府建设和数据共享开放的前提条件,是实现数据资产化的必要保障,本文提出的四步走解决方案,已在实践中验证了其有效性,对政务数据质量管理工作具有借鉴意义。


参考文献


[1] 郑治国. 政务数据质量管理的发展现状[R], 2021.

[2] 中国信息通信研究院. 数据治理研究报告(2020年)[R], 2020.

[3] 中国信息通信研究院. 大数据白皮书(2019年)[R], 2019.

[4] 匡红刚, 王涛, 唐融, 等. 数据质量闭环管控框架数据估值的应用研究[J]. 华东电力, 2013,41(3):546-549.

[5] 卫凤林, 宾军志, 甘似禹, 等. GB/T 36344-2018 信息技术 数据质量评价指标[S], 北京:中国标准出版社, 2018.

[6] DAMA International. DAMA数据管理知识体系指南[M]. DAMA中国分会翻译组, 译. 北京:机械工业出版社, 2020.

[7] 胡千代, 王芳. 政府数据质量评价指标体系构建研究[J]. 科技情报研究, 2021,3(3):17-34.


The method of data quality management based on intelligent data exploration


LIAN Hairong, SUN Xiaoning, ZHANG Weilai


(Suzhou Longshi Information Technology Co.,Ltd., Suzhou 215000, China)


Abstract: As social consensus, data has become a new driving force for economic and social development and digital transformation, while data quality has become an important factor affecting the value of data elements. In the field of egovernment, the depth and breadth of the data application are gradually strengthening, and the problem of data quality has become the restricting factor of data deepening application. The article is based on the theory of data quality management, using the control over source data quality as a means, advances a method of data quality management based on intelligent data exploration, which is to activate data value through data quality management. The method can be used for reference in the work of e-government’s data quality management.

Keywords: data quality; big data of e-government; data exploration


本文刊于《信息通信技术与政策》2022年 第2期



主办:中国信息通信研究院


《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。



《信息通信技术与政策》官网开通啦!


为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!



《信息通信技术与政策》投稿指南




   推荐阅读  



专题丨论数据质量的“真实性”与相关融合计算策略

专题丨数据治理标准化发展现状与启示

专题导读:数据治理

《信息通信技术与政策》2022年 第2期目次


♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩


“在看”我吗?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存