查看原文
其他

六把武器? 谈谈DT时代的大数据资产管理(下)

傅一平 与数据同行 2021-10-15




作者:傅一平来源:浙江移动大数据中心


在DT时代,拥有数据资产变现雄心的各类公司,无论是直接拥有数据者,还是间接拥有数据者,该如何管好数据资产呢。这里,我简要的介绍下浙江移动的一些思路,姑且叫作六把武器吧,希望能够抛砖引玉。

DT时代,社会不会由于个人隐私风险而放弃对于数据利用造福人类的追求,趋势不可逆转,有生产力才有生产关系,办法总比问题多,而对于数据的有效利用来源于你对数据的有效管理。作为希望基于大数据创造新的机会的任何公司,都应该现在就开始着手数据管理工作,不要奢望等安全/机制/流程都完备了,甚至生意上门了才去做,也不要急功近利的认为有明确的效益我才去做嘛(这个对于数据公司是大忌,想想现在大量的APP做亏本买卖到底是为了啥),这些能力都不是短时间内就能够具备的,当你发现公司连个数据目录都难以拿出或没人等解释清楚的时候,你早已经被竞争对手抛弃在后面而丧失了大多数机会,企业的管理者需要有这个勇气和魄力去构建这么一只团队。

先不说BAT,大家有机会可以去看看当前的一些大数据公司融资的材料,或者当前一些RTB广告公司,数据目录和知识库的详细程度(可能他根本还没有这些数据)叹为观止,传统公司维护的数据资产比如标签,可能几千个算不错了,但互联网公司标签大多是几十万甚至上百万,对于数据的理解的深入程度,远远超过你的想象。
按照我们的实践,一开始并不需要从根本上去动原有的组织架构,也没必要,但起码要设立相对独立的大数据管理组织机构专门去做这件事, 赋予该组织管理企业的所有大数据的权利,至少要明确集中的数据采集、集中的数据处理、集中的数据建模及集中的数据管理等工作,务必要打破部门、系统的隔阂和界限,这个很重要,虚拟团队虽然也算是一种手段,但现实中执行的效率其实很低,另这些工作建议依靠自身的团队来建设和运营,尽量不要依赖外部力量,因为这个涉及一些核心竞争力的问题,记住一点,没有一个合作伙伴会比你更能了解自己公司的数据。

不少企业的利益相关部门会去争这个权利,这个时候,企业的管理者需要坚决的拍板,而不是和稀泥,问题总是要解决的,一般来讲,在数据发展的初期,IT部门适合去承担这个职责,而不是其它部门,为什么,因为它离实际数据最近。
我们的企业级大数据资产管理,前段衔接业务系统,后端衔接对外服务,整个管理不仅仅要管理大数据平台的数据,也要延伸到上游和下游,这才是较为彻底的管理方式,下图简要示意了一下,当然不少人会问,前端怎么管? 这个就涉及流程再造,我后面会讲,这里希望说明的是数据管理是端到端的过程,我们对于数据的生老病死都要管。
我赞同一句话,全是系统自动没有流程是最好的流程,但现实总是很骨感,我们还是需要一些靠人工的流程来进行一些控制,数据管理领域有一个核心问题是:我如何知道业务生产系统(源系统)有哪些数据,业务生产系统数据变动引发的任何问题我怎么知道,你知道我为上游系统做了多少擦屁股的事情? 搞过数据仓库等下游系统的人对此深恶痛绝。数据资产管理很大问题是出在源头,源头都没讲清楚下游怎么能管好呢,恩,下面就从源头管理说起。

大家都知道屁股决定脑袋,好吧,开发业务生产系统的人有自己的利益诉求,当然它不太可能考虑到你数据资产管理的诉求,这个时候,抱怨没有用,你需要主动去改进它,传统的下游系统声音比较弱,DT时代不一样了,它给了我们一次机会去对源系统的数据管理进行流程再造的机会,只要你敢提。

还是中国移动经分系统,经分规范很早就提出了二级互动的概念,浙江公司更进一步,现在已经在实践源系统的流程再造(针对表和字段),当然还没完,以下是一些措施,供大家参考:
数据管理团队负责源系统的开发、测试和上线中涉及的数据字典变更

数据管理团队统一制定源系统的数据字典规范
统一源系统和大数据系统的数据管理工具,比如我们现在使用的都是DACP管理
平台,确保信息互通能力,源系统就不要再用线下PDM了

在推进过程中,我们发现业务生产系统的开发、测试和上线流程操作非常复杂,对于数据表的变更也比较随意,这个时候数据管理团队就要深入到他的流程中,确保你提供的平台能够适应它整个开发上线流程,工具平台也要非常易用,这个工作挑战巨大,但意义非常深远,以下列了几点直接的好处:
业务生产系统的数据字典跟大数据平台的接口数据字典完全的一致性,且信息互通,以后不再需要单独维护

业务生产系统的数据资产变更你第一时间知道,确保了数据管理的一致性,及时性和完整性

数据资产的核查变得比较方便,二级系统的隔阂基本消失

当前比如浙江移动的BOSS、CRM的部分系统开发测试流程已经再造,我们也在努力向其他系统延伸,这是一种较为彻底的从源端就进行数据资产管理的一种方式。

再回到中国移动的经分系统,已经不止一次提到它了,在我们最初接触元数据管理的概念时,都认为元数据管理是数据仓库系统以外的辅助系统,元数据管理和数据仓库的次序是先有数据,再有元数据管理,因此我们所有的数据管理工作都是后向的,即建设数据仓库,然后购买一个元数据管理软件,然后千方百计的去梳理、抽取和解析数据仓库中的任何数据管理信息,包括SQL代码,比如买了石竹等数据管理软件,然后不停的升级这个软件,给他纳入越来越多的数据管理功能和信息,但我们发现,我们的维护成本与日俱增,我们需要不停的在流程上,系统上,人员上去维护这套关系,由于大量的数据仓库中的数据信息是完全不规范的,比如我们需要解析出某张表的血缘关系,我们需要去解析SQL代码,需要规范开发人员SQL编写方式,即使这样,我们最后得到的仍然是漏洞百出的数据管理体系,直到河北移动提出了全新的观点,基于元数据管理的开发体系,才最终解决这个问题。

简单的说,传统的数据仓库,包括现在的大多数分析系统,比如HIVE,MPP等,其代码的开发环境是相对简单的,因此,是否能将元数据管理渗透到开发中,让元数据成为开发天然的一部分,这就在生产上保证了数据管理的完整性,本质上就是数据的设计与开发是一个整体,设计的过程就是开发的过程,比如,数据仓库的处理逻辑往往是定义表,建表,然后是一段统计分析代码,再生成表,如此反复,最终得到你需要的数据,整个过程,如果你规范一下,所谓的定义表,就是表的设计,这个完全可以在开发的过程中通过系统前台的标准化去规范化,当你完成了一个脚本,实际上元数据也就自然生成了。

任何管理动作,如果能够标准化,并通过系统的方式渗透到生产流程中,让其成为生产的一部分时,就能够创造更高的效率,当然这里有个关键,就是你的系统工具是否足够强大,这正是我下面要讲的。
不是做广告,我还是提一下使用的数据管理工具,DACP,这是是亚信公司提供的数据管理产品,前面我所有说得,都是基于这个平台工具实现的,这个工具也在实践中变得越来越强大。
下面我就简要做一下介绍:
实施策略管理
实施内容包括了规范、组织、流程和技术。三部分关键工作:现状诊断和业务需求分析、信息化愿景规划、信息化实施路线。
实现解决管理平台看到的信息和生产平台信息的不一致性问题。
解决此问题,必须清晰定义数据资产管理边界以及对生产、运营域的要求。如下图,数据管理平台负责制定数据的标准规范、检查规则、数据模型、数据关系的制定和稽核。数据处理平台负责实现完成数据管理的要求。要实现此模板,要求数据资产管理和生产运营平台具备双向元数据交换的能力,方能解决两张皮的问题。
实现前向数据管理能力。在开发过程中进行数据控制,实现事前的控制
将各管控工具的能力贯穿于流程的全过程,一方面确保流程规范,同时带来更好的工作体验,提高工作效率。
从源头治理,事半功倍
数据资产管理,如河流治理,源头不干净,下游的治理,必将是事倍功半。
支持多团队的统一管理
通过统一上线作为管理的控制点,每个团队提交要上线的内容,存到统一元数据库进行标准化检查稽核。确保每个团队,允许采用不同的工具,但必须遵守数据管理要求。
跨平台无关的透明化管理
现有数据中心,大都是混搭式的数据平台。对应用层的开发人员,提供透明标准化API,使开发人员沿用现有技能,无需进行复杂学习就能进行开发。
如将某类数据文件加载到数据库中,开发人员只要指定数据文件路径和目标表。系统执行时如果是要入库到DB2调用DB2的命令,如果是Hadoop平台,调用Hadoop的命令。

浙江移动的数据资产管理现在还在进行,还有大量的问题在解决,但我要强调,我们所采用的方式,并不一定适用你这个企业,因为我相信,在大数据时代,情况总在变化,每个公司都应该在理解数据资产管理价值的基础上,结合自己的实际需求去构思自己的数据资产管理体系,没有所谓的最好的数据资产管理方式,只有适合自己的,希望我的分享能带给大家一些启示。




作者简介

 傅一平 博士 毕业于浙江大学 现就职于浙江移动大数据中心 主要从事大数据采集、处理、建模、管理、变现及产业研究等工作 


版权申明

如果小伙伴需要转载这篇文章,在转载之前请通过以下邮箱告知。我欢迎大家转载,但希望劳动成果获得大家的尊重。

邮箱:fuyp@zj.chinamobile.com



                

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存