查看原文
其他

数据治理,是不是一道“送命”题?

The following article is from 亲爱的数据 Author 亲爱的数据

原创:谭婧

很多年以前,企业每天都在想方设法,把手头的数据用好。
 
钱来货往,大数据和人工智能火起来之后,沉淀的数据一下子多了起来,如何管好+如何用好数据,成为大多数企业的难题。
 
数据发挥价值是近10-20年才有的概念,这就带出了数据治理。
 
数据治理,是伴随解决“糟心问题”而生的。
 
在数据开发的过程中,会冒出各种“糟心事儿”,五花八门(质量、效率、安全等方面)。

而数据治理的任务就是,对于这种“事儿”,来一个“消灭”一个。

有的问题三年五载都消除不了,那就(也)算(得)了(干)。
 
一直消除不了,就一直有“痛点”。
 
一般来说,数据治理研究的专家不会说得这么接地气,而是会说:“保障数据准确、全面和完整,为业务创造价值,同时严格管理数据的权限,避免数据泄露带来的业务风险。”
 
高层听了颔首,员工听了翻白眼。
 
而且数据治理不“接地气”,工作就得“接地府”。
 
某位大型互联网科技公司的研发负责人,和公司老总一起出差的时候,抓住时机,用全程航班的时间安利了一把“数据中台”。
 
老总把知识点吸收得很好,很喜欢,把“组件化”“标准化”“不重复造轮子”都学会了,就安排研发负责人去推动。
 
闭门研究了一段时间后,研发负责人就拿出一个大图,你干这个,他干那个。完全按照理想化的思路,来了个天翻地覆式的大改动,无异于重新设计。
 
很多管理层一看到这个“蓝图”都傻眼了,心里又气又恨,脸上还佯装笑容。
 
表面上夸创新,背地里和哥几个关系好的,交换眼色,把手放在脖子上做了个横刀一抹的动作。
 
数据中台这块蛋糕,关系到绝大部分数据资产的管理权限,你动了这块蛋糕,也就是动了管理者们的核心利益。
 
对于各个部门、各事业群的一把手来说,这无疑相当于重新划分“势力范围”。

你画这个蓝图问过我的意见了吗?

没有的话,那可不行。

于是,“齐心协力”把那个研发负责人整下岗了。
 
最终,这位研发负责人,铩羽而归,离职而去。
 
数据中台和数据治理是什么关系?
 
数据中台是解决数据治理问题的方式之一,但不是唯一方式。
 
数据治理的概念20多年前就有了。

还有一个机构,叫做数据治理研究所(DGI)。

据该所的定义,数据治理就是为了确定一系列的原则和实践,确保数据在其生命周期中的高质量。
 
之前,一听到数据治理这四个字,人们的条件反射就是安全,管控,规章制度,条条框框。

说白了就是怎么样确保数据安全。
 
普通员工一听,这不关我的事,那是中高层的事。
 
公司里有资产放着不用,或者用不好,就是管理水平低,数据资产也一样。
 
但是,数据越来越多,存储和处理又很费钱。
 

有人开始思考:

怎么样把数据作为一个服务提供出来,给整个公司的技术团队,甚至说非技术团队,用起来。
 
数据孤岛,始终存在,员工想在公司里看到更多数据,成了一项情商测试。
 
得看人品,看关系。
 
两个部门之间,即便一个部门的老板批了,对方部门的老板批了,提供数据的方式可能还是发邮件或者U盘拷贝,十分落后。

一些科技企业数据治理的主要“业绩”,就是促进跨部门的数据合作和使用。
 
大部分传统行业企业还没有数据治理的意识。

即使萌生了一星半点意识,其目标也只停留在合法合规安全管控不出乱子。

甚至,不少传统企业连“促进跨部门数据使用”这个意识都没有。
 
典型的数据技术部门是什么呢?

比如,美团的数据科学与平台部,京东零售下面的京东技术与数据中心,快手科技主站产品部下面的数据分析部。

百度科技的大数据部,以前级别挺高,现在在百度AI技术平台体系内了。
 
经过数据治理的一番努力,以前唯有数据技术部门能用的数据,会有更多的部门能用。
 
以前用不了的数据,现在能用了。
 
但是,好处也不是白来的,权利和责任是对应的。

原来非数据部门、非技术部门没权利去管理,同时也没有义务去维护这些数据的质量。
 
现在不一样了,有权利去用,也要有更大的责任,去维护数据质量。
 
负责数据治理的团队,即使看到了“糟心问题”在某几个团队之间扯皮,也不能直接介入处理。

要把问题整理成“共通的痛点”,先给决策层做提案,做建议,然后才有下一步。
 
如此一来,很多数据治理问题,经年历久,拖成了“冤案”。

短期还是依靠发邮件或者是U盘拷贝数据,如此这般,至少还能用上。
 
有些公司被逼做“数据治理”的动力,也是启动数据治理的大背景,是数据质量存在问题。

比如数仓的及时性、准确性、规范性,数据应用指标的逻辑一致性等问题。
 
数据的质量影响到使用,不得不干。
 
过去,企业内部开发的大部分数据系统,是为了解决某一个业务的问题而开发的。

在开发数据系统的时候,并没有考虑到将来这部分的数据资产要用在别处(其他业务、其他系统、其他领域所用)。
 
一段时间之后,别人用到这些数据的时候,不管从技术的性能,还是各种服务 SLA (服务级别协议)的角度来讲,可用性都较低。
 
变化一定是越来越多的,比如说数据源从单一,变成了多个。

从一朵云到多云。

种类由关系型数据库为主,变成文档、图像、视频、声音、时间序列。
 
比如REI是一个美国人喜爱的户外用品零售商,REI使用Tableau整合了来自75个数据源的数据,使得REI可以分析完整的客户体验。
 
数据的使用从BI报表、看板、大屏,到ad-hoc商业分析、数据科学分析、机器学习应用。
 
还有,原来以数据仓库为中心的技术栈相对简单,只需要管好ETL的过程、存储过程、查询引擎、可视化,就可以了。

现在可好,技术栈爆炸式地增长,要管的东西掰着手指头数不过来。
 

好的数据治理,能够让企业转身就获得新的商业模式。

Huel这家代餐食品公司就是这么说的,而且他们还说能够以98%的准确率来预测一月份每天的销售量(该公司业务特点是预测一月份销量最难)。
 
无论出于何种无奈,数据治理迟早要做,极少数走得快的,甚至用上了“超级智能化”服务。
 
反正,穷的穷死,富的富死,还有很多企业焦虑得要死。

本文在创作过程中,采访了杨荟博士,他是一位连续创业者,埃森哲中国数据科学和AI团队创始人,现任某跨国快销品公司数据和AI总监

(完)


    数据治理,请对oltp开炮!by 大鱼先生
    干货 | 携程度假数据治理之数据标准管理实践
    到底什么样的数据才有资格成为资产?by 大鱼先生
    8000字,详解银行业数据治理架构体系!
    深度剖析:华为数据之道的“不能” by 大鱼先生
    数据治理工具图谱研究报告(2021版)(附下载)
    部门不开放自己的数据,到底在怕什么?
    数据管理和数据治理那个大?
    数仓中指标-标签,维度-度量,自然键-代理键等常见的概念术语解析

    点击左下角“阅读原文”查看更多精彩文章,后台回复【加群】申请加入万人数据学习社群


    🧐分享、点赞、在看,给个3连击呗!👇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存