查看原文
其他

什么是One Data体系?阿里数据中台解读

石秀峰 谈数据 2021-10-15

作者丨石秀峰

文章共3960个字,建议阅读需15分钟
1、前言
关于“数据中台”网络中充斥着很多的观点、概念、技术、理论、实践等文章,可真是“你方唱罢我方登场”,好不热闹!抱着学习的心态我看了很多数据中台的文章,尤其是对“数据中台”的始作俑者阿里巴巴的数据中台相关文章进行研读。以下是个人学习心得和个人理解,如有偏颇还请斧正。
2、阿里巴巴数据中台全景图


来源:《阿里巴巴数据中台实践分享》
从阿里巴巴数据中台全景图中我们看到,阿里的数据中台主要由三个部分组成:数据资产管理IPaaS、数据中台DaaS、数据研发平台IPaaS。
(1)数据资产管理IPaaS
数据资产管理其核心是基于元数据管理技术实现数据资产的“可看、可找、可用”,主要提供资产地图、资产分析、资产管理、资产应用、资产运营等功能。通过数据地图让数据管理和使用者,清楚的知道企业都有哪些数据,这些数据存在什么地方,数据被谁管理,如何获取等等;资产分析是利用BI技术对数据资产进行统计分析,并提供可视化服务,例如:按主题、类型的统计数据资产数量、数据资产的质量和数据资产的使用情况等;资产管理可以理解为对元数据的管理,包括元数据的增删改查;资产应用可以理解为通过元数据管理提升数据资产的利用率,比如:数据资产的热度分析、全链分析、影响分析等;而资产运营严格意义上说不能是一个功能,而是为了提升数据资产质量和使用效率的一系列措施,可能涉及组织、制度、绩效考核等等方面。通过数据资产管理激活企业的沉睡的数据,从而促进数据的使用。
(2)数据研发平台IPaaS
数据研发平台包括了数仓规划、模型构建、指标规范、数据同步、数据开发、任务调度、监控告警等功能,可以理解为数据仓库建设过程中所用到的相关技术与工具,而在这方面阿里有一个核心的产品Dataphin(智能数据构建与管理)是一款用于大数据平台建设的智能引擎,提供数仓规划、数据引入、规范定义、数据建模研发、数据资产管理、数据服务等的全链路智能数据构建及管理服务。对于数 据研发平台IPaaS是否是对应Dataphin产品,这里就不去探究了。
(3)数据中台DaaS
数据中台DaaS主要包含了垂直数据中心:面向各垂直行业应用的统一数据接入平台OneClick;公共数据中心:面向公共数据中心以业务板块+业务过程+分析维度架构的Onedata体系;萃取数据中心:面向业务对象+数据标签的OneID体系;数据开放共享中心:面向应用及开放的统一数据服务中间件OneService。这四个“One”构成了阿里巴巴数据中台的核心!
3、OneClick是个神马鬼?

来源:2019阿里云峰会上海站的《数据中台实践分享》
OneClick是架构在阿里各垂直应用上的数据统一采集/接入平台,所以从概念上来看,OneClick就是传统的ETL,负责异构数据源的在线或离线的数据的采集、转换、清洗和装载。但看了2019阿里云峰会上海站的《阿里巴巴数据中台实践分享》PPT后,又觉得OneClick可能并不是或者不完全是传统ETL的概念。如上图:我们能够从这个PPT中依然看到垂直数据中心,但却没有了OneClick的影子。所以,我理解OneClick可能只是垂直数据中心中的一个概念,我们看到阿里的数据生态包含了淘宝、天猫、聚划算、阿里妈妈、UC、盒马、优酷土豆、高德、天气、专利等。这些垂直应用数据多样、结构复杂、实时性要求也不同,一个ETL工具并不能满足其数据统一采集和接入的要求,可能还包括网络爬虫、文件传输等工具。
4、什么是OneData体系?

来源:2019阿里云峰会上海站的《数据中台实践分享》
OneData体系是阿里数据中台的核心方法论,其包含了三个方面内容:OneModel 即建立企业统一的数据公共层,从设计、开发、部署和使用上保障了数据口径规范和统一,实现数据资产全链路管理,提供标准数据输出。OneID 即建立业务实体要素资产化为核心,实现全域链接、标签萃取、立体画像,其数据服务理念根植于心,强调业务模式OneService 即数据被整合和计算好之后,需要提供给产品和应用进行数据消费,为了更好的性能和体验,需要构建数据服务层,通过统一的接口服务化方式对外提供数据服务。
5、OneModel

来源:2019阿里云峰会上海站的《数据中台实践分享》
在阿里云栖社区上的一篇文章《OneModel体系能给数据中台的建设带来什么?》中,是这样描述OneModel的:OneModel方法论保障了数据唯一性的数据域、业务过程,以及在数据域、业务过程之下的指标、实体属性等的结构性封装、命名和定义。数据规范定义是在开发之前,以业务的视角进行数据的统一和标准定义,确保计算口径一致、算法一致、命名一致,后续的数据模型设计和ETL开发都是在此基础上进行的。OneModel方法论与我之前分享《数据治理系列3:数据标准管理》中的观点是基本一致的,OneModel可以说是为数据标准化而生。
首先,数据模型的标准化。规范和统一业务定义、业务规则、字段命名、字段长度、字段类型等内容,本质上是元数据管理。主要包含三个方面:①业务元数据:对企业数据的业务定义、业务术语、业务规则进行标准化;②技术元数据:对数据的存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系进行标准化;③管理元数据,对数据的管理属性,包括管理部门、管理责任人、权限等进行标准化。后续的数据采集、处理、分析等操作都是基于数据模型标准化的基础之上进行的。
其次,业务指标的标准化。主要是对企业业务指标所涉及的指标项的统一定义和管理,构建命名规范、口径一致和算法统一的统计指标,为上层数据产品、应用和服务提供公共指标。据阿里巴巴公共数据平台负责人介绍,阿里通过对30000多个数据指标进行了口径的规范和统一,梳理后缩减为3000余个,尽管工程浩大,但是此举却为阿里带来了显著的收效。
第三,主数据与参照数据的标准化。主数据是用来描述企业核心业务实体的数据,比如客户、供应商、员工、产品、物料等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,被誉为企业的“黄金数据”。参考数据是用于将其他数据进行分类或目录整编的数据,是规定数据元的域值范围。在阿里的OneModel方法论中并没有提及主数据与参照数据的标准化,这个是我《数据治理系列3:数据标准管理中的观点。同时,我认为阿里数据中台的OneID体系其实就是干了这个主数据管理的事情。
6、OneID

来源:2019阿里云峰会上海站的《数据中台实践分享》
为什么我说阿里数据中台的OneID,其实本质上是主数据管理的事情?
对于什么是主数据,什么又是主数据管理,在我之前的文章中已多次分享,可以参考《数据治理系列4:主数据管理实施四部曲概论》《主数据的3大特征、4个超越和3个二八原则》《主数据的前世今生,畅想未来!总之,主数据管理就是为了解决企业核心业务实体数据(客户、供应商、物料、产品等)在不同系统中的一致性、完整性、相关性和精确性的问题,提升数据质量,从而支撑企业的业务协同和管理决策。
在阿里巴巴数据中台官方宣传资料中,我们看到这样的定义:“OneID是以商业要素资产化为核心,实现全域链接、标签萃取、立体画像,数据应用服务整体解决方案。”这里的商业要素就是消费者、企业、内容、商品、位置等核心业务实体数据,传统上我们称其为主数据。OneID也叫数据萃取中心,就是通过标签技术、知识图谱技术、画像技术在虚拟的网络世界实现商业要素(主数据)的唯一身份识别,保证企业核心数据的身份唯一性、一致性、完整性、相关性和准确性所以,OneID可以理解为主数据管理,只是用的技术更先进些罢了。
如果您也认同:“阿里数据中台的OneID,本质上就是企业主数据管理”的这个观点,请在文末点击【再看】支持我。但我相信一定也有人反对这个观点,因为在现行的主数据管理方案中,总体上还是趋于用标准、制度、流程、集成技术等手段解决主数据的问题,标签体系、知识图谱、画像技术、混合云技术等先进的技术目前还没有大规模用在主数据管理领域,但是我相信这终将是主数据发展的趋势!技术推动社会发展,主数据管理又岂能固步自封!
7、OneService

来源:2019阿里云峰会上海站的《数据中台实践分享》
当数据已被整合和计算好之后,需要提供给产品和应用进行数据消费,为了更好的性能和体验,需要构建数据服务层,通过接口服务化方式对外提供数据服务。OneService提供的数据服务主要有以下几个方面:
主题式数据服务:按照不同的业务主题,组织形成统一的数据服务,并对外提供使用。我们在建设数据仓库时,也会提到数据主题分析,其实就是将位于不同业务系统、不同数据库的同一业务主题的数据汇集到一起,形成标准的数据服务供外部使用。例如:销售主题,需要将企业的批发、零售、线上、线下、代理等等各个渠道的销售数据汇集起来,这些数据的来源、数据结构、数据库都可能不同。数据服务层架构在多种数据库之上,屏蔽多数据源与多物理表,以业务化的模式进行服务编排,形成服务对外共享。
多样化数据服务:数据服务层提供数据的查询服务、联机分析服务、实时数据在线查询服务等,满足用户对数据的“看、用、查”等需求。
跨源数据服务:按照阿里数据中台的分层设计模型(如:ODS、DWS、DWD、ADS),在每一层可能都采用不同的大数据组件,比如:Hive、HBASE、GP、ES、Redis、MySQL、Oracle等等,而业务上对数据的使用可能是跨数据库的,而服务层提供的跨源数据服务,就是提取不同数据源的数据,按照业务需要进行编排,形成统一数据服务进行对外共享。
API网关服务:在按照阿里数据中台官宣PPT并没有提API网关服务,但结合以上我们对OneService体系的分析和理解,在数据服务层应该要有一个API网关服务实现数据服务在企业的共享和开放。API网关是对提供出去的服务的统一管理,包括:流量控制、认证授权、超时熔断、安全控制、监控分析等,当然,这可能是另外一个层面上的内容了。
8、写在最后
阿里巴巴数据中台经过多年的沉淀,其技术体系非常庞大,并不能通过一篇文章就能说清楚的。我也只是根据阿里数据中台对外公布的一些资料,并结合自己对数据中台的理解进行解读分析的,理解不对的地方望指正。目前很多企业对数据中台都跃跃欲试,但企业到底需要不需要数据中台,需要什么样的数据中台,需要每个企业想清楚。数据中台固然千好万好,但也需要有培育和滋养它的“土壤”。




你点的每个再看,我都当成了喜欢
: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存