数据湖 VS 数据编织：泰坦之战

谈数据 2023-03-25

The following article is from CDO之家 Author Eden

来源：CDO之家

作者：Eden

全文共 4535 个字，建议阅读需 8 分钟

就在三年前，由于新冠疫情（COVID-19）爆发的措手不及，全球企业不得不增加对数字计划的资金，以在未知且不稳定的商业环境中维持生计。多项调查显示，Covid-19 比预期提前数月或数年促进了客户体验、供应链、产品和服务以及企业本身的数字化。

如此快速的转型导致公司生成的数据超出了现有能力所能处理的范围。在转向数据管理服务时，企业面临着选择的悖论，不得不在乍看之下非常相似的方法和技术之间做出选择，例如数据仓库、数据湖、数据编织和其他流行的数据管理解决方案。

为了帮助您为公司做出明智的决定，在本文中，我们阐明了两个经常对立的概念——数据湖和数据编织。

一、先聊聊，数据湖

01 什么是数据湖？

数据湖是以原始格式存储从各种源系统（事务数据库、传感器设备、SaaS 应用程序、文件共享系统等）收集的信息副本的存储库，以供机器学习（ML）解决方案、备份和归档、大数据分析等处理。

02 数据湖是如何工作的？

首先，从各种来源获取的信息进入着陆区，暂时保持原样。当企业建立了持续摄取、提取、转换和加载（ETL）和变更数据捕获（CDC）能力时，多类型信息可以在创建后立即进入数据湖。

一旦数据进入湖中，就会为每个集合分配一个唯一的指标或索引，以及一个元数据标签，以加快查询速度并帮助用户快速查找请求的数据。之后，数据可能会经过清理、重复数据删除、重新格式化、丰富等操作，然后移动到可信区域进行永久存储。当信息准备好供下游用户使用时，它可能会直接进入报表和仪表板，或者进行另一轮 ETL 并存储在数据仓库中以供进一步处理。

数据湖也可能有单独的环境，称为沙箱分析系统，数据科学家可以在其中探索数据。

为了保证信息的质量、安全性、可用性和及时性，公司通常会建立数据治理框架，因为它有助于控制每个阶段的数据管道。

03 为什么选择数据湖？

这些与模式无关的存储库正在取得进展，并且由于多种原因不太可能失去其位置，包括：

数据湖有助于快速整合几乎无限量的各种信息，因为您不必在存储数据之前以某种方式对数据进行建模和处理。与构建数据仓库相比，数据湖也是更实惠的解决方案，它允许您收集所有可能的数据以防万一，即使您不知道将其应用在哪里。
数据湖与数据仓库配合得很好，因为它执行繁琐的数据转换并节省数据仓库资源以进行分析。
数据湖很容易与 Hadoop 和类似技术集成，这正是数据科学家称赞数据湖的原因。因此，他们可以在湖中部署 ML 模型并在那里运行高级算法。
数据湖可以用作始终在线的数据存档和备份。默认情况下具有高可用性和容错性，它们非常适合存储由于某种原因而旧的或未使用的数据。

04 数据湖限制

有时，由于以下原因，数据湖计划未能成功：

受到数据湖几乎无限的数据整合能力的鼓舞，公司最终只是堆积了所有可用的数据，希望在未来用它做一些有意义的事情。如果没有用于创建、丰富和管理元数据的可靠框架，您的数据湖很可能会成为数据墓地，让您没有机会了解您拥有的数据以及如何理解这些数据。

传统上，数据湖很难保护和支持以实现所需的法规遵从性。您需要付出大量努力来保护和执行数据治理，以最大程度地降低信息泄露风险以及因不遵守数据保护法规而受到的罚款和处罚。

二、再谈谈数据编织

01 什么是数据编织？

Data fabric——中文翻译为数据编织或数据结构，很多人都喜欢称它为数据编织，因为形象！

数据编织是一种设计方法，它意味着将数据生态系统的复杂组件组合到一个统一的平台中，以提供完整且有凝聚力的数据管理。与数据湖不同，数据编织不需要将数据移动到集中位置，而是依靠强大的数据治理策略来实现数据管理统一。

数据编织是一种更先进的解决方案，希望改进现有数据流程的公司依赖它。通常，他们已经利用了某种数据存储、ETL 解决方案，可能是数据目录或数据保护软件。信息从来都不是静态的，因此它的类型和数量会发生变化。虽然您可能希望将一些信息移动到云中，但您也可能觉得是时候将您的 SaaS 应用程序集成到分析工作流中，并以安全的方式为业务用户提供更多自由。但是，您如何在不影响信息质量和安全的情况下管理所有这些数据？这就是数据编织概念的用武之地。

02 数据编织如何工作？

为了促进跨不同系统访问信息、管理其生命周期并将其公开给最终用户，Data Fabric 架构支持：

1、数据整合

任何信息，无论其类型、数量和位置如何，用户都可以整合和访问，因为数据编织允许利用数据虚拟化层来整合数据，而无需移动数据并创建大量副本。除此之外，为了保证数据的完整性，数据编织还可以使用 ETL、CDC、流处理等。

2、智能数据目录

数据目录是企业拥有的所有数据的详细清单。随着数据编织统一大量信息，数据目录维护元数据以帮助数据消费者（包括分析师、数据库工程师、科学家、业务用户等）查找和理解数据、跟踪其沿袭、评估和管理数据等等.

3、动态元数据管理

数据编织通常采用人工智能功能，帮助自动检测、分析、收集和激活元数据。

4、数据治理

数据治理确保数据消费者只能在相应策略（访问策略、屏蔽策略、数据质量策略等）的帮助下访问他们需要的高质量信息，这些策略由于元数据激活功能而自动执行。

03 采用数据编织的原因

如您所见，Data Fabric 不是您实现的东西而不是数据湖，而是当您执行以下操作时发生的演变：

认识到在不创建数据孤岛的情况下将您的信息物理整合到一个商店中是不可能的。
希望在分布式数据环境中统一数据管理、治理、分析等，以简化信息摄取和质量管理，同时使数据访问民主化。
寻求在不进行结构性重建的情况下最大限度地提高现有技术环境的性能的方法，以及确保它能够承受不断增加的信息量、新的分析需求等。
想要创建一个自助式的数据市场。

04 为什么要了解 Data Fabric 解决方案

1、没有成熟的技术方案

尽管预计其全球市场份额将增长，但数据编织仍然是一个新兴的设计理念，目前还没有成熟的技术解决方案。

虽然您可以将单独的解决方案组合在一起以实现全面的 Data Fabric 功能，但 Gartner 将 Data Fabric 置于虚高期望的峰值阶段，这意味着其主流采用预计不会早于五年。
2、IT和业务用户合作不足
在技术专长方面，Data Fabric 项目需要精通 ETL 工具、微服务架构、云服务、SQL 和 NoSQL、Hadoop 等、Python、Java 等的 IT 专家。但是，Data Fabric 项目不应该做一个纯粹的 IT 项目，否则你会浪费你的钱。最终用户也必须参与其中，尤其是在数据编织需求定义和解决方案推出阶段。

结论

很明显，在数据编织与数据湖的辩论中没有赢家，因为两者都有其起起落落，更重要的是，服务于不同的目的，因此可以用作补充解决方案。如果您当前使用数据湖和数据仓库管理数据的方法无法提供所需的结果，请考虑使用数据编织。尽管您当前的数据存储库仍将是您数据环境中的重要组成部分，但数据编织方法的结合将为业务运营带来更多的敏捷性，并帮助您跟上当前的数字化转型趋势。

作者：Tatyana Korobeyko，数据策划师

原文：https://www.itransition.com/blog/data-fabric-vs-data-lake

据统计，99%的数据大咖都关注了这个公众号

👇

大家都在看：

贺雪峰：精准扶贫为何陷入形式主义？！

隐形的小地方豪门，好日子真到头了

突发！法〔2024〕163 号：最高人民法院发布审执协调35条详细指引！彻底解决执行难！

全国大基建，要停了！

一年进口上万吨！进口厄瓜多尔白虾是怎么抢占中国市场的？

数据湖 VS 数据编织：泰坦之战

01 什么是数据湖？

02 数据湖是如何工作的？

03 为什么选择数据湖？

04 数据湖限制

01 什么是数据编织？

02 数据编织如何工作？

03 采用数据编织的原因

04 为什么要了解 Data Fabric 解决方案

结论

您可能也对以下帖子感兴趣

贺雪峰：精准扶贫为何陷入形式主义？！

隐形的小地方豪门，好日子真到头了

突发！法〔2024〕163 号：最高人民法院发布审执协调35条详细指引！彻底解决执行难！

全国大基建，要停了！

一年进口上万吨！进口厄瓜多尔白虾是怎么抢占中国市场的？

生成图片，分享到微信朋友圈

数据湖 VS 数据编织：泰坦之战

01 什么是数据湖？

02 数据湖是如何工作的？

03 为什么选择数据湖？

04 数据湖限制

01 什么是数据编织？

02 数据编织如何工作？

03 采用数据编织的原因

04 为什么要了解 Data Fabric 解决方案

结论

您可能也对以下帖子感兴趣