数据湖 VS 数据编织:泰坦之战
The following article is from CDO之家 Author Eden
就在三年前,由于新冠疫情(COVID-19)爆发的措手不及,全球企业不得不增加对数字计划的资金,以在未知且不稳定的商业环境中维持生计。多项调查显示,Covid-19 比预期提前数月或数年促进了客户体验、供应链、产品和服务以及企业本身的数字化。
为了帮助您为公司做出明智的决定,在本文中,我们阐明了两个经常对立的概念——数据湖和数据编织。
01 什么是数据湖?
02 数据湖是如何工作的?
03 为什么选择数据湖?
数据湖有助于快速整合几乎无限量的各种信息,因为您不必在存储数据之前以某种方式对数据进行建模和处理。与构建数据仓库相比,数据湖也是更实惠的解决方案,它允许您收集所有可能的数据以防万一,即使您不知道将其应用在哪里。 数据湖与数据仓库配合得很好,因为它执行繁琐的数据转换并节省数据仓库资源以进行分析。 数据湖很容易与 Hadoop 和类似技术集成,这正是数据科学家称赞数据湖的原因。因此,他们可以在湖中部署 ML 模型并在那里运行高级算法。 数据湖可以用作始终在线的数据存档和备份。默认情况下具有高可用性和容错性,它们非常适合存储由于某种原因而旧的或未使用的数据。
04 数据湖限制
传统上,数据湖很难保护和支持以实现所需的法规遵从性。您需要付出大量努力来保护和执行数据治理,以最大程度地降低信息泄露风险以及因不遵守数据保护法规而受到的罚款和处罚。
二、再谈谈 数据编织
01 什么是数据编织?
数据编织是一种更先进的解决方案,希望改进现有数据流程的公司依赖它。通常,他们已经利用了某种数据存储、ETL 解决方案,可能是数据目录或数据保护软件。信息从来都不是静态的,因此它的类型和数量会发生变化。虽然您可能希望将一些信息移动到云中,但您也可能觉得是时候将您的 SaaS 应用程序集成到分析工作流中,并以安全的方式为业务用户提供更多自由。但是,您如何在不影响信息质量和安全的情况下管理所有这些数据?这就是数据编织概念的用武之地。
02 数据编织如何工作?
数据治理 确保数据消费者只能在相应策略(访问策略、屏蔽策略、数据质量策略等)的帮助下访问他们需要的高质量信息,这些策略由于元数据激活功能而自动执行。
03 采用数据编织的原因
认识到在不创建数据孤岛的情况下将您的信息物理整合到一个商店中是不可能的。
希望在分布式数据环境中统一数据管理、治理、分析等,以简化信息摄取和质量管理,同时使数据访问民主化。
寻求在不进行结构性重建的情况下最大限度地提高现有技术环境的性能的方法,以及确保它能够承受不断增加的信息量、新的分析需求等。
想要创建一个自助式的数据市场。
04 为什么要了解 Data Fabric 解决方案
虽然您可以将单独的解决方案组合在一起以实现全面的 Data Fabric 功能,但 Gartner 将 Data Fabric 置于虚高期望的峰值阶段,这意味着其主流采用预计不会早于五年。 2、IT和业务用户合作不足 在技术专长方面,Data Fabric 项目需要精通 ETL 工具、微服务架构、云服务、SQL 和 NoSQL、Hadoop 等、Python、Java 等的 IT 专家。但是,Data Fabric 项目不应该做一个纯粹的 IT 项目,否则你会浪费你的钱。最终用户也必须参与其中,尤其是在数据编织需求定义和解决方案推出阶段。
结论
很明显,在数据编织与数据湖的辩论中没有赢家,因为两者都有其起起落落,更重要的是,服务于不同的目的,因此可以用作补充解决方案。如果您当前使用数据湖和数据仓库管理数据的方法无法提供所需的结果,请考虑使用数据编织。尽管您当前的数据存储库仍将是您数据环境中的重要组成部分,但数据编织方法的结合将为业务运营带来更多的敏捷性,并帮助您跟上当前的数字化转型趋势。
👇
大家都在看: