你的数据湖方案会被供应商锁定吗？要注意什么

就像昨天的数据仓库一样，今天的数据湖也有可能将我们锁定在专有格式和系统中，从而限制我们的创新并提高成本。

数据湖是一个系统或存储库，它以原始格式存储数据以及经过转换的可信数据集，并提供对这些数据的编程访问和基于SQL的访问，以执行各种分析任务，例如数据探索，交互式分析和机器学习。存储在数据湖中的数据可以包括来自关系数据库的结构化数据（行和列），半结构化数据（CSV，日志，XML，JSON），非结构化数据（电子邮件，文档，PDF）和二进制数据（图像，音频视频）。

数据湖的挑战不会陷入专有格式或系统中。此锁定限制了将数据移入和移出以供其他用途或使用其他工具处理数据的能力，并且还可以将数据湖绑定到单个云环境。这就是为什么企业应该努力建立开放数据湖的原因，其中数据以开放格式存储并通过基于标准的开放接口进行访问。坚持开放的哲学应该渗透到系统的各个方面，包括数据存储，数据管理，数据处理，操作，数据访问，治理和安全性。

开放格式是一种基于底层开放标准的格式，它是通过公共的，社区驱动的过程开发和共享的，没有特定于供应商的专有扩展。例如，开放数据格式是独立于平台的机器可读数据格式，例如ORC或Parquet，其规范已发布到社区，因此任何组织都可以创建工具和应用程序以读取该格式的数据。

典型的数据湖具有以下功能：

数据提取和存储
数据处理和对连续数据工程的支持
数据访问和消费
数据治理，包括发现性，安全性和合规性
基础设施和运营

在以下各节中，我们将描述每种功能的开放性要求。

数据提取和存储

开放数据湖从诸如应用程序，数据库，数据仓库和实时流之类的源中提取数据。它将数据格式化并存储为开放数据格式，例如ORC和Parquet，它是独立于平台，机器可读的，针对快速访问和分析进行了优化，并且可不受限制地提供给消费者使用，而不会妨碍重复使用该信息。

开放数据湖支持基于拉式和基于推式的数据提取。它支持通过批处理数据管道进行基于拉取的提取，并通过流处理来支持基于推送的提取。对于这两种类型的数据摄取，开放数据湖都支持用于编写数据转换的开放标准，例如SQL和Apache Spark。对于批处理数据管道，它支持对湖中的数据集进行行级插入和更新（UPSERT）。具有快照隔离功能（更常见的是ACID语义）的Upsert功能极大地简化了任务，与重写数据分区或整个数据集相反。

开放数据湖的接收功能可确保零数据丢失，并且一次写入或一次写入，处理架构可变性，以最优化的数据格式写入正确的分区，并提供重新写入数据的功能。需要。

数据处理和对连续数据工程的支持

开放数据湖以标准化的开放格式存储来自各种数据源的原始数据。但是，诸如数据探索，交互式分析和机器学习之类的用例要求处理原始数据以创建用例驱动的受信任数据集。对于数据探索和机器学习用例，用户不断优化数据集以满足其分析需求。因此，每个数据湖实施都应使用户能够在数据工程和用例（例如交互式分析和机器学习）之间进行迭代。可以将其视为连续数据工程，它涉及编写，监视和调试数据管道的交互功能。在开放数据湖中，这些管道是使用标准接口和开放源代码工具（例如SQL，Python，Apache Spark和Apache Hive）编写的。

数据访问和消费

数据湖最明显的结果就是它启用的用例类型。无论用例是数据探索，交互式分析还是机器学习，访问数据都是至关重要的。可以通过SQL或Python，R和Scala等编程语言来访问数据。虽然SQL是交互式分析的规范，但程序语言用于诸如机器学习和深度学习等更高级的应用程序。

开放数据湖通过不带专有扩展的基于标准的SQL实现来支持数据访问。它使外部工具能够通过ODBC和JDBC等标准访问该数据。此外，开放的数据湖支持通过标准编程语言（例如R，Python和Scala）以及用于数值计算和机器学习的标准库（例如TensorFlow，Keras，PyTorch，Apache Spark MLlib，MXNet和Scikit）以编程方式访问数据 -学习。

数据治理–可发现性，安全性和合规性

如果很好地实施数据提取和访问，则可以使数据以民主化的方式广泛地提供给用户。当多个团队开始访问数据时，数据架构师需要对治理，安全性和合规性进行监督。

数据发现

数据本身很难找到和理解，而且并不总是可信赖的。用户需要能够发现和分析数据集完整性的功能，然后才能信任自己的用例。数据目录通过不同的机制丰富了元数据，将其用于记录数据集，并支持搜索界面以帮助发现。

由于第一步是发现所需的数据集，因此有必要将元数据提供给最终用户以进行探索，查看数据的位置和包含的内容，并确定其是否对回答特定问题有用。发现包括数据分析功能，该功能支持对数据集进行交互式预览，以了解格式，标准化，标签，数据形状等方面的信息。

开放的数据湖应具有开放的元数据存储库。例如，Apache Hive元数据存储库是一个开放的存储库，可防止供应商锁定元数据。

安全

越来越多的数据可访问性要求数据湖支持强大的访问控制和安全功能。要开放，数据湖应该通过非专有的安全和访问控制API来做到这一点。例如，与开放源代码框架（例如Apache Ranger和Apache Sentry）的深度集成可以促进表级，行级和列级的粒度安全。这使管理员可以授予对企业目录（如Active Directory）中已定义的用户角色的权限。通过基于开放源代码框架的访问控制，开放数据湖可避免由于专有安全性实施而导致的供应商锁定。

合规

新的或扩展的数据隐私法规，例如GDPR和CCPA，已经针对“擦除权”和“被遗忘权”提出了新要求。这些条款控制着消费者对其数据的权利，并对违规行为处以严厉的经济处罚（高达全球营业额的4％），因此不能忽视它们。因此，删除特定数据子集而不中断数据管理过程的能力至关重要。开放数据湖通过开放格式和开放元数据存储库支持此功能。通过这种方式，他们可以实现与供应商无关的合规性解决方案。

基础设施和运营

无论数据湖是部署在云中还是内部部署，每个云提供商都具有特定的实施方案来规范，配置，监视和管理数据湖及其所需的资源。开放的数据湖与云无关，并且可以跨任何云原生环境（包括公共云和私有云）进行移植。从经济学，安全性，治理和敏捷性的角度来看，这使管理员可以利用公共云和私有云的优势。

开放创新

数据量，速度和种类的增加，再加上新类型的分析和机器学习，使得数据湖成为对更多传统数据仓库的必要补充。数据仓库主要存在于专有格式，专有SQL扩展和专有元数据存储库的世界中，并且缺乏对数据的编程访问。数据湖不需要遵循这种专有的方法，这会导致创新受限和成本上升。精心设计的开放式数据湖提供了强大的，面向未来的数据管理系统，可满足包括数据探索，交互式分析和机器学习在内的各种数据处理需求。

作者介绍

Ashish Suchoo是Qubole的联合创始人兼首席执行官。在与他人共同创立Qubole之前，Ashish运营着Facebook的数据基础架构团队。在他的领导下，Facebook数据基础架构团队构建了世界上最大的数据处理和分析平台之一，并创建了当今整个行业使用的大量工具，技术和模板。

原文链接：

https://www.infoworld.com/article/3534516/is-your-data-lake-open-enough-what-to-watch-out-for.html

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。