Apache Spark MapR连接器提供对JSON支持

有一个新的本地Spark连接器（Native Spark Connector）用于MapR-DB JSON，它使开发人员可以使用Open JSON应用程序接口（OJAI）API从Apache Spark访问MapR-DB JSON文档。

Apache Spark是一个开源的大数据处理框架，用于流媒体和批量工作负载的分析。MapR-DB是一种高性能NoSQL数据库，支持两种主要数据模型：JSON文档和宽列表。Spark连接器可用于每种数据模型。使用Spark/MapR-DB连接器，你可以使用MapR-DB作为数据源和作为Spark作业的数据目标。

用于MapR-DB JSON的Native Spark连接器支持将MapR-DB表中的数据作为OJAI文档的Spark Resilient分布式数据集（RDD）加载，并将Spark RDD保存到MapR-DB JSON表中。（RDD是用于存储Spark使用的数据的基本格式。）

本机连接器批量镜像

该连接器包括一组API，使MapR用户能够编写使用MapR-DB JSON表并在Spark中使用它们的应用程序。它是Apache Spark的MapR-DB二进制连接器的伴侣，可用于编写使用HBase二进制表并在Spark中使用它们的应用程序。

该连接器具有两个API，可将数据从MapR-DB JSON表加载到Spark RDD，或将Spark RDD保存到MapR-DB JSON表中。它还提供对Scala bean类的支持，有一个自定义分区器，允许你分区数据以获得更好的性能，并支持数据本地化。当连接器从MapR-DB读取数据时，它使用MapR-DB的数据本地化功能来产生Spark执行器。

本地Spark连接器包括对数据帧和数据集API的支持，因此可以直接使用Spark查询HBase和MapR-DB二进制表。它提供的优点是它可以消除任何中间层，从而更容易构建更快的数据流水线，并减少与数据移动相关的延迟。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。