打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Apache Spark MapR连接器提供对JSON支持

有一个新的本地Spark连接器(Native Spark Connector)用于MapR-DB JSON,它使开发人员可以使用Open JSON应用程序接口(OJAI)API从Apache Spark访问MapR-DB JSON文档。

Apache Spark是一个开源的大数据处理框架,用于流媒体和批量工作负载的分析。MapR-DB是一种高性能NoSQL数据库,支持两种主要数据模型:JSON文档和宽列表。Spark连接器可用于每种数据模型。使用Spark/MapR-DB连接器,你可以使用MapR-DB作为数据源和作为Spark作业的数据目标。

用于MapR-DB JSON的Native Spark连接器支持将MapR-DB表中的数据作为OJAI文档的Spark Resilient分布式数据集(RDD)加载,并将Spark RDD保存到MapR-DB JSON表中。(RDD是用于存储Spark使用的数据的基本格式。)

本机连接器批量镜像

该连接器包括一组API,使MapR用户能够编写使用MapR-DB JSON表并在Spark中使用它们的应用程序。它是Apache Spark的MapR-DB二进制连接器的伴侣,可用于编写使用HBase二进制表并在Spark中使用它们的应用程序。

该连接器具有两个API,可将数据从MapR-DB JSON表加载到Spark RDD,或将Spark RDD保存到MapR-DB JSON表中。它还提供对Scala bean类的支持,有一个自定义分区器,允许你分区数据以获得更好的性能,并支持数据本地化。当连接器从MapR-DB读取数据时,它使用MapR-DB的数据本地化功能来产生Spark执行器。

本地Spark连接器包括对数据帧和数据集API的支持,因此可以直接使用Spark查询HBase和MapR-DB二进制表。它提供的优点是它可以消除任何中间层,从而更容易构建更快的数据流水线,并减少与数据移动相关的延迟。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
part3-数据的读取与保存
独家 | PySpark和SparkSQL基础:如何利用Python编程执行Spark(附代码)
大数据如何在物联网高速公路上驱动分析
如何使用python将Spark数据写入ElasticSearch
Spark入门:读写Parquet(DataFrame)
整理对Spark SQL的理解
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服