大数据Spark “蘑菇云”行动第76课: Kafka+Spark Streaming+Redis项目实战
作者:duan_zhihua 2016-11-10 收录到我的专题
大数据Spark “蘑菇云”行动第76课: Kafka+Spark Streaming+Redis项目实战
jedis插件 redis
<dependency>
<groupId>redis.clients</groupId>
<artifactId>jedis</artifactId>
<version>${jedis.version}</version>
</dependency>
SparkSession是面向DataSet编程的,统一了SQLContext、HiveContext和StreamingContext
SparkContext是面向RDD编程;
DirectStream的操作Kafka direct方式,driver去读数据,不需要将数据读取到driver,再把数据发送executor上计算。
DirectStream的操作Kafka的时候Driver获得的只是Kafka数据的元数据,在实际操作的时候把元数据发给分布式的Executors,Executors根据Driver发过来的Kafka的元数据去Kafka上抓取属于自己要处理的数据部分;
几乎所有的情况下一定要使用DirectStream的方式操作Kafka
JSON简单通用跨平台数据通信方式
基于事件Event并且同时能够在线处理和批处理的架构方式称之为:Lamda架构
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。