大数据Spark “蘑菇云”行动第76课： Kafka+Spark Streaming+Redis项目实战

作者：duan_zhihua 2016-11-10 收录到我的专题

jedis插件 redis

<dependency>
            <groupId>redis.clients</groupId>
            <artifactId>jedis</artifactId>
            <version>${jedis.version}</version>
        </dependency>

SparkSession是面向DataSet编程的，统一了SQLContext、HiveContext和StreamingContext

SparkContext是面向RDD编程；

DirectStream的操作Kafka direct方式，driver去读数据，不需要将数据读取到driver，再把数据发送executor上计算。

DirectStream的操作Kafka的时候Driver获得的只是Kafka数据的元数据，在实际操作的时候把元数据发给分布式的Executors，Executors根据Driver发过来的Kafka的元数据去Kafka上抓取属于自己要处理的数据部分；

几乎所有的情况下一定要使用DirectStream的方式操作Kafka

JSON简单通用跨平台数据通信方式

基于事件Event并且同时能够在线处理和批处理的架构方式称之为：Lamda架构

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。