Spark

1 spark是做什么的

　　数据处理：用来快速处理数据。

　　迭代计算：有效应对多步的数据处理逻辑。

2 常用进程

　　JDBCServer：常驻Spark的应用，通过连接JDBCServer，执行sql语句。

　　JobHistory：单节点进程，用于展示历史应用的执行情况。

3 核心概念

3.1 application：spark用户程序，用户提交一次应用为一个app，一个app产生一个sparkcontext。

3.2 job：一个app可被划分为多个job，划分标记为action动作，有collect\count等。

3.3 stage：每个job被划分多层stage，划分标记为shffle过程，stage按照父子关系依次执行。

3.4 task：具体的执行任务单位，被分发到executor上执行具体任务。

3.5 ClusterManager集群资源管理服务，包含主节点和多个运行节点，支持运行模式有Standalone\mesos\Yarn。

3.6 Driver：运行app的大脑，负责job的初始化，将job转换成task并提交执行。

3.7 DAGScheduler：是一个面向Stage层面的调度器，按照Stage提交task集合给TaskScheduler。

3.8 TaskScheduler：提交task给Executor运行，并管理执行结果。

3.9 BlockManager：管理app运行周期的中间数据。

3.10 Executor：是app运行在worker node上的一个进程，负责运行task，生命周期同app。

4 运行过程

1）构建SparkApplication运行环境（启动SparkContext）

2）SparkContext向资源管理器（ClusterManager）申请运行Executor资源，并启动StandaloneExecutorBackend。

3）Executor向SparkContext注册。

4）SparkContext启动应用程序DAG调度，Stage划分，TaskSet生成。

5）TaskScheduler调度TaskSet，将task分发给Executor运行。

6）task在Executor上运行，运行完毕释放所有资源。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。