基于Spark平台和并行随机森林回归算法的短期电力负荷预测fffffe

基于Spark平台和并行随机森林回归算法的短期电力负荷预测

刘琪琛1, 雷景生2, 郝珈玮2,黄燕刚1,李强1,罗海波1

(1．国网四川省电力公司眉山供电公司, 四川省眉山市620010; 2.上海电力学院计算机科学与技术学院, 上海市200090)

摘要：随着智能电网、全球能源互联网的建设与相关技术的发展，现代电力系统中电力大数据的格局已经形成，如何对高维海量数据进行深度挖掘以实现数据的充分利用，成为当前电力工作者们关心的问题。该文针对电力大数据环境下高精度和实时性的负荷预测展开了研究，提出了基于Spark平台和并行随机森林回归算法(Spark platform and parallel random forest regression, SP-RFR)的短期电力负荷预测方法，通过3次弹性分布式数据集(resilient distributed datasets, RDD)转换实现单机随机森林算法的并行化改进，并在Spark分布式集群环境下实现部署。结合某区域实际电力负荷数据设计试验，进行模型训练和回归预测，通过试验证明，对同等的数据集，基于Spark平台的并行随机森林回归算法预测精度高于单机负荷预测算法；并行随机森林算法受离群数据干扰较小，且随着数据集的增大，并行随机森林算法表现出良好的鲁棒性；与单机算法在运行时间上相比，随着数据集的增大，基于分布式集群的方法优势明显。该文提出的方法能够有效地在分布式环境中进行电力负荷预测，为负荷预测提供了一种新思路。

关键词：电力大数据；分布式计算；并行随机森林回归算法；Spark平台；短期电力负荷预测

Abstract： With the development of smart grid, global energy Internet and related technologies, the structure of power big data is already formed. How to make full use of the high-dimensional massive data through data mining to make full use of data has aroused widespread concern of power workers. Aiming at the high precision and real-time load forecasting with the background of power big data, this paper proposes the short-term power load forecasting based on Spark platform and parallel random forest regression (SP-RFR) algorithm. The parallelization improvement of single machine random forest algorithm is realized by three transforms of resilient distributed datasets(RDD), and can be deployed on a Spark distributed cluster. Experiments are designed by using actual power load data of a transformer substation, and model training and regression prediction are implemented. The conclusions are as follows, for the same testing data set, the short-term power load forecasting method based on SP-RFR model is superior to single machine regression forecasting model; SP-RFR model is less disturbed by outlier data, and SP-RFR model has good robustness with the increase of data set; compared with the single machine model, with the increase of the data set, the SP-RFR, which is based on the distributed cluster, has obvious advantages. The proposed method can effectively forecast power load in distributed background, which can provide a new idea for power load forecasting.

KEYWORDS： power big data; distributed computing; parallel random forest regression algorithm; Spark platform; short-term power load forecasting

0 引言

伴随着经济的稳步发展和社会的不断进步，能源作为经济社会的重要物质基础，也经历着不断的革新。构建以智能电网为基础，特高压电网为关键，清洁能源为根本的全球能源互联网，是实现人类可持续发展的必由之路，具有巨大的经济、社会、环境综合效益[1-2]。而电力大数据的研究是智能电网技术所包含的一个重要分支，通过对数据采集与监视控制系统(supervisory control and data acquistion, SCADA)、能量管理系统(energy management system, EMS)采集和存储的数据进行深度挖掘及分析，可以为电力系统的调度控制提供决策与帮助。长久以来，电力负荷预测一直是电力工作者们最为关注的问题之一，如今在电力大数据环境下，如何从智能电网庞大的业务流、信息流、数据流中提取负荷预测相关数据，并对这些数据进行处理，使得负荷预测更具准确性和实时性，成为当前研究的重点[3-4]。

电力负荷预测模型建立在相关数学理论的基础上。常用的模型有灰色理论[5]、模糊理论[6-7]、时间序列[8]、人工神经网络[9]、小波理论[10-11]、决策树[12]和支持向量机[13]等。在面对数据量较小，数据准确性较高的数据集时，这些模型和理论均可以较好地在单机上实现，但是在面对高维度、海量数据时，单机运算已经远远不能满足负荷预测的高精度和实时性的要求，基于Spark[14-15]框架分布式环境的大数据处理方法应运而生。近两年来，电力工作者们对此方法进行了深入的探索，文献[16]通过研究分布式集群中内存的使用状况，提出了内存使用决策自动化算法，并取得良好的应用效果；文献[17-18]分别将机器学习中典型的k-means聚类算法和关联分析算法Apriori部署在Spark集群上并进行测试，证明面对大规模数据集时，在分布式环境下运行的算法效率更高；文献[19]提出了适用于分布式环境下的基于Spark平台的支持向量机算法 (Spark support vector machine, SP-SVM)；文献[20-21]针对分布式环境下SVM算法中参数的选择进行了优化；此外，文献[22]通过对弱学习过程分支线性最小二乘(component-wise liner least squares, CWLLS)进行强化，得到分布式环境下的L2-Boosting算法，并将其用于电力负荷预测，也得到了很好的结果。

本文提出一种基于Spark平台和并行随机森林回归算法(Spark platform and random forest regression, SP-RFR)的短期电力负荷预测方法。在方法的具体实现上，引入Spark分布式运算平台，通过3次弹性分布式数据集(resilient distributed datasets, RDD)转换，实现随机森林算法的并行化改进，其中RDD表示已被分区且能够被并行操作的数据集合。采用某区域变电站的实际电力负荷数据在试验室搭建的分布式集群上进行模型的训练和测试。首先，采用同样的数据集，将集群预测的结果和单机模型预测结果加以比较，考察SP-RFR模型预测的准确性；然后，一方面检验SP-RFR模型对离群数据的敏感性，考察离群数据对预测结果的影响，另一方面检验不同规模数据集下SP-RFR模型的适应能力，考察模型的鲁棒性；最后，将SP-RFR模型与单机模型在不同规模的数据集下的运行时间作比较。结果表明，随着数据集规模的增大，SP-RFR模型优势明显。

1 基于Spark平台的并行随机森林回归算法的负荷预测模型

本文提出的基于Spark平台的并行随机森林回归负荷预测流程如图1所示。下面将分别介绍Spark分布式运算平台和并行随机森林回归算法。

图1 基于Spark平台的并行随机森林回归负荷预测流程图
Fig.1 Flow chart of parallel random forest regression algorithm based on Spark platform

1.1 基于内存的分布式运算平台——Spark

Spark是一种基于内存运算的分布式集群框架，旨在简化集群上并行程序的编写。集群中，一台高内存的任务调度服务器作为主节点(driver)，若干硬盘空间较大的计算机作为从节点(worker)。在计算时，driver接受用户指令和任务，将任务分割给每个worker去执行。worker执行任务时可以从Hadoop分布式文件系统(Hadoop distributed file system, HDFS)或其他分布式文件系统中提取数据，并将计算后的数据存于内存中，然后返回给driver。driver将各个worker返回的数据经过整合后得到最终结果。

Spark继承了MapReduce的线性扩展性和容错性，同时改进了MapReduce必须先映射(Map)再规约

(Reduce)的严格执行过程，Spark可以通过有向无环图(directed acyclic graph, DAG)算子将中间结果直接传到作业的下一步，而不必像MapReduce那样存入HDFS中。

RDD是Spark最核心的部分，具有如下特点：(1)Spark中计算任务的组织、运算、调度、错误恢复都是以RDD为单元进行的；(2)一个RDD数据集可由分布在集群中的若干worker节点上的数据组成；(3)RDD具有容错机制，父RDD与子RDD之间的依赖关系保存于RDD 依赖关系图(Lineage)中，当RDD中出现数据丢失和损坏时，可根据lineage恢复；(4)Hadoop的MapReduce计算模型中，每一步的运算都伴随着大量的磁盘输入/输出(input/output, I/O)操作，而Spark在对RDD进行运算时通过Cache算子将数据缓存于内存中，数据调用方便，省去了MapReduce中大量的磁盘I/O操作。这种在循环中多次访问数据集的交互式的数据分析过程特别适用于机器学习中的大量迭代运算。

Spark平台下，可以对RDD执行的操作有转换(transformation)和动作(action)2种。transformation是对RDD经过一定的修改得到新RDD的操作，且转换过程会记录在lineage中；action是从RDD到计算结果的操作，不同于transformation算子只记住转换过程，action算子会真正触发程序的执行，向主节点返回结果或者向外部存储系统导出数据。

1.2 分布式环境下的并行随机森林回归负荷预测模型

随机森林算法是一种常见的组合(ensemble)算法，组合算法的原理是由训练数据构建一组基分类器(base classifier)，然后对每个基分类器的预测结果进行投票从而决定分类。组合分类器的效果往往比基分类器的分类效果要好，随机森林算法是由多棵决策树(decision tree)构成“森林”，他的基分类器是决策树，相比于单个决策树算法，随机森林算法分类、预测效果更好，且不容易出现过拟合。这是因为随机森林算法的构建具有2个特点，如下详述。

(1)随机森林中决策树的训练集构成。采用了通过k次随机抽取等量样本形成大小一致的样本集Yi(i=1,2,…,k)的方法。由于是随机抽取的，对于k棵决策树，每棵决策树的训练集都不同，但是因为随机抽取样本形成数据集，所以每棵决策树的训练集在统计学意义下是等价的，从而最大可能地保留了数据的特性。

(2)单棵决策树的生长。决策树的生长的关键是对“最优分裂属性”的选择，该算法中对每个分裂节点处都随机选择m(m≤M，M是样本的属性总数)个属性作为待判断分裂属性，将随机性引入树的生长过程中。

综上，由于随机森林算法具有这2个特点，一方面使得建立的模型很好地保留了原始数据集的统计学特性，另一方面由于在模型的建立上尽可能地体现出了随机性，很好地预防了模型训练过程中可能出现的过拟合。

1.2.1 决策树算法概述

决策树算法流程如图2所示[23]，决策树的输入包括训练样本集D和属性集F两部分。算法步骤如下详述。

图2 决策树流程图
Fig.2 Flow chart of decision tree

(1)首先由函数createNode()创建一个节点N，判断节点N是否与样本集D中元素属于同一类型。如果属于同一类，则节点N确定为叶子节点，且标注为D中元素的类；否则进入下一步判断。

(2)考察属性集F是否已经为空。如果为空，则表示所有的属性均已经在算法中处理过，则节点N确

定为叶子节点，且标注为父节点中多数样本的类；否则，通过函数findBestSplit()选择作为划分样本集D的测试条件属性。常用的测试条件有熵(entropy)、Gini指标和卡方统计量。其中Gini指标定义为

(1)

式中

为给定节点t的Gini指标；pi,t为给定节点t中属于类i的训练记录所占的比例；c为类的数目。

(3)属性集F中属性数目减1。设选定的最优划分属性向量为A。属性A包含n个属性值，A=[a1,a2,…,an]，对属性值ai产生的子节点Ni对应的样本子集Di进行考察，判断Di是否为空，如果为空，则节点Ni确定为叶子节点，且标注为D中多数样本的类；否则，返回步骤(1)，判断样本子集Di中元素是否属于同一类型。

1.2.2 并行随机森林的实现

在1.2节的开始部分分析了随机森林算法的2个特点：(1)随机森林算法中每个决策树的训练数据都是随机抽取形成的，因而随机森林中决策树的形成过程是相互独立的；(2)每个决策树的生长，在分裂节点处进行最优属性测试时，也是随机地从属性集中选取若干属性进行测试。

这2个特点不但很好地抑制了模型的过拟合，也为随机森林算法的并行化设计提供了可能。

本文采用的思路是使用决策树装袋(Bagging)形成随机森林，通过3次RDD数据集转换实现随机森林回归算法的并行化，3次转化分别用于生成RDD数据集、决策树和随机森林回归模型。Spark平台下并行随机森林建立流程如图3所示。

(1)生成RDD数据集。将预处理后的负荷预测相关数据进行1次RDD处理，用Context中的parallelize()函数利用负荷预测相关数据生成RDD数据集。

(2)生成决策树。生成决策树是整个并行算法的关键，本文采用Bagging算法有放回地对数据集进行抽样，形成k个大小一致的样本集Yi(i=1,2,…,k)。由于是有放回地抽取，所以在统计学意义上这k个样本集是等价的，均同等地保留了原始数据的特征，可以满足并行的要求，但因为是随机抽取的，所以各个样本集又均不相同，可以很好地预防模型训练的过拟合。

样本共具有M个属性，随机地选择m(m≤M)个属性作为当前节点的分裂属性集，对m个属性进行测试评价，比如按照式(1)计算m个属性的Gini指标，选择指标最好的属性进行分裂形成子树。

如此递归地形成决策树，k个决策树的形成将调用Spark进行并行往复的迭代计算，为随机森林回归模型做准备。

图3 并行随机森林建立流程图
Fig.3 Flow chart of modeling parallel random forest

(3)生成随机森林回归模型。将k个决策树的结果整合起来，得出整个“森林”的结果。如果是将随机森林用作分类，那么就是采用投票的方式对每个决策树结果进行统计，得票多者胜出；在本文中将随机森林用作回归，即将每个决策树的预测结果求和取均值，这个过程由最后一个RDD来实现。

2 算例分析

2.1 基于Spark平台的分布式集群构建

在试验室中搭建分布式环境，采用1台DELL服务器作为driver。driver的系统配置：12核CPU，主频2.60 HZ，内存32 GB，硬盘10 TB，操作系统为Linux Ubuntu 12.04 desktop。4台联想普通台式机作为worker。worker的配置：2核CPU，主频2.94 GHz，内存2 GB，硬盘1 TB，操作系统为Linux Ubuntu 12.04 desktop。集群中使用开源软件版本：Hadoop 2.7.3，Spark 2.0.1，jdk 1.8，Scala 2.11.8和python 2.7。集群拓扑如图4所示。

图4 分布式集群拓扑
Fig.4 Topology of distributed cluster

2.2 负荷属性数据分析

选择我国西部某区域变电站2016年3—8月的负荷数据与天气数据作为试验数据，负荷采集频率为每15 min 1次，天气数据记录了1天内的最高气温、最低气温，历史同期温度，天气趋势(晴、阴、雨、多云)等。值得一说的是，虽然这样的数据量并没有达到大数据的规模，但是在分布式环境下是完全可以用来检测模型的合理性与准确性的。参考文献[24-25]，本文选定的负荷样本属性见表1。

表1 负荷样本属性
Table 1 Properties of load samples

模型回归预测的误差评价采用了通用的平均百分误差(mean absolute percentage error, MAPE)EMAPE和均方根误差(root-mean-square error, RMSE)ERMSE来描述，计算公式为：

(2)

ERMSE=

×100%

(3)

式中：xi为时刻i的负荷实际值；

为时刻i的负荷预测值。

2.3 试验设计与分析

试验 1考察SP-RFR的准确性。比较 SP-RFR和典型的单机负荷预测算法在同等测试集上的负荷预测准确度。用于对比的典型单机负荷预测算法包括支持向量机回归(support vector machine regression, SVR)算法、分类回归决策树(classification and regression tree, CART)算法。以某变电站的某条出线2016年3月1日—2016年8月25日的数据为训练集训练模型，预测2016年8月26日的负荷，预测结果如图5所示。

图5 并行随机森林回归算法与单机负荷预测算法预测结果比较
Fig.5 Comparison of load forecasting results between SP-RFR model and single machine model

计算3种负荷预测方法在测试集上的MAPE与RMSE，结果见表2。

表2 并行随机森林回归模型与单机模型预测误差统计
Table 2 Compare of load forecasting accuracy between SP-RFR model and single machine model

3种算法在每个计量点的预测百分误差曲线如图6所示。

图6 并行随机森林回归算法与单机负荷预测算法计量点误差曲线
Fig.6 Comparison of load forecasting error percent between SP-RFR model and single machine model

分类回归树模型与支持向量回归模型代表了两类广泛应用于单机电力负荷预测中的典型单机负荷预测方法，表现出良好的泛化能力与较强的鲁棒性，因而很多单机负荷预测的方法均派生自这两类方法。

通过表2和图5、6可以看出，本文提出的并行随机森林回归算法比CART和SVR具有更高的预测精度。这是由于SP-RFR算法通过Bagging将若干个决策树组合在一起，具备决策树的优点，同时弱化其缺点，随着森林中树的增加，随机森林的泛化误差收敛，降低了过拟合的风险，对错误和离群点更鲁棒。通过图5也可以看出，基于SP-RFR算法模型预测的负荷曲线是最接近实际的。

试验 2 考察SP-RFR的鲁棒性。采用SP-RFR算法预测2016年9月1日某变电站的全部出线负荷。该变电站共有出线15条。试验平台预测结果界面示意图见附录图A1。

采用2016年3月1日—2016年8月31日的数据训练模型，对2016年9月1日负荷进行预测，某两条线路A、B结果如图7、8所示。

图7 A线路实际负荷值与预测负荷值
Fig.7 Comparison of actual load and forecasting load of line-A

图8 B线路实际负荷值与预测负荷值
Fig.8 Comparison of actual load and forecasting load of line-B

很多学者的论著中都指出，往期负荷对待预测日的负荷影响呈现出“近大远小”的特征，即临近待预测日的负荷数据对待预测日负荷影响较大，反之较小。例如试验2中待预测日9月1日的负荷受8月31日负荷影响较大。从图7中可以看出，A线路9月1日预测负荷与8月31日实际负荷有一定的相似度，而且预测精度也可以达到要求。该变电站其他线路的负荷预测结果也表明，类似于图7的“近大远小”现象是最常见的。

如果待预测日前一天线路检修，或者因其他原因导致系统运行状态改变，负荷发生较大变化，则该日的负荷数据在训练集中被视为“离群数据”，SP-RFR算法对这样的数据有良好的鲁棒性，受离群点的干扰较弱，这一点可以从图8中B线路的负荷预测情况中看出。

B线路在8月31日负荷有较大变动，9月1日回归正常，本文模型预测的负荷与9月1日实际负荷非常贴近，没有受到8月31日离群负荷的干扰。这是由于在使用大量历史负荷数据集进行训练时，SP-RFR算法已经建立了健壮的负荷预测回归模型，对“离群数据”有良好的识别与判断，保证了SP-RFR算法的鲁棒性。

试验 3 考虑到SP-RFR算法应用于大数据平台的特性，检验随着数据量的增大，SP-RFR算法预测精度是否会受影响。由于试验数据有限，将原始数据人为扩大，采用不同大小的数据文件来进行试验，试验数据集大小见表3。

表3 不同容量的数据集
Table 3 Data sets with different volumes

五个数据集容量依次增大，分别在每个数据集上运行SP-RFR，并计算MAPE，结果见表4。

表4 不同容量数据集上的预测误差百分比
Table 4 Prediction error percentage in different data sets

通过表4可以看出，随着数据量的增大，预测误差略有增大，但是波动范围较小，并没有体现出明显规律性，最大误差为1.81%，最小误差为1.65%。说明SP-RFR算法能够较好地应用于大数据背景下的负荷预测。

试验 4与单机系统相比，分布式集群的一个特点是可以较好地运算和处理海量数据。为了测试分布式集群的这一特性，设计了一组压力测试，将Spark平台上的并行随机森林算法SP-RFR、CART决策树算法(Spark classification and regression tree, SP-CART)与单机的SVR进行对比，考察在处理相同数据集时3种算法的运行时间。

运行3种算法的计算节点CPU主频近似相同，操作系统相同；运行单机SVR的节点内存为4 GB；集群中运行SP-RFR与SP-CART算法的2个节点的内存均为2 GB，总和也是4 GB。3种算法使用的数据集均相同，大小依次为100,200,…,800 MB。测试结果如表5和图9所示。其中单机SVR模型在分析800 MB数据集时发生内存不足错误，亦无法进行更大规模数据集的分析。

表5 基于分布式集群的算法与单机算法的运行时间
Table 5 Running time of algorithms based on distributed cluster and based on single machine

图9 基于分布式集群的算法与单机算法运行时间对比
Fig.9 Comparison of running time between algorithms based on distributed cluster and based on single machine

从表5及图9可以看出，在数据集较小(小于600 MB)时，基于分布式集群的负荷预测方法运行时间没有优势，单机SVR负荷预测方法比基于分布式集群的SP-CART与SP-RFR算法运行时间短。这是因为分布式集群的任务分配与调度需要消耗一定时间。随着数据量的增大(超过600 MB以后)，单机模型运行受计算节点内存的限制，逐渐达到饱和，在700 MB时单机算法与分布式集群算法运行时间基本持平，超过750 MB后单机系统内存不足，无法再进行计算。而基于分布式集群的算法运算时间基本随数据集的增大呈现线性增长，只要集群规模不断扩大，集群的处理能力可认为不受数据集大小的影响。

此外，比较图9中SP-RFR算法与SP-CART算法的时间曲线，可以发现SP-RFR比SP-CART运行时间曲线略高，而且高度差基本稳定。这是因为随机森林比决策树多了“装袋(Bagging)”的过程，但这个时间与SP-RFR算法运行的时间相比可以忽略，且计算节点增加后运行时间还会有所降低，说明当前分布式集群还有很大的性能提升空间。

3 结论

本文在总结传统单机电力负荷预测模型的基础上，结合对Spark分布式计算框架的研究，通过3次RDD数据集转换，实现了Spark平台下的并行随机森林回归算法，进而提出了基于Spark平台和并行随机森林回归算法的短期电力负荷预测方法，很好地应对了当前电力大数据背景下对负荷预测高精度和海量数据运算的要求。结合实际，本文设计试验对算法进行检验，得到的结论如下详述。

(1)并行随机森林回归算法(SP-RFR)保留了随机森林算法的原有特性，并且进行了改进，对噪声的鲁棒性好，且不易出现过拟合。此外，RDD数据集的运算特性提高了算法的适应能力和泛化能力。

(2)并行随机森林回归负荷预测模型SP-RFR与传统的单机负荷预测模型(如SVM、CART)相比，负荷预测精度更高，误差更小，预测得到的负荷曲线更接近于实际负荷曲线；负荷预测结果符合“近大远小”的特征，且负荷预测模型在处理大量负荷相关数据时体现出了很强的鲁棒性，受离群数据干扰较弱；在数据量较小时SP-RFR模型运算速度低于单机模型，但随着数据量的增大，分布式集群下的SP-RFR算法的优势很明显，证明在分布式环境下该模型有一定的实用性，可以较好地应用于电力大数据背景下的负荷预测。

(3)接下来的工作方向是将更多的机器学习与数据挖掘的算法(包括组合算法)并行化，应用于大数据分布式运算平台，以及进一步提高并行算法的执行效率，使之更好地应用于电力大数据环境。

4 参考文献

[1] 张小平,李佳宁,付灏. 全球能源互联网对话工业4.0[J]. 电网技术,2016,40(6):1607-1611. ZHANG Xiaoping, LI Jianing, FU Hao. Global energy interconnection dialogue industry 4.0[J]. Power System Technology, 2016, 40(6): 1607-1611.

[2] 王钦,蒋怀光,文福拴,等. 智能电网中大数据的概念、技术与挑战 [J]. 电力建设, 2016, 37(12): 1-10. WANG Qin, JIANG Huaiguang, WEN Fushuan, et al. Concept, technology and challenge of big data in smart grids[J]. Electric Power Construction, 2016, 37(12):1-10．[3] 张东霞,苗新,刘丽萍,等. 智能电网大数据技术发展研究[J]. 中国电机工程学报,2015,35(1):2-12. ZHANG Dongxia, MIAO Xin, LIU Liping, et al. Research on development strategy for smart grid big data[J].Proceedings of the CSEE, 2015,35(1):2-12.

[4] 刘振亚. 智能电网技术[M]. 北京: 中国电力出版社, 2010:1-16.

[5] 王大鹏. 灰色预测模型及中长期电力负荷预测应用研究[D]. 武汉：华中科技大学, 2013. WANG Dapeng. Research on grey prediction models and their applications in medium-and long-term power load forecasting[D]. Wuhan: Huazhong University of Science and Technology, 2013.

[6] 陈科. 基于模糊神经网络的电力系统短期负荷预测[D]. 南京: 东南大学,2015. CHEN Ke. Short-term load forecasting in power system based on fuzzy neural network[D]. Nanjing: Southeast University, 2015.

[7] NAZARKO J, ZALEWSKI W. The fuzzy regression approach to peak load estimation in power distribution systems[J]. IEEE Transactions on Power Systems, 1999, 14(3): 809-814.

[8] 万昆,柳瑞禹. 区间时间序列向量自回归模型在短期电力负荷预测中的应用[J]. 电网技术,2012,36(11):77-81. WAN Kun, LIU Ruiyu. Application of interval time-series vector autoregression model in short-term load forecasting[J]. Power System Technology, 2012, 36(11): 77-81.

[9] 张刚, 刘福潮, 王维洲, 等．电网短期负荷预测的BP-ANN方法及应用 [J]. 电力建设, 2014, 35(3): 54-58. ZHANG Gang, LIU Fuchao, WANG Weizhou, et al. BP-ANN method for grid short-term load forecasting and its application[J]. Electric Power Construction, 2014, 35(3): 54-58.

[10] 任震. 小波分析及其在电力系统中的应用[M]. 北京: 中国电力出版社, 2003:218-223.

[11] BI Y, ZHAO J, ZHANG D. Power load forecasting algorithm based on wavelet packet analysis[C]//2004 International Conference on Power System Technology. Singapore, IEEE: 2004, 987-990.

[12] 皮志贤. 基于决策树的电力负荷预测模型研究[D]. 北京：华北电力大学,2011. PI Zhixian. Research on load forecasting model based on decision tree[D].Beijing: North China Electric Power University, 2011.

[13] 王新,孟玲玲. 基于EEMD-LSSVM的超短期负荷预测[J]. 电力系统保护与控制, 2015, 43(1): 61-66. WANG Xin, MENG Lingling. Ultra-short-term load forecasting based on EEMD-LSSVM[J]. Power System Protection and Control, 2015, 43(1): 61-66.

[14] ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: Cluster computing with working sets[C]//Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Boston: USENIX Association Berkeley, 2010:10.

[15] Apache Software Foundation.Machine learning example [EB/OL] (2016-12-25)[2017-05-20].http：//Spark.apache.org/exam- ples.html.

[16] 冯琳. 集群计算引擎Spark中的内存优化研究与实现[D].北京:清华大学,2013. FENG Lin. Research and implementation of memory optimization based on parallel computing engine Spark[D]. Beijing: Tsinghua University,2013.

[17] 袁宝超,刘道伟,刘丽平,等. 基于Spark的大电网广域时空序列分析平台构建[J].电力建设,2016,37(11):48-54. YUAN Baochao, LIU Daowei, LIU Liping, et al. Platform building for wide-area spatiotemporal sequences analysis of large-scale power grid based on Spark[J]. Electric Power Construction, 2016, 37(11): 48-54.

[18] 李文栋. 基于Spark的大数据挖掘技术的研究与实现[D].济南:山东大学,2015. LI Wendong. The research and implementation of mining large data based on Spark[D]. Jinan: Shandong University,2015.

[19] 刘泽燊, 潘志松. 基于Spark的并行SVM算法研究[J]. 计算机科学, 2016, 43(5): 238-242. LIU Zeshen, PAN Zhisong. Research on parallel SVM algorithm based on Spark[J]. Computer Science, 2016, 43(5):238-242.

[20] 李坤, 刘鹏, 吕雅洁. 基于SPARK的LIBSVM参数优选并行化算法[J].南京大学学报(自然科学版), 2016,52(2):343-352. LI Kun, LIU Peng, LYU Yajie. The parallel algorithms for LIBSVM parameter optimization based on Spark[J]. Journal of Nanjing University (Nature Sciences), 2016, 52(2): 343-352.

[21] 王保义,王冬阳,张少敏. 基于Spark和IPPSO_LSSVM的短期分布式电力负荷预测算法[J]. 电力自动化设备,2016,36(1):117-122. WANG Baoyi, WANG Dongyang, ZHANG Shaomin. Distributed short-term load forecasting algorithm based on Spark and IPPSO-LSSVM[J].Electric Power Automation Equipment, 2016,36(1):117-122.

[22] 马天男, 牛东晓, 黄雅莉, 等．基于Spark平台和多变量L2-Bossting回归模型的分布式能源系统短期负荷预测 [J]. 电网技术, 2016, 40(6): 1642-1649. MA Tiannan, NIU Dongxiao, HUANG Yali, et al. Short-term load forecasting for distributed energy system based on Spark platform and multi-variable L2-Boosting regression model [J]. Power System Technology, 2016, 40(6): 1642-1649.

[23] PANG-NING T, MICHAEL S, VIPIN K. 数据挖掘导论[M]. 范明, 范宏建，译. 北京:人民邮电出版社, 2015: 150-168.

[24] 张素香,刘建明,赵丙镇,等.基于云计算的居民用电行为分析模型研究[J].电网技术,2013,37(6): 1542-1546． ZHANG Suxiang, LIU Jianming, ZHAO Bingzhen, et al. Cloud computing-based analysis on residential electricity consumption behavior[J]. Power System Technology, 2013, 37(6): 1542-1546.

[25] ZAHARIA M, CHOWDHURY M, TATHAGATA D, et al. Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing[C]// Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation. San Jose , USENIX Association Berkeley：2012: 2.

(编辑郭文瑞)

附录A

课题组搭建了基于Spark框架的电力大数据分析平台，其中负荷预测模块采用SP-RFR算法预测2016年9月1日某变电站的全部出线负荷。该变电站共有出线15条。该变电站全部出线负荷预测界面示意图如图A1所示。

Short-Term Power Load Forecasting Based on Spark Platform and Parallel Random Forest Regression Algorithm Model

LIU Qichen1, LEI Jingsheng2, HAO Jiawei2, HUANG Yangang1, LI Qiang1, LUO Haibo1

(1. Meishan Power Supply Company, State Grid Sichuan Electric Power Company, Meishan 620010, Sichuan Province, China; 2. School of Computer Science and Technology, Shanghai University of Electric Power, Shanghai 200090, China)

图A1 某变电站出线负荷预测界面
Fig.A1 Load forecasting of all lines in a substation

中图分类号：TM 715

文献标志码： A

文章编号： 1000-7229(2017)10-0084-09

DOI： 10.3969/j.issn.1000-7229.2017.10.012

收稿日期：2017-04-03

作者简介：

刘琪琛(1987)，男，本科，工程师，主要研究方向为智能电网、电力大数据和电力系统调度自动化技术；

雷景生(1966)，男，博士，教授，主要研究方向为智能电网、电力大数据和无线传感网络；

郝珈玮(1990)，男，硕士，通信作者，主要从事电力大数据和电力监测无线传感网络等方面的研究工作；

黄燕刚(1974)，男，本科，助理工程师，主要研究方向为电力大数据和电力系统调度自动化技术；

李强(1980)，男，本科，技师，主要研究方向为智能电网、电力大数据和电力系统调度自动化技术；

罗海波(1986)，男，本科，工程师，主要研究方向为智能电网、电力大数据和电力系统调度自动化技术。

基金项目：国家自然科学基金项目(61472236，61672337)；国网眉山供电公司雄鹰创新攻关团队项目(基于调度技术支持系统的大数据分析与应用)

Project supported by National Natural Science Foundation of China(61472236，61672337 )

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。