FlightAI
背景介绍
航班延误对航空公司、机场、旅客及相关行业一直有着巨大影响。随着民航产业和大数据技术的发展,行业对航班延误预测的准确性和提前期也有了越来越高的要求。携程机票研发大数据团队通过数据建模实现了提前30天预测航班延误,这一预测模型携程已申请专利,并在相关业务应用中取得了较好的成果。
预测意义
造成航班延误的原因众多,目前市场上关于航班延误预测产品大多输入因素较少且预测提前期短,很难为航司、机场以及旅客提供准确且有应对提前量的预测结果。为解决这一问题,携程全面考量航班延误的可能因素,排除不可控偶然因素后,采用梯度提升决策树模型(GBDT),完成了提前期30天、准确率84% 的航班延误预测,由航班延误衍生的诸多问题有了提前准备的可靠数据支持。
特
征
选
择
01
航班延误的原因归类
导致航班延误的原因众多,总结起来主要是以下几个方面:
天气:不利于飞行的恶劣天气导致延误,如:大雪、暴雨等
前序航班晚到:一架飞机执行连续的飞行任务,前序航班延误导致后续航班也延误
承运航问题:机组人员身体不适、飞机故障等导致无法按时起飞
空中流量控制:国内比较常见,如:空军演习占用航路
旅客问题:旅客滋事、旅客身体不适等原因
其中空中流量管制和旅客问题意外性较大,无法提前30天获取可靠数据源;单因素预测因数据源和其他因素干扰,预测效果难以保障,我们主要通过前三项原因构造模型特征综合预测。
02
天气原因
小时级别的天气数据提前一天可获得;天级别的天气粒度较粗,如暴雨或大风可能仅持续两小时,不会对航班造成持续影响;提前两天内的天气预报准确率可达90%,远期天气数据准确率渐低。
03
前序航班
前序航班对当前航班延误与否的影响可以从两个角度体现,一是前序航班的近期延误率,二是当前航班起飞时间和前序到达时间的间隔。
当前我们只能在航班起飞当天获取每个航班的最准确的前序航班,为提前30天进行预测,我们统计近期的航班排班表,估计每个航班的前序航班,这存在一定的偏差。
04
承运信息
航班计划起飞时段(早上起飞的航班前序航班延误影响小,延误率低)、航司、飞行季节、起飞到达机场、计划飞行时长、近期平均飞行时长、近期平均飞行时长与计划飞行时长之差(有时航司为提升到达准点率,会将计划飞行时长设定得稍长),这些相关的承运因素都会对航班延误产生影响。
航班近期的延误情况是预测的重要参考,我们从各个维度计算近期延误率。包括航班延误率、各航司在各机场起飞的延误率、各起降机场组合的延误率、各起飞机场在各个时段的延误率等。
数据说明:机组人员的身体状况与飞机的故障率难以获取优质的数据源构建特征。
预
测
效
果
01
预测方法
综合考虑各特征量的影响,我们采用梯度提升决策树模型(GBDT)进行航班延误预测。
选取过去15个月的数据进行模型训练,为避免过拟合,在每个月中随机选3天作为验证集,其余天数的航班作为训练集。
使用gridsearch调参树的深度,复杂度惩罚参数gamma,l1惩罚参数alpha,同时使用early stopping避免过拟合。
样本分布不平衡(到达延误30分钟以上的占比为16%),采用ROC AUC作为评估指标。
02
模型效果
模型整体预测效果较好,随着提前期的临近,模型预测准确性提升。
提前0-2天预测,验证集roc auc:0.77
阈值设为0.4,预测延误概率>0.4时判断为延误
整体准确率84%
正样本准确率50%,预测为延误的航班中有50%会延误,整体延误率为16%
正样本召回率28%,能够找到28%的延误航班
阈值设为0.24,预测延误概率>0.24时判断延误
整体准确率80%
正样本准确率40%,预测为延误的航班中有40%会延误,整体延误率为16%
正样本召回率50%,能够找到50%的延误航班
提前3-10天预测,验证集roc auc:0.72
提前11-30天预测,验证集roc auc:0.71
03
预测效果
提前30天的航班延误预测准确率可达80%以上。后续携程平台也会陆续上线上相关功能,如中转拼接的航班上,显示第一程航班的延误预测,为旅客出行规划提供有充分提前量和可靠性的依据。此外,通过GBDT模型可以得出相关因素的重要性,航司和机场可针对相应的时间、航向乃至航班等进行资源准备采取措施。
04
特征重要性
下面是最主要的航班延误相关因素的重要性,附录中我们展示了单因素在航班延误的影响。
·
附
录
·
以国内到达延误是否超过30分钟为例,到达延误超过30分钟的航班占比为:16%
总比例下单因素延误分布情况分别如下:
01
起飞时段的影响
凌晨(00:00-05:59)
延误率:20.0%
上午(06:00-11:59)
延误率:9.8%
下午(12:00-17:59)
延误率:18.2%
晚上(18:00-23:39)
延误率:7.1%
02
飞行季节的影响
春
延误率:16.1%
夏
延误率:23.7%
秋
延误率:11.8%
冬
延误率:13.0%
03
起飞机场的方位
04
起飞机场的规模
05
计划飞行时长
06
计划飞行时长与近期平均飞行时长的差
07
前序航班数
08
航班起飞时间与前序航班到达时间差
09
前序航班平均到达延误
10
航班近期延误率
11
各航司在各机场的延误率
12
各种天气情况下的延误率
上述特征的区间界值划分基本可保证各类别分布相对均匀,可以看到航班延误率在几个有代表性的特征上均存在明显差异。
联系客服