打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了!

正文
关于下方文字内容,作者:孙沁竹,复旦大学经济学院,通信邮箱:qzsun_fdu@163.com
Cengiz, Doruk, et al. Seeing Beyond the Trees: Using Machine Learning to Estimate the Impact of Minimum Wages on Labor Market Outcomes. No. w28399. National Bureau of Economic Research, 2021.

Abstract: We assess the effect of the minimum wage on labor market outcomes such as employment, unemployment, and labor force participation for most workers affected by the policy. We apply modern machine learning tools to construct demographically-based treatment groups capturing around 75% of all minimum wage workers—a major improvement over the literature which has focused on fairly narrow subgroups where the policy has a large bite (e.g., teens). By exploiting 172 prominent minimum wages between 1979 and 2019 we find that there is a very clear increase in average wages of workers in these groups following a minimum wage increase, while there is little evidence of employment loss. Furthermore, we find no indication that minimum wage has a negative effect on the unemployment rate, on the labor force participation, or on the labor market transitions. Furthermore, we detect no employment or participation responses even for sub-groups that are likely to have a high extensive margin labor supply elasticity—such as teens, older workers, or single mothers. Overall, these findings provide little evidence for changing search effort in response to a minimum wage increase.

摘要:本文估计了最低工资调整对最低工资受众群体的就业率、失业率、劳动力参工率等劳动力市场表现的效应。本文使用了时髦的机器学习手段,基于个体特征预测出易受最低工资制度影响的处理组(捕捉了约75%挣最低工资的工人)。相较于以往文献常常只关注特定最低工资受众群体(如青少年),本文是很大的改进。通过考察1979至2019年间发生的172次显著的最低工资标准调整政策,本文发现:当最低工资提高后,挣最低工资工人的平均工资显著提升,但是我们几乎看不到就业率下降。此外,最低工资提高也没有负面影响失业率、劳动力参工率、劳动力市场间的转移等。再者,即使对边际劳动力供给弹性较高的子群体(如青少年、年龄较大的工人、单亲母亲等)而言,最低工资调整几乎也没造成影响。总的而言,这些发现说明最低工资提高并没有改变劳动者搜寻工作机会的努力程度。
1.Introduction
长期以来,“最低工资制度如何影响低端劳动力市场”这一问题始终是经济学界的热点话题。但该课题的难点之一在于:如何有效识别最低工资的受众。很多研究聚焦于特定行业或特定人口结构特征群体(如青少年、低教育背景的工人等)。然而,这类研究关注的样本不能代表最低工资的全体受众,也就无法充分说明最低工资制度的影响效应。
相较以往文献,本文创新性地采用机器学习手段,根据个体特征预测出最低工资受众,其中预测效果最好的算法为梯度提升树。这一方法扩展了Card and Krueger (1995)使用线性概率模型预测最低工资受众的思路。预测出来之后,本文探究了最低工资调整对工人就业率、失业率、劳动力参工率的效应。结果表明:最低工资上涨提高了最低工资工人的工资水平,但对于别的变量、非最低工资工人而言均无显著效应。
本文采用的方法有以下优点:首先,本文探究的劳动力样本范围更广,不仅限于特定行业、人群,因而能够更充分地反映最低工资制度的总体效应。其次,本文也可以检验最低工资制度对非最低工资受众人群的效应,如果得到符合预期的不显著结果,那么一定程度上可以验证预测算法的可靠性。最后,对于以往文献基于现实样本分布无法探究的劳动力市场表现,本文也可以进行检验(如失业工人、劳动力参工率等囿于样本选择而无法观测到)。
2. Participation, Unemployment and the Welfare Impacts of the Minimum Wage
相较以往文献,本文的一大进步在于:除了检验最低工资调整政策对工资、就业率等传统的劳动力市场指标外,本研究还可以检验最低工资调整对失业、劳动力参工率、劳动力边际参工率(Participation Margin)等变量的效应,而后者可以用以验证搜寻模型(Search Model)文献对最低工资政策的机制解释,这正是大量理论文献所关心的。
除此之外,对劳动力市场参工率的政策影响分析也有助于理解最低工资调整的福利效应。这是由于劳动者进入退出劳动力市场的决策显示了他们的偏好,一方面可反映相对福利的增减,另一方面也可以探究他们对工资溢价、便利设施等的评价,反映最低工资对集约边际(Intensive Margin)的失业率与转移概率的影响。
3.Data
本文主要采用的数据来自Current Population Survey (CPS)。本文使用了时间跨度在1979-2019年间的Outgoing Rotation Group (CPS-ORG)与CPS-Basic数据集。前一个数据集不仅采集了受访者小时工资、每周收入、工作时长等信息,也涵盖了受访者的教育、性别、种族、婚姻、服兵役情况等齐全的人口特征信息。样本大小为全美60000户家庭。后一数据集则涵盖了文中所需的劳动力市场表现相关的各项指标。
4.Predicting to Be a Minimum Wage Worker
本文定义:小时工资不足法定最低工资1.25倍的工人为“最低工资工人”。本文首先根据人口特征,预测个体成为最低工资工人的概率。为此,作者把样本分为三类:训练集(training)、测试集(test)、其他(leave-out)。为了构建训练集和测试集,作者重点关注在后续12个季度中发生了最低工资调整、在过去的20个季度内未发生调整的时段。作者在这些时段的469174个样本里随机选取150000个样本进入训练集,其余进入测试集。
本文采用了决策树(Decision Tree)、随机森林(Random Forest)、提升算法(Boosting)、logistic回归、弹性网络(Elastic Net)、线性概率模型(Linear Probability Model, LPM)等多种算法进行预测,对比这些预测模型在测试样本中的表现,筛选出表现最好的算法。
4.1. Predicted Algorithms
4.1.1. Decision Trees
决策树是随机森林、梯度提升树(Gradient Tree Boosting)等算法的基础。决策树算法的思路为:依据不同特征尝试每一种分类方法,选取分类效果最好(即,使损失函数值降低最多)的特征进行分类;把分类后的子样本作为新的样本,在剩余的特征中重复上一步继续分类。分类完成后,就可以依据样本的特征进行预测。决策树算法的关键之一在于确定分类何时停止。如果分类过细,尽管能确保训练集的拟合程度很好,但对于测试集的拟合效果会很差,即出现过拟合问题。通常而言,我们需要交叉验证的方法确定决策树合适的复杂度。有时,为了降低预测误差,我们会冒着造成结果有偏的风险对决策树剪枝。以图1为例,该图是一棵经过剪枝的简单决策树,利用人口特征与教育背景来预测工人是否为最低工资工人。该决策树预测:年龄在19岁以下的工人为最低工资工人。

4.1.2. Random Forest
随机森林算法是以决策树为基学习器的集成学习方法。随机森林利用自助法随机抽取样本构建出不同的决策树,对预测结果做平均处理,在保证预测结果无偏性基础上,有效降低单个决策树面临的预测方差过大的问题。如果要进一步降低预测结果的方差,还可以限制决策树每一次分类时选择特征的范围。根据本文交叉验证的结果,最优的随机森林采用了2000棵决策树,每次分类只考察两个特征。
4.1.3. Boosting
相较随机森林,提升算法采用了另一种集成学习的思路。提升算法中的树串行生成。先前的树中做错的部分会在后续的树中得到更多关注,从而不断进行误差修正。举例而言,第一棵树将青少年分类为最低工资工人,非青少年则不是。那么第二棵树将重点关注第一棵树中分类错误的样本,即非青少年最低工资工人与青少年的非最低工资工人群体。如此重复完成所有树的构建,并进行加权结合。由本文交叉验证结果看,最优的提升树模型包括4000棵树,收缩率为0.005,树的深度为6,每个结点中最少的样本量为10。
4.1.4. Elastic Net
本文也使用了Zou and Hastie (2005)开发的弹性网络正则化算法。该算法的底层模型实质上就是Lasso方法和Ridge方法的结合,添加不同的正则化项对模型的复杂度进行惩罚,兼具了Lasso和Ridge的优点,可有效防止模型过拟合的问题,提高预测的精准性。不同于前述方法,弹性网络回归需要预设模型的函数形式。为降低模型误设的可能,有必要加入预测特征的高阶项等,在与惩罚模型复杂度的正则项之间达到平衡。
4.1.5. Card and Krueger’s Linear Probability Model
Card and Krueger (1995)方法的本质是在不断试错,手动挑选人口特征及其高次项进入解释变量,找出预测程度最好又避免过拟合的模型。这可以看成是手动完成了上述弹性网络回归做的工作,只不过这里的正则项是基于主观判断,而非严格按照算法生成。
4.2. Precision-Recall Curves and Predicted Probabilities
本文在此引入机器学习文献中的精确率(Precision)与召回率(Recall)的概念。以本研究为例,精确率指的是:在你预测出的最低工资工人中,其中有多少预测对了;召回率指的是:你成功预测出的最低工资工人数目占总样本中最低工资工人数目之比。显然,我们希望精确率和召回率均越高越好。一般而言,给定相同的召回率时,精确率越高说明模型表现越好。
图2(a)展示了各种算法下的精确率-召回率曲线图。可以看到,在相同召回率下,提升树的精确率总是最高,说明提升算法表现好于其他模型。图2(b)将提升算法的精确率标准化为1,可以明显看出其他算法与提升算法的差距。值得注意的是,随机森林与提升算法的预测效果几乎一致;Card and Krueger (1995)的预测效果与弹性网络效果差距甚小,与4.1.5节对LPM的分析保持了一致,且与最优模型的表现差距不大。

4.3. Who are the Minimum Wage Workers?
在探究最低工资对劳动力市场表现的影响之前,本文首先根据最优的预测模型,考察哪一类群体最有可能成为最低工资受众。为此,表1比较了不同预测概率群体中符合各类主要特征的劳动力占比。可以发现,年龄是预测最低工资工人的关键指标。在最可能成为最低工资工人的分位上,有70%的人是青少年;而自80%分位往下直至10%分位,青少年占比几乎均为0。这意味着,年龄指标不仅可以用来预测个体是否进入最易成为最低工资工人分位,也有助于预测个体是否进入别的概率分位。除年龄外,教育程度也对预测概率起到重要作用。未完成高中教育(Less Than High School, LTHS)的个体大多数集中在较高分位上;而在较低分位上几乎没有未完成高中教育的样本。图4展示对比了不同特征对预测结果的相对影响力,也可以佐证上述判断。

5. Impact of the Minimum Wage on Labor Market Outcomes
5.1. Identification Strategy
本文使用事件分析法,考察了美国在1979至2019年间的州层面最低工资调整政策,基准回归如下:

在基准回归中,作者主要考察最低工资调整政策对最低工资受众群体的效应。为此,本文首先定义:高预测概率群体为预测概率位于最高10%分位的人群;为捕捉更多最低工资工人样本,本文也定义了高召回率群体,即保证至少75%的最低工资工人都被预测出来的概率分位以上的样本。作为对比,本文定义了低预测概率群体。后文分别汇报了这三种群体的估计结果。
5.2. Main Results
表2展示了基准回归结果。可以看到,最低工资政策对于高预测概率、高召回率群体的实际工资变动有显著正向影响,但其他劳动力市场表现几乎不受影响。而对于低预测概率群体而言,各项劳动力市场表现指标均不受影响,符合直觉,这增强了对本研究算法有效性的信心。而对于不同预测模型,结论均保持了一致。
基于概率预测方法的关键优势之一在于:我们可以探究在劳动力市场上观测不到的变量,如最低工资调整政策对于失业率、参工率等的影响。我们看到,对于高预测概率、高召回率群体而言,最低工资调整降低了失业率、提振了参工率,但估计效应不显著。这也意味着,工人的搜寻努力程度没有随着法定最低工资提高而下降。而从福利角度看,参工率不降反升说明,对处于进入劳动力市场边际上的个体而言,他们的福利并没有严重受损。

5.3. Non-linearity In the Extent of Exposure
高预测概率与高召回率群体的覆盖范围不同,但在表2中,不同群体的估计结果几乎一致,这说明最低工资调整政策的影响可能不是非线性的。图5进行了验证。在a栏中,工资效应随着预测概率的降低单调下降。由于预测概率的下降意味着样本覆盖了更多非最低工资受众,因此这一点符合直觉。b、c、d栏反映了其他劳动力市场表现指标几乎不受预测概率影响,不存在非线性效应。总的而言,图5并没有发现政策的非线性影响。

5.4. Timing of the Impact
图6、图7展示了最低工资对高预测概率与高召回率群体劳动力市场表现的动态影响。得到结论:最低工资调整政策显著正向影响最低工资工人实际的工资,但几乎不影响这类群体的其他劳动力市场指标,与上文结论保持了一致。此外,随着时间的推移,最低工资调整对工资的正向影响有所削减,意味着最低工资调整政策对工资的短期影响更大。在接下来的一小节中,作者采用平衡面板数据进行了重新估计,得到了类似结论,不再赘述。

5.5. Robustness
在基准回归的基础上,作者通过控制不同程度的时间趋势项、更换最低工资调整政策定义、不加权处理、样本限制等方式进行检验,均得到一致结果,保证了结论的稳健性。表格不再汇报。
5.6. Effects on Labor Market Transitions
劳动力市场转移(labor market transitions)指的是劳动力在就业(Employment)-失业(Unemployment)-离开劳动力市场(Inactivity)三种状态间的身份转换。图4发现,无论对于高预测概率、高召回率或低预测概率的群体,最低工资调整政策均无显著影响。这意味着,最低工资上涨并没有提升失业期长度,也没有使劳动力市场变得僵化。

5.7. Effects by Demographic Subgroups
接下来,作者在高召回率样本内,根据不同人口特征分组回归,得到结论仍与上文保持一致:除60-70岁老年劳动者的工资效应不显著外,其余群体的工资效应均显著为正;且其他劳动力市场表现指标均不显著。表格不再汇报。
5.8. Additional Labor Market Outcomes
本文还探究了最低工资调整对自营、兼职、加班等的影响,结果发现,最低工资上涨显著降低了兼职人群在高预测概率的劳动力中占比,但对于其余无显著影响。

6.Conclusion
本文探究了最低工资调整政策对诸多劳动力市场指标的影响。为了更精准的找出挣最低工资工人的样本,本文创新性地采用机器学习的方法,预测出劳动力成为最低工资工人的概率,这比以往文献根据行业、人口特征简单分类选取子样本的做法更加高效。从结果看,本文发现:最低工资上调政策显著提高美国最低工资工人的工资水平,但对于其他劳动力市场表现的变量均无显著影响(尽管作者在文中从符号正负角度也对这些在经济和统计意义上都不显著的结果进行了论述)。这意味着,最低工资的提高并未降低失业者找新工作的努力程度、从而对劳动力市场起到负向影响。而对于不同特征的人群而言,他们对最低工资调整的反应并未显示出异质性。
笔者评述:
阅毕本文,笔者斗胆在此阐述自己一些不成熟的想法,抛砖引玉。在内容方面,首先,本文在阐述机器学习算法思想时是否应更多着墨于数学表达式,而非纯文字表述。个人浅见,在文中对算法进行数学表述更有助于读者掌握算法的核心思想,也有助于读者了解机器学习算法与传统计量回归方法的异同。其次,从行文逻辑而言,本文前半部分使用不同算法进行预测,对照图表描述预测结果;后半部分开展事件分析,发现“最低工资制度并未影响除工资外的其他劳动力市场表现”这一现象。这一估计结果本身固然值得重视,但是如果进行相应理论拓展、而非仅停留在现象说明层面,是否更能体现本文价值?在引言中,作者详尽综述了劳动力市场搜寻努力(Search Effort)这支文献以及本文对此的重要贡献,却在正文中并未深究,着墨略少,或许有必要进一步丰富文章内容。在细节处理方面,本文出现了如图表编排与文字说明无法对应、正文中引用有误以致出现“??”的显示效果等问题,这都是值得改进的地方。当然,我们不应忽略本文的优点。本文对劳动力市场分析之全面,在数据与算法层面都做了充足的工作,清晰地向我们展示了机器学习算法在劳动经济学中的应用,这有助于我们对机器学习算法在经济学中的价值进行深思。个人愚见如上,仅供大家参考交流。
参考文献:

Card, David, and Alan B. Krueger. 'Time-series minimum-wage studies: a meta-analysis.' The American Economic Review 85.2 (1995): 238-243.

Zou, Hui, and Trevor Hastie. 'Regularization and variable selection via the elastic net.' Journal of the royal statistical society: series B (statistical methodology) 67.2 (2005): 301-320.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
毕业巨献! 在经济衰退时期毕业对学生职业生涯的长期和短期影响!
人工智能、自动化和工作的未来:需要解决的十个问题
人工智能、自动化及未来的工作:需要解决的十件事
人工智能会把中产阶层群体“掏空”吗?
决定穷富的秘密:老板和员工的财富分配比例,是怎么决定的?
深入浅出机器学习的基本原理与基础概念
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服