打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【华泰金工林晓明团队】人工智能57:文本FADT选股

林晓明    S0570516010001
             SFC No.BPY421      研究员

李子钰    S0570519110003    

             SFC No.BRV743      研究员

何   康    S0570520080004    

             SFC No.BRB318      研究员

陈   伟    S0570121070169    联系人

报告发布时间:2022年7月1日

摘要

对分析师盈利预测调整研报文本进行挖掘,构建FADT选股组合

本文对分析师盈利预测及评级调整中的文本数据进行挖掘,构建的forecast_adj_txt因子表现较为优秀:从因子视角来看,该因子分十层回测严格单调,多头端收益显著,且与传统的forecast_adj因子相关性低;从主动选股的视角来看,以该因子多头第一层为基础池进行进一步股票精选,构建出的主动量化FADT选股组合在回测期20090123~20220630内年化收益达到44.13%,夏普比率1.48,年化双边换手16倍。参数稳健性测试结果表明,模型受各组参数影响较小,文本因子过拟合程度较低。

盈利预测调整是“催化剂”事件的间接表达,使用机器学习识别相关文本

本文的初衷是找出对股价有重要影响的“催化剂”事件,通过分析师盈利预测及评级调整等间接的方式可以对“催化剂”事件进行分析,因此我们的目标转换为对盈利预测调整的文本进行识别,找出分析师情感偏正向的调整事件。在构建模型时,输入特征为分析师研报文本转换成的词频矩阵,预测标签为研报发布前后两天对应个股的超额收益。在样本外根据模型预测得分构建forecast_adj_txt因子。测试结果表明该因子多头收益显著,分层效果严格单调,同时与传统方法构建的forecast_adj因子相关性低。

对各参数进行稳健性测试,模型大概率不存在过度调参导致的过拟合问题

对模型中的各组参数进行稳健性测试,主要讨论了以下参数:训练使用的非线性模型、研报标题和摘要采用的词数、样本内窗口长度、样本标签的时间区间、标签分类数量等。测试结果表明,文本因子对各组参数均不敏感,不同参数下forecast_adj_txt因子均具有较为稳定的分层效果,多头端绝对年化收益在21%~23%之间,模型大概率不存在人为过度调参导致的过拟合问题,参数敏感性较低,这可能提示我们分析师盈利预测调整研报文本的情感识别是信噪比较高且规律不易随时间改变的场景。

基础池的构建方式多样,在基础池内进行股票精选构建FADT选股组合

基础池的构建方式较为多样,可以直接以forecast_adj_txt多头第一层为基础池;也可以将forecast_adj_txt多头第一层与SUE_txt多头第一层或forecast_adj多头第一层进行合并,使得基础池收益没有明显削弱的同时股票数量有所扩充。进一步考虑基本面的ROE、净利润、营业收入、经营活动现金流、市值以及技术面的反转、换手、尾盘成交占比等因子,我们对基础池进行精选,构建每期25只股票等权持有的FADT选股组合。该组合在回测期20090123~20220630内年化收益44.13%,夏普比率1.48,年化双边换手16倍,相对中证500年化超额约30%。

关于策略容量与模型层面的更多思考

最后我们对策略容量以及模型改进进行更多思考。策略容量层面,我们提出三点可能提升策略容量的思路:1)降低调仓频率,增加调仓时间,数据实证表明月频调仓降低为双月频调仓,FADT组合仍然表现优秀;2)增加FADT组合的持股数量;3)修改回测框架,提高“资金使用效率”,严格预设固定频率调仓的方案未必是最优解。模型层面,词语组合的逻辑解释尚存瑕疵,或许可以尝试NLP中更高阶的模型来使得文本的识别逻辑更为自洽。

风险提示:通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。

研究导读

Mark Minervini在《股票魔法师》中提出过一个观点:明星股票的背后大多数都存在着某种“催化剂”事件,这些催化剂事件可能是连续靓眼的业绩、某款热销产品的出现,可能是新合同的签订,甚至可能是新CEO的任职。这些“催化剂”事件使得那些默默无闻、不为人知的股票开始得到机构投资者的关注,从而有机会向明星股票迈进。本文受上述观点启发,希望能找到对股价正向影响较大的“催化剂”,那么从量化的视角来看,有没有某种方法能对类似的“催化剂”事件进行监测?分析师盈利预测及评级调整或是一条可能的路径。

本文是华泰金工人工智能系列文本挖掘主题的第五篇报告,我们继续将视野聚焦于分析师研报文本,探究分析师盈利预测及评级调整这一场景下研报文本中的情感识别。本文的研究动机如上所述,我们希望找到对股价具有正向影响的“催化剂”事件,并将其数量化。由于“催化剂”没有某种特定的模式,不同的行业“催化剂”事件可能千差万别,如果从遍历的思路出发很难对所有事件进行系统监测。

现在我们尝试从另一个角度出发进行研究。由于行业研究员对个股进行覆盖,对个股的跟踪及时性更强,当个股出现了影响较大的“催化剂”事件以后,分析师大多会及时撰写点评报告,并可能对盈利预测及评级进行调整。这为我们提供了监测“催化剂”事件的间接思路,因此我们可以将目标转换为对分析师盈利预测及评级调整的研报文本进行情感识别,进而找出正向催化较强的个股。

参考前期报告《人工智能51:文本PEAD选股策略》(20220107)中对分析师业绩点评研报文本的研究思路,我们对盈利预测及评级调整的研报文本使用类似的方法论进行挖掘。令研报文本用词的词频矩阵作为输入特征,分析师研报发布前后两天的个股超额收益作为预测标签,使用机器学习模型进行交叉验证训练,在样本外根据模型预测得分构建forecast_adj_txt因子,该因子十层严格单调,多头端收益显著,且与传统的forecast_adj因子相关性较低。

在正文中我们花了比较多的篇幅来讨论整个模型构建过程中的参数敏感性问题,核心结论是:文本因子的构建基本不存在人为过度调参导致的过拟合问题,模型参数稳健性较高,分析师盈利预测调整研报文本的情感识别是信噪比较低且规律不易随时间改变的场景。在测试过程中,我们主要讨论了以下参数:训练使用的非线性模型、研报标题和摘要采用的词数、样本内窗口长度、样本标签的时间区间、标签分类数量等。

我们从主动量化选股的角度出发对forecast_adj_txt多头第一层的股票池进行精选。首先考虑股票的ROE、净利润、营业收入、经营活动现金流等考察一只股票首先会关注的基本面指标;其次我们考虑股票的反转、换手、尾盘成交占比等技术因素;最后我们还将市值风格纳入考虑。上述要素以因子的形式呈现,每月末将上述因子进行方向调整后等权合成,根据合成得分选择排名靠前的25只股票等权持有,组合回测期20090123-20220630内年化收益44.13%,夏普比率1.48,年化双边换手约16倍。我们将该组合命名为FADT组合(Forecast-Adjust-Text Portfolio)。

最后我们对策略容量以及模型改进进行更多思考。策略容量层面,我们提出三点可能提升策略容量的思路:1)降低调仓频率,增加调仓时间,数据实证表明月频调仓降低为双月频调仓,FADT组合仍然表现优秀;2)增加FADT组合的持股数量;3)修改回测框架,提高“资金使用效率”,严格预设固定频率调仓的方案未必是最优解。模型层面,词语组合的逻辑解释尚存瑕疵,或许可以尝试NLP中更高阶的模型来使得文本的识别逻辑更为自洽。

分析师研报文本挖掘框架

研究回顾

在前期报告《人工智能51:文本PEAD选股策略》(20220107)中,我们提出使用卖方分析师研报文本对PEAD效应进行刻画,挖掘业绩被分析师看好的股票。在该模型中,我们使用业绩点评研报的标题和摘要文本作为特征,使用个股发布业绩前后的超额收益作为标签,判断分析师对上市公司业绩的情感倾向;构建出的SUE.txt因子分层效果较为优秀,且多头端收益明显。模型构建示意图如下所示。

现在我们面临如下几个问题,这些问题将会是本文讨论的重点:

1.前文构建的模型逻辑上或存瑕疵,为什么用个股公告发布的T-1~T+1日作为标签?为什么不是研报发布日T-1~T+1作为标签?标签时间区间的长短有没有区别?

2.前文中我们构建的SUE.txt因子仅考虑业绩预告这一种公告类型,受限于发布业绩预告的股票数量太少,因子覆盖度较低,一方面难以融入多因子选股体系,另一方面主动增强可操作的空间有限;虽然我们可以很自然地将SUE.txt的计算方法推广到三种公告类型上(推广的因子回测结果如下图表所示),但模型逻辑或多或少仍受质疑。

3.分析师研报的应用有没有某种更自然的方法?能否不止局限于PEAD这一种场景?

其中第三个问题或许包含前两个问题的答案,我们顺着上述问题进行思考,在本文中进行另一种探索:即仍以分析师研报为数据源,但是脱离PEAD的场景,我们考虑分析师盈利预测及评级调整这两种场景下的文本挖掘。

分析师盈利预测及评级调整

本小节我们对研究动机进行一些补充,讨论分析师盈利预测及评级调整的两种场景。我们统计了历史上分析师盈利预测及评级调整每月的平均数量,如下图表所示。剔除首次覆盖的样本以后,可以看到每年的4/8/10月份整体分析师盈利预测及评级调整数量有明显上升,主要是因为对应月份为财报期,上市公司发布业绩公告比较密集,分析师会根据最新公告调整盈利预期及评级。其余月份的盈利预测调整及评级数量保持在较为均衡的水平,这些盈利预测大部分与财报业绩发布无关。

我们为什么要从业绩点评的文本挖掘迁移到分析师盈利预测调整&评级的文本挖掘上来?本质上我们是想找到“点燃”股价的催化剂事件。这种事件可能是上市公司交出了一份业绩亮眼的财报,净利润大超市场预期,进而得到机构投资者的关注(PEAD效应也即在这种场景下发生);也可能是其他催化剂事件,例如公司主营业务发生改变、与政府签订补贴协议、高频披露的销售额数据亮眼等。挖掘催化剂事件难以用量化的手段遍历,但是行业分析师对各类事件却有紧密的跟踪,因此我们采用间接的手段,从分析师盈利预测调整及评级变化来窥探这些催化剂事件。下面我们展示一些盈利预测调整的例子。

业绩公告披露场景

当上市公司发布业绩超过市场预期时,分析师基于最新公布的业绩,容易上调对该公司的未来盈利预测。例如下图我们截取了2022Q1财报季金域医学这只股票发布业绩后的某条分析师点评,由于该公司1Q22披露业绩超过分析师预期,因此分析师在摘要给出了盈利预测的调整。

非业绩公告披露场景

在非业绩期,分析师也可能因为其他催化事件上调盈利预期,例如公司主营业务发生改变、与政府签订补贴协议、高频披露的销售额数据亮眼等;这些事件同样有可能吸引机构投资者的关注。下面我们展示了几组非业绩公布场景下的分析师盈利预测调整的例子。

上述两个例子展示了非业绩公布场景下的分析师盈利预测调整的例子。第一个例子是上市公司公告披露订单数量创新高,这类数据是定期财报之外的对业绩具有较大影响的信息,分析师在该公告披露后上调了盈利预测。第二个例子是安克创新披露股权激励草案,虽然股权激励可能不会直接对公司业绩造成影响,但是分析师认为股权激励有利于稳定人才队伍、激发骨干活力,也会间接对该公司经营带来正向影响,因此上调了盈利预测。除此以外,类似于白酒批发价上行、新药通过审批等非业绩公告的“催化剂”事件也均会造成分析师对盈利预测进行调整。

盈利预测及评级调整文本建模

本小节我们展示文本建模的方法。由于我们研究的分析师盈利预测调整及评级通常是跟随着点评报告一起发出的,因此相比于SUE.txt的构建,我们可以简化分析师盈利预测调整及评级文本因子的构建流程,使得整个流程更为自然。后文我们将基于盈利预测调整样本构建出的因子称为forecast_adj_txt因子,将基于评级调整样本构建出的因子称为forecast_score_adj_txt因子。

分词处理

我们将单条分析师盈利预测及评级调整的研报视为一条样本,同样的我们第一个步骤是对研报文本进行分词处理;在分词的过程中我们仅保留普通名词、专有名词、动词、副动词、形容词、副词对应词性的词语。

转化为词频矩阵

第二步是计算词频矩阵。将每一轮训练的样本内全部样本进行分词处理以后,我们会统计研报标题和摘要出现频率最高的200和1000个词语([200,1000]这组参数是人为设定的参数,后文会对此进行参数讨论),将这1200个词语作为本轮训练的词域。

词域确定好以后,我们将每条样本映射到词域中词语的出现频率上,生成词频向量,计算出词频向量以后,我们使用以下公式计算log词频,作为我们训练模型的输入特征。

其中X0为原词频向量,X1为处理后的训练特征。预测目标取为研报发布前后两天(关于前后两天这个参数,我们在后文也会进行详细讨论)个股相对于中证500的超额收益(不进行中性化处理),我们按以下方式将其分为三类后作为样本的训练标签Y:

上涨(y = 1):较大的正向超额收益,即样本的超额收益位于整体的前30%;

震荡(y = 0):较低的正向或负向超额收益,即样本的超额收益位于整体的前30%-70%;

下跌(y = -1):较大的负向超额收益,即样本的超额收益位于整体的后30%。

更为详细的分词处理流程,读者可以参考华泰金工前期研究《人工智能51:文本PEAD选股策略》(20220107),处理方法论类似。

样本内交叉验证,样本外生成因子值

每次滚动样本内为过去12个月,样本外为未来12个月。例如对于某轮样本外的首月T月来说,我们将T-12至T-1月的数据作为样本内,T月至T+11月的数据作为样本外;下一迭代期则以T-1月至T+11月的数据作为样本内,T+12至T+23月的数据作为样本外;以此类推。

模型在样本内训练完成后,我们在样本外进行测试。forecast_adj_txt因子生成的频率为每个月末,在月末截面期追溯过去一个季度的全市场分析师盈利预测调整样本,使用训练好的模型进行预测,得到每条样本在每个类别上的概率估计值pc (x),以此我们计算其log-odds值Lc (x):

其中c∈{h,m,l}为三个类别标签,分别表示上涨、震荡、下跌。我们计算其上涨和下跌类别的log-odds值之差作为文本因子值。

数据实证及参数讨论

在前期报告《人工智能51:文本PEAD选股策略》(20220107)中,我们使用前文所述类似的方法论对上市公司业绩点评相关的分析师研报文本进行过挖掘。彼时,读者对于模型中的参数提出了一些讨论,因子稳健性与否颇受质疑;同时受困于业绩预告的数量过少,实际上增强组合可进行操作的空间有限。接下来的数据实证,我们将围绕上述两个问题展开讨论:

1)模型参数是否敏感?是否有人为过度调参导致的过拟合嫌疑?因子稳健性好不好?

2)如何提高因子覆盖度?如何在因子覆盖度和多头收益率之间进行平衡?

后文提到的所有组合回测及分层回测均为费后表现,手续费设置为双边千三,每月第一个交易日按当日均价调仓,对停牌股票进行权重调整,后文不再赘述。对盈利预测调整的样本,我们会剔除首盖样本及盈利预测不变的样本;评级仅剔除首盖样本。

基础模型实证

作为后续参数讨论的基础,我们首先给定基准模型。基准模型的各项参数选择如下表所示,对其中的一些参数进行解释:样本内窗口长度指的是每轮训练选用多长的时间区间作为样本内,取值为12个月表示我们选用过去一年的全部盈利预测调整样本作为样本内;样本标签的时间区间表示每条样本中Y的计算区间,T-1~T+1即表示研报发布前1天至后1天。

样本外计算因子值的回溯区间表示在样本外每个月月末构建因子值时,选用过去多长时间区间内的样本。例如取值为3个月时,月末我们会追溯过去3个月的全部分析师盈利预测调整的样本,分别计算出文本得分,最后求均值得到个股的forecast_adj_txt因子。

从结果来看,forecast_adj_txt因子分层效果十层严格单调,多头第一层自2009年以来全回测期的绝对收益为年化23.51%,相对于中证500的超额收益为年化14.66%;因子覆盖度平均每期为1107只,且近年来覆盖度呈现上升趋势。从多头端分年度业绩来看,forecast_adj_txt因子各年度相对于中证500超额收益几乎均为正(除2009年外),分年度表现较为稳健。(注:20151130-20160930期间由于数底库数据缺失,导致因子覆盖度极端低,故统一延续20151030的因子值)

参数讨论

接下来,我们对模型中的各个参数进行稳健性讨论,过拟合带来的超乐观预期是我们不愿看到的结果,现在我们对“是否有人为过度调参导致的过拟合嫌疑”这个问题给出答案。

样本标签的时间区间选择

在前期报告中,样本标签的时间选择是备受质疑的点,为什么是T-1~T+1天?其他参数区间是否可行?T-1~T+1天从逻辑上来说的优势在何处?本小节我们从数据实证和逻辑解释两个角度出发,尝试再次讨论这个问题。

数据实证角度,首先我们对多组时间区间进行测试:讨论T-1~T+7、T-1~T+20、T-7~T+1、T-20~T+1这四组参数。其中T-1~T+7及T-1~T+20的假设为,对分析师盈利预测调整的情感判别更多信息来源于预测调整之后的股价变化;而T-7~T+1与T-20~T+1则相反。

从整体结果来看,无论使用哪组标签,构建出的forecast_adj_txt因子都具有良好的分层效果,说明对于标签而言模型是稳健的,标签的变化不会对结果造成关键影响。但我们也发现,当标签的时间区间取太长时,多头端的收益会有所削弱,例如T-1~T+20多头收益弱于T-1~T+7,且T-1~T+7多头收益弱于T-1~T+1。

我们认为上述结果合乎逻辑,在这里,对于标签的理解可能脱离时序关系来理解比较合适。实际上我们的目的并不是用分析师研报直接去预测股票未来一段时间的收益,如果基于这个逻辑那么严格来说应该是T-1~T+20表现更优。笔者认为,这里我们只是用T-1~T+1的股票收益来锚定分析师研报的情感表达,由于一般来说分析师点评时效性非常强,因此T-1~T+1仅包含点评事件本身,噪音较低;如果用T-1~T+20那么期间会包含更多非分析师点评事件的其他股票相关信息,噪音较高。故我们认为,使用T-1~T+1为标签完全合理。

训练时使用的非线性模型对比

基准模型中我们使用的是XGBoost模型,这里我们继续对使用的非线性模型进行讨论,备选的非线性模型有:Elastic Net、随机森林、GBDT、LightGBM及Stacking。关于这些模型的原理这里我们不再赘述,感兴趣的读者可以参考华泰金工人工智能系列往期报告。在样本内训练时我们都是采用的交叉验证训练,各模型选择的参数如下表所示。

从各模型的对比结果来看,我们可以总结出以下结论:

1.模型层面,在分析师盈利预测调整的情感识别场景下,不同的模型并未表现出非常明显的差距。以多头端第1层的绝对收益为例,XGBoost年化收益24.33%,是最好的模型;GBDT年化收益21.15%,是最差的模型;其余模型年化收益分布于21%~23%之间,并未表现出明显差别,极差小于4%;

2.集成模型Stacking没有进一步提升模型表现。我们对ElasticNet和XGBoost模型进行Stacking集成,发现并未明显提升模型表现,反而不如单一XGBoost的回测结果,相反还造成空头端单调性的衰减,可能是由于用于集成的两组底层模型相关性太高所导致,因此实际操作中我们还是推荐XGBoost模型。

我们不妨更深入的思考模型对比带给我们的启示。可以看到虽然不同的模型有差别,但不可否认这种差别很小,换言之模型本身性能的好坏对回测结果的影响没有想象中的大(提升没有想象中的大)。这种现象可能是由于,分析师盈利预测调整的情感识别是噪音较小的应用场景,在较长的时间区间内这种规律不容易改变(实际上接下来对于样本内窗口长度的讨论也支持这一结论):分析师用乐观的语调对股票盈利预测进行调整,往往意味着分析师对个股的看好。噪音较低的规律使用简单的模型就已经有较好的识别效果,而这种主观上的强逻辑也支撑forecast_adj_txt因子不易失效。

样本内窗口长度的影响

在多因子非线性合成时,我们会考虑样本内窗口期长度的影响。例如使用XGBoost对多因子进行合成,取过去6年/3年/1年作为样本内进行训练会对合成因子的超额收益造成显著影响。窗口期取长表示我们希望模型学习更长时间内的规律,窗口期取短则表示我们希望模型能学习更短时间内的规律,前提是长短时间内的规律有明显不同,容易时变。那么在本报告的场景下规律是否容易发生时变?下面我们探究样本内窗口期长度的影响。

在对比实验时,我们仅改变每轮训练的样本内长度,其他参数保持与基准模型一致。我们测试了T=24/12/6个月时的模型表现,对比结果如下图所示。

从上述结果来看,不同的样本内窗口长度对于最终结果并没有非常明显的影响,当样本窗口长度较短时,多头端的收益会略微偏高,且单调性相对更好(体现在第5层分层以后),这可能是因为行业分析师的用语风格可能随着市场风格的变化或有改变,但整体变化不大。可以认为forecast_adj_txt因子对窗口长度这一参数不敏感。

词数的影响

我们的文本数据来源于分析师盈利预测调整报告的标题和摘要,在构建词频矩阵时有一个很重要的参数即为标题和摘要分别使用的词语数量。从逻辑上来说,标题文本较短,所包含的词域较窄;摘要文本较长,所包含的词域较宽,因此标题和摘要选择的词语数量应有区别。这里我们讨论三组参数的回测结果,分别为[100, 500]、[200, 1000]、[300, 1500]。

从对比结果来看,词数也不是敏感参数,词数增多并未对因子效果产生很明显的影响。可以合理推测,当所用词数到达一定数量以后,模型就可以较好地识别分析师在盈利预测调整时的用词规律,相反词数取得适中还能节省模型训练的时间开销,因此我们建议词数参数取[200, 1000]或[100, 500]即可。

分类数的影响

前文我们默认分类数为3类,这里我们对更多类别参数进行讨论。每组分类方式下,我们按如下方式生成forecast_adj_txt因子:

其中h表示分位数最高的类别,l表示分位数最低的类别,例如在标签设置为5类的条件下,h表示收益率前20%的类别,l表示收益率后20%的类别;对比结果如下图所示。

从结果来看,标签分类数也不是敏感参数,整体上分类数为5类时多头端的收益有所削弱,大约削减3%的年化收益,单调性上没有明显区别。

因子覆盖度与多头收益的平衡

我们继续考虑一个和模型训练本身没有关系的参数,即我们在样本外每个月末构建因子时的回溯时间。默认取值为3个月,即我们在每月末,会追溯过去三个月的所有分析师盈利预测调整的研报,计算因子值,然后等权加总到股票上作为该只股票最终的forecast_adj_txt因子。如果回溯区间长度较长,因子覆盖度会有所提升,但盈利预测调整研报的时效性减弱;如果回溯区间长度较短,则因子覆盖度降低,但盈利预测调整研报的时效性增强。

从上述结果来看,回溯时间区间越长,因子覆盖度越高,且覆盖度较为均衡,但对应的多头端收益明显削弱;回溯时间越短,因子覆盖度越低,且覆盖度较不均衡,会出现局部低点与局部高点。覆盖度的变化主要是由于财报期导致的,分析师更容易在财报季发布盈利预测调整,因此财报季因子覆盖度会升高,非财报季因子覆盖度会降低。综合来看,我们推荐回溯3个月或4个月,使多头端收益与股票池数量达到平衡。

分析师评级调整测试结果

按照与分析师盈利预测调整类似的方法论,我们对分析师评级调整的研报文本进行文本挖掘。我们构建的forecast_score_adj_txt因子的回测结果如下述图表所示。从结果来看,基于评级调整样本构建的因子效果不如盈利预测调整样本,一个可能的原因在于数据预处理时,我们对于盈利预测调整的样本,剔除了盈利预测不变的样本;而对于评级调整的样本没有进行类似操作。(因为评级分类少,如果将评级调整不变的样本删除,将会损失很多样本)。

因子扩展讨论及组合增强

因子扩展讨论

本小节我们对forecast_adj_txt因子进行扩展讨论。传统对分析师盈利预测调整进行分析时,我们更多会使用分析师盈利预测调整的幅度来构建因子。例如以下计算的分析师盈利预测调整因子为常见的构建方法:

上述表达式中,forecast_adjs,T表示某只股票S在截面期T的因子值,T一般取为月末截面期。forecast_news,i,t为分析师i对于股票S在时间t给出的盈利预测,forecast_lasts,i,t为分析师i对于股票S上一次给出的盈利预测,我们统计过去一个月所有分析师盈利预测调整幅度的中位数作为因子值。该因子的分层回测结果如下图所示:

forecast_adj_txt和forecast_adj因子数据同源,但是因子相关性并不高,平均值大约在0.1左右。令forecast_adj_txt对forecast_adj因子进行正交处理得到残差因子forecast_adj_txt_res_1,我们发现残差因子仍然具有非常明显的分层效果及多头收益。

分析forecast_adj_txt与sue_txt因子的相关性,整体平均值大约在0.5左右。令forecast_adj_txt因子对sue_txt因子进行正交处理得到残差因子forecast_adj_txt_res_2,发现虽然残差因子分层效果有明显削弱,但多头端收益仍然较为显著,第一层年化收益为18.48%。

考虑forecast_adj_txt与sue_txt因子的区别。首先相关性偏高可能是由于分析师盈利预测调整有相当一部分场景是在上市公司发布业绩的场景,这一部分的样本重叠导致其实forecast_adj_txt因子的样本域是包含sue_txt的样本域的。但又不仅如此,如我们前文所分析的,分析师盈利预测调整也可能在非业绩公告场景下产生,这一部分的样本或许是残差因子forecast_adj_txt_res_2的收益由来。

基础池的构建

现在我们再来考虑基础股票池的构建。最直接的方法是以forecast_adj_txt因子的分十层股票池第一层为基础股票池进行股票精选。当然考虑到forecast_adj_txt因子与其余两组因子的相关性并不算特别高,我们也可以考虑利用因子组合来构建基础股票池。这里我们给出两组示例,在不削减基础池收益的情况下扩充基础池股票数量。

从结果来看,两组基础股票池的年化收益均在22%~23%左右,每一期股票数量平均大约在200只左右,相对于中证500年化超额收益大约在13%左右,两组基础股票池供读者参考。

基础池示例1:forecast_adj_txt与sue_txt叠加

第一组尝试我们每月末以forecast_adj_txt的分十层的多头第一层叠加sue_txt分十层的多头第一层为基础股票池。基础股票池的收益特征及股票数量如下图表所示。

基础池示例2:forecast_adj_txt与forecast_adj叠加

第二组尝试我们每月末以forecast_adj_txt分十层的多头第一层叠加forecast_adj分十层的多头第一层为基础股票池。基础股票池的收益特征及股票数量如下图表所示。

基础池增强:FADT选股组合

本文的最后,我们基于基础股票池继续构建增强组合,这里我们直接以forecast_adj_txt的第一层为基础股票池。从基本面出发,我们认为ROE、营业收入、净利润、经营性现金流等维度是考察一只股票首先会关注的环节,应予以考虑;从技术面出发,我们发现反转、换手、尾盘成交占比等因子对基础池具有较好的区分度,也予以考虑;此外我们还考虑股票的市值风格。上述考虑的要素我们都以因子的形式体现,各要素具体选择的因子如下表所示。

每月末,我们使用上述因子进行等权合成,合成之前需要对因子进行行业市值中性化处理,同时对因子方向进行调整。根据合成得分,我们选择靠前的25只股票等权重持有,每月第一个交易日调仓,剔除停牌股票及调仓日涨跌停股票(不剔除ST股票),交易手续费取双边千分之三。回测结果如上图所示,该组合回测区间内年化收益44.13%,夏普比率1.48,平均年化双边换手约16倍。分年度业绩情况如下表所示。我们将该组合称为FADT选股组合。

组合分析

最后我们对组合的持仓分布、风格进行分析。从持仓分布来看,FADT选股组合在各板块分布较为均衡,整体科技、消费板块上的股票配置数量偏多,周期、金融等板块股票配置偏少。宽基指数上,整体覆盖度偏中小市值股票,中证1800股票池内的股票平均来看覆盖度只能占到约50%(中证1800成分股是指沪深300+中证500+中证1000)。实际上大市值股票由于市场关注度高,分析师覆盖透彻,可能更不容易频繁出现大幅度的盈利预测调整,而市场关注度低的股票则相反,因此FADT股票池更多覆盖中小市值股票也合理。

从FADT组合的Barra风格因子暴露程度来看,组合在市值风格上的负向暴露比较高,即偏小市值风格;在成长因子上长期为较明显的正向暴露,成长风格明显;在盈利因子上整体为正向暴露,说明FADT股票池注重成分股的盈利水平。

最后我们分析选股组合的单日交易策略容量。首先我们计算组合中每只股票的过去20个交易日日均成交额,该成交额的10%作为每只股票单日可买入的最大金额;再将组合内所有股票日均成交额的下侧1/4分位数乘以组合股票数量,即为组合单日可买入的最大金额。从结果来看,历史平均单日策略容量为1.5亿元左右,如果需要进一步提高策略容量,可以考虑多个交易日建仓,同时降低调仓频率。

总结与思考

本文总结

本文承接前期报告《人工智能51:文本PEAD选股策略》的研究思路,进一步对分析师盈利预测调整及评级调整当中的文本数据进行挖掘,构建的forecast_adj_txt因子表现较为优秀:从因子视角来看,该因子分十层回测严格单调,多头端收益显著,且与传统的forecast_adj因子相关性低;从主动选股的视角来看,以该因子多头第一层为基础池进行进一步股票精选,构建出的主动量化FADT选股组合回测期内年化收益达到44.13%,相对中证500年化超额超过30%。

与前期研究相比,本文在模型构建层面方法论没有太大差别,主要区别在于应用场景不同导致的数据源有所精简。本文的初衷是找出对股价有重要影响的“催化剂”事件,通过分析师盈利预测及评级调整,我们希望通过间接的方式找出这种事件,因此我们的目标转换为对盈利预测调整的文本进行识别,找出分析师情感偏正向的调整事件。通过目标转换,我们只需要用到盈利预测调整研报这一组数据源(前期研究需要用到业绩公告+研报两组数据源)。

在构建模型时,我们会对分析师研报文本进行分词,保留信噪比高的词语,并进一步转换为词频矩阵,以词频矩阵作为训练特征;同时以研报发布前后两天个股的超额收益为标签训练模型。在样本外我们根据模型预测得分构建forecast_adj_txt因子。测试结果表明forecast_adj_txt因子多头收益显著,分层效果严格单调,同时与传统方法构建的forecast_adj因子相关性低。

在正文中我们花了比较多的篇幅来讨论整个模型构建过程中的参数敏感性问题,核心结论为:文本因子的构建基本不存在人为过度调参导致的过拟合问题,模型参数稳健性较高,分析师盈利预测调整研报文本的情感识别是信噪比较低且规律不易随时间改变的场景。在测试过程中,我们主要讨论了以下参数:训练使用的非线性模型、研报标题和摘要采用的词数、样本内窗口长度、样本标签的时间区间、标签分类数量等。

本文的最后我们从主动量化选股的角度出发对forecast_adj_txt多头第一层的股票池进行精选。首先我们考虑股票的ROE、净利润、营业收入、经营活动现金流等考察一只股票首先会关注的基本面指标;其次我们考虑股票的反转、换手、尾盘成交占比等技术因素;最后我们还将市值风格纳入考虑。上述要素以因子的形式呈现,每月末将上述因子进行方向调整后等权合成,根据合成得分选择排名靠前的25只股票等权持有,该组合自2009年以来年化收益44.13%,夏普比率1.48,年化双边换手16倍。我们将该组合命名为FADT组合。

FADT选股组合整体偏中小市值,在宽基指数上覆盖度为非中证1800>中证1000>中证500>沪深300;组合偏成长风格,从历史平均来看在消费、科技板块上的配置数量偏多,在医药、金融板块上的配置数量偏少。分析组合的Barra风格因子暴露,市值因子负向暴露明显,盈利和成长因子正向暴露明显。

思考与展望

最后,整个策略还存在什么问题?我们希望能进行一些有意义的讨论,以此启发后续研究。

策略容量的讨论

在本报告的最后我们对FADT选股组合的策略容量进行了估算,整个组合的日均最大可交易金额约为1.5亿左右,如果我们拿出一周的时间进行调仓,最大交易金额约为7.5亿元,按每期单边70%换手率计算,则策略容量约为10.7亿元。但目前框架下我们为月频调仓,因此一周的调仓期可能会对组合带来较大的收益损失。所以如何提升策略容量是我们想讨论的第一个问题。

1)我们尝试直接在原始FADT持仓组合的基础上,修改为双月频调仓,即按原始持仓每隔一个月进行调仓,这样每年进行6次调仓,年化双边换手降低为8倍。从下图所展示的回测净值来看,年化收益从月频调仓的44.13%降低为40.51%,削弱大约4%;修改为双月频调仓后,调仓或建仓的时间区间要求则更低,如果以2周为调仓周期,则整个组合的策略容量大约可以达到20亿左右。

2)另一个较为直观的方法是持有更多的股票数量,例如最后的增强组合持有30/40/50只股票,当然对应的年化收益会有所削弱,经测算持有30只股票年化为40.73%;持有40只股票年化为36.92%;持有50只股票年化为34.64%。随着股票数量的增多,年化收益的削弱较为明显,因此持股数量与收益需根据实际情况进行权衡。

3)Mark Minervini曾在《股票魔法师》中提到“资金利用率”这个概念,从主观投资者的角度出发,选股并不是一个固定频率的过程(即并不是我们的月频回测框架),而是以最大化“资金利用率”为目标,不定期调仓。试想,如果我们确实选到了经“催化剂”事件以后股价开始进入主升浪的股票,那么在下一个预设的调仓期,如果股票技术形态并未走坏,我们是否有必要一定按照原定持仓更换掉这只股票?能否等到这只股票技术形态开始破坏以后再逐步减仓以降低换手率、提高资金利用效率,从而提高策略容量?或许在主动量化选股的回测框架层面,我们还有更多的细节值得探索。下图给出了具体的一个例子。

上图给出了FADT历史持仓中的一个例子。20200506我们建仓英科医疗(300677.SZ)这只股票,建仓平均成本价18.92;20200601我们清仓了这只股票,清仓平均成本价30.86,区间收益63.11%。但是观察彼时该股票的技术形态,实际上处于非常完美的多头排列状态(短均线位于长均线上方,依次排列),技术形态没有明显破坏,那么我们是否有必要在20200601当天清仓?或许我们无法完美在第一个股价局部峰值处卖出,但即使按技术形态开始有所走坏的2020年8-9月份,我们按最低价的42.67卖出,持有收益也达到125.53%。这提示我们,严格按照预设固定频率进行调仓,或许并不是最优的主动量化回测框架,采用一些技术手段或许能降低换手率,提高资金利用效率。

模型层面的讨论

模型层面,实际上备受质疑的一个点我们仍然没有很好的给出答案。模型在识别分析师研报情感时,仍然是以逐个词语进行识别的,浅度学习模型能否学习到词语之间的组合关系实际上并不好解释。例如“上调”前面跟的是“成本”还是“盈利”,实际上对于语义理解的影响很大,但是本文使用的浅度学习模型似乎很难从逻辑上完美解释为什么能很好地识别这种词语组合。在后续的研究中,我们会继续朝着这个点进行改进,尝试自然语言处理中的更多高阶模型,希望能提高模型的逻辑自洽程度。

风险提示

通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。

免责声明与评级说明

公众平台免责申明

本公众平台不是华泰证券研究所官方订阅平台。相关观点或信息请以华泰证券官方公众平台为准。根据《证券期货投资者适当性管理办法》的相关要求,本公众号内容仅面向华泰证券客户中的专业投资者,请勿对本公众号内容进行任何形式的转发。若您并非华泰证券客户中的专业投资者,请取消关注本公众号,不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限,若给您造成不便,烦请谅解!本公众号旨在沟通研究信息,交流研究经验,华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号研究报告有关内容摘编自已经发布的研究报告的,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。如需了解详细内容,请具体参见华泰证券所发布的完整版报告。

本公众号内容基于作者认为可靠的、已公开的信息编制,但作者对该等信息的准确性及完整性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。

在任何情况下,本公众号中的信息或所表述的意见均不构成对客户私人投资建议。订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。普通投资者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券股份有限公司所有,未经公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。

华泰金工深度报告一览

金融周期系列研究(资产配置)

【华泰金工林晓明团队】2020年中国市场量化资产配置年度观点——周期归来、机会重生,顾短也兼长20200121

【华泰金工林晓明团队】量化资产配置2020年度观点——小周期争明日,大周期赢未来20200116

【华泰金工林晓明团队】风险预算模型如何度量风险更有效-改进风险度量方式稳定提升风险模型表现的方法

【华泰金工林晓明团队】周期双底存不确定性宜防守待趋势——短周期底部拐头机会渐增,待趋势明朗把握或更大20191022

【华泰金工林晓明团队】二十年一轮回的黄金投资大周期——黄金的三周期定价逻辑与组合配置、投资机会分析20190826

【华泰金工林晓明团队】如何有效判断真正的周期拐点?——定量测度实际周期长度提升市场拐点判准概率

【华泰金工林晓明团队】基钦周期的长度会缩短吗?——20190506

【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(下

【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(上)

【华泰金工林晓明团队】周期轮动下的BL资产配置策略

【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究

【华泰金工林晓明团队】市场拐点的判断方法

【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告(上)

【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(四)——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(三)——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(二)——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(一)——华泰金工周期系列研究

【华泰金工林晓明团队】华泰金工周期研究系列 · 基于DDM模型的板块轮动探索

【华泰金工林晓明团队】市场周期的量化分解

【华泰金工林晓明团队】周期研究对大类资产的预测观点

【华泰金工林晓明团队】金融经济系统周期的确定(下)——华泰金工周期系列研究

【华泰金工林晓明团队】金融经济系统周期的确定(上)——华泰金工周期系列研究

【华泰金工林晓明团队】全球多市场择时配置初探——华泰周期择时研究系列

行业指数频谱分析及配置模型:市场的周期分析系列之三

【华泰金工林晓明团队】市场的频率——市场轮回,周期重生

【华泰金工林晓明团队】市场的轮回——金融市场周期与经济周期关系初探

周期起源

【华泰金工林晓明团队】金融经济周期的耗散结构观——华泰周期起源系列研究之十

【华泰金工林晓明团队】经济系统中有序市场结构的进化——华泰周期起源系列研究报告之九

【华泰金工林晓明团队】企业间力的产生、传播和作用效果——华泰周期起源系列研究之八

【华泰金工林晓明团队】耦合振子同步的藏本模型——华泰周期起源系列研究之七

【华泰金工林晓明团队】周期在供应链管理模型的实证——华泰周期起源系列研究之六

【华泰金工林晓明团队】不确定性与缓冲机制——华泰周期起源系列研究报告之五

华泰金工林晓明团队】周期是矛盾双方稳定共存的结果——华泰周期起源系列研究之四

【华泰金工林晓明团队】周期是不确定性条件下的稳态——华泰周期起源系列研究之三

【华泰金工林晓明团队】周期趋同现象的动力学系统模型——华泰周期起源系列研究之二

【华泰金工林晓明团队】从微观同步到宏观周期——华泰周期起源系列研究报告之一

FOF与金融创新产品

【华泰金工林晓明团队】养老目标基金的中国市场开发流程--目标日期基金与目标风险基金产品设计研究

【华泰金工】生命周期基金Glide Path开发实例——华泰FOF与金融创新产品系列研究报告之一

因子周期(因子择时)

【华泰金工林晓明团队】市值因子收益与经济结构的关系——华泰因子周期研究系列之三

【华泰金工林晓明团队】周期视角下的因子投资时钟--华泰因子周期研究系列之二

【华泰金工林晓明团队】因子收益率的周期性研究初探

择时

【华泰金工林晓明团队】波动率与换手率构造牛熊指标——华泰金工量化择时系列

【华泰金工林晓明团队】A股市场低开现象研究

【华泰金工林晓明团队】华泰风险收益一致性择时模型

【华泰金工林晓明团队】技术指标与周期量价择时模型的结合

【华泰金工林晓明团队】华泰价量择时模型——市场周期在择时领域的应用

中观基本面轮动

【华泰金工林晓明团队】行业配置落地:绝对收益型ETF轮动策略——华泰中观基本面轮动系列之十八

【华泰金工林晓明团队】行业配置策略:资金流向视角——华泰中观基本面轮动系列之十七

【华泰金工林晓明团队】行业配置策略:投资时钟视角——华泰中观基本面轮动系列之十六

【华泰金工林晓明团队】行业配置落地:科技主题基金筛选——华泰中观基本面轮动系列之十五

【华泰金工林晓明团队】行业配置落地:消费主题基金筛选——华泰中观基本面轮动系列之十四

【华泰金工林晓明团队】行业配置策略:机构调研视角——华泰中观基本面轮动系列之十三

【华泰金工林晓明团队】行业配置落地:医药主题基金筛选——华泰中观基本面轮动系列之十二

【华泰金工林晓明团队】行业配置落地:指数增强篇(2)——华泰中观基本面轮动系列之十一

【华泰金工林晓明团队】行业配置落地:指数增强篇——华泰中观基本面轮动系列之十

【华泰金工林晓明团队】行业配置策略:拥挤度视角——华泰中观基本面轮动系列之九

【华泰金工林晓明团队】行业配置策略:景气度视角——华泰中观基本面轮动系列之八

【华泰金工林晓明团队】行业配置策略:趋势追踪视角——华泰中观基本面轮动系列之七

【华泰金工林晓明团队】行业配置策略:宏观因子视角——华泰中观基本面轮动系列之六

【华泰金工林晓明团队】行业全景画像:投入产出表视角——华泰中观基本面轮动系列之五

【华泰金工林晓明团队】行业全景画像:改进杜邦拆解视角——华泰中观基本面轮动系列之四

【华泰金工林晓明团队】行业全景画像:风格因子视角 ——华泰中观基本面轮动系列之三

【华泰金工林晓明团队】行业全景画像:宏观因子视角 ——华泰中观基本面轮动系列之二

【华泰金工林晓明团队】确立研究对象:行业拆分与聚类——华泰中观基本面轮动系列之一

行业轮动

【华泰金工林晓明团队】不同协方差估计方法对比分析(二)——华泰行业轮动系列报告之十三

【华泰金工林晓明团队】拥挤度指标在行业配置中的应用——华泰行业轮动系列报告之十二

【华泰金工林晓明团队】基于投入产出表的产业链分析 ——华泰行业轮动系列报告之十一

【华泰金工林晓明团队】不同协方差估计方法对比分析——华泰行业轮动系列报告之十

【华泰金工林晓明团队】景气度指标在行业配置中的应用——华泰行业轮动系列报告之九

【华泰金工林晓明团队】再探周期视角下的资产轮动——华泰行业轮动系列报告之八

【华泰金工林晓明团队】“华泰周期轮动”基金组合改进版——华泰行业轮动系列报告之七

【华泰金工林晓明团队】“华泰周期轮动”基金组合构建——华泰行业轮动系列之六

【华泰金工林晓明团队】估值因子在行业配置中的应用——华泰行业轮动系列报告之五

【华泰金工林晓明团队】动量增强因子在行业配置中的应用——华泰行业轮动系列报告之四

【华泰金工林晓明团队】财务质量因子在行业配置中的应用——华泰行业轮动系列报告之三

【华泰金工林晓明团队】周期视角下的行业轮动实证分析——华泰行业轮动系列之二

【华泰金工林晓明团队】基于通用回归模型的行业轮动策略——华泰行业轮动系列之一

Smartbeta

【华泰金工林晓明团队】重剑无锋:低波动 Smart Beta——华泰 Smart Beta 系列之四

【华泰金工林晓明团队】投资优质股票:红利类Smart Beta——华泰Smart Beta系列之三

【华泰金工林晓明团队】博观约取:价值和成长Smart Beta——华泰Smart Beta系列之二

【华泰金工林晓明团队】Smart Beta:乘风破浪趁此时——华泰Smart Beta系列之一

【华泰金工林晓明团队】Smartbeta在资产配置中的优势——华泰金工Smartbeta专题研究之一

多因子选股

【华泰金工林晓明团队】华泰单因子测试之历史分位数因子——华泰多因子系列之十三

【华泰金工林晓明团队】桑土之防:结构化多因子风险模型——华泰多因子系列之十二

【华泰金工林晓明团队】华泰单因子测试之海量技术因子——华泰多因子系列之十一

【华泰金工林晓明团队】因子合成方法实证分析 ——华泰多因子系列之十

【华泰金工林晓明团队】华泰单因子测试之一致预期因子 ——华泰多因子系列之九

【华泰金工林晓明团队】华泰单因子测试之财务质量因子——华泰多因子系列之八

【华泰金工林晓明团队】华泰单因子测试之资金流向因子——华泰多因子系列之七

【华泰金工林晓明团队】华泰单因子测试之波动率类因子——华泰多因子系列之六

【华泰金工林晓明团队】华泰单因子测试之换手率类因子——华泰多因子系列之五

【华泰金工林晓明团队】华泰单因子测试之动量类因子——华泰多因子系列之四

【华泰金工林晓明团队】华泰单因子测试之成长类因子——华泰多因子系列之三

【华泰金工林晓明团队】华泰单因子测试之估值类因子——华泰多因子系列之二

【华泰金工林晓明团队】华泰多因子模型体系初探——华泰多因子系列之一

【华泰金工林晓明团队】五因子模型A股实证研究

【华泰金工林晓明团队】红利因子的有效性研究——华泰红利指数与红利因子系列研究报告之二

人工智能

【华泰金工林晓明团队】新闻舆情分析的HAN网络选股——华泰人工智能系列之五十六

【华泰金工林晓明团队】图神经网络选股的进阶之路——华泰人工智能系列之五十五

【华泰金工林晓明团队】基于遗传规划的一致预期因子挖掘——华泰人工智能系列之五十四

【华泰金工林晓明团队】揭秘微软AI量化研究——华泰人工智能系列之五十三

【华泰金工林晓明团队】神经网络组合优化初探——华泰人工智能系列之五十二

【华泰金工林晓明团队】文本PEAD选股策略——华泰人工智能系列之五十一

【华泰金工林晓明团队】再探cGAN资产配置——华泰人工智能系列之五十

【华泰金工林晓明团队】SinGAN 单样本生成——人工智能系列之四十九

【华泰金工林晓明团队】对抗过拟合:cGAN应用于策略调参——人工智能系列之四十八

【华泰金工林晓明团队】cGAN模拟宏观指标——人工智能系列之四十七

【华泰金工林晓明团队】AlphaNet改进:结构和损失函数——华泰人工智能系列之四十六

【华泰金工林晓明团队】cGAN应用于资产配置——华泰人工智能系列之四十五

【华泰金工林晓明团队】深度卷积GAN实证——华泰人工智能系列之四十四

【华泰金工林晓明团队】因子观点融入机器学习——华泰人工智能系列之四十三

【华泰金工林晓明团队】图神经网络选股与Qlib实践——华泰人工智能系列之四十二

【华泰金工林晓明团队】基于BERT的分析师研报情感因子——华泰人工智能系列之四十一

【华泰金工林晓明团队】微软AI量化投资平台Qlib体验——华泰人工智能系列之四十

【华泰金工林晓明团队】周频量价选股模型的组合优化实证——华泰人工智能系列之三十九

【华泰金工林晓明团队】WGAN生成:从单资产到多资产——华泰人工智能系列之三十八

【华泰金工林晓明团队】舆情因子和BERT情感分类模型——华泰人工智能系列之三十七

【华泰金工林晓明团队】相对生成对抗网络RGAN实证——华泰人工智能系列之三十六

【华泰金工林晓明团队】WGAN应用于金融时间序列生成——华泰人工智能系列之三十五

【华泰金工林晓明团队】再探AlphaNet:结构和特征优化——华泰人工智能系列之三十四

【华泰金工林晓明团队】数据模式探索:无监督学习案例——华泰人工智能系列之三十三

【华泰金工林晓明团队】AlphaNet:因子挖掘神经网络——华泰人工智能系列之三十二

【华泰金工林晓明团队】生成对抗网络GAN初探——华泰人工智能系列之三十一

【华泰金工林晓明团队】从关联到逻辑:因果推断初探——华泰人工智能系列之三十

【华泰金工林晓明团队】另类标签和集成学习——华泰人工智能系列之二十九

【华泰金工林晓明团队】基于量价的人工智能选股体系概览——华泰人工智能系列之二十八

【华泰金工林晓明团队】揭开机器学习模型的“黑箱” ——华泰人工智能系列之二十七

【华泰金工林晓明团队】遗传规划在CTA信号挖掘中的应用——华泰人工智能系列之二十六

【华泰金工林晓明团队】市场弱有效性检验与择时战场选择——华泰人工智能系列之二十五

【华泰金工林晓明团队】投石问路:技术分析可靠否?——华泰人工智能系列之二十四

【华泰金工林晓明团队】再探基于遗传规划的选股因子挖掘——华泰人工智能系列之二十三

【华泰金工林晓明团队】基于CSCV框架的回测过拟合概率——华泰人工智能系列之二十二

【华泰金工林晓明团队】基于遗传规划的选股因子挖掘——华泰人工智能系列之二十一

【华泰金工林晓明团队】必然中的偶然:机器学习中的随机数——华泰人工智能系列之二十

【华泰金工林晓明团队】偶然中的必然:重采样技术检验过拟合——华泰人工智能系列之十九

【华泰金工林晓明团队】机器学习选股模型的调仓频率实证——华泰人工智能系列之十八

【华泰金工林晓明团队】人工智能选股之数据标注方法实证——华泰人工智能系列之十七

【华泰金工林晓明团队】再论时序交叉验证对抗过拟合——华泰人工智能系列之十六

【华泰金工林晓明团队】人工智能选股之卷积神经网络——华泰人工智能系列之十五

【华泰金工林晓明团队】对抗过拟合:从时序交叉验证谈起

【华泰金工林晓明团队】人工智能选股之损失函数的改进——华泰人工智能系列之十三

【华泰金工林晓明团队】人工智能选股之特征选择——华泰人工智能系列之十二

【华泰金工林晓明团队】人工智能选股之Stacking集成学习——华泰人工智能系列之十一

【华泰金工林晓明团队】宏观周期指标应用于随机森林选股——华泰人工智能系列之十

【华泰金工林晓明团队】人工智能选股之循环神经网络——华泰人工智能系列之九

【华泰金工林晓明团队】人工智能选股之全连接神经网络——华泰人工智能系列之八

【华泰金工林晓明团队】人工智能选股之Python实战——华泰人工智能系列之七

【华泰金工林晓明团队】人工智能选股之Boosting模型——华泰人工智能系列之六

【华泰金工林晓明团队】人工智能选股之随机森林模型——华泰人工智能系列之五

【华泰金工林晓明团队】人工智能选股之朴素贝叶斯模型——华泰人工智能系列之四

【华泰金工林晓明团队】人工智能选股之支持向量机模型— —华泰人工智能系列之三

【华泰金工林晓明团队】人工智能选股之广义线性模型——华泰人工智能系列之二

指数增强基金分析

【华泰金工林晓明团队】再探回归法测算基金持股仓位——华泰基金仓位分析专题报告

【华泰金工林晓明团队】酌古御今:指数增强基金收益分析

【华泰金工林晓明团队】基于回归法的基金持股仓位测算

【华泰金工林晓明团队】指数增强方法汇总及实例——量化多因子指数增强策略实证

基本面选股

【华泰金工林晓明团队】华泰价值选股之相对市盈率港股模型——相对市盈率港股通模型实证研究

【华泰金工林晓明团队】华泰价值选股之FFScore模型

【华泰金工林晓明团队】相对市盈率选股模型A股市场实证研究

【华泰金工林晓明团队】华泰价值选股之现金流因子研究——现金流因子选股策略实证研究

【华泰金工林晓明团队】华泰基本面选股之低市收率模型——小费雪选股法 A 股实证研究

【华泰金工林晓明团队】华泰基本面选股之高股息率模型之奥轩尼斯选股法A股实证研究

财务质量

【华泰金工林晓明团队】财务质量分析体系初探-财务质量系列研究之一

【华泰金工林晓明团队】财报附注中隐藏的财务风险-财务质量系列研究之二

基金定投

【华泰金工林晓明团队】大成旗下基金2018定投策略研究

【华泰金工林晓明团队】布林带与股息率择时定投模型——基金定投系列专题研究报告之四

【华泰金工林晓明团队】基金定投3—马科维茨有效性检验

【华泰金工林晓明团队】基金定投2—投资标的与时机的选择方法

【华泰金工林晓明团队】基金定投1—分析方法与理论基础

基金评价

【华泰金工林晓明团队】基金评价及筛选全流程研究框架——股票型与债券型基金多种维度定量与定性评价法

【华泰金工林晓明团队】基金选股择时能力的定量分析法——我国公募基金大多具有较强选股能力

【华泰金工林晓明团队】基金业绩持续性的规律与策略构建——采用有效影响因子筛选出持续性较好的绩优基金

ETF季度盘点

【华泰金工林晓明团队】2021Q2中国ETF市场盘点回顾

【华泰金工林晓明团队】2021Q1中国ETF市场盘点回顾

【华泰金工林晓明团队】2020Q4中国ETF市场全景回顾——总规模创新高,行业主题类ETF渐成市场新主角20210112

【华泰金工林晓明团队】2020年三季度中国ETF市场回顾——产品百花齐放、投资者结构日渐成熟,规模创新高20201021

【华泰金工林晓明团队】ETF产品细分差异化或成突围之道——2020二季度中国ETF市场全景回顾盘点与展望20200803

【华泰金工林晓明团队】ETF规模数量大涨品类不断丰富——2020一季度中国ETF市场全景回顾盘点

其它

【华泰金工林晓明团队】A股市场及行业的农历月份效应——月份效应之二

A股市场及行业的月份效应——详解历史数据中的隐藏法则

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
华泰 | 金工:AI 概念模型看好微盘股等概念(阅)
教大家如何制作可以让别人电脑关机并设上开机密码的文件
公募基金业绩可持续性分析 —FOF量化系列
NLP大赛冠军总结:300万知乎多标签文本分类任务(附深度学习源码)
成长为体估值为用
机器学习该如何应用到量化投资系列(一)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服