何 康 S0570520080004 研究员

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一_因子_金工 智能助手

李子钰 S0570519110003 研究员

陈 伟 S0570121070169 联系人

报告发布韶光:2022年1月05日

择要

基于古迹公告干系文本的SUE.***因子可以刻画PEAD效应

盈余后价格漂移效应(PEAD)是指股价在盈余公告发布后有较大概率向古迹高于或低于预期的方向漂移。
传统SUE因子基于公告财务数据来衡量PEAD效应并预测股票的非常收益,而本文考试测验从纯文本的角度出发构建文本SUE.***因子,对文本进行解构从而挖掘alpha信息。
基于古迹预报与干系研报文本的数据实证表明,SUE.***因子具有较强的选股能力,机器学习模型对文本的拆分和解构与直不雅观逻辑符合,模型可信度较高。
末了利用华泰金工因子库对SUE.***根本池进行增强,20130104-20211231回测期年化收益43.47%,相对中证500逾额年化收益29.98%;2021年收益52.79%。

滚动演习构建SUE.***因子,特色为词频矩阵,标签为公告前后2日AR

本文利用的公告为古迹预报,干系文本为剖析师点评古迹预报研报文本标题和择要。
在对上述文本进行分词后,保留给定词性并选择样本内标题涌现次数最多的100词和择要涌现次数最多的500词构建词频矩阵,作为模型的演习特色。
同时打算古迹预告发布前后2个交易日相对中证500的逾额收益,将其分为“上涨”、“震荡”、“下跌”三类,作为演习标签。
末了,本文分别测试了Logistic模型和XGBoost模型,将模型预测的上涨和下跌类别的log-odds值之差,在进行指数衰减后,作为终极的SUE.***因子。

SUE.***因子分层选股效果精良,XGBoost模型优于Logistic模型

每月末追溯过去一季度古迹预报并打算相应的SUE.***因子进行分5层回测。
从结果来看,基于XGBoost模型和Logistic模型分别构建的SUE.***因子分层表现均较为精良,个中XGBoost模型的多头端收益与分层效果均优于Logistic模型,两者在第一层股票池的年化收益分别为27.62%与24.68%,回测期为20130104-20211231。
此外,本文利用构建演习标签的2日AR特色,在进行同样的指数衰减处理后直接作为因子进行回测,创造SUE.***因子在盈利能力和分层能力上均显著强于2日AR因子,解释SUE.***因子对2日AR因子具有明显的增益效果。

模型可阐明性探索:词主要性剖析结果与直不雅观逻辑相符合

本文参考Yano等(2012)提出的词主要性和Meursault等(2021)采取的段落主要性观点,对模型的可阐明性进行了探索。
对词主要性剖析的结果表明,“上调”、“预增”、“景气”等词对SUE.***有较大的正面影响,而“下调”、“下滑”、“亏损”等词则有较大的负面影响,与直不雅观逻辑符合。
进一步本文构建了包含财报、运营、宏不雅观环境和计策四大类的分类词典,将文本段落按其所包含的关键词进行分类。
剖析创造,描述宏不雅观环境的段落占比最低,对SUE.***有较大的正面影响;描述运营的段落占比最高,对SUE.***有较大的负面影响;此外,描述财报的段落则包含较多好坏参杂的主要信息。

利用华泰金工因子库对SUE.***股票池进行增强

本文选取SUE.***因子的第一层股票分层作为根本池,选择华泰金工因子等分层效果较好且多头收益明显的因子对股池内的股票进行等权合成打分,并选择得分最高的30只股票作为增强池。
在回测期20130104-20211231内,增强池年化收益43.47%,夏普比率1.57;相对中证500年化逾额收益29.98%,2021年绝对收益52.79%,逾额收益36.19%。
对身分股剖析表明,SUE.***根本池与增强池在各板块的股票数量分布较为均衡,未涌现板块明显超配的情形。

风险提示:通过机器学习模型构建选股策略是历史履历的总结,存在失落效的可能。
人工智能模型可阐明程度较低,利用须谨慎。
量化因子的效果与宏不雅观环境和大盘走势密切干系,历史结果不能预测未来,敬请把稳。

文本PEAD选股框架

PEAD效应回顾

盈余后价格漂移效应(Post Earnings Announcement Drift, PEAD)最早由芝加哥大学Ray Ball和Philip Brown在1968年提出,指的是盈利高于预期的股票会有较大概率在盈余公告后3个月内涌现正向逾额收益,而亏损高于预期的股票则会有较大概率在公告后的3个月内涌现负向逾额收益。
PEAD效应紧张可归因于投资者反应不敷,即由于其把稳力的有限性,无法及时对公司盈利信息做出充分解读和反应,由此导致了PEAD征象的产生和持续。

作为广泛存在于各个韶光区间和各个股票市场的非常征象,PEAD效应自被提出以来便受到了业界和学术界的广泛关注。
在过去的近50年间,投资者常日利用过往财报和剖析师预期等财务数据打算标准化预期外盈利(Standardized Unexpected Earnings, SUE)指标来衡量PEAD效应,其打算办法为

文本SUE.***因子的提出思路

传统基于财务数据打算的SUE因子不是本文关注的重点,本文重点关注与盈余公告干系的文本数据中蕴含的alpha信息。
传统SUE因子紧张基于公告财务指标来预测股票的非常收益,其内含逻辑为财务指标在预期之外的好坏能一定程度上影响投资者未来的行为,并可以此推断股票是否会有非常收益。
公告干系的文本数据与此类似,以剖析师对古迹预报解读的文本为例,其更为直接地表示了剖析师对古迹预报的理解和对公司未来盈利能力的预判,同样也能帮助预测股票是否会有非常收益。
两种方法各有千秋,而本文将紧张谈论后者。

详细来说,本文借鉴Meursault等(2021)的做法,构建了一种基于盈余公告干系文本数据的新型SUE因子(下文简称SUE.***)。
藉由盈余公告发布往后的干系文本与个股的非常收益,通过演习监督式机器学习分类模型的办法来实现对股票预期之外收益能力的预测。
与传统SUE因子的打算办法不同,基于文本的方法不对盈余公告及干系文本中提及的任何财务数字进行打算,而仅侧重于语义拆解,通过对文本中提及的最常见词的剖析,来挖掘对应股票产生公告后正向价格漂移的能力。

Meursault等(2021)考试测验利用如上框架在美股构建了SUE.***因子,实证效果表明SUE.***因子不逊色于传统SUE因子。
在该文中,作者利用沃顿数据(Wharton Research Data Services,WRDS) 平台上的美股上市公司盈余公告解释本文(Presentation)和问答(Q&A)环节的对话文本数据,采取词袋模型将上述文本词向量化,并构建词频矩阵,作为模型演习的特色(X);同时将盈余公告发布后1日非常收益特色三平分并进行标签化处理(“上涨”、“震荡”、“下跌”),作为模型演习的标签(y)。
末了利用正则化逻辑回归模型,以滚动的形式(8季度演习+1季度测试)进行模型演习,并基于模型的“上涨”和“下跌”分类的log-odds值打算终极的SUE.***因子。

古迹公告与文本数据

A股的古迹公告紧张有古迹预报、古迹快报和定期报告三类。
各种型古迹公告的韶光线如下图所示。
下面我们展开描述三类古迹公告的详细内容。

定期报告

定期报告,即正式的季报、半年报和年报,为逼迫性表露,其紧张反响了上市公司在该报告期内的经营和财务状况,包含公司的基本情形、紧张司帐数据和财务指标等信息。
与古迹预报和古迹快报相较,定期报告内容最为详确、信息最为丰富、且表露哀求最为严格。

古迹预报

古迹预报为上市公司在定期公告发布前,经营古迹有超常情形,达到表露条件而逼迫被动表露或者志愿表露的古迹预先报告,其紧张表露了公司对下一季度(年度)的盈利估量情形。
古迹预报可以单独进行表露,也可以在定期报告内对下一季度内的古迹进行预报,例如在正式的一季报内表露二季度的古迹预报。
此外,如公司创造表露的古迹预报与实际古迹发生盈亏变革、预报金额或幅度差异较大等情形时,须要进行古迹预报改动。

古迹快报

古迹快报常日在定期报告前单独发布,紧张表露内容包括当年及上年同期主营业务收入、主营业务利润、利润总额、净利润、总资产、净资产、每股收益净资产收益率等数据和指标。
古迹快报不逼迫哀求表露:上证主板的上市公司可以在年度报告和中期报告表露前发布古迹快报;深圳主板鼓励上市公司在定期报告表露前主动表露快报,且对付拟发布第一季度报告古迹预报但其上年年报尚未表露的上市公司,应该在发布古迹预报的同时表露其上年度的古迹快报。

干系文本

不同古迹公告的详细内容差别较大,涉及到的干系文本数据也有所不同。
详细来说紧张包括以下几类:

1. 公告后的卖方剖析师点评文本:个股发布古迹公告往后市场上的卖方剖析师会及时发布点评或解读,这类文本数据包含较为明显的情绪方向;

2. 古迹公告本身的陈述文本:这类文本紧张是指年报/半年报中的管理层谈论与剖析文本,为公司管理层对财务报告与经营情形的阐明剖析,及对公司未来发展所面临的寻衅和机遇进行解释;

3. 古迹公告干系的古迹解释会问答文本:上市公司发布古迹解释往后召开的古迹解释会会回答投资者对公司古迹及经营状况的干系提问,基于此所形成的问答文本也是一类主要古迹公告干系文本,可能包含无法书面解释的公司信息;

4. 其他文本:如古迹公告后的***文本、舆情文本等。

本文将紧张利用古迹预报与相对应的剖析师研报点评文本。

SUE.***因子构建

本章紧张先容基于文本的SUE.***因子的构建与回测,紧张分为数据预处理、机器学习模型演习、分层回测和结果的可阐明性剖析等部分。

数据预处理

数据来源

本文利用的公司古迹预报数据来自于万得底表AShareProfitNotice,每条样本为一条预报,其数据包含了每支股票古迹预报的发布韶光、预报财报期、预期净利润增速高下限、预期净利润高下限等字段。
本文利用的卖方剖析师研报文本数据来自于朝阳永续盈利预测数据库中的个股报告根本信息表DER_REPORT_RESEARCH,数据回溯区间为2011-01-01至2021-12-31,每条样本为一篇报告,其数据包含股票代码、研报标题、研报择要、研报发布韶光等字段。
两组数据的示例如以下两张图表所示。

数据匹配

由于难以精确定位与古迹预报干系的所有研报,因此我们假设古迹预告发布后的5个自然日内的所有个股干系研报都是对该古迹预报作出的评论和解读。

匹配过程中,我们首先读取万得的公司古迹预报数据,对付个中每一条古迹预报,我们根据其发布韶光从朝阳永续的个股报告根本信息表中匹配未来5个自然日内的研报数据。
同时,我们也对股票古迹预告发布前、后两个交易日内的收盘价进行了匹配,并以中证500同一韶光段内的收益作为基准,打算该股票该次古迹预报的两日非常收益(Abnormal Return, AR)。

文本分词

完成数据匹配后,我们利用Jieba分词对研报的文本和择要数据进行分词处理。
利用Jieba分词的词性标注功能,本文对分词后的文本根据其词性仅保留普通名词、专有名词、动词、副动词、动名词、形容词、副词对应的词语作为洗濯后的数据。

模型演习与测试

本文利用滚动的形式进行模型演习,演习与测试流程分为以下几个步骤:

1. 数据集划分:每轮滚动确定样本内数据集与样本外数据集;

2. 特色与标签天生:对样本内文本进行词向量化并天生特色X与标签Y,记录利用的词语;

3. 演习:样本内进行K折交叉验证演习,探求最优参数;

4. 样本外预处理:对样本外文本进行词向量化,基于样本内所利用的词语;

5. 预测及因子构建:利用交叉验证得到的最优模型对样本外进行预测,并构建原始SUE.***因子;

6. 因子衰减:将原始SUE.***因子衰减至截面期得到调度后SUE.***因子。

数据集划分

每次滚动样本内为过去24个月,样本外为未来12个月。
例如对付某轮样本外的首月T月来说,我们将T-24至T-1月的数据作为样本内,T月至T+11月的数据作为样本外;下一迭代期则以T-12月至T+11月的数据作为样本内,T+12至T+23月的数据作为样本外;以此类推。

特色处理与标签提取

我们利用Python Scikit-learn包中的CountVectorizer对分词结果进行向量化处理。
CountVectorizer是一个常见的文本特色提取方法,对付给定的演习文本,它可以打算每个词的涌现频数,并将全体文本转换为对应的词频矩阵。
每次滚动,我们以样本内的所有样本为整体,提取其研报标题涌现频率最高的100个词、研报择要涌现频率最高的500个词,将文本转换为词频矩阵;上述做法的情由在于标题和择要蕴含的信息量及词域丰富程度不同,因此选择的词语数量不同。
末了将两个词频矩阵拼接,下图展示了文本数据转换为词频向量的结果。

打算出词频矩阵后,我们利用以下公式打算log词频,作为我们演习模型的输入特色。

对付样本外,我们做与样本内类似的处理,唯一不同之处是在利用CountVectorizer对其分词后的文本向量化的过程中,我们利用样本内(而非样本外)频率最高的100和500个词作为词典,布局log词频矩阵。
这是为了避免用到样本外的未来信息,同时担保样本内与样本外的文本分词词域相同。

对付样本内中此前打算的相对中证500两日逾额收益特色(不进行中性化处理),我们按以下办法将其分为三类后作为样本的演习标签:

1. 上涨(y = 1):较大的正向逾额收益,即样本的逾额收益位于整体的前30%;

2. 震荡(y = 0):较低的正向或负向逾额收益,即样本的逾额收益位于整体的前30%-70%;

3. 下跌(y = -1):较大的负向逾额收益,即样本的逾额收益位于整体的后30%。

逻辑回归模型与超参数选择

逻辑回归是广义线性模型的一种,用来办理有关“分类”的问题,其丢失函数为:

本文采取了弹性网络(elasticnet)正则化对逻辑回归模型的繁芜度进行约束,模型的整体丢失函数为:

同时,由于本文处理的问题为多分类问题,我们利用OvR(one-vs-rest)策略进行判别,即对第K类的分类决策,我们把所有该类样本作为正例,其他所有样本作为负例,在此根本上做二元逻辑回归,得到第K类的分类模型。
其他类别的分类模型同理。

XGBoost模型与超参数选择

极度梯度提升(XGBoost)是一种Boosting集成算法,是通过将多个弱学习器(如决策树)以串联的办法组合起来的一个强学习器,其办法是通过弱学习器间的迭代,来不断缩小丢失函数,XGBoost演习流程示意如下。
关于XGBoost模型的详细先容可参考《华泰人工智能系列之六:人工智能选股之Boosting模型》(20170911)。

与逻辑回归模型相同,我们对XGBoost分类器的全部超参数组合进行网格搜索,利用5折交叉验证选择验证集均匀AUC最高的一组超参数作为模型终极的超参数。
超参数设置如下表所示。

SUE.***因子打算

单因子分层回测

因子覆盖度

根据前文所述做法,月度各截面期的SUE.***因子覆盖度如下图所示,整体来看SUE.***因子占全A股的覆盖度不高,全历史均值在15%旁边,绝对数量均值约450只;近年来随着A股数量的持续增加,SUE.***因子覆盖股票数量却并未明显上涨,意味着A股覆盖的剖析师数量并未显著增多,因此覆盖度占比逐渐走低。

回测框架

依照因子值对股票进行打分,并以此构建投资组合进行回测,是衡量该因子对股票池是否有区分能力的最直不雅观手段。
我们按以下办法构建回测模型:

1. 股票池:每个截面期内SUE.***因子有覆盖的股票;

2. 回溯区间:2013-01-31至2021-12-31;

3. 换仓期:根据每个自然月的因子值,不才个自然月的首个交易日按vwap价格调仓;

4. 数据处理:因子值为空的股票不参与分层;

5. 停牌、退市改动:对付在调仓日处于停牌状态的股票,则保持当期持仓与上一期相同;对付已退市但上一期有持仓的股票,则对其进行平仓。

回测结果

下述四张图展示了XGBoost模型和Logistic模型的分层回测结果,从结果上看XGBoost模型表现优于Logistic模型,前者多头第一层的年化收益为27.62%,第1层相对第5层的对冲收益为20.80%;后者则为24.68%和16.01%;在多头收益水平与分层能力上XGBoost表现均优于Logistic,模型层面的优化较为显著,这也提示我们:若要进一步优化SUE.***因子,模型层面的优化可能仍有提升空间。

读者可能会有迷惑:在每个月月末打算SUE.***因子时,我们实际上已经可以不雅观测到过去一个季度所有古迹预报的已实现2日AR,为何还要利用预测模型对2日AR进行预测?增益信息表示在何处?

我们考试测验对此进行阐明。
模型演习时将词频特色与2日AR标签联系在一起,暗含假设是:古迹预报前后两日AR显著超越基准的股票将发生PEAD征象,而这个假设建立在预报样本足够多的根本上。
在模型演习时,我们利用了8个季度的预报数据作为样本内,大样本条件下上述根本知足,因此机器学习模型较好地建立了词频—AR—PEAD的联系;而样本外在预测时,我们仅追溯过去1个季度的预报样本,样本数量相对较少,导致公告预喜的样本未必产生明显的AR(统计不显著),此时词频特色便是AR的替代,由此带来了增量信息,筛选出AR不显著但仍有可能发生PEAD效应的股票。
参考论文作者并未就上述处理方法做出阐明,这里仅考试测验提出笔者的理解,抛砖引玉。

模型可阐明性剖析

本文所挖掘的文本PEAD效应实质上解构的是盈余公告发布往后卖方剖析师对盈余公告的解读。
从传统SUE因子的角度来理解,若盈余公告古迹表现精良,剖析师可能会给出“超预期”、“预期之外”等情绪表达十分强烈的词语;而除了“超预期”等表述之外,“上调”、“景气”、“看好”等偏正向的词语可能也蕴含剖析师对上市公司未来表现的强烈看好,从而带来PEAD效应。
那么本文构建的SUE.***因子是否与逻辑直觉符合?

本小节我们考试测验打开机器学习的“黑箱”,帮助读者理解SUE.***因子的“思考”过程,提升对模型及预测结果的信赖程度。
我们将从Logistic回归模型的系数入手,构建剖析师文本中的每个关键词、每个段落对末了结果贡献的主要程度指标。

单词主要性

本文利用Yano等(2012)提出的词主要性(word impact)观点。
与传统特色主要性不同,词主要性不但能表示每个关键词对模型末了预测结果的主要程度,也同时可以反响词对末了结果的影响方向:例如在空想情形下,“上涨”、“上升”等词对结果应有较大的正面影响,而“下跌”、“下调”等词应对结果有较大的负面影响。

词主要性的打算由两部分构成:回归系数和词频。
回归系数反响了单个词的每次涌现对终极结果的影响方向和力度,而词频则表示了文本中每个关键词的涌现次数。
因此,词主要性被定义为逻辑回归模型“上涨”分类系数与“下跌”分类系数之差和词频之乘积:

子图所示。
为便于不雅观察,在绘图时我们按个中系数差绝对值最大的点的值,对数据做标准化处理。

段落主要性

在对单词主要性进行解读后,我们自然而然的会想到一个问题:如果一个段落中同时包含了多个正向词和负向词,末了该段对付预测结果的主要性与方向该如何打算?原论文构建了基于段落的SUE.***P来解读不同类型的段落所蕴含的信息:

SUE.***股票池增强

本章我们考虑对基于SUE.***构建的股票池进行增强(以下简称为SUE.***股票池),根本SUE.***股票池为SUE.***因子的第一层分层。
增强的思路为:令备选因子在SUE.***股票池内进行回测,优选分层效果明显或多头端收益较强的因子,进而对股票池内的股票进行集成打分,备选因子为华泰因子库因子。

华泰金工因子分层回测

华泰因子库见附录,在进行分层回测时华泰因子库的因子均进行过行业市值中性处理。
各因子分3层回测的古迹表现如下表所示:

根据分层回测结果,以下因子在SUE.***根本池内分层表现较好:

1. 发展类因子:业务收入同比增长率(Sales_G_q)、净利润同比增长率(Profit_G_q)表现较好,个中净利润同比增长率因子分层能力稍逊;

2. 财务质量类因子:毛利率的季度变革(grossprofitmargin_q_g)、净利率的季度变革(netprofitmargin_q_g)、经营性现金流/净利润(operationcashflowratio_ttm)表现较好,个中净利率增长率的季度变革因子分层效果略差;

3. 杠杆类因子:流动比率(currentratio),多头端收益精良,第2、3层区分不明显;

4. 颠簸率类因子:近6个月、12个月颠簸率因子(std_Nm)表现较好,个中近6个月颠簸率多头收益显著,近12个月颠簸率分层效果较好;

5. 股价因子:对数股价(ln_price)多头端表现精良,第2、3层区分不明显;

6. 换手率类因子:个股最近N个月内日均换手率除以最近2年内日均换手率再减1(bias_turn_Nm),N取1、3、6、12时多头端表现均十分精良,解释该因子整体在SUE.***股池内的有效性受窗口期影响较小;N取1和3时分层效果也较优;

7. 股东因子:户均持股比例的同比增长率(holder_avgpctchange),该因子多头收益良好, 分层表现精良。

因子等权合成

综合考虑各因子在SUE.***根本池内的的多头收益与分层效果,我们选择了Sales_G_q、grossprofitmargin_q_g、operationcashflowratio_ttm、currentratio、std_6m、ln_price、bias_turn_1m、bias_turn_3m、holder_avgpctchange等因子进行集成,集成方法为打算等权均值,根据等权均值对SUE.***股票池进行排序,筛选靠前的N=30只股票构成终极的文本PEAD增强股票池,30只股票等权持有,月频调仓,交易手续费双边千三,回测净值如下图所示:

身分股剖析

本小节我们对SUE.***根本池及增强池的身分股进行剖析,统计历史各期持仓在各板块的分布及在各宽基指数的覆盖度。
从板块分布来看,SUE.***股票池未涌现明显高配某个板块的情形,整体上科技板块的占比略微高于其他板块。
从宽基指数覆盖度来看,覆盖度从高到低为:中证1000 > 中证500 > 沪深300,持仓偏中小市值,SUE.***原始池的数量均值约为90只。

总结与谈论

盈余后价格漂移效应(PEAD)指的是股票价格在盈余公告发布后有较大概率向古迹高于或低于预期的方向漂移。
传统SUE因子紧张基于公告财务数据来衡量PEAD效应并预测股票的非常收益,而本文考试测验从纯文本的角度出发构建文本SUE因子,希望对干系文本进行解构从而挖掘alpha信息。
基于古迹预报与干系研报点评文本的数据实证表明,文本SUE因子具有较强的选股能力,机器学习模型对文本的拆分和解构与直不雅观逻辑符合,模型可信度较高。
末了利用华泰金工因子库对文本SUE根本池进行增强,回测期年化收益43.47%,相对中证500逾额年化收益29.98%;2021年收益52.79%。

在文本SUE.***因子构建环节,我们利用的公告为古迹预报,干系文本为剖析师点评古迹预报研报文本的标题和择要。
在对上述文本进行分词后,保留给定词性并选择样本内标题涌现次数最多的100词和择要涌现次数最多的500词构建词频矩阵,作为模型的演习特色。
同时打算古迹预告发布前后2个交易日相对中证500的逾额收益,将其分为“上涨”、“震荡”、“下跌”三类,作为演习标签。
末了,我们分别测试了Logistic模型和XGBoost模型,将模型预测的上涨和下跌类别的log-odds值之差,在进行指数衰减后,作为终极的SUE.***因子。
实证结果表明基于XGBoost构建的SUE.***因子分层效果与多头收益能力均优于Logistic模型。

对词主要性剖析的结果表明,“上调”、“预增”、“景气”等词对SUE.***有较大的正面影响,而“下调”、“下滑”、“亏损”等词则有较大的负面影响,与直不雅观逻辑符合。
进一步本文构建了包含财报、运营、宏不雅观环境和计策四大类的分类词典,将文本段落按其所包含的关键词进行分类。
剖析创造,描述宏不雅观环境的段落占比最低,对SUE.***有较大的正面影响;描述运营的段落占比最高,对结果有较大的负面影响;此外,描述财报的段落则包含较多好坏参杂的主要信息。

末了我们选取SUE.***因子的第一层股票分层作为根本池,选择华泰金工因子中在SUE.***根本池内分层效果较好且多头收益明显的因子对股池内的股票进行等权合成打分,并选择得分最高的30只股票作为增强池。
回测期内,增强池年化收益43.47%,夏普比率1.57;相对中证500年化逾额收益29.98%,2021年绝对收益52.79%,逾额收益36.19%。
对身分股剖析表明,SUE.***根本池与增强池在各板块的股票数量分布较为均衡,未涌现板块明显超配的情形。

值得解释的是,文本PEAD效应的刻画不仅仅局限于本文所提到的古迹预报和卖方剖析师研报文本,本文仅基于上述两组文本提出了刻画文本PEAD效应的另一可行路子,但还存在以下值得改进之处:

1. 古迹预报作为一类主要的古迹公告,在全A股的覆盖度较低,在单独利用时只适宜独立作为一个选股策略,难以融入传统多因子选股体系;若要融入多因子体系,可以考试测验以正式的定期财报作为根本,仍以卖方剖析师研报文本作为干系解读文本构建SUE.***因子,或可提高因子覆盖度;

2. 剖析师研报紧张受众为机构投资者,因此对剖析师研报的解读更可能影响机构,对个人投资者影响相对更小,而舆情文本则可以反应个人投资者对古迹公告的解读,因此干系文本数据仍存在局限性;

3. 对SUE.***根本池的增强,本文利用的华泰金工因子为更偏低频的基本面与量价类因子,增强效果或许仍旧有限,高频因子作为量价信息更密集的因子,或容许以为SUE.***根本池供应额外的增量信息。

参考文献

Liang P J , Meursault V , Routledge B B , et al. PEAD.***: Post-Earnings-Announcement Drift Using Text[J]. Working Papers, 2021.

Yano T , Smith N A , Wilkerson J D . Textual Predictors of Bill Survival in Congressional Committees[J]. 2012.

风险提示

通过机器学习模型构建选股策略是历史履历的总结,存在失落效的可能。
人工智能模型可阐明程度较低,利用须谨慎。
量化因子的效果与宏不雅观环境和大盘走势密切干系,历史结果不能预测未来,敬请把稳。

附录:华泰因子库

免责声明与评级解释

本公众号不是华泰证券株式会社(以下简称“华泰证券”)研究报告的发布平台,本公众年夜众号仅供华泰证券中海内地研究做事客户参考利用。
其他任何读者在订阅本公众号前,请自行评估吸收干系推送内容的适当性,且若利用本"大众年夜众号所载内容,务必寻求专业投资顾问的辅导及解读。
华泰证券不因任何订阅本"大众号的行为而将订阅者视为华泰证券的客户。

本"大众年夜众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及不雅观点,完全的投资见地剖析应以报告发布当日的完全研究报告内容为准。
订阅者仅利用本公众年夜众号内容,可能会因缺少对完全报告的理解或缺少干系的解读而产生理解上的歧义。
如需理解完全内容,请详细拜会华泰证券所发布的完全报告。

本"大众号内容基于华泰证券认为可靠的信息体例,但华泰证券对该等信息的准确性、完全性及时效性不作任何担保,也不对证券价格的涨跌或市场走势作确定性判断。
本"大众年夜众号所载的见地、评估及预测仅反响发布当日的不雅观点和判断。
在不同期间,华泰证券可能会发出与本"大众年夜众号所载见地、评估及预测不一致的研究报告。

在任何情形下,本公众年夜众号中的信息或所表述的见地均不构成对任何人的投资建议。
订阅者不应单独依赖本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。
订阅者若利用本资料,有可能会因缺少解读做事而对内容产生理解上的歧义,进而造成投资丢失。
对依据或者利用本公众号内容所造成的统统后果,华泰证券及作者均不承担当何法律任务。

本公众号版权仅为华泰证券所有,未经华泰证券书面容许,任何机构或个人不得以翻版、复制、揭橥、引用或再次分发他人等任何形式陵犯本"大众年夜众号发布的所有内容的版权。
如因侵权行为给华泰证券造成任何直接或间接的丢失,华泰证券保留深究统统法律任务的权利。
华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营容许证编号为:91320000704041011J。

林晓明

执业证书编号:S0570516010001

【华泰金工林晓明团队】2020年中国市场量化资产配置年度不雅观点——周期归来、机会重生,顾短也兼长20200121

【华泰金工林晓明团队】量化资产配置2020年度不雅观点——小周期争嫡,大周期赢未来20200116

周期起源

【华泰金工林晓明团队】金融经济周期的耗散构造不雅观——华泰周期起源系列研究之十

【华泰金工林晓明团队】经济系统中有序市场构造的进化——华泰周期起源系列研究报告之九

【华泰金工林晓明团队】企业间力的产生、传播和浸染效果——华泰周期起源系列研究之八【华泰金工林晓明团队】耦合振子同步的藏本模型——华泰周期起源系列研究之七

【华泰金工林晓明团队】周期在供应链管理模型的实证——华泰周期起源系列研究之六

【华泰金工林晓明团队】不愿定性与缓冲机制——华泰周期起源系列研究报告之五

【华泰金工林晓明团队】周期是抵牾双方稳定共存的结果——华泰周期起源系列研究之四

【华泰金工林晓明团队】周期是不愿定性条件下的稳态——华泰周期起源系列研究之三

【华泰金工林晓明团队】周期趋同征象的动力学系统模型——华泰周期起源系列研究之二

【华泰金工林晓明团队】从微不雅观同步到宏不雅观周期——华泰周期起源系列研究报告之一

中不雅观基本面轮动

【华泰金工林晓明团队】行业配置落地:指数增强篇——华泰中不雅观基本面轮动系列之十

【华泰金工林晓明团队】行业配置策略:拥挤度视角——华泰中不雅观基本面轮动系列之九【华泰金工林晓明团队】行业配置策略:景气度视角——华泰中不雅观基本面轮动系列之八【华泰金工林晓明团队】行业配置策略:趋势追踪视角——华泰中不雅观基本面轮动系列之七【华泰金工林晓明团队】行业配置策略:宏不雅观因子视角——华泰中不雅观基本面轮动系列之六

【华泰金工林晓明团队】行业全景画像:投入产出表视角——华泰中不雅观基本面轮动系列之五

【华泰金工林晓明团队】行业全景画像:改进杜邦拆解视角——华泰中不雅观基本面轮动系列之四

【华泰金工林晓明团队】行业全景画像:风格因子视角 ——华泰中不雅观基本面轮动系列之三【华泰金工林晓明团队】行业全景画像:宏不雅观因子视角 ——华泰中不雅观基本面轮动系列之二【华泰金工林晓明团队】确立研究工具:行业拆分与聚类——华泰中不雅观基本面轮动系列之一

基金评价

ETF季度盘点

【华泰金工林晓明团队】2021Q2中国ETF市场盘点回顾

【华泰金工林晓明团队】2021Q1中国ETF市场盘点回顾

【华泰金工林晓明团队】2020Q4中国ETF市场全景回顾——总规模创新高,行业主题类ETF渐成市场新主角20210112

【华泰金工林晓明团队】2020年三季度中国ETF市场回顾——产品百花齐放、投资者构造日渐成熟,规模创新高20201021

【华泰金工林晓明团队】ETF产品细分差异化或成突围之道——2020二季度中国ETF市场全景回顾盘点与展望20200803

【华泰金工林晓明团队】ETF规模数量大涨品类不断丰富——2020一季度中国ETF市场全景回顾盘点