原文信息

前沿速递|经由进程强化进修和可解释人工智能直接构建投资组合_资产_模子 云服务

Lin William Cong, Ke Tang, Jingyuan Wang, Yang Zhang

AlphaPortfolio: Direct Construction Through Reinforcement Learning and Interpretable AI

SSRN,June 2021

择要

本文提出了一种通过强化学习和可阐明人工智能直接构建投资组合的方法AlphaPortfolio。
传统的基于监督学习的范式须要对收益分布、定价核或风险溢价进行初步估计,而强化学习是这一范式的替代。
在人工智能的根本上,本文提出了多序列神经网络模型,以区分经济和金融数据的特色,许可无标签数据演习和潜在的市场互动。
AlphaPortfolio在各种经济限定和市场条件下(例如,打消小盘股和卖空)表现强劲,样本外性能较好(例如,夏普比率高于2,风险调度后的alpha超过13%)。
此外,通过将AlphaPortfolio投影到更大略的建模空间(例如,利用多项式特色敏感度)以揭示投资绩效的关键驱出发分,包括旋转特性和非线性。
本文强调了金融领域深度强化学习的效用,并提出了“经济蒸馏”工具来阐明人工智能和大数据模型。

以下为正文内容:

1

弁言

学术界和业界的投资组合管理常日须要首先将定价缺点最小化,估计风险溢价,或从历史样本中规复稳健的定价核心,然后结合资产以实现投资目标。
但是这种方法有严重的毛病,由于第一步中有很大的估计缺点的风险,而且两个步骤中的目标不一定是同等的。
此外,金融数据或社会科学领域的数据常日具有高维、噪声、非线性、繁芜的交互效应和快速、非平稳的动态特性,传统计量工具的效率低下。
最近,研究职员采取机器学习(ML)来应对这些寻衅。
只管如此,大多数投资者还是遵照传统的两步法,而不是直接构建投资组合。
许多运用程序还利用为其他学科设计的、具有不同数据天生过程的统计软件包,而没有为金融运用程序量身定制AI或ML工具。

为了战胜上述寻衅,本文采取了一种新颖的、数据驱动的直接优化方法来进行投资组合管理,利用了深度强化学习(RL)的上风。
该方法考虑到现实天下的繁芜性,在一个灵巧的建模空间中利用试错法搜索,以最大限度地提高投资组合构建的绩效指标,这比估计所有资产收益分布或准确定价,而不考虑与投资者的投资组合构建的干系性更有效。
但是,由于历史最优投资组合数据没有标记,交易可能与市场状态相互浸染,因此本文利用强化学习,而不是传统的监督学习。
本文采取了多臂赌钱机问题和大规模马尔可夫决策过程的近似解导出的方法,这些方法在打算机视觉,互动游戏和自动驾驶领域已被证明是有效的。

只管人工智能模型在社会科学领域具有适用性,但高等人工智能工具的黑箱性子可能会阻碍它们在金融和经济学领域的广泛运用,由于在金融和经济学领域,阐明是不可或缺的。
与许多其他模型一样,本文的深度强化学习方法也受到算法繁芜性和缺少透明度的批评。
与此同时,在一个被歧视和不公道划分的天下里,把人工智能的所有偏见都归咎于演习数据缺失落,并且算法的可阐明性也是一个亟待办理的问题。
本文的第二个目标是理解本文模型中的各种创新是如何促进输出样本性能的,并引入“经济蒸馏”方法,通过将它们投射到线性建模或自然措辞空间,为繁芜的AI模型供应更大的可阐明性和透明度。
多项式敏感性和文本因子剖析不仅为人工智能模型供应了初步的见地,而且还可以用于社会科学的其他运用。

2

紧张内容

图1解释了全体AlphaPortfolio的体系构造,它由三个组件组成。
第一个组件须要利用SREM从其状态历史中提取每个资产的表示,SREM可以是任何类型的深度序列模型,如RNN、LSTM等。
接下来,本文将引入一个跨资产把稳力网络(Cross Asset Attention Network, CAAN),它将所有资产的表示作为输入来提取捕获资产之间相互关系的表示。
第三部分是投资组合天生器,它从CAAN中获取每种资产的标量赢家得分,从而得到最优投资组合权重。
将AlphaPortfolio策略嵌入到强化学习框架中,以演习模型参数,以最大化评估标准,如样本外夏普比率。

图1 AlphaPortfolio整体架构

投资组合直接构建步骤如下:

1.提取序列表示

资产的收益分布与其历史状态有着密切的关系。
资产的历史状态是作为序列不雅观察自然形成的。
本文用向量表示资产i在t时候的状态历史,它由资产特色/企业特色组成。
回顾窗口中资产的历史状态表示为一个序列

个中

对付每个资产i, SREM从它的状态历史X(i)中学习表示r(i)。
在本文中,本文关注两个最前辈的深度序列模型之一:变压器编码器(Transformer Encoder, TE)。
TE和LSTM- HA都是专门为处理顺序信息而设计的,善于提取韶光序列数据中的繁芜信息。

本文提出的递归神经网络(RNNs)和基于TE的SREM,最近都被用于机器翻译。
与RNN不同的是,TE通过减少网络路径长度使序列的长期依赖更随意马虎学习,并通过减少对输入的禁止顺序实质的依赖,许可更多的并行化。
图2解释了普通TE的体系构造。
这里的编码器是由几个相同层组成的堆栈。
每一层都有两个子层。
第一种是多头自把稳力机制,在AlphaPortfolio中采取并修正了这种机制。
第二种是大略的位置式全连通前馈网络。
此外,对每个子层采取了剩余连接和层归一化 。

图2 普通TE的体系构造

2.跨资产把稳力网络赢家分数估计

本文提出一个CAAN来描述资产之间的相互关系,CAAN模型设计部分是受到机器翻译中的自把稳力机制的启示。
图3解释了CAAN的体系构造。

图3 跨资产把稳力网络(CAAN)体系构造

详细给定资产表示r(i)(在不失落一样平常性的情形下省略韶光t),按照下式打算资产i的查询向量q(i)、关键向量k(i)和值向量v(i):

3.投资组合天生

在一组资产中给出一个胜者的评分[s(1),....s(i)],接下来,AP构建了一个多空投资组合,在高赢家得分的资产中持有多头寸,在低赢家得分的资产中持有空头寸。
详细来说,首先根据得胜者的得分降序对资产进行排序,并得到每个资产的序列号。
设G为组合中长空部分的预设规模。
投资比例给定为下式:

在完备演习模型之前,由于TE和CAAN的参数都是随机初始化的,以是AlphaPortfolio在一开始可能表现得很差。
在进行适当的演习之前,高分并不虞味着它是一个更好的投资资产。
在演习之后,基于胜利者的分数构建投资组合可以天生导致高绩效指标的投资组合。

4.通过强化学习优化

RL模型优化的目标是找到最优参数

本文利用梯度上升法迭代优化θ在τ轮的θ。
在对模型进行履历演习时,将一个周期定义为一年,包含12个交易周期,利用深度学习框架自动打算出投资组合结果。

5.实证绩效:美国股票研究

本文将AlphaPortfolio模型运用于美国的公开股票。
基线样本周期是1965年7月至2016年6月,共有176万月度资产不雅观察数据。
月度股票回报数据来自证券价格研究中央(CRSP)。
遵照已有文献标准,重点关注在美国注册并在美国证券交易所、纳斯达克或纽约证券交易所交易的公司的普通股。
公司的资产负债表数据来自标准普尔公司的Compustat数据库。
为了减轻回填导致的生存偏差,哀求一家公司至少在数据集中涌现两年,以便对模型进行演习。
对付样本外测试,只哀求一个公司在数据集中勾留一年。

与Freyberger、Neuhierl和Weber(2020)类似,将公司特色和市场旗子暗记作为原始输入特色构建为六大类:基于价格的旗子暗记,如每月回报;与投资干系的特色,如存货对总资产的变革;与盈利能力干系的特色,如经营资产收益率;以及交易摩擦,如日均买卖价差。
考虑到滞后特色在投资组合构建月的12个月之前,每个输入变量只在公开后一个月才被视为可用,这是一个滞后于报告日期的日期。
如果一个变量没有以每月的频率报告,将其视为与前一个月相同。

表1报告了紧张结果。
列(1)-(3)显示AP回报的各种时候以及指标,如换手率。
AP在完全的测试集上夏普比率为2.0,当我们把演习和测试限定在大型和流动性强的股票时,乃至更高(在列(2)和列(3)中,我们哀求股票基于市值的排名在前90%或80%)。
显然,AP的表现不是由微型股票驱动的,可以在没有流动性担忧的情形下履行。
如果把把稳力集中在市值最高的90%的股票上(这样它们就具有流动性和可交易性),1990年初投资的1000美元到2016年底将变成91140美元。

表1:AlphaPortfolio的输出样本性能

表2进一步证明了RL和AI对投资的有效性。
面板A比较了Freyberger、Neuhierl和Weber(2020)的非参数(NP)模型和投资组合策略。
AP优于文献中大多数其他基于机器学习的策略。
本文选择NP作为基准,是由于利用了相似的企业特色作为输入,并且NP可能是资产定价中表现最好的3-5种机器学习模型之一。
1991-2014年,NP的测试样本夏普比率较高。
一旦本文打消非流动性和小型股票,AP的表现显著优于NP,这与Avramov、Cheng和Metzker(2019)的研究结果同等,即最近的机器学习策略的表现每每来自微盘和非流动性股票。
这里的精良表现并不会使其他模型(如NP)失落效,由于它们关注的是最小化定价缺点或估计定价核,而不是直接优化投资组合的表现。

表2:与替代模型比拟的输出样本性能

3

结论

本文提出了基于强化学习(RL)的投资组合管理方法AlphaPortfolio,改进了传统间接投资组合构建框架。
提出一种多序列学习模型,以便有效地捕捉经济数据和市场环境的高维、非线性、噪声、交互和动态特性。
AlphaPortfolio在各种经济和贸易限定以及管理目标下产生了卓越的样本外性能,可用于贸易和投资咨询。

AlphaPortfolio框架和实证研究结果对强化学习在社会科学中的运用以及可阐明人工智能的主要性具有广泛的意义。
与监督学习不同的是,监督学习须要通过空想行为的例子来理解环境,强化学习代表了一种在未知环境或繁芜行动空间中进行目标导向学习的新方法。
深度强化学习常日用于语音识别、自然措辞处理、打算机视觉、交互式游戏等运用领域,并取得了巨大的商业成功(Amazon-Alexa、Apple-Siri、AlphaGo和Google-Android便是紧张的例子)。
此外,大多数利用回归、支持向量机和神经网络的模型都有基于强化学习的实现。
资产组合管理只是强化学习的一个潜在运用,它可以办理繁芜的社会科学问题,具有明确的目标,但是有限的已有知识或标记数据可以得到完全的办理方案。

此外,本文的“经济提炼”不仅揭示了推动AlphaPortfolio绩效的关键企业特色(包括它们的轮换和非线性),而且还为机器学习和人工智能在商业实践和社会科学中的运用供应了详细的阐明。
编码职员、做事供应商和企业家可能会创造,经济升华有助于在消费者、投资者和监管者之间建立信赖。
本文的多项式灵敏度剖析是对当前打算机科学实践的创新,具有很大的灵巧性。
例如,如果一个人认为某个特色很主要,他可以将其分为三阶和四阶。
文自己分剖析源于主题建模和单词嵌入,是利用自然措辞更好地阐明模型行为的多种可能性之一,这两个过程都是将繁芜模型投影到透明和可阐明的空间中。

ABSTRACT

We directly optimize the objectives of portfolio management via reinforcement learning---an alternative to conventional supervised-learning-based paradigms that entail first-step estimations of return distributions, pricing kernels, or risk premia. Building upon breakthroughs in AI, we develop multi-sequence neural network models tailored to distinguishing features of economic and financial data, while allowing training without labels and potential market interactions. The resulting AlphaPortfolio yields stellar out-of-sample performances (e.g., Sharpe ratio above two and over 13% risk-adjusted alpha with monthly re-balancing) that are robust under various economic restrictions and market conditions (e.g., exclusion of small stocks and short-selling). Moreover, we project AlphaPortfolio onto simpler modeling spaces (e.g., using polynomial-feature-sensitivity) to uncover key drivers of investment performance, including their rotation and nonlinearity. More generally, we highlight the utility of deep reinforcement learning in finance and invent "economic distillation" tools for interpreting AI and big data models..

阅读原文,获取更多文章信息

整理 张沁楠

编辑 陈婷

来源 《SSRN》

监制 安然

更多前沿学术资讯,请关注微信"大众年夜众号:大金融思想(djr_ruc)

关于我们

“大金融”观点,在学理上源于黄达教授所倡导的宏微不雅观金融理论相结合的基本思路,在理念上源于金融和实体经济作为一个不可分割的有机整体的系统思维。
中国公民银行副行长陈雨露在《大金融论纲》中系统论证了“大金融”命题的基本内涵和方法论思想,为全面构建有利于促进长期经济增长和增强国家竞争力的“大金融”体系框架奠定了理论和实证根本。

本"大众年夜众号由中国公民大学国际货币研究所(IMI)卖力掩护及推送,环绕大金融理念,专注传播精良学术研究成果,加强大金融学术研究互换。

中国公民大学国际货币研究所(IMI)成立于2009年12月20日,是专注于货币金融理论、政策与计策研究的非营利性学术研究机构和新型专业智库。
研究所聘请了来自国内外科研院所、政府部门或金融机构的90余位著名专家学者担当顾问委员、学术委员和国际委员,80余位中青年专家担当研究员。

研究所长期聚焦国际金融、货币银行、宏不雅观经济、金融监管、金融科技、地方金融等领域,定期举办国际货币论坛、货币金融(青年)圆桌会议、大金融思想沙龙、麦金农大讲坛、陶湘国际金融讲堂、IMF经济展望报告发布会、金融科技公开课等高层次系列论坛或讲座,形成了《公民币国际化报告》《天府金融指数报告》《金融机构国际化报告》《宏不雅观经济月度剖析报告》等一大批具有主要理论和政策影响力的学术成果。

2018年,研究所荣获中国公民大学精良院属研究机构奖,在182家参评机构中排名第一。
在《智库大数据报告(2018)》中获评A等级,在参评的1065个中国智库中排名前5%。
2019年,入选智库号指数(前50名),成为第一象限28家智库之一。