最近的新型冠状病毒SARI让全中国陷入了前所未有的困境,希望中国人众志成城,打赢这场战疫。
本日的股市情形是不太乐不雅观,很多同学可能都是10%的亏损。
那么从量化投资的角度来说,我们是否能用人工智能来避免这种突发性事宜的影响呢?按照我们之前的先容,如果我们纯挚的以OHLCV数据以及技能指标来进行预测,那么显然是避免不了这种突发事宜的影响。
事实上很多突发事宜在金融市场的反馈并不是那么的迅速,从金融市场的逻辑来看,首先是民众对当前的突发事宜有一个反应,这些反应会根据媒体以及民意来发展,那么事实上对付突发事宜,股市是有一个反应韶光的。
那么我们是否可以根据舆情来构建一个NLP的预测系统,来对股市的趋势来进行一个预测,来避免重大的丢失呢?当然是可以的。

人工智能与量化投资--类新型冠状病毒SARI事宜的股市猜测_模子_事宜 文字写作

建立真实天下模型

对付这类重大突发事宜,我们只须要对大盘进行剖析预测。
那么有同学会提出几个疑问了。
第一,我们历史上像这次这么严重的事宜相对较少。
第二,中国的股市才经历了二十几年,我们的样本严重不敷。
因此我们须要建立的模型并不完完备全的映射于金融市场。
我们建立一个这样的模型,我们采集所有重大突发公共事宜,包括海内和国外的事宜:比如非典SARS、MERS、新型冠状病毒SARI、法国罢工游行、澳大利亚大火等等。
我们网络所有这些事宜前2个月的***和社交媒体信息比如twitter和微博,我们对这些事宜进行评级标注,我们可以利用10个等级乃至更多来对这些事宜的影响来进行评级。
比如新型冠状病毒,我们可以将它对A股的影响定为10级最高。
然后我们可以利用爬虫程序来得到我们须要的数据,事实上,目前已经有一些类似的数据集供免费***。
利用爬虫来爬取这些***数据也非常大略,后面我会有文章来专门先容如何来做。
那么我们现在构建了一个真实天下模型,我们以突发事宜前60天的***以及社交媒体信息与评级作为数据标签对。

构建神经网络模型

这里我们可以选取预演习好的BERT模型微调输出来构建我们的模型,也便是说我们利用预演习的BERT模型,但是我们利用评级作为输出,也便是说终极是一个分类的模型。

我们先来先容一下谷歌的BERT模型。
BERT的全称是Bidirectional Encoder Representation Transformers。
它事实上是一个理解自然措辞的模型,利用BERT预演习模型进行微调,然后进行fine tuning,可以实现多种任务,比如对话、写作、句子分类、文章分类等等。
我们来看一下BERT模型和GPT以及ELMo的差异。

BERT 的创新点在于它将双向 Transformer 用于措辞模型, 之前的模型是从左向右输入一个文本序列,或者将 left-to-right 和 right-to-left 的演习结合起来。
实验的结果表明,双向演习的措辞模型对语境的理解会比单向的措辞模型更深刻, BERT利用了Masked LM进行演习,在此之前是无法进行双向措辞模型演习的。

BERT 利用了 Transformer 的 encoder 部分。
Transformer 是一种把稳力机制,可以学习文本中单词之间的高下文关系。
Transformer 的原型包括两个独立的机制,一个 encoder 卖力吸收文本作为输入,一个 decoder 卖力预测任务的结果。
BERT 的目标是天生措辞模型,以是只须要 encoder 机制。
Transformer 的 encoder 是一次性读取全体文本序列,而不是从左到右或从右到左地按顺序读取, 这个特色使得模型能够基于单词的两侧学习。
我们来看Transformer 的 encoder 部分,输入是一个 token 序列,先对其进行 embedding 称为向量,然后输入给神经网络,输出是大小为 H 的向量序列,每个向量对应着具有相同索引的 token。

为什么我们要利用BERT?首先在NLP领域,BERT已经代表了最高的水平,BERT最主要的一点是,它供应与演习模型,如果我们自己要去演习BERT,你可怜的显卡上可能须要演习上几个月,这还是你拥有一块RTX2080显卡的情形下。
那么BERT实在供应的是一个可用于多种任务的模型,也便是说你可以利用BERT的预演习模型完成多种任务,对付我们当前的任务,我们可以进行输出微调就可以改成一个分类的模型。

演习

我们利用BERT实在是进行一个fine tuning的演习,也便是说我们将输出修正为分类之后,我们可以利用我们的数据和标签进行演习。
我们在抓撤消息数据的时候,我们可以仅仅抓取标题,这样可以帮助我们更快的进行演习。
把稳BERT的输入采取的是嵌入词向量,也便是说我们要前辈行word embedding。
这个对付Tensorflow和pytorch以及现在主流的框架来说都不是什么难事。

预测

演习完成后,我们就可以以一段韶光的***数据来评估当前的事宜对金融市场的影响。
这时我们在实际构建的时候,可以有很多的技巧,我们可以针对不同的金融市场构建不同的模型,对付预测来说,并不会占用很多的打算资源,因此我们可以构建一个繁芜的相互影响的预测系统,并且可以利用不同的韶光跨度,利用多个预测系统的结果进行加权,或者直接构建繁芜的神经网络系统。
比如利用多个市场的预测结果作为另一个CNN模型的输出来优化预测精度。

总结

金融市场的预测,本身是一项非常繁芜而困难的事情。
尤其对付突发的事宜,散户每每难以迅速反应,以至于造成巨大的丢失,但是如果有了一个突发事宜的评级系统,类似这次的新型冠状病毒的传播事宜,在春节前大概你已经得到了一个高风险评级的旗子暗记,从而避免经济丢失。