新智元宣布

深度进修了40万个神色一大年夜波AI 神色包来了_脸色_图像 绘影字幕

来源:Arxiv

编辑:闻菲

【新智元导读】深度学习天生表情包,笑不笑由你。

自从有了表情包,跟人谈天时的第一反应,便是去找找看有什么适宜的表情。

有一类表情包,形式是笔墨+图,尤其能够精妙地抒发和通报感情。

在这一点上,可能全天下的网友都一样。

好用的表情永久不嫌多,而且彷佛总是不足用。

怎么办?

好在我们有深度学习。

表情包,一个天然的图说天生问题

斯坦福大学的Abel L. Peirson V和E. Meltem Tolunayl,在这一期斯坦福深度学习自然措辞处理课程CS224n的期末作业中,提交了一个表情包天生器,利用深度学习,制作“图片+笔墨”型的表情包。

下面这些都是他们的系统自动天生的结果。
不得不说,深得表情包制作精髓。

这个表情包天生器的基本的框架是一个编码器-解码器图说天生系统,前辈行CNN图像嵌入,然后用一个LSTM RNN进行笔墨天生。

个中,编码器的目标是要给出一个故意义的状态,让解码器开始进行笔墨天生。
他们利用在ImageNet上预演习的Inception-v3做为编码器模型,并将末了一层隐蔽CNN作为编码器的输出。
当表情包模板进入Inception模型后,输出是一组长度固定的向量,也即图像嵌入,能够反响图像的内容。
这个图像嵌入之后会被投射到词嵌入空间里,方便后续笔墨天生。

他们一共考试测验了3种不同的编码器模型,最大略的一种只输入图像,另一种输入图像和标签,末了一种的输入也是图像和标签,但利用了把稳力机制。
至于解码器,都是一个单向LSTM。
这样搭配组合成了3种编码器-解码器方案。
下图展示了第二种方案的模型。

学习40万个表情,诙谐程度媲美人类

数据集是这个表情包天生器的精髓。
他们的数据集由大约40万张带标签和图说的图片组成。
个中有2600个独特的图像-标签对,是他们写Python脚本从Memegenerator.net中获取的。
一张图片对应一个标签,标签是对这幅图的大略描述,而每张图都与很多不同的图说(大约160个)干系联。

下图展示了数据的样本:

在演习前,他们还针对图说中的标点、格式和某些词涌现的频率等进行了预处理。

演习的结果,深度学习天生了各种表情:

系统看过的图像(左边4张)的输入标签是来自演习集的标签,而对付没见过的图像(右边4张),我们利用的句

从语法、搞笑程度和可区分性(分辨是人制作的还是深度学习天生的)几个维度判断,深度学习表情包天生器取得了不错的效果。
尤其是搞笑程度,由于这一点是制作表情包的初衷,普通表情包的搞笑程度7分(满分10分),深度学习天生的表情包最高达到了6.8。

两位作者指出,诙谐是很难评判的事情,本身便是一个很深的研究领域。
他们的这项事情十分根本,接下来如果能构建出能够自动断句的表情包天生器(便是自动判断图片上方和下方两行笔墨从哪里断开),将会是一个很大的进步。
(由于利用的都是网络热图,因此数据含有性别歧视和不文明的身分。
)此外,探索视觉把稳力机制在表情包天生中的浸染,也是一个不错的研究方向。

干系论文和代码

Dank Learning: Generating Memes Using Deep Neural https://arxiv.org/pdf/1806.04510v1.pdfGithub:https://github.com/alpv95/MemeProject

【加入社群】

新智元 AI 技能 + 家当社群招募中,欢迎对 AI 技能 + 家当落地感兴趣的同学,加小助手微旗子暗记: aiera2015_3 入群;通过审核后我们将约请进群,加入社群后务必修正群备注(姓名 - 公司 - 职位;专业群审核较严,敬请包涵)。