想让AI学会看图回答问题就靠这个Facebook最新开源的模型了_模子_量子
量子位 宣布 | 公众年夜众号 QbitAI
——猫戴着什么?
——帽子。
——景象怎么样?
——下雨。
——披萨上面是什么?
——蘑菇。
看图回答这些问题,对我们人类来说再大略不过了,但是要让AI闇练节制这项技能,还须要探索。
Facebook刚刚为这个领域的探索者们,开源了一个模块化视觉问答框架:Pythia。
事情还要从在弗吉尼亚理工大学和乔治亚理工大学主理的视觉问答(Visual Question Ansering)比赛VQA Challenge提及。
比赛上,Facebook AI研究院(FAIR)军队,A-STAR拿下了冠军。总成绩72.41分,排名第一,在是否(上图的Yes/No)、其他(Other)两类问题上也排名第一,分别拿下了87.7和63.95分,便是数学(Number)成绩差了点,51.51分,不及格,排在第六。
其他的参赛者,回答“是/否”都答得还算不错,回答数字都不及格,而答案五花八门的其他问题,也在及格线高下徘徊。
夺冠的FAIR不雅观察创造,目前的视觉问答(VQA)模型,无外乎这样几个模块:问题编码、图像特色提取、答案空间分类。
于是,他们就想针对VQA领域,打造一个大略的模块化的模型研发平台,说不定还能顺便用在看图对话上。
建造平台的第一步,便是开源了A-STAR参赛所用模型的根本框架:Pythia,目前版本号v0.1。
为Pythia打下根本的,是2017年VQA Challenge冠军,Peter Anderson等人提出的Bottom-Up and Top-Down Attention模型。
Bottom-Up,指的是这个模型以ResNet-101为基干网络,用了Visual Genome数据集预演习的Faster-RCNN,用自底向上的把稳力机制来提取图像特色。
而Top-Down,指的是根据问题(当前任务)来打算图像区域上的把稳力分布。
在这个模型的根本上,FAIR团队做了一些调度。
比如说,将up-down模型里的双曲正切激活函数换成权重标准化+ReLU,用Adamax来优化模型,增大学习率。又比如,把bottom-up模型里的目标检测模型换成Detectron里的FPN,还对用到的数据集:Visual Genome、Visual Dialog等都做了数据扩增。
每一个模块的优化,都带来了模型性能的提升。
BTW,Facebook参赛军队和框架的名字都别有深意。
军队的名字——A-STAR,跟星星没什么关系,它是意思是能看、说话、行动、推理的智能体(Agents that See, Talk, Act, and Reason)
框架名字Pythia,也便是希腊神话中的皮提亚,德尔菲阿波罗神庙中的女祭司。女祭司的一项主要事情嘛,便是回答问题。
如果你也想搭一个会看图回答问题的模型,收好这份paper:
Pythia v0.1: the Winning Entry to the VQA Challenge 2018
Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh
https://arxiv.org/pdf/1807.09956.pdf
以及开源代码:
https://github.com/facebookresearch/pythia
为它打下根本的Bottom-Up and Top-Down Attention:
https://github.com/hengyuan-hu/bottom-up-attention-vqa
— 完 —
诚挚招聘
量子位正在招募编辑/,事情地点在北京中关村落。期待有才华、有激情亲切的同学加入我们!
干系细节,请在量子位公众年夜众号(QbitAI)对话界面,回答“招聘”两个字。
量子位 QbitAI · 号签约作者
վ'ᴗ' ի 追踪AI技能和产品新动态
本文系作者个人观点,不代表本站立场,转载请注明出处!