科技日报 马爱平

把文本变成画作AI对艺术“下手”了_措辞_语义 绘影字幕

1月初,美国人工智能公司OpenAI 推出两个超过文本与图像次元的模型:DALL·E 和CLIP,前者可以基于文本天生图像,后者则可以基于文本对图片进行分类。
这个打破解释通过笔墨措辞来操纵视觉观点现在已经触手可及。
自然措辞处理和视觉处理的边界已经被冲破,多模态AI 系统正在逐步建立。

数据的来源或者形式是多种多样的,每一种都可以称为一种模态。
例如图像、***、声音、笔墨、红外、深度等都是不同模态的数据。
单模态AI 系统只能处理单个模态的数据。
例如对付人脸识别系统或者语音识别系统来说,它们各自只能处理图像和声音数据。
”中国科学院自动化研究所副研究员黄岩在接管科技日报采访时表示。

相对而言,多模态AI 系统可以同时处理不止一种模态的数据,而且能够结合多种模态数据进行综合剖析。
“例如做事机器人系统或者无人驾驶系统便是范例的多模态系统,它们在导航的过程中会实时采集***、深度、红外等多种模态的数据,进行综合剖析后选择得当的行驶路线。
”黄岩说。

不同层次任务强行关联会产生“壁垒”

就像人类有视觉、嗅觉、听觉一样,AI 也有自己的“眼鼻嘴”,而为了研究的针对性和深入,科学家们常日会将其分为打算机视觉、自然措辞处理、语音识别等研究领域,分门别类地办理不同的实际问题。

自然措辞处理与视觉处理分别是若何的过程,二者之间为什么会有壁垒?

语义是指笔墨、图像或符号之间的构成关系及意义。
“自然措辞处理与视觉处理,都重在对不同模态数据所包含的语义信息进行识别和理解,但是两种数据的语义表现形式和处理方法不同,导致存在所谓的‘语义壁垒’。
”黄岩说。

视觉处理中最常见的数据便是图像,每个图像是由不同像素点排列而成的二维构造。
像素点本身不具有任何语义种别信息,即无法仅凭一个像素点将其定义为图像数据,由于像素点本身只包含0 到255 之间的一个像素值。

“例如对付一张人脸图像来说,如果我们只看个中某些像素点是无法识别人脸图像这一语义种别信息的。
因此,目前打算机视觉领域的研究职员更多研究的是如何让人工智能整合像素点数据,判断这个数据凑集的语义种别。
”黄岩说。

“措辞数据最常见的便是句子,是由不同的词语序列化构成的一维构造。
不同于图像像素,文本中每个词语已经包含了非常明确的语义种别信息。
而自然措辞处理则是在词语的根本上,进行更加高等的语义理解。
”黄岩说,例如相同词语排列的顺序不同将产生不同的语义、多个句子联合形成段落则可以推理出隐含语义信息。
可以说,自然措辞处理紧张研究实现人与打算机直接用自然措辞进行有效信息互换,这个过程包括自然措辞理解和自然措辞天生。
自然措辞理解是指打算机能够理解人类措辞的意义,读懂人类措辞的潜在含义;自然措辞天生则是指打算性能以自然措辞文本来表达它想要达到的意图。

由此可以看出,自然措辞处理要办理的问题的层次深度超过了打算机视觉,自然措辞处理因此理解人类的天下为目标,而打算机视觉所完成的便是所见即所得。
这是两个不同层次的任务。
目前来说,自然措辞处理在语义剖析层面来说要高于视觉处理,二者是不对等的。
如果强行将两者进行语义关联的话,则会产生“语义壁垒”。

AI 冲破自然措辞处理和视觉处理的边界

此前,OpenAI 斥巨资打造的自然措辞处理模型GPT-3,拥有1750 亿超大参数量,是自然措辞处理领域最强AI 模型。
人们创造GPT-3 不仅能够答题、写文章、做翻译,还能天生代码、做数学推理、数据剖析、画图表、制作简历。
自2020 年5 月首次推出以来,GPT-3 凭借惊人的文本天生能力受到广泛关注。

与GPT-3 一样,DALL·E 也是一个具有120亿参数的基于Transformer 架构的措辞模型,不同的是,GPT-3 天生的是文本,DALL·E 天生的是图像。

在互联网上,OpenAI 大秀了一把DALL·E的“超强想象力”,随意输入一句话,DALL·E 就能天生相应图片,这个图片内容可能是现实天下已经存在的,也可能是根据自己的理解创造出来的。

此前,关于视觉领域的深度学习方法一贯存在三大寻衅——演习所需大量数据集的采集和标注,会导致本钱攀升;演习好的视觉模型一样平常只善于一类任务,迁移到其他任务须要花费巨大本钱;纵然在基准测试中表现良好,在实际运用中可能也不如人意。

对此,OpenAI 联合创始人曾发文声称,措辞模型或是一种办理方案,可以考试测验通过文本来修正和天生图像。
基于这一愿景,CLIP 应运而生。
只须要供应图像类别的文本描述,CLIP 就能将图像进行分类。

至此,AI 已经冲破了自然措辞处理和视觉处理的边界。
“这紧张得益于打算机视觉领域中语义种别剖析方面的飞速发展,使得AI 已经能够进一步进行更高层次的视觉语义理解。
”黄岩说。

详细来说,随着深度学习的兴起,打算机视觉领域从2012年至今已经接连占领一样平常自然场景下的目标识别、检测、分割等语义种别剖析任务。
2015 年至今,越来越多的视觉研究者们开始提出和研究更加高层的语义理解任务,包括基于图像天生措辞描述、用措辞搜索图片、面向图像的措辞问答等。

“这些语义理解任务常日都须要联合视觉模型和措辞模型才能够办理,因此涌现了第一批横跨视觉领域和措辞领域的研究者。
”黄岩说,在他们推动下,两个领域开始相互借鉴精良模型和解决问题的思路,并进一步影响到更多传统视觉和措辞处理任务。

多模态交互办法会带来全新的运用

随着人工智能技能发展,科学家也正在不断打破不同研究领域之间的界线,自然措辞处理和视觉处理的交叉领悟并不是个例。

“语音识别事实上已经加入个中,最近业内涌现很多研究视觉+语音的新任务,例如基于一段语音天生人脸图像或者舞蹈***。
”黄岩说,但是要把稳到,语音实在与措辞本身在内容上可能具有较大的重合性。
在现在语音识别技能非常成熟的条件下,完备可以先对语音进行识别将其转换为措辞,进而把任务转换为措辞与图像交互的常规问题。

无论是DALL·E 还是CLIP,都采取不同的方法在多模态学习领域跨出了令人惊喜的一步。
今后,文本和图像的界线是否会被进一步冲破,能否顺畅地用笔墨“掌握”图像的分类和天生,将会给现实生活带来若何的改变,都值得期待。

对付多模态交互办法可能会带来哪些全新运用?黄岩举了两个具有代表性的例子。

第一个是手机的多模态语音助手。
该技能可以丰富目前手机语音智能助手的功能和运用范围。
目前的手机助手只能进行语音单模态交互,未来可以结合手机相册等视觉数据、以及网络空间中的措辞数据来进行更加多样化的推举、查询、问答等操作。

第二个是机器人的多模态导航。
该技能可以提升做事机器人与人在视觉和语音(或措辞)方面的交互能力,例如未来可以见告机器人“去会议室看看有没有电脑”,机器人在理解措辞指令的情形下,就能够结合视觉、深度等信息进行导航和查找。