过去的两年韶光里,AI界的大型天生模型发布呈井喷之势,尤其是Stable Diffusion开源和ChatGPT开放接口后,更加引发了业界对天生式模型的激情亲切。

一文看尽SOTA生成式模型:9大年夜类别21个模型全回忆!_模子_文本 文字写作

但天生式模型种类繁多,发布速率也非常快,稍不留神就有可能错过了sota

最近,来自西班牙科米利亚斯主教大学的研究职员全面回顾了各个领域内AI的最新进展,将天生式模型按照任务模态、领域分为了九大类,并总结了2022年发布的21个天生式模型,一次看明白天生式模型的发展脉络!

论文链接:https://arxiv.org/abs/2301.04655

天生式AI分类

模型可以按照输入和输出的数据类型进行分类,目前紧张包括9类。

有趣的是,在这些已发布大模型的背后,只有六个组织(OpenAI, Google, DeepMind, Meta, runway, Nvidia)参与支配了这些最前辈的模型。

其紧张缘故原由是,为了能够估计这些模型的参数,必须拥有极其弘大的打算能力,以及在数据科学和数据工程方面高度闇练且履历丰富的团队。

因此,也只有这些公司,在收购的初创公司和与学术界互助的帮助下,能够成功支配天生式人工智能模型。

在大公司参与初创企业方面,可以看到微软向OpenAI投资了10亿美元,并帮助他们开拓模型;同样,谷歌在2014年收购了Deepmind。

在大学方面,VisualGPT是由阿卜杜拉国王科技大学(KAUST)、卡内基梅隆大学和南洋理工大学开拓的,Human Motion Diffusion模型是由以色列特拉维夫大学开拓的。

同样,其他项目也是由一家公司与一所大学互助开拓的,比如Stable Diffusion由Runway、Stability AI和慕尼黑大学互助开拓;Soundify由Runway和卡内基梅隆大学互助开拓;DreamFusion由谷歌和加州大学伯克利分校互助。

Text-to-image模型

DALL-E 2

由OpenAI开拓的DALL-E 2能够从由文本描述组成的提示中天生原始、真实、逼真的图像和艺术,而且OpenAI已经对外供应了API来访问该模型。

DALL-E 2特殊之处在于它能够将观点、属性和不同风格结合起来,其能力源于措辞-图像预演习模型CLIP神经网络,从而可以用自然措辞来指示最干系的文本片段。

详细来说,CLIP embedding有几个空想的属性:能够对图像分布进行稳定的转换;具有强大的zero-shot能力;并且在微调后实现了最前辈的结果。

为了得到一个完全的图像天生模型,CLIP图像embedding解码器模块与一个先验模型相结合,从一个给定的文本标题中天生干系CLIP图像embedding

其他的模型还包括Imagen,Stable Diffusion,Muse

Text-to-3D模型

对付某些行业,仅能天生2D图像还无法完成自动化,比如游戏领域就须要天生3D模型。

Dreamfusion

DreamFusion由Google Research开拓,利用预先演习好的2D文本到图像的扩散模型来进行文本到3D的合成。

Dreamfusion利用一个从二维扩散模型的蒸馏中得到的丢失取代了CLIP技能,即扩散模型可以作为一个通用的连续优化问题中的丢失来天生样本。

比较其他方法紧张是对像素进行采样,在参数空间的采样比在像素空间的采样要难得多,DreamFusion利用了一个可微的天生器,专注于创建从随机角度渲染图像的三维模型。

其他模型如Magic3D由英伟达公司开拓。

Image-to-Text模型

得到一个描述图像的文本也是很有用的,相称于图像天生的逆版本。

Flamingo

该模型由Deepmind开拓,在开放式的视觉措辞任务上,只需通过一些输入/输出例子的提示,即可进行few-shot学习。

详细来说,Flamingo的输入包含视觉条件下的自回归文本天生模型,能够吸收与图像或***交错的文本token序列,并天生文本作为输出。

用户可以向模型输入query,并附上一张照片或一段***,模型就会用文本答案来回答。

Flamingo模型利用了两个互补的模型:一个是剖析视觉场景的视觉模型,一个是实行基本推理形式的大型措辞模型。

VisualGPT

VisualGPT是一个由OpenAI开拓的图像描述模型,能够利用预演习措辞模型GPT-2中的知识。

为了弥合不同模态之间的语义差距,研究职员设计了一个全新的编码器-解码器把稳力机制,具有整流门控功能。

VisualGPT最大的优点是它不须要像其他图像到文本模型那样多的数据,能够提高图像描述模型的数据效率,能够在小众领域得到运用或对少见的物体的进行描述。

Text-to-Video模型

Phenaki

该模型由Google Research开拓制作,可以在给定持续串笔墨提示的情形下,进行真实的***合成。

Phenaki是第一个能够从开放域韶光变量提示中天生***的模型。

为理解决数据问题,研究职员在一个大型的图像-文本对数据集以及数量较少的***-文本例子上进行联合演习,终极得到了超越***数据集中的泛化能力。

紧张是图像-文本数据集每每有数十亿的输入数据,而文本-***数据集则小得多,并且对不同长度的***进行打算也是一个难题。

Phenaki模型包含三个部分:C-ViViT编码器、演习Transformer和***天生器。

将输入token转换为embedding后,接着经由时序Transformer和空间Transformer,再利用一个没有激活的单一线性投影,将token映射回像素空间。

终极模型可以天生以开放域提示为条件的韶光连贯性和多样性的***,乃至能够处理一些数据集中不存在的新观点。

干系模型包括Soundify.

Text-to-Audio模型

对付***天生来说,声音也是必不可缺的部分。

AudioLM

该模型是由谷歌开拓,可用于天生高质量的音频,并具有长间隔同等性。

AudioLM的特殊之处在于将输入的音频映射成一个离散的token序列,并将音频天生作为该表示空间的措辞建模任务。

通过对原始音频波形的大型语料库进行演习,AudioLM成功学会了在简短的提示下天生自然和连贯的连续的语音。
这种方法乃至可以扩展到人声之外的语音,比如连续的钢琴音乐等等,而不须要在演习时添加符号表示。

由于音频旗子暗记涉及多个尺度(scale)的抽象,以是音频合成时使得多尺度在显示同等性的同时实现高音频质量非常具有寻衅性。
AudioLM模型通过结合神经音频压缩、自监督表示学习和措辞建模方面的最新进展来实现。

在主不雅观评价方面,评分者被哀求听一个10秒的样本,并决定它是人类讲话还是合成的语音。
基于网络到的1000个评分,比率为51.2%,与随机分配标签没有统计学差异,即人类无法区分合成和真实的样本。

其他干系模型包括Jukebox和Whisper

Text-to-Text模型

问答任务常用。

ChatGPT

广受欢迎的ChatGPT由OpenAI开拓,以对话的办法与用户进行互动。

用户提出一个问题,或是提示文本的前半部分,模型会补全后续部分,并且能够识别出禁绝确的输入条件并谢毫不恰当的要求。

详细来说,ChatGPT背后的算法是Transformer,演习过程紧张是人类反馈的强化学习。

最初的模型是利用监督学习下的微调来演习的,然后由人类来供应对话,在对话中他们相互扮演用户和人工智能助理,然后由人改动模型返回的回答,并用精确的答案帮助模型改进。

将制作的数据集与InstructGPT的数据集稠浊在一起,转换为对话格式。

其他干系模型包括LaMDA和PEER

Text-to-Code模型

和text-to-text类似,只不过天生的是分外类型的文本,即代码。

Codex

该模型由OpenAI开拓,可以将文本翻译成代码。

Codex是一种通用的编程模型,基本上可以运用于任何编程任务。

人类在编程时的活动可以分为两部分:1)将一个问题分解成更大略的问题;2)将这些问题映射到已经存在的现有代码(库、API或函数)中。

个中第二部分是对程序员来说最摧残浪费蹂躏韶光的部分,也是Codex最善于的地方。

演习数据于2020年5月从GitHub上托管的公共软件库中进行网络,包含179GB的Python文件,并在GPT-3的根本上进行微调,个中已经包含了强大的自然措辞表征。

干系模型还包括Alphacode

Text-to-Science模型

科研笔墨也是AI文本天生的目标之一,但要取得成果仍旧有很长的路要走。

Galactica

该模型是由Meta AI和Papers with Code联合开拓的,可用于自动组织科学文本的大型模型。

Galactica的紧张上风在于即便进行多个episode的演习后,模型仍旧不会过拟合,并且上游和下贱的性能会随着token的重复利用而提高。

并且数据集的设计对该方法至关主要,由于所有的数据都因此通用的markdown格式处理的,从而能够稠浊不同来源的知识。

引文(citations)通过一个特定的token来处理,使得研究职员可以在任何输入高下文中预测一个引文。
Galactica模型预测引文的能力会随着规模的提升而提高。

此外,该模型在仅有解码器的设置中利用了一个Transformer架构,对所有尺寸的模型进行了GeLU激活,从而可以实行涉及SMILES化学公式和蛋白质序列的多模态任务,

Minerva

Minerva的紧张目的便是办理决数学和科学问题,为此网络了大量的演习数据,并办理了定量推理问题,大规模模型开拓问题,还采取了一流的推理技能。

Minerva采样措辞模型架构通过利用step-by-step推理来办理输入的问题,即输入是须要包含打算和符号操作,而不用引入外部工具。

其他模型

还有一些模型不属于前面提到的种别。

AlphaTensor

由Deepmind公司开拓,因其创造新算法的能力,在业界是一个完备革命性的模型。

在已公布的例子中,AlphaTensor创造了一种更有效的矩阵乘法算法。
这种算法非常主要,从神经网络到科学打算程序都可以从这种高效率的乘法打算中受益。

该方法基于深度强化学习方法,个中智能体AlphaTensor的演习过程便是玩一个单人游戏,目标是在有限的因子空间内探求张量分解。

在TensorGame的每一步,玩家须要选择如何结合矩阵的不同entries来进行乘法,并根据达到精确的乘法结果所需的操作数量来得到褒奖分数。
AlphaTensor利用一种分外的神经网络架构来利用合成演习游戏(synthetic training game)的对称性。

GATO

该模型是由Deepmind开拓的通用智能体,它可以作为一个多模态、多任务或多embodiment泛化策略来利用。

具有相同权重的同一个网络可以承载非常不同的能力,从玩雅达利游戏、描述图片、谈天、堆积木等等。

在所有任务中利用单一的神经序列模型有很多好处,减少了手工制作具有自身归纳偏见策略模型的须要,并增加了演习数据的数量和多样性。

这种通用智能体在大量任务中都取得了成功,并且可以用很少的额外数据进行调度,以便在更多的任务中取获胜利。

目前GATO大约有1.2B个参数,可以实时掌握现实天下机器人的模型规模。

其他已揭橥的天生性人工智能模型包括天生human motion等。

参考资料:

https://arxiv.org/abs/2301.04655