译者 | 核子可乐

吴恩达:2022 年AI 创造了这些事业_模子_措辞 计算机

策划 | 刘燕

吴恩达在圣诞节当天发布了一年一度的年终盘点,他从纯技能的角度出发,回顾 AI 科技在 2022 年创造出的那些奇迹。
在过去的一年,AI 技能取得了巨大进步,天生式 AI 成为新一轮投资的热门去向,人工智能天生的文本、图像乃至是代码已经无处不在。
Vision Transformer(ViT)在 2022 年同样迎来爆发式增长,今年之内有超 17000 篇 ViT 论文发布。
研究职员打破了措辞模型的边界,希望办理可信度、偏见和可更新性等老大难问题。

来自吴恩达的一封信

亲爱的朋友们,大家好:

随着新年的附近,又到了寒冬肆虐的时候。
但于 AI 来说,如今的我们绝非身处寒冬,而是热浪席卷的盛夏。

如今 AI 创造出的大部分经济代价集中在监督学习工具方面,即经由演习即可天生各种短标签(垃圾邮件 / 非垃圾邮件)乃至一系列标签的凑集(例如音频转录文本)。
今年,建立在监督学习技能之上的天生式 AI 也掀起新一波浪潮,让 AI 得以天生繁芜且引人瞩目的丰富输出,包括自然顺畅的图像或文本段落等。

虽然强化学习等前一阶段的新工具未能带来与炒作声量符合的成果,但天生式 AI 确实表现良好,也成为 AI 运用领域的又一崭新范例。

更主要的是,监督学习所发挥的还只是其全部潜力中的一小部分。
相信还有数以百万计的监督学习潜在运用尚未成为现实。
目前环球无数团队仍在考试测验通过监督学习找到产品开拓的最佳实践。

相信在新的一年乃至更久远的未来,天生式 AI 将连续腾飞,为每个人创造更多代价。
我有幸能够生活在这个科技飞速发展的时期,也欣慰于有机会参与个中创造未来,更为自己能与各位好友分享这个变化多端的天下而高兴不已!

新年快乐

你的朋友,Andrew

2022:令人眼花缭乱的 AI 之年

相信很多朋友正一手端着咖啡,一手跟 ChatGPT 闲聊,想让它为自己的亲朋好友推举几样新年礼物。
回顾这一年,AI 技能无疑取得了巨大进步。
无论是目前已经颇有水准的文本、图像和代码天生能力,还是未来即将涌现的***与音乐创作前景,都让用户感到愉快莫名。

当然,人们对付 AI 创造力的下一步进展也提出了疑问。
一方面,AI 发展让更多化学与物理学模型成为可能,科学创造亦由此迎来又一股助力;而另一方面,政府则开始严格管控可用于 AI 创新的专用微处理器供应。
在这个抵牾丛生、繁芜多变的新时期,就让我们从纯技能的角度出发,回顾 AI 科技在 2022 年创造出的那些奇迹。

合成图像已无处不在

由 AI 天生的图片正广为流传、引发争议,同时也成为新一轮投资的热门去向。

趋势背景:新一代文本到图像天生器掀起实验热潮,如今普通人也能靠措辞描述快速创作出迷人的艺术作品和抱负场景。
商业企业迅速将这项技能投入利用,让 AI 图像天生成为图形创作和编辑软件中的又一必备功能。

关键驱力: 凭借友好的用户界面、妙趣横生的输出结果和开放的 API 与模型,媒体天生类模型如今已经成为 AI 技能的“形象代言人”。

OpenAI 于今年 4 月发布 DALL-E 2,超过 150 万用户参与了这套模型的 beta 测试。
到 9 月,DALL-E 2 模型全面开放。
微软通过帮助 OpenAI 得到了对该成果的独家商业所有权,并迅速将模型集成到 Azure AI 即做事平台当中。
今年 7 月,各社交媒体平台上涌现了大量一键式艺术创作方案,这些略显粗糙的图像背后依托的则是相对大略的 Craiyon。
Stability AI 很快通过开源模型 Stable Diffusion 将 AI 图像创作推向新高潮——今年 11 月,此模型更新为 2.0 版,并终极吸引到超 1 亿美元新成本。
Adobe 和照片存储业两大巨子 Getty Images 与 Shutterstock,纷纭将图像天生模型集成到自家产品和做事当中。
此类程序可能根据给出的文本提示天生截然不同的结果。
PromptBase 则开辟出新的市场空间,可根据描述天生有趣的文本字符串图形。

统统都很美,只是:这类模型是根据抓取自网络的图像演习而成。
与大措辞模型一样,它们也同样继续了线上内容中的偏见和鞭策性表达办法。

Lensa AI 是一款照片编辑运用,可根据用户的自拍照天生“邪术头像”。
只管在移动运用排行榜上迅速蹿红,但其成功也伴随着不少争议——不少用户,特殊是女性用户,创造该运用会刻意在输出图像中添加性化元素。
视觉艺术家在线社区 ArtStation 也推出了自己的文本到图像功能。
很多艺术家以为,这种几秒钟内就能模拟艺术家个人风格的打算机程序可能威胁到他们的职业生涯,因此纷纭抵制该网站

***背后:Diffusion 模型最初的输出结果只能用噪音来形容,但随后会通过一系列步骤有选择地去除低质量内容。
由加州大学伯克利分校和斯坦福大学研究职员于 2015 年推出的这套模型经历了数年开拓,终极成果表明其已经能够创作出足以匹敌天生对抗网络(GAN)的高水平图像。
Stability AI 的 Stable Diffusion 正是以 Diffusion 模型为核心。
另一方面,作为基于 GAN 的 DALL-E 的缔造者,OpenAI 也险些在同一韶光用 Diffusion 模型对自家成果进行了更新。

现状解读:新年中,相信打算机赞助创作革命将连续酝酿蓄力。
天生式图像的风潮也绝不会止步于二维平面。
谷歌和 Meta 今年都公布了令人印象深刻的文本到***模型,而 OpenAI 的文本到 3D 工具也将天生速率提升到了新的量级。

程序员的好朋友:编程助手大显技艺

软件项目进度又掉队了?别怕,AI 新运用能帮忙。

趋势背景:事实证明,只要对代码做出微调,措辞模型就能很快像经济丰富的开拓者那样编写出软件例程……当然,输出质量仍旧有待商榷。

关键驱力:AI 驱动的代码天生器正上岸各大企业,乃至小开拓商和非技能人士也能轻松利用。

今年伊始,Ebay 就考试测验将低代码工具交到非工程师的手中,让他们在无需 AI 或机器学习专业知识的情形下构建和支配模型。
今年 2 月,DeepMind 推出了 AlphaCode。
这是一款转换器,接管了 12 种编程措辞共 8600 万种程序的预演习,乃至针对编码竞赛的参赛作品进行了调优。
在推理阶段,它能天生上百万种可能的办理方案并过滤掉低质量的条款。
终极,它在 10 场编码比赛中击败了半数以上的参赛者。
今年 6 月,GitHub 开放了 Copilot 功能。
这是一款能实时供应编码建议的自动补全部系,普通用户须支付订阅费方可利用,但学生和经由认证的开源开拓者可以免费访问。

***背后: OpenAI GPT-3 措辞模型的用户们早在 2020 年就创造,该模型完备可以天生能跑的代码。
一年之后,OpenAI 又推出了名为 Codex 的调优版本,这便是如今 GitHub Copilot 的雏形。

统统都很美,但是: 这项技能的公开可用版本还无法编写繁芜的程序。
而且其输出乍看之下每每精确,但跑起来的结果却是错的。
此外,Copilot 项目还身陷法律风险。
针对 GitHub、OpenAI 和微软的集体诉讼认为,Codex 的演习过程违反了开源容许协议。
终极讯断结果很可能对文本、图像和其他媒体的天生模型产生深远的法律影响。

现状解读:AI 驱动型编码工具在短韶光内还不太可能取代人类程序员,但它们确有可能顶替技能问答网站 Stack Overflow,成为开拓者们最喜好的疑难问询小助手。

AI 之眼也在进化

Vision Transformer(ViT)在 2022 年同样迎来爆发式增长。

趋势背景: 研究职员们在今年之内揭橥了超 17000 篇 ViT 论文,它们的共同主题便是:将自把稳力与卷积结合起来。

关键驱力:Google Brain 的一支团队在 2020 年率先推出 Vision Transformer(ViT),此后该架构经历了持续改进。
终极的努力让 ViT 得到了适应新任务的能力,同时也办理了不少此前难以战胜的短板。

ViT 能够从海量数据中得到良好学习效果,因此 Meta 和索邦大学的研究职员希望能“仅”靠数百万示例数据集就让模型得到空想性能。
他们利用数据增强和模型正则化等源自 transformer 模型的特定改造考试测验提高性能。

韩国仁荷大学的研究职员修正了个中两个关键组件,使 ViT 更像卷积神经网络。
他们首先将图像失落势成具有更多重叠的小图块,之后修正了自把稳力机制以关注每个图块的相邻图块、而非当前图块自身,这样模型就能理解该为相邻图块授予均匀权重还是选择性权重。
这些修正显著提高了模型准确性。

印度孟买理工学院的研究职员为 ViT 配备了卷积层。
由于权重共享,卷积能够在本地处理像素、同时降落内存占用量。
在准确性和速率方面,他们的卷积 ViT 也优于常规版本的 ViT 以及 Performer、Nyströformer 和 Linear Transformer 等 transformers 运行时优化方案。
这种方法也得到了其他多支团队的采纳。

***背后:虽然不少 ViT 研究的目标在于终极取代卷积神经网络(CNN),但目前的主流趋势显然是将两者结合起来。
ViT 的上风,在于它能够从大、小两个尺度考量图像内所有像素间的关系。
但它的缺陷是,模型须要额外的演习才能在随机初始化后融入 CNN 架构以进行学习。
CNN 的局部高下文窗口(即个中只有局部像素较为主要)和权重共享(使其能够以相同的办法处理不同的图像位置)能帮助 transformers 从较少数据中学习到更多模式。

现状解读:过去一年来,Vision Transformer 的运用范围得到了极大拓展。
ViT 已经能够天生真假难辨的连续***帧,从 2D 图像序列到天生 3D 场景,并检测点云中的工具。
如果没有这些成果,近期大火的 Diffusion 模型恐怕也无法达成如此惊艳的文本到图像天生进步。

措辞模型持续扩展

研究职员打破了措辞模型的边界,希望办理可信度、偏见和可更新性等老大难问题。

趋势背景: 虽然不少 AI 实验室都想通过改进数据集和演习方法(包括演习单一 transformer 翻译上千种措辞的方法)提升大措辞模型的繁芜度,但也有一些研究者考试测验扩展模型架构,希望借此实现网络搜索、外部文档查询和更强的新信息适应效果。

关键驱力: 如今的措辞模型虽然表现出强大的文本天生能力,但在辨别事实、掌握“脑洞”和肃清社会偏见方面仍旧孱弱。
研究职员正努力让措辞模型的输出更值得依赖,同时减少鞭策性。

2021 年底,DeepMind 提出了 RETRO,一种能从 MassivText 数据集中检索段落、并将其整合至输出中的模型。
Al21 Labs 于春季推出的 Jurassic-X 引入了一套模块,包含一个打算器加一套维基百科查询系统,能够对措辞模型就数学问题、历史事实等做出的回答实行事实验证。
斯坦福大学和洛桑联邦理工学院的研究职员创建了 SERAC,这是一套无需重新演习、即可用新信息更新措辞模型的系统。
它有一套独立的系统,专门用于存储新数据并学习与之干系的查询结果,借此调度终极输出。
Meta 构建的 Atlas,是一种能从文档数据库中检索信息以回答问题的措辞模型。
此方案于今年 8 月发布,参数量仅为 110 亿的 Atlas 在回答问题时表现乃至优于包含 5400 亿参数的 PaLM。
今年晚些时候,OpenAI 对 ChatGPT 做出调优,以最大限度减少不真实、偏见性或有害性输出。
由专人对该模型的演习数据质量进行排名,之后利用强化学习算法褒奖模型优师长西席成与高排名结果相似的输出。
上述发展趋势,也让人们对措辞模型提出了更加奇妙且动态的基准哀求。
为相应号召,130 多家机构在 BIG-bench 项目中展开互助,考试测验联手办理通过表情符号推断电影自勉、参与仿照试验和检测逻辑谬误等一系列任务。

***背后:在取得进展的同时,措辞模型也闹也不少乱子。
Meta 公开展示的 Galactica 是一套可天生关于科学及技能主题文本的措辞模型。
但在 11 月开放展示短短三天,该模型就由于方向于天生虚假信息和引用并不存在的来源而遭到关停。
今年 8 月,同样来自 Meta 的谈天机器人 BlenderBot 3 则因散布种族主义刻板印象和阴谋论而快速弄臭了名声。

现状解读:这一年以来,文本天生领域的靠谱工具可谓争相呈现。
相信成功的技能将在不久的未来,凭借一鸣惊人的新模型从激烈竞争市场上杀出一条新路。

是否有全能模型

少数深度学习模型已经证明了自己办理几百种任务的能力。

趋势背景:过去一年,多任务模型的阵容也在急剧扩大。

关键驱力:研究职员打破了神经网络所能节制的技能数量上限。
他们的灵感来自大措辞模型的新兴技能——例如无需架构调度就能创作诗歌加编写打算机程序,而利用文本和图像演习而成的模型也得到了在不同类型数据间找寻对应关系的能力。

今年春季,谷歌的 PaLM 在涉及措辞理解和天生的数百项任务中,展示了小样本学习的最新成果。
在某些情形下,其表现乃至优于经由调优的针对性模型或人类的均匀水平。
不久之后,DeepMind 发布了 Gato。
其能够处理 600 多种不同任务,包括玩雅达利游戏、用机器手堆积木、天生图像解释等等,而且并不须要借助专用于这些任务的单独模型。
该系统同时接管了各种数据集的监督演习,包括文本和图像识别、基于强化学习智能体天生动作等等。
随着 2022 年靠近尾声,谷歌研究职员又为机器人技能带来了类似的普适性能力。
RT-1 也是一种 transformers 模型,能够勾引机器人实行 700 多项任务。
该系统能够将动作和图像令牌化,在近一年半的周期内利用多台机器人网络的 13 万组数据完成了演习。
与原有技能比较,它在新任务、新环境和新工具上都表现出了强大的零样本适应性能。

***背后:欧盟拟议的 AI 法案最新草案很可能在 2023 年通过为法律。
该法案将哀求通用 AI 系统用户向当局注册,由官方评估其系统是否存在潜在滥用行为,并定期接管审计。
该草案将通用 AI 系统定义为“实行图像 / 语音识别、音频 / ***天生、模式检测、问答、翻译等普适性功能”,且“具有多种预期之内 / 之外用场”的 AI 系统。
一些不雅观察家批评该定义过于宽泛,相信后续真正具备通用性的新兴模型可能会匆匆使监管机构进一步完善定义内容。

现状解读:目前能够推广至数百种不同任务的 AI 算法仍处于早期发展阶段。
但 2022 年的实际进展,再次表明深度学习具备帮助我们达成这一目标的潜力。

原文链接:https://www.deeplearning.ai/the-batch/issue-176/