GOSIM:一方面,纵不雅观人工智能的历史,我们可以很明确看到人工智能的发展经由了几起几落,当前模型技能正处于不断变革演进的过程中。我当前关注到几个比较热门的技能方向,如多模态、Agent 以及面向未来的具身智能。另一方面,底层的模型技能已经产生,但是运用生态存在着不愿定性。很多人为之苦恼。您认为2024年以及未来几年内,人工智能的发展走向是什么?从技能研究到运用落地,如何能够实现一个闭环?王言治:这是须要市场来验证的。技能层面的话,便是您说的多模态,以及自动驾驶等方面大模型的运用。我以为这些肯定是一个比较大的趋势。但是模型也不见得越大越好,Fine-tune(微调)和 checkpoint(检讨点)是现在发展最好的。现在各个厂商也都找到自己大模型运用的方向,但还是有一些传统行业的内容,如客服、直播、对话机器人、数字人等等。我们做 Infra(根本举动步伐)是在助力这一趋势,但详细发展走向还是要看各个厂商的想法。GOSIM:Sam Altman 曾说过,今年是多模态的一年,您目前有在多模态上的探索吗?王言治:多模态紧张因此下两点:一是比较大略的多模态,如天生一张图或笔墨,在图里找内容,或者阐明图片。这些情形基本上便是把图或对应的 prompt 一起放进去,是 Vision Transformer 和大模型的结合,难度并不高,我们可以实现。另一种多模态是天生完全的视频,前段韶光特殊火。视频天生在国内外都被认为是AIGC的“高地”。但所天生的视频韶光比较有限,且不足连贯。在娱乐或者天生非常短的视频上比较有用,我暂时还不看好它的商业前景。此外,天生视频的本钱比较高。究竟要如何进行演习和做inference,还是存在很多问题。但大略的多模态,比如要阐明一张图,例如GPT-4 Vision,本地做是没有太大问题的。GOSIM:以是现在对您来说,本地做图是当前能够实现的状态,但须要更大本钱的视频天生在短期之内可能还没有办法实现?王言治:不是在本地不能实现,而是它的本钱和用途并不完备明确。据我所知,现在海内真正跟上发展的有几家公司:清华有一个公司做得还不错。字节的 MagicAnimate 和阿里的 Animate Anyone 也还可以。但它们大多都是舞蹈等娱乐化的内容,在详细的 App 上做得比较好。如果想做成 Stable Diffusion 这样通用的,还是比较困难的。

GOSIM:您之条件到,当前的模型都是基于 Transformer 的架构,但当前有很多谈论,包括学术圈谈论得更早,认为 Transformer 并不是未来模型的终极架构。对付架构上的演进,您有看到什么方向吗?王言治:我认为它们对 Transformer 不构成寻衅,学术界也非常清楚这一点。除了 Bert、Vision Transformer,大家都公认 Transformer 霸占主导地位。2019 年旁边,学术界基本上认定 Transformer 会一统江湖。唯一存在争议的是,比较当年的 Transformer,平移不变性在 convolution 层是存在上风的。但当 Transformer 变成 Swin Transformer,就不存在争议了。学术界偶尔有些争议,最近有些争议认为 RNN 更好,但我是不认可的。Transformer 不一定是最好的架构,但卷积一定是最好的架构吗?不见得是,在数学上没人能证明它是最好的,但是无法在实质上认为它有一个根本的飞跃。如果准确率只是提高一个点、两个点,那 OpenAI 是不会重新把它全部演习一遍的。当然有很多 Activation Function 或者其他构造都比 ReLU 好,但是不会把这些东西全部推翻、全部重新演习一遍的。除非提出了一个能连贯天生一个小时视频的架构,或者能把自动驾驶变得完备靠谱,那这个架构才值得重新演习。Transformer 接管了 CNN 的很多东西,比如 Stable Diffusion 就接管了 unit 和 convolution 的构造,以是它也不止是 Transformer 了。如果只是实现一个小参数量的变革,是没故意义的,除非能够实现革命性的改变,重新演习才故意义。GOSIM:海内的很多研究是起于学术的。很多海内大模型都是开始于学校、实验室,紧接着创业。可以从您亲自打仗的美国人工智能发展的视角来谈谈吗?王言治:美国基本上是工业界领先于学术界的,如 OpenAI、Microsoft、谷歌、Meta 这些公司。研究紧张集中在天生视频、多模态上。几个里程碑的进展都是由工业界实现的。2018 年的时候,我们认为人工智能没有什么实质性的进展,谷歌发布了 Bert,把 Transformer 变成了现实。除了 Bert,其他的都很难称为实质性的进展。之后涌现了 GPT-2,但 GPT-2 并没有 Bert 强。随后 2020 年谷歌发布的 Vision Transformer 也引发了一定轰动。2021 年涌现了 GPT-3,之后有演习生在英伟达演习时做出来了 Stable Diffusion。2022 年涌现 ChatGPT,大家一步步地把大数据和 Transformer 变成现实。GOSIM:末了,请王老师给我们的研究职员和开拓者分享一些您的建议。如何帮助大家更好地欢迎 AGI 时期的职业发展?王言治:实在我也是跟随者。我不雅观察到大家存在的一些需求,并在这方面做一些研究。我个人认为大模型是一个机会,大家可以在运用方面想一些故意思的事情。海内大模型的运用方面,实在比美国要做得更好。这方面,我也是要多学习学习。GOSIM:末了以谦逊结尾,但同时也给我们带来了非常好的金句不雅观点。感谢王老师非常多的精彩的不雅观点和分享,也感谢不雅观看 Open AGI Forum 的小伙伴们,我们本日的访谈栏目到这里就结束了,感激大家,我们下次再见!
【开箱吧,腾讯云!
】AI 赞助开拓工具品鉴会约请函