多模态大年夜模型应用集中亮相开启“AI+文创”新纪元_模子_多模

2024-12-08 18:45:41 AI快讯

7月6日，在大会期间举行的“智启文创，引发无限新质生产力”论坛上，电子科技大学打算机科学与工程学院院长、欧洲科学院院士申恒涛判断，“多模态已经成为大模型的标配”。
不过如果将多模态大模型技能和自动驾驶来对标的话，专家认为，我国当前在干系领域的技能成熟度约能达到“L2”级别。

多模态大年夜模型应用集中亮相开启“AI+文创”新纪元_模子_多模 AI快讯

梅涛表示，从不雅观念上来看，大家现在所提“大模型”观点基本都是在指“多模态大模型”，AIGC的技能在不断提升，Agent（智能体）引发了大模型的一些潜力，（多模态大模型）成为了强劲的生产力工具，可以赋能到行业当中去。

不过如果将以***天生技能为代表的多模态大模型的发展和自动驾驶来对标的话，加拿大工程院外籍院士、智象未来创始人梅涛指出，我们目前都处于L2的阶段，即目前还是致力于单镜头画面的生产并努力使画面的质量更加优化。

按照梅涛的划分，***天生的技能能力的L1到L5级别分别对应着“逐帧动画”“单镜头动画”“多分镜动画”“连续故事”以及“完全的故事”。
“什么叫L5，便是我输入的是一本小说，AI输出的是一部电影，这是我们的终极目标，但是这个目标还有很长的路要走。
” 他说。

据梅涛先容，从发展路径来看，通用人工智能的发展有两条路径，第一条路径是做文本、措辞的压缩，现阶段已经从GPT4步入到GPT5能力水平。
“这条路线国外的竞争非常激烈，我们国家也有很多初创企业、大模型公司在竞争，接下来须要比拼数据、算力等一些资源的积累。
”而另一条路径便是基于一种扩散模型（Diffusion model）和通过仿照物理天下来构建AGI的过程。

梅涛认为，多模态有两个路径：理解和天生。
“在多模态连接时，我们沿着第一条路径往前走，而多模态的天生是沿着第二条路径走的。
不管是OpenAI的Sora还是中国的多模态大模型，当前在第二条路径上的发展水平相对而言会轻微滞后一点，大概处于GPT2的阶段，但是未来的空间潜力很大。
”

在梅涛看来，我国多模态大模型技能的发展任重道远，个中商业化本钱是较大的阻碍。
他称多模态大模型当前的演习和推理本钱很高，“我们目前要天生1秒钟的***，它的本钱在1元到1美金之间。
”

(本文来自第一财经)