多模态大年夜模型应用集中亮相开启“AI+文创”新纪元_模子_多模
7月6日,在大会期间举行的“智启文创,引发无限新质生产力”论坛上,电子科技大学打算机科学与工程学院院长、欧洲科学院院士申恒涛判断,“多模态已经成为大模型的标配”。不过如果将多模态大模型技能和自动驾驶来对标的话,专家认为,我国当前在干系领域的技能成熟度约能达到“L2”级别。
梅涛表示,从不雅观念上来看,大家现在所提“大模型”观点基本都是在指“多模态大模型”,AIGC的技能在不断提升,Agent(智能体)引发了大模型的一些潜力,(多模态大模型)成为了强劲的生产力工具,可以赋能到行业当中去。
不过如果将以***天生技能为代表的多模态大模型的发展和自动驾驶来对标的话,加拿大工程院外籍院士、智象未来创始人梅涛指出,我们目前都处于L2的阶段,即目前还是致力于单镜头画面的生产并努力使画面的质量更加优化。
按照梅涛的划分,***天生的技能能力的L1到L5级别分别对应着“逐帧动画”“单镜头动画”“多分镜动画”“连续故事”以及“完全的故事”。“什么叫L5,便是我输入的是一本小说,AI输出的是一部电影,这是我们的终极目标,但是这个目标还有很长的路要走。” 他说。
据梅涛先容,从发展路径来看,通用人工智能的发展有两条路径,第一条路径是做文本、措辞的压缩,现阶段已经从GPT4步入到GPT5能力水平。“这条路线国外的竞争非常激烈,我们国家也有很多初创企业、大模型公司在竞争,接下来须要比拼数据、算力等一些资源的积累。”而另一条路径便是基于一种扩散模型(Diffusion model)和通过仿照物理天下来构建AGI的过程。
梅涛认为,多模态有两个路径:理解和天生。“在多模态连接时,我们沿着第一条路径往前走,而多模态的天生是沿着第二条路径走的。不管是OpenAI的Sora还是中国的多模态大模型,当前在第二条路径上的发展水平相对而言会轻微滞后一点,大概处于GPT2的阶段,但是未来的空间潜力很大。”
在梅涛看来,我国多模态大模型技能的发展任重道远,个中商业化本钱是较大的阻碍。他称多模态大模型当前的演习和推理本钱很高,“我们目前要天生1秒钟的***,它的本钱在1元到1美金之间。”
(本文来自第一财经)
本文系作者个人观点,不代表本站立场,转载请注明出处!