AI***创意图 © 由微软 Copilot 天生

Sora开年王炸!分分钟读懂AI视频进化史_视频_模子 文字写作

马斯克再度预言成真,2024果真是人工智能电影元年——GPT 技能带来的新一轮人工智能热潮持续席卷环球一年之后,龙年伊始 Sora 再次横扫千军。

2023年11月27日 Pika 爆火后,马斯克预判称明年将是“人工智能电影”元年

近日,Sora 以笔墨一键输出的一分钟连贯***里,呈现出高渡过细的背景、精细繁芜的多角度镜头,以及富有情绪的多个角色,横扫此前统统 AI ***技能,可谓英气干云。

根据 OpenAI 的说法,Sora 是结合了 Transformer 和 Diffusion 这2个迄今最主要的模型:ChatGPT、Gemini、LLaMA 等措辞模式都是基于 Transformer 模型——对词语进行标记,并天生单词;Diffusion 模型则被归类是“文生图”的模型。

有专业机构指出,如果从“理解天下”的角度来核阅 Sora,那么某一帧图像的画质、画面关系绝不是模型质量高低的评判标准,乃至官网释出的 60 秒一镜到底***也不是最核心的部分。
真正的重点在于***存在不同机位,不论远、中、近、特、广,***中人物和背景的关系都保持着相称的同等性。
这才是业界认为 Sora 的遥遥领先之处。

图片来自网络:Sora跟其他多个***模型的差异

Sora 如此吸睛的缘故原由不仅在于AI如何天生***,更在于这背后的意义——即演习 AI 理解物理天下,继而天生各种真实场景的可能性。
天下对 Sora 的关注,表示的实在是人们对未来“天下仿照***天生模型”的展望和期待。
正因如此,Sora 的亮相也极大概率会促进通用人工智能(AGI)的加速到来。

***剪辑创意图 © 由 微软Copilot天生

所谓“天下仿照器”的说法,源自 OpenAI 官网上一篇关于 Sora 的名为《把***天生模型作为天下仿照器》的研究论文,文中 Open AI 自称Sora是“天下仿照器”。
然而也有不少大神级科学家对此并不认同。
比如图灵奖得主、Facebook 首席AI科学家杨立昆( Yann LeCun)就认为 Sora 不能理解物理天下,并顺势安利了 Meta 前几天推出的AI***模型 V-JEPA 联合嵌入预测架构的优胜性。

杨立昆在外洋社交媒体揭橥见地,否认 Sora 能够理解物理天下

此外,前谷歌、Facebook 技能主管 Hongcheng 也在近期表示 AI 模型不大可能通过被动看演习数据***,就能节制物理定律。
更有专家剖析认为,从 Sora 天生的部分***来看,它是依赖于数据插值和潜空间拼贴来天生图像,而非真实的物理仿照……各种说法纷至沓来,一时之间难决牝牡。

***剪辑创意图 © 由 微软Copilot天生

回顾过去几年,大措辞模型(LLM)和***天生技能(Video GC)一贯不断进步,AI 在***创作领域的利用,不仅降落了***创作的韶光和人力本钱,也为***创作者们供应了源源不断的创意,从而极大地提升了***内容的生产效率。

Sora 问世前,按照***天生办法进行划分,盛行的 AI ***天生“三件套”包括笔墨天生***、图片天生***、***天生***。
据此, Runway 、Pika、Descript 都曾成在彼时红极一时。
个中 Runway 主打***风格迁移的 Gen-1 和主打文本天生***的 Gen-2,该技能早已被运用于电影、电视与广告等领域:去年横扫奥斯卡7项大奖的电影《瞬息全宇宙》背后的视觉效果团队就利用了 Runway 的技能来帮助创建某些场景,比如用 AI 工具去除背景、放慢***、制作无限延伸的图片等等。

电影《瞬息全宇宙》海报

Pika 则在2023年后半程备受关注——产出质量上优于 Runway,且操作更为大略:这家仅4人的初创 AI 公司,仅六个多月内就结束测试、发布了首款正式产品 Pika1.0,天生并编辑3D动画、动漫、卡通等微电影。

图为一句话“elon musk in a space suit,3d animation”天生的***

Descript 则和 Runway 及 Pika 有所不同,它能够将***转录成文本,让用户通过大略修正文本来同步编辑***。
只需修正笔墨,***就会随之改变。

Descript功能示意

语音克隆是 Descript 供应的另一项有趣且实用的功能——用户可以克隆自己的声音,以此编辑***,轻松肃清口误,并能调度讲话中的停顿和语气,是集写作、录音、转录、编辑、协作和分享***与播客于一身的 AI 工具。
通过 Descript,用户可以像利用文档和幻灯片一样轻松完成***编辑,从而节省下大量韶光和精力,更加专注于创意部分。

通过编辑文本来编辑***中的图片颜色

除了上述提及的产品,过去一年中,不少公司还积极借助大措辞模型(LLM)的崛起,为 AI ***创作开拓了更多新领域。
比如 ChatGPT 中的 Visla 插件可以根据用户输入的一句话,快速天生有字幕、有语音讲解、有情节的小***。

Visla插件

HourOne 则利用字符天生技能(Character Generation Technology),通过 AI 将人类的外面、声音和动作复制出来,创建出所谓的"虚拟人"。
这些虚拟人物可以在***中朗读文本,从而化身为“西席”“***播报员”“虚拟代言人” 等角色。

HourOne功能示意

Fliki 的最大亮点则在于,可以根据文本天生逼真的人类语音和***内容,并配以相应的虚拟人物或动画创造出吸引人的视听内容。

Fliki功能示意

回顾至此,不难创造短短一年,AI ***技能的发展就实现了垂直增长:***创作将来便捷化、智能化、高效化的时期。
AI 技能不仅为创作者们带来更加丰富多样的创作办法和体验,更令***创作不再局限于专业领域,匆匆使普通用户轻松参与个中,创造出独具个性和创意的***作品,为 AI 时期成为单人创业家创造了良好的先决条件。

垂直增长这一观点,由微软环球资深副总裁张祺博士于去年3月首次提出,并发起了“单人创业家(One-Person Entrepreneur)”行动,是指利用 AI 技能的能力和潜力,以“单人+ AI 即团队”的模式,实现垂竖立异和垂直增长。

站在2024龙年伊始,作为这场变革的见证者和推动者,期待着***创作领域在 AI 的引领下发达发展,期待这一技能颠覆行业的时期,***创作者们能进一步通过技能实现单人创业,首创崭新的创作纪元。