作者:蛋酱

生成式AI走进小学生编程第一课:画条线生成音乐、草图一秒变大年夜作_技巧_音乐 科技快讯

在经典作品《小王子》中,有这样一幕情节:一个小孩子画下了蛇吞象的样子,他向大人们展示自己的作品,并问他们害不害怕。
然而,所有的成年人都说:「一顶帽子有什么恐怖的?」

但对付充满想象力的孩子来说,这并不是一顶帽子,而是一条正在消化大象的蟒蛇:

相信每一位读者都曾被这段情节所打动,这便是艺术创作的精髓所在。
对付小朋友来说,纵然是几笔大略的线条,也代表着最纯洁可爱的想象。

比如,大略的几笔涂鸦,为何不能代表光怪陆离的科幻天下?借助 AI 的「画笔」,从灵感到完全作品也不过几秒的韶光:

再比如,一条随手画出的波浪线,也能变成一段美妙的旋律:

这些神奇的「AI 邪术」,都来自于一个名为「腾讯 AI 编程第一课」的小程序。

孩子们的「AI 第一课」

自 2022 年以来,天生式 AI 热度不减,以 Stable Diffusion、GPT-4、PaLM 2 为代表的大模型成为了热门关键词,并衍生出文本天生、图像天生、动画制作、***天生等领域的落地产品,深刻改变了人们的生活办法。

不难想象,未来将是 AI 创造更多代价的时期。
这个时期对青少年的 AI 认知与打算思维提出了新的哀求,但这些「高大上」的技能,对孩子们来说仍旧是有间隔感的。

如何将最前沿的技能以易感知的办法通报给他们,增强青少年对科学技能的兴趣、深化青少年对 AI 领域发展的认知呢?

通过剧本式、「玩中学」的办法,腾讯与中国宋庆龄基金会共同发布「AI 编程第一课」***项目,为全国零根本青少年供应 AI 和编程启蒙小程序平台,首批上线内容结合中国航天、未来交通两项国家重大科技议题,原创意见意义探索故事,让青少年在1小时中初识打算思维、AI基本事理、人机协同理念等。

开学之际,「腾讯 AI 编程第一课」正式上线。
在腾讯音乐天琴实验室的技能支持下,小程序上线了「AI 创作」版块,分为「AI 作曲」和「AI 作画」两个功能,希望能让孩子们体验到最新 AI 技能的魅力。

今年 10 岁的静宜(化名)是「腾讯AI 编程第一课」的首批「用户」之一。
几天试用下来,最让她好奇的便是「AI 创作」功能的实现事理:

「为什么不同的线可以天生不同的曲调?」

「曲线如何变成音乐?」

「AI 是怎么猜到我心中想画的是什么呢?」

这些问题的确令人好奇,以是这款宝藏运用背后有哪些 AI 技能?接下来,让我们一探究竟。

从一条线到「宫商角徵羽」的神奇之旅

提到 AI 音乐天生,大部分人并不陌生。
今年 1 月,谷歌发布了「MusicLM」,实现了从文本或图像中天生高保真音乐。
之后,Meta 开源了可天生各种音频的 PyTorch 库「AudioCraft」,能够基于用户输入的文本天生高质量、高保真的音频,不仅能天生有旋律的音乐,乃至还可以选择乐器。
这一系列方法都有一个特点:直接从文本 / 图像天生音频。

在「AI 作曲」功能研发过程中,天琴实验室首先对上述方法进行了考试测验与评估。
他们创造,现有的从文本到音频的音乐天生大模型确实取得了不错的进展,但间隔大规模商用还有一个寻衅必须办理:采样率低的问题。

「音乐的标准采样率为 44.1 kHz 或 48 kHz,语音的采样率是 16 kHz,目前大部分方法天生的音乐只有 24 kHz 或者 32 kHz,音质有待提升。
」天琴实验室 AI 作曲团队技能职员泽文表示。

来自 *** 音乐卖力这次「AI 作曲」功能研发的团队成员都有过音乐创作经历,有人曾担当乐队吉他手,也有人曾是音乐制作人。
这些经历让他们对付天生音乐的质量哀求更加极致,同时也带来了主要的启示:他们忽然想到,或容许以采取与人类创作过程非常相似的天生办法,以担保音乐的连贯性和高质量。

终极,他们决定采取「符号音乐天生」这一技能路线。
「从自然措辞处理的角度来看,乐符本来就可视为一种措辞,不同的曲直谱包含的信息密度比文本更高,还包括旋律、节拍、乐器、流派等。
」天琴实验室 AI 作曲技能职员哲旭表示。

经由与一线产品团队的互换,技能团队还得到了一个主要洞察:比较于常见的「哼唱识曲」,「画线谱曲」对付青少年来说是更具新鲜感的天生办法,更能引发他们对 AI 的兴趣。

在这个设想的推动下,技能团队以「曲线」作为输入,以乐谱转化为音频作为输出,打造出了颇具创意的「AI 作曲」功能。
详细来说:

第一步是从划线图像到音符的识别。
孩子们画线的起伏高低就象征着旋律的变革,界面中的横轴为韶光,纵轴对应不同的音符「do re mi sol la」,同时,也对应着中国传统的五音「宫商角徵羽」。
第二步是旋律的续写。
有了五个音符的组合,AI 就有了灵感,并将其扩展为一段 16 秒的旋律。
模型基于自回归的办法逐个音符进行预测,每个时候的输入都依赖于上一个时候的输出,直到天生一段连贯的音乐。
第三步便是编曲。
编曲模型会剖析旋律的节奏、调子、和弦,给旋律加上不同的乐器和节奏,并供应了盛行、古典和电子三种编曲风格。
第四步是算法渲染,乐谱将被转化为音频。

至此,一首完全的音乐就完成了。

天琴实验室 AI 作曲卖力人 Ethan 表示,符号音乐天生技能的代价远不止于娱乐向、教诲向的 C 端产品,更值得期待的是成为高效的音乐人创尴尬刁难象。
从文本直接到音频的过程像一个「黑箱」,而「符号音乐天生」有完全的乐理系统支撑,天生结果也是可编辑的,音乐人可以在天生的乐谱中进行二次创作。

这种对付技能落地代价的考量,在天琴实验室的技能探索中是一以贯之的。
作为腾讯音乐旗下首个音***实验室,他们希望真正将 AI 创新技能融入到产品之中,为用户供应高度个性化及差异化的音乐娱乐体验。

目前,天琴实验室在 AI 音乐天生的技能积累已经覆盖了作曲、混音、编曲、作词、演唱等全部音乐创作环节。
除了供应「作曲、混音、编曲」能力的一站式音乐天生技能「琴乐」,以及 AI 赞助作词平台「觅词」。
此外,腾讯音乐 AI 伴侣「小琴」和「小天」两款虚拟人产品均已运用于歌曲的智能演唱之中。

比如,本次「AI 编程第一课」的主题曲《邪术字符》,便是由腾讯、*** 音乐、腾讯音乐天琴实验室共同打造的,从作曲到演唱全链路均由 AI 完成。
个中,「琴乐」一站式音乐天生技能完成作曲、混音及编曲,「觅词」赞助创作了意见意义十足的邪术歌词,虚拟人「小琴」卖力终极演绎。

AI 时期,每个人都是「神笔马良」

与音乐的意义类似,绘画也是一种表达情绪的办法。

当前,AI 在绘画天生方面的运用已经比较成熟,比如通过笔墨 Prompt 天生图像的 Stable Diffusion、Midjourney。
但用过的人都知道,如何设计 Prompt 也是一大难点,天生结果未必总能「如人所愿」。

问题来了:AI 能不能接住小朋友的奇思妙想呢?

天琴实验室 AI 作画团队的成员们意识到,对付「AI 作画」功能的用户群体 6-12 岁的孩子来说,以笔墨形式去天生图像仍旧存在一定的门槛,特殊是仅利用文本难以掌握天生细节,无法对图片进行细化编辑。

因此,他们将目光锁定在一种更能发挥想象力和创造力的方法:线稿成画。

在「AI 编程第一课」的「AI 作画」中,不同于传统的「文生图」须要输入非常繁芜的 Prompt,用户只须要大略描述几笔,就能让「草图」变成「佳构」。

这种方法不仅须要扩散模型强大的天生能力,还须要精确的条件掌握方案。
「AI 作画」这一功能能够在短韶光内顺利上线,很大程度上得益于天琴实验室在图像天生领域的技能积累。

从 2022 年,天琴实验室开始布局天生式 AI 技能,并在 *** 音乐和全民 K 歌中运用落地,比如直播礼物、歌词海报、歌曲背景图、AIGC 播放器、歌曲封面图等多项功能。
对天生图像风格 / 内容的精确掌握,一贯是天琴实验室在重点研究的方向。

比如,「AI 歌曲封面」便是 AI 技能与音乐理解结合的一大成果,为 *** 音乐曲库中大量封面留空的作品自动天生封面,不仅能够让音乐人和作品的关注度得到提升,更主要的为新上作品供应了降落制作本钱的选择。

此外,天琴实验室还推出了 AI 音乐视觉天生技能 MUSE(Music Envision),「以歌生图」能力便是其一大亮点:用户选择一首歌或一段歌词,就可以将歌曲的意境用 AI 技能具象化呈现出来,包括歌词海报、歌词动效***等视觉内容。

这种「意境」与「具象」的转化,在本次「AI 作画」中也有所表示。
「小朋友的绘画作品可能会更加写意,对付这种情形,我们专门利用儿童涂鸦和终极成品图进行了搭配演习,为模型定制干系能力以提升最终生成效果。
」天琴实验室 AI 作画卖力人 Ben 表示。
「我们在精确描述和物体识别之间进行了一种平衡,一方面让草图的线条起到勾引浸染,另一方面通过大略的线条进行内容本身的识别,同时给到模型一定的自由发挥空间。

而这些成果和履历不但用于腾讯音乐的内部业务,也正在赋能全行业。

很多 AI 运用面向的用户数量都比较弘大,这将带来极高的大模型推理本钱。
对付这个问题,天琴实验室推出了 MUSE Light 大模型推理加速引擎,并在 HuggingFace 公开拓布了 lyraSD、lyraChatGLM、lyraBELLE 三项开源大模型的加速版本,实践效果均为行业领先,在 B 端助力技能从业者和科研事情者节约韶光和本钱。

在「AI 编程第一课」的研发实践中,MUSE Light 帮助节省了 90% 以上的推理本钱,使图像的天生加速了 10 倍,且有效提升了用户体验。

此外,团队还不雅观察到:「从草图天生图像的技能已经取得不错的效果,但如果他人想去考试测验一件同样的事情,前期会花很多的韶光,才能找到比较合用的模型。

为理解决这个痛点,天琴实验室将过往的技能实践履历搜集在 AI 绘图创作平台「MUSE UI」之中。
该平台领悟了 MUSE Light 大模型推理加速等多项行业领先的创新技能,供应了「一键出图」、「模型广场」、「图搜模型」、「动图天生」、「一键定制绘图加速做事」、「多场景绘图运用」等多项功能。
借助 MUSE UI,设计师、插画师和其他专业人士将节约更多韶光本钱并最大程度地提高效率。

据理解,经由内部业务实践的考验之后,MUSE UI 平台也将在不久后面向全行业开放。

当万物皆可 AI 天生的时期来临

这两年来,与天生式 AI 干系的技能创新与运用总能成为热门话题。

虽然从内容生产的维度去评价,AI 天生音乐、图像作品的艺术代价还存在诸多争议。
但可以期待的是,随着技能的不断发展,现阶段的很多问题将被战胜,AI 天生内容的水准一定会有所打破。

从生产力发展的角度看,天生式 AI 使得内容生产的门槛不断降落,效率不断提高,这对付各行各业来说都是巨大的变革。
例如,利用 AI 天生营销文案,本钱仅为人工撰写的几十分之一,且内容更加多样化。

可以确定的是,未来的社会生产分工,将会更看重人机协作模式,对人的打算思维能力的培养也更加主要。
我们必须适应这种变革,找到自身在新时期的定位,更充分地去感想熏染科技带来的美好。

在这种背景下,科学教诲理念也须要随之进化。
对付本日的青少年来说,他们未必需要过多关注 AI 的底层技能,未必需要一行一行地编写代码,更主要的是先学会如何「Prompt」。

对付「AI 编程第一课」的青少年用户来说,这可能是他们的「AI 第一课」,也是他们成为智能时期新型人才的起航点。