AI发人声还会“说人话”视障人群“读书”越来越动听_声音_晓晓

2024-11-08 14:04:00 绘影字幕

“晓晓”的声音来自心目图书馆，是一家做事视障人士的公益图书馆，由盲人公益组织红丹丹与微软联合开拓，连通了全国105所盲校以及浩瀚视障人士，为他们供应电子书、有声书、讲电影等做事。
这一段温暖阅读声音的背后，是AI科技创新带来的一份善意。

AI发人声还会“说人话”视障人群“读书”越来越动听_声音_晓晓绘影字幕

这个“姐姐”声音很温暖

别看阳阳存在视力障碍，但在妈妈和老师的鼓励、勾引下，她成了一个爱读书的孩子。
不过，阳阳很不喜好读屏软件发出的冷冰冰的声音：“没有停顿和感情，语调平板生硬，听一下子就累了。
”于是，除了聆听一些真人志愿者朗读制作的有声书，妈妈成了她最依赖的朗读者。

最近，心目图书馆新上传的一套有声书却改变了她的意见。
点开一本《安徒生童话》，阳阳从阅读的声音中感想熏染到的是流畅、自然、富有情绪的体验。
“这是机器人读的么？”她不禁连问了几遍。
在妈妈见告她这个声音来自人工智能“晓晓”后，阳阳笑了：“我喜好这个姐姐，她的声音很温暖。
”

闭上眼睛，随着阳阳一块听了一段“晓晓”的朗读。
伴随着舒缓自然的语调，童话故事一点点展开，让人不自觉地生出兴趣来。
阅读中，声线幽美的“晓晓”会有应时地换气、停顿，整体阅读流畅自然，宛若真人。
只有在偶尔碰着一些生僻名词时，可能会涌现停顿断句不当，才让人意识到这是人工智能在供应阅读做事。

最近上线的这套由“晓晓”阅读的《安徒生童话》赢得了不少像阳阳一样的视障儿童读者的喜好，但却显然不敷以让更多心目图书馆中的视障读者“解渴”。

范师傅是一位在北京事情多年的盲人推拿师。
事情之余，他喜好阅读一些推拿推拿类的书本，来提升自己。
但是，这样专业类的书本，很难找到盲文或有声版本。
多年来，范师傅都是通过红丹丹组织，将这类专业杂志、书本转换成电子书，再利用读屏软件进行“阅读”。

“读屏软件的声音便是那种比较平板的声音，一听便是机器读的，听着听着就有点累了，随意马虎走神儿。
而且很多时候断句不对，挺影响理解的。
”只管读屏软件的声音不尽如人意，但对付视障人士来说，这却是很多人不得不选择的阅读办法。
由于比较制作盲文版纸质书和真人录制一本有声书，“电子书+读屏软件”的阅读办法本钱较低，更随意马虎覆盖更多书目。

最近，范师傅在试听了“晓晓”阅读的书目后也不禁心生神往：“往后我想读的书，也能有这样的声音阅读就好了。
”

十几分钟就能合成一本书

范师傅的欲望正在逐步变成现实。

红丹丹视障文化做事中央实行主任曾鑫见告，首批上传的“晓晓”语音合成有声书只是一个开始，下一步，更多由“晓晓”阅读的有声书正在路上。
“现在是几本，往后会有50本、100本。
今后，我们希望每年能达到至少新增200本AI有声书。
”

不仅如此，微软还将开放平台给红丹丹的志愿者，教会他们如何自己合成有声书。
“人工智能的阅读让有声书的制作本钱和韶光大幅度的降落。
”曾鑫举了个例子，以往制作一本有声书，只管可以招募到免费阅读的志愿者，但录制加上制作的韶光最短也要三个月。
这样的本钱将大量书本挡在了有声书门槛之外。

“我们只能精挑细选大众需求度高的书目进行制作。
而像范师傅这种有个性化专业需求的书目，是无法给他量身定制真人有声书的。
”曾鑫无奈地说。

那么，利用人工智能进行文本转化语音，从而合成一本有声书须要多久？微软亚洲互联网工程院AI语音组产品总监丁秉公给出答案。
“我们有两套方案，一种可以做到实时（毫秒级）合成朗读，但是这种声音相对不足自然。
而实现比较高质量、自然的朗读，合成一本书也仅仅须要十几到二十几分钟的韶光。
”

这样的效率让曾鑫感到愉快。
“虽然现在听书软件不少，也产生了大量的有声书，但针对孩子们教材类的有声书，以及一些专有科目的有声书基本还是空缺，这些书本只有依赖红丹丹这类的公益组织去制作成电子书或有声书。
”曾鑫说，这次升级版AI朗读者，将给更多心目图书馆连接的视障读者送去媲美真人阅读体验的有声书本。

AI发人声还会“说人话”

很多人会好奇，“晓晓”这种媲美真人阅读的声音是如何炼成的？这正是微软正在开展的事情——从多方面教会AI更好地“说人话”。

首先，“晓晓”的声音听起来舒畅自然，这样的声线源于最新技能加持。
“微软在语音技能上已经研究了十多年，‘晓晓’是去年11月开始制作的。
它是基于微软最新更迭推出的深度神经网络学习而出身的首个声音。
利用这种最新技能做出的声音质量和表现力更好。
同时，它所需的音库资源量并不大，意味着微软未来还可以做出更多像‘晓晓’这样高质量的不同类型的新声音。
”丁秉公说。

有了一副“好嗓子”，并不代表能把书读好。
“要做一个好的朗读者，最高的哀求是能够融入自己的理解，这样才能形成相应的情绪。
”微软“晓晓”语音产品卖力人刘越颖表示，对付这一点，人工智能尚无法做到，以是须要“人为帮忙”。

如何帮忙？技能职员首先给“晓晓”设计了不同的阅读风格。
“比如新闻播报时的语气、阅读忧伤段落的语气、供应客服时的语气等，乃至还有唱歌的声音，一共有七八种风格。
”刘越颖先容，有了不同的语气后，会在“晓晓”阅读不同内容时，人为进行标记，“晓晓”就会采取相应的风格进行阅读。

“目前只能依赖人为进行标记，可以标记一整本书，也可以单独标记一个段落。
但随着人工智能不断进行深度学习，未来它将能够实现根据自己的理解自动标记，从而实现用匹配的语气和风格朗读。
”刘越颖说。

此外，丁秉公也表示，“晓晓”仍在一个不断学习提升的路上。
“比如这次跟红丹丹互助，在阅读中会偶尔涌现英文单词，针对这个细节，我们进行了中英文的无缝转化，让声音在阅读中英文之间没有卡顿和变革，听起来很自然。
”丁秉公举例。
未来，人工智能如何能够对文章进行理解，从而能融入更丰富的情绪，以及语气细节的丰富，都是要一步步完善的内容。

AI技能通报“爱”的善意

除了这次升级心目图书馆，深度神经网络的笔墨转语音（TTS）技能还可以在多个场景落地，打开一扇扇向善的窗口。
在丁秉公看来，TTS合成办法可以7乘24小时进行，只要有文本内容就可以源源不断地输出有声内容，这相称于冲破了有声内容的生产壁垒，受益的将不仅仅是视障人群。
未来，TTS这项技能还有望被利用到留守儿童、老人等群体中，给他们供应个性化、更优质的有声阅读做事。

近年来，除了微软，腾讯、阿里、百度、字节跳动等浩瀚公司也在不断考试测验将人工智能新技能运用于公益当中。

腾讯优图实验室的“跨年事人脸识别”技能，帮助被拐10年的孩子重回父母身边。
当父母手里仅有一张已有些褪色的孩子百天照，人力已难以辨认10年后终年夜的孩子是什么样子容貌。
这时，经由深度学习的人工智能跨年事人脸识别技能大显技艺，根据这张孩子幼时的旧照，精准比对确定了10年后孩子的相片，从而帮助孩子与家人团圆。

91岁的河南南阳老兵袁林昌60多年来最大的心愿便是探求分离多年的老排长周国民。
然而，老排长已经去世。
为了知足老人心愿，百度通过人工智能语音合成技能，重现了老排长的声音。
“林昌，你好吗？我是你的战友周国民！
60多年前，咱俩还是20多岁的小伙子。
本日老大哥来不明晰，你一定好好活着！
老大哥给你敬礼了！
”听着老排长的声音，袁林昌老人眼含热泪，敬起军礼。

动听的一幕幕还在上演。
动作识别帮助聋哑人将手语转化成文本，语音识别帮助视障人士开启新生活，精准的舆图推送帮助寻回走失落亲人……AI不仅与“爱”同音，也在通报着一份新科技带来的善意，让冰冷的技能逐渐有了温度。

来源：北京·深度宣布：赵语涵

流程编辑：洪园园