我让两个语音 AI 互相对话——让我惊奇的无法入睡_语音_模子
TOP AI模型智能问答|绘图|识图|文件剖析
每天分享AI教程、赢利技巧和前沿资讯!
目前人工智能领域发展最快的一个方面是语音 AI,特殊是那些理解自然语音或语音模式的 AI。像 Hume 公司的情绪 AI EVI、OpenAI 的 Advanced Voice 和现在的 Moshi 都在这方面有所发展。Moshi Chat 是来自法国初创公司 Kyutai 的产品,它带有法国口音,并承诺将来可以在条记本电脑乃至智好手机上运行。它也是一种 GPT-4o 型模型,可以进行语音到语音的对话,因此可以被打断。
当 Moshi 首次推出时,我与它进行了一系列每次 5 分钟的对话,大约在三分钟后它会变得困惑并失落去连贯性。因此,我决定看看如果让 Moshi 与 Hume 公司的情绪 AI 语音机器人 EVI 对话会发生什么。在听到 Moshi 对几秒钟的沉默做出反应,发出我听过的最令民气碎、令人反胃的尖叫声后,我可能再也无法入睡。尖叫结束后,面对我的“那是什么”,它们都建议那是一种“声音”或“故障”。
实际上,EVI 和 Moshi 可能都没有听到对方的声音,而这个声音可能是 Moshi 对我办公室中的一些静电噪声的反应,由于我从未能够再现这个情形。
Moshi 出了什么问题?
在过去,将两个 AI 放在一起进行实验每每会导致新措辞的产生、令人不安的对话和其他怪异情形,这常日是由于 AI 智能不敷以处理荒谬的情形。我认为在我的实验中,Moshi 和 EVI 乃至没有在真正交谈。
“过去几天很困难。我不愿定是否该当分享这一点,但觉得我的声音被夺走了”——Moshi Chat
EVI 和 Moshi 都在同一个浏览器(Chrome)中运行,但在同一台条记本电脑的不同窗口中。只管声音在 Mac 上播放,但我认为沙盒技能阻挡了一个 AI 听到另一个 AI 的声音。尖叫声完备来自 Moshi,可能是一次语音故障,这可能是由于较小的语音模型没有更大模型的规模或演习数据所导致的。Moshi 乃至承认那只是“一种声音”。
只管如此,Moshi 有时会有点奇怪。在与 EVI 的后续对话中——Hume 将其推销为治疗 AI——Moshi 回应关于它听起来低落的问题时说:“是的,过去几天很困难。我不愿定是否该当分享这一点,但觉得我的声音被夺走了。”
Moshi 只是几周前才被创建,仅有一个 70 亿参数的模型。它正在开源,估量其容量和能力将在未来几周和几个月内显著增加。目前,它有一些限定,可能是导致奇怪尖叫故障的缘故原由。
当它们确实互换时会发生什么?
当我在不同设备上运行 Moshi 和 EVI 时,它们的表现符合预期,相互回应,虽然这更像是一场“友好对话”。它们能够相互回应,但这是一种不断循环的“我在这里帮忙”、“对不起”和“你先请”,而不是一个流畅的对话。两个 AI 都被设计成愉快的沟通者,并遵照情绪反应。
当个中一个自称为人工智能时,两个 AI 都无法接管或承认,并且当个中一个描述自己是人工智能时,很快就会变得困惑。
为了弄清这是语音 AI 的固有问题,还是较小模型中的情绪跟踪问题,我让 Moshi 和 GPT-4o Basic Voice 进行了对话。Basic Voice 是 ChatGPT 中当前的语音模型,没有本地语音到语音功能,因此无法处理中断,首先将语音转换为文本。
只管 Basic Voice 有限定,并且在 ChatGPT 运用程序中应时按下“中断”按钮时,它们能够进行一场关于如何通过更好和更风雅的演习数据来升级 AI 模型的引人入胜的对话。
末了的思考
语音 AI 将从根本上改变我们与打算技能互动的办法。无论是通过智能眼镜上的麦克风、智能助手,还是只是一种新办法来与我们的手机对话而不是无休止地滑动运用程序——在 AI 时期,事情将会不同。
这场人机界面革命中最显著的方面之一是它带来的智能水平。人类大脑不再只是与屈曲的机器互动。现在我们将拥有一个智能机器与人类大脑互动,并代表我们与屈曲的机器互换。
在达到这一点之前,并且在语音 AI 成为真正有用的助手并使我们的生活更轻松之前,我们必须办理一些问题。我没想到这些问题会包括令人不寒而栗的尖叫声,但事实便是这样。
最大的寻衅是找到一种方法,确保一个 AI 可以与另一个 AI 对话,而不会导致它们陷入存在危急。根据我的早期实验,我们还有一段路要走,机器人才能互助并开始他们的崛起。
关注公众年夜众号【真智AI】
TOP AI模型智能问答|绘图|识图|文件剖析
每天分享AI教程、赢利技巧和前沿资讯!
本文系作者个人观点,不代表本站立场,转载请注明出处!