为什么人工智能会胡编乱造?_措辞_模子
天下卫生组织于 4 月 2 日推出了新的谈天机器人,初衷是建立一个由 GPT-3.5 支持的新虚拟形象——SARAH(智能康健助理)全天候供应关于如何康健饮食、戒烟、减压等多方面的生活建议,支持八种不同措辞,做事于环球数百万用户。
但人们很快创造,就像所有谈天机器人一样,SARAH 有时也会给出错误答案。在一个案例中,它列出了旧金山一些不存在诊所的假名称和地址。天下卫生组织在其网站上警告称 SARAH 的信息可能并不总是准确的。
这种事情又发生了,谈天机器人的胡编乱造已经成为了一个再熟习不过的梗。
Meta 仅存在了 3 天的科技谈天机器人 Galactica 编造了学术论文,并天生有关太空熊历史的维基文章;今年 2 月,加拿大航空公司被命令实行其机器人客服发明的退款政策;去年,一名状师因提交了由 ChatGPT 捏造的虚假法律见地和法律引文的法庭文件而被罚款。
这种制造虚构信息的方向——被称为“幻觉”(hallucination)——是阻碍谈天机器人更广泛采取的最大障碍之一。为什么会这样?我们为何无法办理这个问题?
魔力八球
为了理解大措辞模型为何会涌现幻觉,我们须要理解它们的事情事理。首先要把稳的是,编造内容正是这些模型的设计初衷。当你向谈天机器人提问时,它的回答源自于支撑它的大措辞模型。但这不像在数据库中查找信息或在网络上利用搜索引擎。
如果你打开一个大措辞模型,你不会看到现成的信息等待被检索。相反,你会创造数十亿个数字,它利用这些数字从零开始打算其相应,即时天生新的单词序列。大措辞模型天生的许多文本看起来就像从数据库或真实的网页上复制粘贴而来。但正如大多数虚构作品一样,这些相似之处纯属巧合。大措辞模型更像是一个无限的魔力八球(一种通过扭捏随机呈现答案的二十面体)而不是一本百科全书。
大措辞模型通过预测序列中的下一个单词来天生文本。如果一个模型看到“the cat sat”(这只猫坐),它可能会猜“on”(在......上)。这个新的序列会被反馈到模型中,模型现在可能会猜“the”。再循环一次,它可能会猜“mat”(垫子)——等等。这一个技巧就足以天生险些任何你能想到的文本,从亚马逊商品列表到俳句,从同人小说到打算机代码,再到杂志文章等等。正如打算机科学家、OpenAI 的联合创始人 Andrej Karpathy 所说:大措辞模型学会了梦见互联网文档。
想象一下,大措辞模型内部的数十亿个数字,就像一个弘大的电子表格,记录了某些词汇与其他词汇一起涌现的统计概率。这些数值是在模型演习时设定的,在过程中不断调度这些数值,直到模型的预测能够反响从互联网上获取的数太字节文本中的措辞模式。
全都是幻觉
这里的要点是,实在所有内容都是“幻觉”,但只有在我们创造缺点时才这么声讨。问题在于,大措辞模型非常善于它们的事情,以至于它们编造的内容在大多数时候看起来都很合理。这使得人们很难完备信赖它们。
我们能够掌握大措辞模型天生的内容,以确保它们产生的文本绝对准确吗?这些模型太过繁芜,无法手动调度参数。但是有些研究职员认为,通过演习它们处理更多的文本将会降落缺点率。这一趋势在大措辞模型的发展过程中已经显现出来。
另一种方法是哀求模型在天生过程中检讨自己的事情,将相应逐步分解。这种方法被称为“思维链提示”(Chain-of-Thought),已经被证明可以提高谈天机器人输出的准确性。虽然目前还无法实现,但未来的大措辞模型可能会核实它们输出的文本,乃至可以在分开正轨时回退。
但这些技能都无法完备阻挡幻觉的发生。只要大措辞模型是概任性的,那么它们天生的内容就存在一定程度的随机性。掷 100 次骰子,你会得到一种模式。再掷一次,你会得到另一种。纵然骰子像大措辞模型一样被设定为产生某些模式比其他模式更频繁,结果也不会每次都相同。纵然每 1000 次或 100,000 次中只有一次缺点,考虑到这项技能每天利用的次数,累积起来的缺点数量也会非常多。
这些模型越准确,我们就越随意马虎放松当心。研究表明,谈天机器人表现得越好,人们就越有可能在涌现缺点时忽略它。
或许对付幻觉最好的办理办法便是管理我们对这些工具的期望。当那位利用 ChatGPT 天生虚假文件的状师被哀求阐明自己的行为时,他对发生的事情同样感到惊异。“我听说了这个新网站,缺点地以为它是一个超级搜索引擎,”他见告法官,“我没故意识到 ChatGPT 可能会编造案例。”
原文链接:
https://www.technologyreview.com/2024/06/18/1093440/what-causes-ai-hallucinate-chatbots/
本文系作者个人观点,不代表本站立场,转载请注明出处!