在利用天生式人工智能创建图片或***的工具中,这就不是一个问题了。
末了,最近才从 OpenAI 离职的有名专家安德烈-卡尔帕西(Andrej Karpathy)竟然说,产生幻觉的征象是天生式人工智能的底层技能--大型措辞模型(LLM)的最大特点。

DeepMind为人工智能聊天机械人开拓了\"事实核查器\"以治愈幻觉_人工智能_事实 AI简讯

但是,在以文本为重点、基于 LLM 的谈天机器人中,用户希望所供应的信息与事实符合,因此幻觉是绝对不许可涌现的。

防止人工智能产生幻觉是一项技能寻衅,而且并非易事。
不过,据Marktechpost宣布,Google DeepMind 和斯坦福大学彷佛找到了某种变通办法。

研究职员提出了一种基于 LLM 的系统--\"大众搜索增强事实性评估器\"大众(Search-Augmented Factuality Evaluator,简称 SAFE),它可以对人工智能谈天机器人天生的长格式回答进行事实检讨。
他们的研究成果连同所有实验代码和数据集已作为预印本揭橥在 arXiv 上。

系统通过四个步骤对答案进行剖析、处理和评估,以验证其准确性和真实性。
首先,SAFE 将答案分割成单个事实,对其进行修正,并与Google搜索结果进行比较。
系统还会检讨各个事实与原始问题的干系性。

为了评估 SAFE 的性能,研究职员创建了一个包含约 16,000 个事实的数据集 LongFact。
然后,他们在四个不同系列(Claude、Gemini、GPT、PaLM-2)的 13 个 LLM 中测试了该系统。
在 72% 的情形下,SAFE 供应了与人类注释者相同的结果。
在存在不合的情形下,SAFE 的精确率为 76%。

此外,研究职员还声称,利用 SAFE 的本钱比人工注释员或事实检讨员低 20 倍,因此供应了一个经济可行的办理方案,而且可以大规模运用。