量子位 | "大众号 QbitAI

击败全体羊驼家族Meta AI自对齐新方法只需极少人工标注数据_数据_模子 计算机

人工标注数据告急?

Mata新方法仅用少量种子数据,就构建了一个高质量的指令遵照( instruction following)措辞模型。

换言之,大措辞模型须要大量人工标注的指令数据进行微调,而现在模型可自动从网络语料库未标记的文本中推理出指令。

然后用自己天生的指令数据进行演习,堪比自产自销。

并且用这种方法演习出的模型在Alpaca基准测试上,超越开源羊驼及其一系列衍生模型。

LeCun发推认为该研究在模型自对齐方面具有轰动性:

用网友的一句话总结:

羊驼开始自我演习了。

两句话总结是这样婶儿的:

原来须要指令>相应数据集(须要人工标注),现在只须要大略演习一个“反向模型”做相应>指令。
任何文本可随意转换为指令数据集。

还有网友发出灵魂拷问:

是只有我一个人,以为这看起来像是通往超级智能的道路?如果你不须要额外的高质量外部数据,就能得到越来越智能的LLM,那么这便是一个自我改进的封闭系统。

大概只须要一种强化学习系统来供应旗子暗记,然后LLM自身的迭代就可以完成别的的事情。

羊驼:我自己搞数据演习了一头鲸

这种可扩展的新方法叫做指令回译,Mata为用这种方法演习出的模型起了个名字——Humpback(座头鲸,又称驼背鲸)。

(研究职员表示,之以是起这么个名字,是由于它和骆驼背的关系,而且鲸鱼体型更大,对应模型规模更大)

演习一个Humpback的步骤大略来说便是,从少量标注数据开始,利用措辞模型天生未标注文本所对应的指令,形成候选演习数据。
再用模型评估数据质量,选择高质量数据进行再演习。
然后重复该过程,进一步改进模型。

如上图所示,须要准备的“材料”有:

一个根本模型——LLaMa一个由Open Assistant数据集中的3200个示例构成的种子数据(Seed Data),每个示例包括一个指令和对应的输出。
从ClueWeb语估中抽取了502K段已去重、过滤、删除了潜在低质量段落的未标注文本(Unlabeled Data)。

标注示例和语料来源都有了,下一步便是自增强(Self-augment)阶段。

研究职员用种子数据对根本模型LLaMa进行了微调,得到指令预测模型。
然后用这个指令预测模型,为未标注文本推理出一个候选指令。
之后组合候选指令与文本(指令-输出对),作为候选增强演习数据,也便是上图中的Augmented Data A。

但还不能用A的数据直接演习,由于未标注文本本身质量参差不齐,天生的候选指令也存在噪声。

以是须要关键的自管理(Self-curate)步骤,利用模型预测数据质量,选择高质量样本进行演习。

详细来说,研究职员利用仅在种子数据上微调的指令模型对候选数据打分。
满分五分,分数较高的才会被挑选出来作为下一轮的候选数据。

为了提高模型指令预测质量,研究职员用候选数据迭代演习了模型,在迭代演习中,数据质量也会越来越好。

此外,在组合种子数据和增强数据微调模型时,他们还利用不同的系统提示标记区分了这两个数据源:

种子数据利用提示“Answer in the style of an AI Assistant.”筛选数据利用提示“Answer with knowledge from web search.”

进行两轮迭代后,终极模型就新鲜出炉啦。

合并两种演习数据:1+1>2

下面再来看看研究职员的剖析结果:

△种子数据和增强数据的指令多样性。
内圈是常见的根动词,外圈是与其对应的常见名词。

上图是用8%种子数据和13%的增强数据统计的指令多样性。

可以很直不雅观地看到,在长尾部分增强数据多样性更强,且增强数据与现有的人工标注种子数据相辅相成,补充了种子数据中未涌现的类型。

其次,研究职员比较了三个增强数据集:

实验不雅观察到,只管数据集变小,但伴随着演习数据质量的提升模型性能也有了很好的提升。

△利用自筛选评估不同数据大小和质量的自增强数据。

上图y轴表示在利用给天命据大小和质量微调LLaMa 7B时与text-davinci-003的胜率。

(text-davinci-003,一种基于GPT-3的指令遵照模型,利用强化学习在人类编写的指令数据、输出、模型相应和人类偏好上进行了微调)

末了来看一下Alpaca排行榜上的结果。
Humpback在不依赖蒸馏数据的情形下,表现明显优于其它方法,并且缩小了与专有模型之间的差距。

非蒸馏(Non-distilled),指不依赖于任何外部模型作为任何形式监督的演习模型;蒸馏(Distilled),指在演习过程中引入更强大的外部模型,例如利用从外部模型蒸馏的数据;专有(Proprietary),指利用专有数据和技能进行演习的模型。

△相对付text-davinci-003的胜率

在与开源模型LIMA 65B、Guanaco 65B、Falcon-Instruct 40B和专有模型davinci-003、Claude的比较中,Humpback的表现也都更符合人类偏好。

此外,研究职员还指出了该方法的局限性:

由于用于演习的文本数据来自网络语料库,微调后的模型可能会放大网络数据的偏差。
虽然和根本模型比较,微调后的模型提高了检测偏差的准确性。
然而,这并不虞味着会完备办理这个问题。

传送门:https://arxiv.org/abs/2308.06259(论文链接)

参考链接:[1]https://twitter.com/jaseweston/status/1690888779878330368/retweets/with_comments[2]https://twitter.com/swayducky/status/1690989046749868032[3]https://twitter.com/ylecun/status/1691149506165747720

— 完 —

量子位 QbitAI · 号签约

关注我们,第一韶光获知前沿科技动态