在 AWS re:Invent 大会上,AWS 数据库、剖析和机器学习副总裁 Swami Sivasubramanian 宣告推出宣告 Bedrock 上的模型评估,现已供应预览,用于评估其存储库 Amazon Bedrock 中的模型。
如果没有一种透明的测试模型的办法,开拓者可能终极会利用不足准确的模型来处理问答项目,或者利用对他们的用例来说过大的模型。

亚马逊 AWS 将供应人类基准测试团队来测试人工智能模型_模子_基准 绘影字幕

Sivasubramanian 说:「模型的选择和评估不仅仅在开始时进行,而且是定期重复的事情。
我们认为让人类参与循环是很主要的,以是我们供应了一种管理人类评估事情流程和模型性能指标的方法。

Sivasubramanian 在此前接管的采访中表示,有时一些开拓者不知道他们是否该当利用更大的模型来进行项目,由于他们假设更强大的模型会知足他们的需求。
后来他们创造,他们本可以基于一个更小的模型来构建。

模型评估包括两个部分:自动评估和人工评估。
在自动版本中,开拓者可以进入他们的 Bedrock 掌握台并选择一个模型进行测试。
然后,他们可以根据像鲁棒性、准确性或有害性等指标来评估模型在任务上的性能,如择要、文本分类、问答和文本天生。
Bedrock 包括了盛行的第三方人工智能模型,如 Meta 的 Llama 2. Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。

只管 AWS 供应测试数据集,但客户可以将自己的数据带入基准测试平台,以便更好地理解模型的行为。
然后系统天生一份报告。

如果涉及到人类,用户可以选择与 AWS 的人工评估团队或他们自己的团队互助。
客户必须指界说务类型(例如择要或文本天生)、评估指标以及他们想利用的数据集。
AWS 将为与其评估团队互助的用户供应定制化的定价和韶光表。

AWS 天生式人工智能副总裁 Vasi Philomin 在接管采访时表示,更好地理解模型的性能有助于更好地辅导开拓。
它还许可公司在利用模型之前,看看模型是否不符合一些负任务的人工智能标准——比如有害性敏感度过低或过高。

Philomin 说:「主要的是模型要为我们的客户事情,要知道哪个模型最适宜他们,我们正在给他们一种更好地评估这一点的方法。

Sivasubramanian 还表示,当人类评估人工智能模型时,他们可以检测到自动系统无法检测到的其他指标——比如同理心或友好度。

Philomin 表示,AWS 不会哀求所有客户都对模型进行基准测试,由于一些开拓者可能之前已经利用过 Bedrock 上的一些根本模型,或者对模型对他们有何用途已有所理解。
那些仍在探索要利用哪些模型的公司,可能会从经历基准测试过程中受益。

AWS 表示,虽然基准测试做事目前处于预览阶段,但它只会对评估期间利用的模型推理收费。

只管没有特定的人工智能模型基准测试标准,但某些行业普遍接管特定的指标。
Philomin 表示, Bedrock 上的基准测试的目标不是广泛评估模型,而是为公司供应一种衡量模型对其项目影响的办法。