Skip to content Skip to footer

亚马逊将提供人类基准测试团队来测试人工智能模型

image-20231130172422221

亚马逊希望用户更好地评估人工智能模型,并鼓励更多的人参与到这一过程中来。

在 AWS re: Invent 大会期间,AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 宣布了 Bedrock 上的模型评估,现已推出预览版,适用于其存储库 Amazon Bedrock 中的模型。如果没有透明地测试模型的方法,开发人员最终可能会使用那些对于问答项目来说不够准确的模型,或者对于他们的用例来说太大的模型。

“模型选择和评估不仅仅是在开始时完成的,而是定期重复的,”Sivasubramanian说。“我们认为让人类参与进来很重要,因此我们提供了一种轻松管理人类评估工作流程和模型性能指标的方法。”

Sivasubramanian在另一次采访中告诉The Verge,一些开发人员通常不知道他们是否应该为项目使用更大的模型,因为他们认为更强大的模型可以满足他们的需求。他们后来发现,他们本可以建立在一个较小的基础上。

模型评估有两个组成部分:自动评估和人工评估。在自动化版本中,开发人员可以进入他们的基岩控制台并选择要测试的模型。然后,他们可以评估模型在摘要、文本分类、问答和文本生成等任务的稳健性、准确性或毒性等指标上的性能。Bedrock 包括流行的第三方 AI 模型,如 Meta 的 Llama 2、Anthopic 的 Claude 2 和 Stability AI 的 Stable Diffusion。

虽然 AWS 提供测试数据集,但客户可以将自己的数据引入基准测试平台,以便更好地了解模型的行为方式。然后,系统会生成报告。

如果涉及人工,用户可以选择与 AWS 人工评估团队合作或他们自己的团队合作。客户必须指定任务类型(例如摘要或文本生成)、评估指标以及要使用的数据集。AWS 将为与其评估团队合作的人员提供定制的定价和时间表。

AWS负责生成式AI的副总裁Vasi Philomin在接受The Verge采访时表示,更好地了解模型的性能可以更好地指导开发。它还允许公司在使用模型进行构建之前查看模型是否不符合某些负责任的 AI 标准,例如毒性敏感性较低或过高。

“重要的是,模型为我们的客户服务,知道哪种模型最适合他们,我们正在为他们提供一种更好地评估的方法,”Philomin 说。

Sivasubramanian还表示,当人类评估AI模型时,他们可以检测到自动化系统无法检测到的其他指标,例如同理心或友好性。

Philomin说,AWS不会要求所有客户对模型进行基准测试,因为一些开发人员可能以前在Bedrock上使用过一些基础模型,或者知道这些模型可以为他们做什么。仍在探索使用哪些模型的公司可以从基准测试过程中受益。

AWS表示,虽然基准测试服务处于预览阶段,但它只会对评估期间使用的模型推理收费。

虽然没有特定的标准来对 AI 模型进行基准测试,但有一些行业普遍接受的特定指标。Philomin说,在Bedrock上进行基准测试的目标不是广泛评估模型,而是为公司提供一种方法来衡量模型对其项目的影响。