Skip to content Skip to footer

ML-BENCH:评估法学硕士应对现实世界编程挑战的游戏规则改变者

image-20231126175428590

- ML-BENCH 评估 LLM 在利用开源库中的现有函数进行实际编程方面的有效性。

- 它通过评估 LLM 从具有精确参数使用的已建立库中执行代码的能力,挑战了传统上对代码生成基准的关注。

- ML-BENCH 由耶鲁大学、南京大学和北京大学合作,提供了一个全面的基准数据集,其中包含具有指导意义的地面实况代码示例。

- 在 ML-BENCH 中,使用 Pass@k 和参数命中精度等指标来评估 GPT-3.5–16k、GPT-4–32k、Claude 2 和 CodeLlama,从而显示 GPT 模型和 Claude 2 表现最佳。

- GPT-4 显示出改进,但仍然只完成了 39.73% 的任务,这凸显了 LLM 需要理解冗长的文档。

- ML-AGENT 的引入解决了缺陷,使 LLM 能够理解人类语言、生成高效代码和执行复杂任务。

主要AI新闻:

在人工智能领域,语言模型模型 (LLM) 已成为各种编程相关任务的强大工具。虽然它们在受控环境中的实力是有据可查的,但向实际编程场景的过渡是一个巨大的障碍。本文介绍了 ML-BENCH,这是一种开创性的方法,用于仔细研究 LLM 在利用开源库中现有功能的强大功能方面的有效性,并与现实世界的需求保持一致。

在传统的代码生成基准测试中,LLM 被评估为从头开始编写全新代码的能力。然而,在实际的编程实践中,对预先存在的、可公开访问的库的依赖是司空见惯的。这些库经过实战测试和完善,为众多挑战提供了可靠的解决方案。因此,对 LLM 的评估不应局限于代码生成能力,而应包括它们是否能够执行来自开源库的代码,并具有精确的参数使用。

耶鲁大学、南京大学和北京大学合作推出了 ML-BENCH,这是一个全面的基准数据集,深入研究了 LLM 对用户指令的理解、GitHub 存储库导航和可执行代码的生成领域。ML-BENCH 提供了大量高质量、具有指导意义的地面实况代码示例,这些示例严格遵守给定的指令。ML-BENCH 拥有 9,444 个示例的存储库,涵盖 130 个任务,并包含 14 个著名的机器学习 GitHub 存储库,为 LLM 评估树立了新标准。

该研究采用两个关键指标,即 Pass@k 和参数命中精度,来评估 GPT-3.5-16k、GPT-4-32k、Claude 2 和 CodeLlama 在 ML-BENCH 框架内的能力。值得注意的是,实证结果表明,GPT 模型和 Claude 2 远远优于 CodeLlama。尽管 GPT-4 比其他 LLM 表现出显着的性能提升,但它仅完成了 39.73% 的任务。其他著名的法学硕士表现出幻觉和表现不佳的倾向,强调需要全面的语言理解。

一项关键的技术贡献在于ML-AGENT的引入,这是一种自主语言代理,旨在通过细致的错误分析来解决已发现的缺陷。这些代理具有理解人类语言和指令、生成高效代码以及巧妙地处理复杂任务的能力。

ML-Bench 和 ML-Agent 之间的协同作用代表了自动化机器学习过程领域的巨大进步。研究人员和从业者都被敦促探索这项开创性研究所揭示的可能性,有望对 LLM 的实际编程领域产生变革性影响。

结论:

ML-BENCH 的出现和 ML-AGENT 的开发标志着 LLM 在实际编程场景中的评估和应用向前迈出了重要一步。这项创新有可能通过在软件开发中更可靠、更高效地使用 LLM 来重塑市场,推动生产力的提高,并缩小实验能力与实际需求之间的差距。研究人员和行业从业者应该注意到这些进步,因为它们有望改变人工智能驱动编程的格局。