Skip to content Skip to footer

开源法学硕士:好处、风险和类型

大型语言模型 (LLM) 是使用人工智能 (AI)、深度学习和海量数据集(包括网站、文章和书籍)来生成文本、在语言之间进行翻译和编写多种类型内容的基础模型。这些生成式 AI 模型有两种类型:专有大型语言模型和开源大型语言模型。

专有 LLM 归公司所有,只能由购买许可证的客户使用。许可证可能会限制 LLM 的使用方式。另一方面,开源 LLM 是免费的,任何人都可以访问、用于任何目的、修改和分发。

术语“开源”是指 LLM 代码和底层架构可供公众访问,这意味着开发人员和研究人员可以自由使用、改进或以其他方式修改模型。

image-20240103224631226

开源 LLM 有什么好处?

以前,LLM似乎越大越好,但现在企业意识到,在研究和创新方面,它们的成本可能高得令人望而却步。作为回应,一个开源模型生态系统开始显示出前景,并挑战LLM商业模式。

透明度和灵活性

没有内部机器学习人才的企业可以使用开源 LLM,这些 LLM 在自己的基础设施中提供透明度和灵活性,无论是在云中还是在本地。这使他们能够完全控制自己的数据,并意味着敏感信息会保留在他们的网络中。所有这些都降低了数据泄露或未经授权访问的风险。

开源 LLM 提供了有关其工作方式、架构和训练数据和方法以及使用方式的透明度。能够检查代码并了解算法可以使企业更加信任,协助审计,并有助于确保道德和法律合规性。此外,有效优化开源 LLM 可以减少延迟并提高性能。

节省成本

从长远来看,它们通常比专有的 LLM 便宜得多,因为不涉及许可费。但是,运行 LLM 的成本确实包括云或本地基础结构成本,并且它们通常涉及大量的初始部署成本。

新增功能和社区贡献

预先训练的开源 LLM 允许微调。企业可以向 LLM 添加有利于其特定用途的功能,并且 LLM 也可以在特定数据集上进行训练。在专有的 LLM 上进行这些更改或规范需要与供应商合作,并且需要花费时间和金钱。

虽然专有的 LLM 意味着企业必须依赖单个提供商,但开源 LLM 允许企业利用社区贡献、多个服务提供商以及可能的内部团队来处理更新、开发、维护和支持。开源允许企业试验和使用具有不同观点的人的贡献。这可能会导致解决方案使企业能够保持在技术的最前沿。它还使使用开源 LLM 的企业能够更好地控制他们的技术以及关于他们如何使用它的决策。

开源 LLM 模型可以支持哪些类型的项目?

组织可以使用开源 LLM 模型来创建几乎任何对其员工有用的项目,或者在开源许可证允许的情况下,可以作为商业产品提供。这些包括:

文本生成

开源 LLM 模型允许您创建具有语言生成功能的应用程序,例如编写电子邮件、博客文章或创意故事。像 Falcon-40B 这样的 LLM,在 Apache 2.0 许可下提供,可以使用高质量的文本建议来响应提示,然后您可以对其进行改进和润色。

代码生成

使用现有代码和编程语言训练的开源 LLM 可以帮助开发人员构建应用程序并查找错误和安全相关故障。

虚拟辅导

开源 LLM 允许您创建提供个性化学习体验的应用程序,这些应用程序可以根据特定的学习风格进行定制和微调。

内容摘要

一个开源的LLM工具,可以总结长篇文章、新闻报道、研究报告等,可以很容易地提取关键数据。

人工智能驱动的聊天机器人

他们可以理解和回答问题,提供建议并参与自然语言对话。

语言翻译

在多语言数据集上训练的开源 LLM 可以提供多种语言的准确和流畅的翻译。

情绪分析

LLM 可以分析文本以确定情感或情感基调,这在品牌声誉管理和客户反馈分析中很有价值。

内容过滤和审核

LLM 在识别和过滤不适当或有害的在线内容方面很有价值,这对维护更安全的在线环境有很大帮助。

哪些类型的组织使用开源 LLM?

许多组织类型都使用开源 LLM。例如,IBM 和 NASA 开发了一个基于地理空间数据训练的开源 LLM,以帮助科学家及其组织应对气候变化。

出版商和记者在内部使用开源 LLM 来分析、识别和总结信息,而无需在新闻编辑室之外共享专有数据。

一些医疗保健组织将开源 LLM 用于医疗保健软件,包括诊断工具、治疗优化和处理患者信息、公共卫生等的工具。

开源 LLM FinGPT 是专门为金融行业开发的。

一些最好的开源、精心策划的 LLM

Open LLM 排行榜旨在根据不同的基准跟踪、排名和评估开源 LLM 和聊天机器人。

image-20240103224706227

  • Meta AI 的 LLaMa 2 是一个性能良好的开源 LLM,其许可证允许用于商业用途的协议,它包含具有 7 到 700 亿个参数的预训练和微调的生成文本模型,可在 Watsonx.ai Studio 中使用。它也可以通过 Hugging Face 生态系统和 transformer 库获得。
  • Vicuna 和 Alpaca 是在 LLaMa 模型之上创建的,与 Google 的 Bard 和 OpenAI 的 ChatGPT 一样,它们都经过微调以遵循说明。性能优于 Alpaca 的 Vicuna 与 GPT-4 性能相匹配。
  • BigScience 的 Bloom 是由 1,000 多名 AI 研究人员创建的多语言语言模型。这是第一个在完全透明的情况下接受培训的多语言法学硕士。
  • 技术创新研究所 (TII) 的 Falcon LLM 可以与聊天机器人一起使用,以生成创意文本、解决复杂问题以及减少和自动化重复性任务。Falcon 6B 和 40B 都可以作为用于微调的原始模型或可以按原样使用的已经指令调整的模型使用。Falcon 仅使用了 GPT-3 训练计算预算的 75% 左右,并且性能明显优于它。
  • MPT-7B 和 MPT-30B 是从 MosaicML(最近被 Databricks 收购)许可用于商业用途的开源 LLM。MPT-7B与LlaMA的性能相当。MPT-30B 优于 GPT-3。两者都是在 1T 代币上训练的。
  • 由 Google AI 推出的 FLAN-T5 可以处理 1,800 多项不同的任务。
  • 来自 Hugging Face 的 StarCoder 是一个开源的 LLM 编码助手,使用 GitHub 的宽松代码进行训练。
  • RedPajama-INCITE在Apache-2下获得许可,是一个6.9B参数的预训练语言模型,由Together和来自蒙特利尔大学和斯坦福大学基础模型研究中心等不同机构的领导者开发。
  • Cerebras 的 Cerebras-GPT 是一个由 7 个 GPT 模型组成的系列,范围从 1.11 亿到 130 亿个参数不等。
  • StableLM 是 Stability AI 的开源 LLM,它使 AI 图像生成器 Stable Diffusion 成为可能。它在包含 1.5 万亿个代币的数据集上进行训练,称为“The Pile”,并使用来自 Alpaca、GPT4All(提供一系列基于 GPT-J、MPT 和 LlaMa 的模型)、Dolly、ShareGPT 和 HH 的开源数据集进行微调。

与大型语言模型相关的风险

尽管 LLM 输出听起来流畅而权威,但可能存在风险,包括提供基于“幻觉”的信息以及偏见、同意或安全问题。关于这些风险的教育是解决这些数据和人工智能问题的一个答案。

  • 幻觉或虚假可能是由于 LLM 在不完整、矛盾或不准确的数据上接受训练,或者是在不理解含义的情况下根据上下文预测下一个准确的单词造成的。
  • 当数据源不多样化或不具有代表性时,就会发生偏差。
  • 同意是指训练数据是否以问责制的方式收集,这意味着它遵循 AI 治理流程,使其符合法律法规,并为人们提供整合反馈的方法。
  • 安全问题可能包括泄露 PII、网络犯罪分子使用 LLM 执行网络钓鱼和垃圾邮件等恶意任务,以及黑客更改原始程序。