Skip to content Skip to footer

LLM 革命:废除 GPU 并重新定义人工智能的未来

image-20240106003646557

从大型语言模型 (LLM) 领域中取代 GPU 的追求确实很高!有几个因素促成了这一趋势:

  1. 效率问题:GPU 虽然功能强大,但以其高能耗和高成本而闻名。这限制了它们在大规模 LLM 训练和部署方面的可扩展性。此外,很少有科技巨头是唯一能够负担得起这种基础设施的参与者,他们真正垄断了人工智能的未来。
  2. 架构瓶颈:基于 Transformer 的架构是 LLM 的当前标准,具有固有的局限性。它们对自注意力机制的依赖会导致二次复杂性和计算瓶颈,尤其是在模型大小和序列长度增加的情况下。
  3. 新兴替代方案:新的硬件和软件技术正在出现,为 LLM 训练和推理提供了 GPU 的有前途的替代方案。

image-20240106003702890

展望未来:一个更加多样化和可访问的法学硕士生态系统

这是本周在寻求面向所有人的人工智能方面的最佳内容;

  • ⏩ 快速前馈网络:\98%的神经网络通常完全不参与生成过程。苏黎世联邦理工学院的一项新研究显示了使用二叉树决策映射和限制输入空间的创新。
  • 🐅 StripedHyena-7B\:新的 Together-AI 模型系列超越了变形金刚架构。Together Research 提出了新的架构,用于长上下文、改进的训练和推理性能,而不是 Transformer 架构。从我们的团队和学术合作者的研究计划中衍生出来,植根于受信号处理启发的序列模型,我们很高兴推出 StripedHyena 模型。此版本包括基本型号 StripedHyena-Hessian-7B (SH 7B) 和聊天型号 StripedHyena-Nous-7B (SH-N 7B)。
  • 🍏 Apple 发布了 MLX\:终于是一个专门用于 Apple Silicon m 系列芯片的开源库。MLX 是 Apple 机器学习研究团队推出的基于 Apple 芯片的机器学习阵列框架。它使用熟悉的 API:MLX 有一个紧跟 NumPy 的 Python API。MLX 还有一个功能齐全的 C++ API,它与 Python API 非常相似。MLX 具有更高级别的包,例如 API,这些包与 PyTorch 密切相关,以简化构建更复杂的模型。与 MLX 和其他框架的一个显着区别是统一内存模型。MLX 中的数组位于共享内存中。可以在任何受支持的设备类型上执行对 MLX 阵列的操作,而无需传输数据。mlx.nnmlx.optimizers
  • 👾 Mamba 和 SSSM\:基于选择性状态空间模型架构的模型正在兴起。它们跳过了变压器/注意力,以便更快、更高效地处理长序列。Mamba-Chat 是第一个基于状态空间模型架构的聊天语言模型,而不是转换器。
  • 🧱 BLING:\llmware 和 Hugging Face 上的其他组织正在发布小于 2B 参数的微型/纤薄型号。其中,BLING、Best Little Instruct-following N o-GPU 是一个真正的突破:使用 Apache 2.0 许可的高质量解码器模型,无需特殊的量化技术即可轻松部署在标准笔记本电脑上。
  • 🚀 QuIP#\ 量化:Quantization with Inconherence Processing (QuIP) 是一种基于量化受益于非相干权重和 Hessian 矩阵的见解的新方法,它改进了几种现有的量化算法,并产生了第一个 LLM 量化方法,该方法仅使用每个权重两个位即可产生可行的结果。妙语Sharp 是一种仅权重量化方法,能够实现接近 fp16 的性能,每个权重仅使用 2 位。QuIP# 将格码本与非相干处理相结合,以创建最先进的 2 位量化模型

image-20240106003758459

未来展望

将 GPU 从 LLM 领域中移除的探索仍处于早期阶段。然而,新硬件和软件技术的快速发展表明,替代解决方案即将到来。虽然 GPU 在短期内可能会继续占据主导地位,但我们可以期待在未来几年看到向更高效和可扩展的解决方案转变。这将允许开发和部署更大、更强大的 LLM,为人工智能研究和应用开辟新的可能性。

需要注意的是,没有一种解决方案可以完全取代 GPU。根据具体需求和资源,不同的方法可能会用于 LLM 培训和部署的不同方面。关键的一点是,格局正在迅速发展,我们可以期待在不久的将来看到令人兴奋的创新。