Skip to content Skip to footer

人工智能对环境影响的歪曲:事实与虚构的区别

具有数十亿个参数的人工智能 (AI) 模型已经彻底改变了各行各业,但它们的能源消耗和环境影响也引起了人们的担忧。

在亚历克斯·德弗里斯(Alex de Vries)最近发表的论文《人工智能日益增长的能源足迹》中,仅通过查看人工智能训练成本来估计最坏的情况。这是一个毫无意义和耸人听闻的练习。 记者在不了解人工智能或其景观的情况下写作,其他人则在发表的文章中加载。这是一个滑坡。

在这篇博客中,我探讨了 1000 亿参数 AI 模型的训练和推理的能耗,并将其与“经济有价值的工作”的概念进行了全面比较。

其目的是消除关于人工智能如何对气候有害的神话!相反,人工智能正在显着拯救地球免于失控的能源消耗。

了解训练和推理成本的两篇研究论文如下(以下简称“训练”和“推理”论文):

image-20231217172131585

1.AI 训练与推理

培训阶段:

  • 目的:通过将 AI 模型暴露给广泛的数据集来构建 AI 模型,使其能够学习模式和关联。
  • 资源需求:需要高计算能力和高能耗。
  • 期间:培训可能是一个漫长的过程,通常持续数天或数周。
  • 结果:它生成了一个消息灵通且适应性强的模型,作为推理的基础。

image-20231217172300349

推理阶段:

  • 目的:经过训练的模型应用其获得的知识进行预测或实时提供响应。
  • 资源效率:与训练相比,推理明显更节能。
  • 实时:它运作迅速,做出快速决策或反应。
  • 结果:它为实际应用提供可操作的见解或即时响应。

image-20231217172331153

这一殊荣凸显了在训练方面的大量资源投资,最终实现了极其节能和实时的推理能力,使人工智能的变革潜力在各行各业成为现实。

2. LLaMA 65B参数模型能做什么?

首先,让我们了解 LLaMA 650 亿参数模型的功能。LLaMA 65B在各种任务中都拥有令人印象深刻的功能,展示了大型语言模型技术的重大进步。以下是其主要优势的细分:

文本生成:

  • 高度流畅和连贯:LLaMA 65B生成人类质量的文本,模仿写作风格、语气,甚至诗歌或代码等创意形式。
  • 事实意识和信息量大:它可以利用其庞大的知识库来生成事实准确且信息丰富的文本,使其成为总结事实主题或创建教育内容的理想选择。
  • 创意和多样性:LLaMA 65B擅长富有想象力的写作,产生独特的故事、诗歌、剧本和其他创意文本格式。

语言理解:

  • 出色的理解力:它可以准确理解人类语言的细微差别,包括讽刺、幽默和隐含的含义。
  • 较强的推理能力:LLaMA 65B可以进行推论,进行逻辑推论,并回答需要推理和常识的复杂问题。
  • 多语言能力:它可以在语言之间进行高精度的翻译,使其成为交流和理解不同文化的宝贵工具。

其他功能:

  • 代码生成:LLaMA 65B可以生成各种编程语言的基本代码片段,帮助开发人员进行重复性任务和探索。
  • 问题解答:它可以以高精度和信息丰富的回答回答开放式、具有挑战性和奇怪的问题。
  • 文本摘要:LLaMA 65B可以将大量文本压缩成简洁的摘要,同时保留关键信息。

性能基准:

LLaMA 65B在各种基准测试任务中表现出色,在以下方面取得了最先进的结果:

  • 常识推理:准确理解和运用常识性知识解决问题。
  • 阅读理解:根据复杂的文本段落提取含义并回答问题。
  • 自然语言理解 (MMLU):衡量模型理解人类语言复杂方面的能力。
  • BIG-bench hard:一套全面的具有挑战性的语言任务,旨在评估各种语言模型。

总体而言,LLaMA 65B代表了大型语言建模的重大飞跃,为教育、传播、创意艺术和科学研究等领域的新可能性打开了大门。随着它的不断发展,它影响我们的生活并彻底改变我们与技术互动的方式的潜力是巨大而令人兴奋的。

3. 100B参数训练费用

让我们考虑一个 1000 亿参数的模型进行比较(例如,一个比 LLaMA 65B 更强大、更强大的模型),它可以执行大量具有经济价值的工作,正如我们将在本博客中看到的那样。

假设我们有一个基线模型 M,其中包含 PM 参数和已知的能耗 EM(以千瓦时 (kWh) 为单位)。我们想找到 100B 参数模型所需的能量 E_100B

数据点(来自“培训论文”):

  • 型号: T5
  • 参数计数:11B
  • 能耗:86 MWh

基线模型:T5(11B 参数,86 MWh)

比例因子:假设一个亚线性缩放(在大型模型中很常见),让我们使用

image-20231217172418926

数学方程式:

image-20231217172441206

其中,E_100B 是 100B 模型的能量,EM 是基线模型的能量,PM 是基线模型的参数数,x 是缩放指数。

让我们估计 *x*:

如果我们有另一个数据点,可以更准确地估计 x。如果没有这个,我们假设 x=0.8 用于演示目的。

插入值:

image-20231217172454816

让我们计算一下:

使用提供的数据和假设,训练 1000 亿 (100B) 参数模型的估计能耗约为 502.8 MWh(兆瓦时)。该估计基于 T5 模型(110 亿个参数,86 MWh)的缩放行为,假设缩放指数为 0.8,反映了模型大小与能耗之间的亚线性关系。

这相当于:

image-20231217172533427

这是一张比较图,显示了与各种活动相关的二氧化碳排放量,包括训练 1000 亿参数 AI 模型的估计排放量。排放量以公吨二氧化碳为单位:

  • 中型商业建筑(年度,1125 MWh):中型商业建筑能源消耗产生的年度二氧化碳排放量。
  • 纽约-伦敦航班(135 次航班):相当于 135 次从纽约飞往伦敦往返航班的二氧化碳排放量。
  • 乘用车(年度,24 辆):24 辆乘用车一年内的二氧化碳排放量。
  • 美国家庭平均(年度,10.65 MWh):美国家庭平均能源消耗的年度二氧化碳排放量。
  • AI 模型训练 (502.8 MWh):用于训练 AI 模型的能源估计排放量为 130.7 公吨。

这张图提供了训练大型 AI 模型与更熟悉的活动和能源使用相比的 CO2 足迹的视角。

好吧,你可能会认为这看起来很糟糕。坚持到本博客结束;我保证会改变你的想法。

在语料库上训练 100B 参数模型只需要第一次使用这种费用,并且在该 100B 模型的生命周期中一次

一旦初始训练阶段完成,该模型在很长一段时间内仍然基本有效。可能需要定期进行微调,也许每年进行一次微调,以纳入新数据。这种微调过程通常会产生原始培训费用的 1/100 甚至更低的成本。

4. 100B 模型推理成本

真正需要了解的是推理的成本。为了估计 1000 亿 (100B) 参数 AI 模型的推理能耗,我们可以使用来自“推理论文”的数据,该论文提供了有关 LLaMA 65B 模型的信息。

根据该论文,LLaMA 65B 推理的每秒能量范围从 300 瓦到 1 千瓦不等,具体取决于分片配置(从 8 到 32 个 GPU)。

有根据的猜测表明,在 8 个 GPU 上运行的 LLaMA 65B 可能能够在一秒钟内处理数百到几千个推理任务

另一方面,当使用 32 个 GPU 时,它可能会处理更大的工作负载,范围从每秒数千到数万次推理不等。

一个推理任务通常包括获取输入(可以是文本或数据)的过程,并让 AI 模型根据该输入分析和生成输出。

每个推理假定的标记数可能会因模型和任务的不同而有很大差异。然而,对于像LLaMA 65B这样的模型,考虑到现代语言模型的能力,它可以在一次推理中处理数千到数万个令牌

这些估计是基于 GPU 和并行处理的一般性能,但精确的数字需要经验测试才能确认。实际推理率可能因模型复杂性和硬件优化等因素而异。

或者,每个输出令牌的能量约为 3-4 焦耳。 重要的是要记住,稍后会派上用场。

鉴于这些信息,我们可以尝试将这些数字扩展到 100B 模型。但是,需要注意的是,这种外推涉及重要的假设,特别是因为推理能量的缩放行为可能不是线性的,甚至在不同的模型大小之间也可能不一致。

估算方法:

缩放因子:假设推理能量的线性或近线性缩放,这是一种简化。

数学方程式:

image-20231217172549466

这里,E_100Binference 是 100B 模型的估计能量,*E65B* 是 65B 模型的已知能量。

估算能源消耗:

如果我们认为LLaMA 65B的每秒平均能量大约是300W至1kW范围的中点,我们可以将其用作E_65B

计算:

让我们使用 650 瓦(300W 和 1kW 的中点)作为我们的 E 65 B,并计算 E100B_inference。(我相信这个估计值明显低于当前一代型号的 200W,因为重量管理和架构的效率更高)。

使用 1000 亿 (100B) 参数 AI 模型进行推理的估计能耗约为 1000 瓦(或 1 千瓦)。该估计值是通过使用线性缩放方法将 LLaMA 65B 模型的平均能耗(约 650 瓦)缩放到 100B 模型大小得出的。

请务必记住,这是一个简化的估计。实际能耗可能因多种因素而异,包括 AI 模型的特定架构、所用硬件的效率、推理任务的复杂性以及模型针对推理的优化程度。

这相当于:

image-20231217172604664

该图比较了活动的二氧化碳排放量,这些活动的规模与使用 1000 亿参数 AI 模型进行一小时的推理更具可比性,估计该模型消耗约 1 kWh 的能量。每项活动的排放量以公吨二氧化碳为单位显示:

  • 洗衣机(1 个周期,约 1 kWh):假设洗衣机消耗约 1 kWh,则洗衣机一个周期的排放量。
  • 电烤箱(1 小时,1000 瓦):假设电烤箱消耗约 1000 瓦,则使用 1 小时的排放量。
  • LED 照明(家用,10 小时,100 瓦):假设总功耗为 100 瓦,使用家用 LED 照明 10 小时的排放量。
  • 笔记本电脑(10 小时,100 瓦):假设笔记本电脑消耗约 100 瓦,则使用 10 小时的排放量。
  • AI 模型推理(1 小时,1000 瓦):AI 模型推理 1 小时的估计 CO2 排放量。

这种可视化提供了更直接的比较,表明一小时的 AI 模型推理产生的 CO2 排放量大致相当于消耗类似能量的普通家庭活动。

5. 一个普通的呼叫中心

为了真正了解人工智能是否真的在伤害或帮助气候,我们需要将人工智能与普通呼叫中心相比所实现和能够做的事情进行比较。

呼叫中心的平均统计数据:

  • 平均处理时间 (AHT):每次通话 6 分钟
  • 每人每天平均通话次数:50
  • 每次通话的平均对话长度:2 页文档,字体大小为 12 磅,或 500 字

年产能:

  • 每位员工的年度呼叫数:每天 50 次呼叫 * 260 天/年 = 13,000 次呼叫/年。
  • 100 名员工的年度呼叫:13,000 个呼叫/员工/年 * 100 名员工 = 1,300,000 个呼叫/年。

6. 通话能耗估算

让我们看一下平均每年有 100 名员工的呼叫中心的二氧化碳排放量。

传统呼叫中心的假设:

  • 规模和基础设施:拥有 100 名员工的中型呼叫中心。
  • 计算机和办公设备:计算机、服务器、照明和 HVAC 系统是主要的能源消耗者。
  • 营业时间:每周 5 天,每天 8 小时。

计算设备总能耗:

  • 每个员工的工作站(计算机 + 其他能源设备):800 瓦 = 0.8 kW(因为 1 kW = 1000 瓦)。

每年营业时间:

  • 8 小时/天 5 天/周 52 周/年 = 2,080 小时/年。

每个工作站每年的能耗:

  • 每个工作站 0.8 kW * 2,080 小时/年 = 1,664 kWh/年。

100 个工作站的总能量:

  • 100 个工作站 * 1,664 kWh/工作站 = 166,400 kWh/年。

其他基础设施(暖通空调、照明等):

  • 假设这会使能耗翻倍:
  • 包括基础设施在内的总能耗:166,400 kWh/年 * 2 = 332,800 kWh/年。

CO2排放量估算:

  • 使用平均二氧化碳排放率约为每千瓦时 0.4 千克二氧化碳(美国 EPA 平均值):
  • 332,800 kWh/年 * 0.4 kg CO2/kWh = 133,120 kg CO2/年 = 133.12 公吨/年。

对于拥有 100 名员工的传统呼叫中心,估计每年的能源消耗约为 166,400 kWh,导致 133.12 公吨的二氧化碳排放。

7. 根据代币数量估算 AI 的推理能量

假设每个查询是 500 个单词,并考虑 1 个单词 = 1 个标记的简单转换:

  • 每个查询的令牌数:500 个令牌。

每个代币的能耗:

从“The Inference Paper”来看,LLaMA 65B 模型的每个代币的能耗约为 3-4 焦耳。

对于一个 1000 亿参数的模型,我们假设每个令牌的能耗率相似(推理非常有效,因为执行的路径或多或少与模型大小无关):

  • 每个代币的平均能耗:5焦耳。

总能耗:

  • 焦耳总能量:500 个代币×5 焦耳/个代币
  • 将焦耳转换为千瓦时:1 焦耳=2.77778×10−7 千瓦时
  • 总能耗(千瓦时):500 个代币×5 焦耳/代币× 2.77778×10−7 kWh/焦耳。

因此,AI 模型每次查询/调用消耗 0.000069444 千瓦时 (kWh)。

8. 100 万次通话

现在,让我们计算 100 万次调用(或 100 万次查询,每个查询由 500 个单词组成)的总能耗(以 kWh 为单位)。

对于100万次呼叫或查询,基于上述计算,传统呼叫中心和人工智能系统的二氧化碳排放量如下:

传统呼叫中心:

  • CO2 排放量:100 万次通话约 100 公吨 CO2。(133.12 表示 130 万次调用)

人工智能系统(千亿参数模型):

  • CO2 排放量:100 万次查询(每 500 个字)约为 0.000069444kWh * 1,000,000 = 69.444kWh0.0281 公吨 CO2

与完整的 AI 代理解决方案相比,传统呼叫中心对环境的成本高出 3,542.33 倍。换句话说,这减少了 99.97%。(正如一些人可能会说的那样,几乎是 100% 的减少)。

当您不使用 AI 模型时,“具有经济价值的工作”的比较成本是气候的 3,542 倍。

9. 一万亿个电话?

现在,你能想象地球上每年有多少电话发生吗?

  • 5000 亿次调用为下限,1 万亿次调用为上限。

让我们看一万亿次调用:

  • 传统呼叫中心:大约 100,000,000(1 亿)公吨二氧化碳
  • 人工智能系统(1000 亿参数模型):约 28,100 公吨二氧化碳
  • 1 万亿次调用的训练 + 推理:我们将 130 公吨的训练成本加到此基础上:28,100 + 130 = 28,230 公吨 CO2

因此,对于全球一万亿次调用,我们正在研究(以公吨为单位):

image-20231217172627215

  • 呼叫中心:1亿公吨二氧化碳
  • AI 模型:28,230 公吨 CO2

这里值得注意的方面不仅在于二氧化碳排放量的巨大差异,而且即使呼叫中心处于非活动状态且不处理任何呼叫,呼叫中心的排放量也几乎保持不变(大约减少 20%-30%)。这与 AI 模型形成鲜明对比,后者具有动态可扩展性的优势。它们可以实时缩小,也可以在不使用时(例如在没有呼叫流量的时期)以低功耗模式(类似于睡眠模式)运行。与传统呼叫中心相比,人工智能模型的这一特性显着影响了其碳足迹。

这不值得比较图。相反,让我们做点别的事情。让我们沉迷于扶手椅评论家的疯狂幻想!

10. 异想天开的中音放纵(又名扶手椅评论家):

让我们在这个场景中扮演中音。

呼叫中心:我不相信呼叫中心需要如此大的权力,我相信这是其中的 1/5。

  • 好吧,那么 2000 万公吨呢?伟大。

AI模型:我不相信它只是 2 页或 500 字的对话,它更像是 5 页或 1250 字!

  • 好吧,这是 5 倍,所以这是 141,150 公吨的推理 + 130 公吨的 AI 模型训练成本。
  • 所以这大约是 141,280 公吨。

更强大的 AI:我不相信 100B 模型可以取代人类聊天代理,它至少需要强大 10 倍。哈哈哈哈哈,真的吗?!你有没有和Amex代理商聊过?目前,30B型号(甚至不是65B)已经取代了呼叫中心聊天!但是好吧,我会放纵你的异想天开。让我们把它做成一个万亿参数模型!

  • 好的,这就是 141,280(对于 5 页模型)* 10 = 1,412,800 公吨推理 + 训练(我们需要扩展训练和推理)。

人工代理:人类在通话方面不是那么好!ChatGPT 在对话中更具凝聚力、逻辑性、洞察力和帮助性。

  • 我并不是要特别挑出美国运通,但我最近的经历令人沮丧。我与五位不同的人类特工进行了互动,他们都无法解决有关指控的直接询问。这让我质疑我支付的 700 美元年费的价值,尤其是当他们的聊天服务无法获得基本帮助时。我什至询问了使用我的卡的好处,这对他们来说似乎😂已经脱离了剧本

image-20231217172704936

image-20231217172742039

与美国运通人工代理的真实对话。

好吧,你现在开心了吗?所以我们有:

  • 2000 万公吨的呼叫中心成本和
  • 141.2万吨AI成本

在荒谬地偏离现实之后的假想扶手椅世界中。我们可以为此画一张图吗?

image-20231217172806531

🤯 如果这不会让你大吃一惊,那就别无他法了。

顺便说一句,您是否知道 AI 模型可以在任何时间点接受 10,000,000 次调用,并且可能会将 AHT 从 6 分钟减少到 1 分钟甚至更短?这意味着,如果设计得当,相同的 100B 型号实际上可以接听世界上所有的电话。

没有休息时间,处理高峰时间。可以在非高峰时段将 AI 模型外包给其他具有经济价值的工作!

这种差异说明了将人工智能用于大规模客户交互任务的巨大环境效益,尤其是在考虑能源需求和二氧化碳足迹时。

11. 具有经济价值的工作

呼叫中心就是一个值得关注的例子。但是,您可以考虑在任何具有经济价值的工作中提高生产力。你会对人工智能如何显着提高生产力感到震惊。这里还有几个:

为了在数学上详细比较传统方法和人工智能驱动的方法在各个领域中的能源消耗和二氧化碳排放,使用1000亿参数模型(如GPT-4)进行推理,我们需要建立传统过程的基线能源消耗。

然后,我们将将其与 AI 推理的能耗进行比较,假设我们之前估计每小时运行约 1 kWh。

11.1. 医学诊断

传统方法:

  • 假设混合诊断程序,包括 MRI、CT 扫描和手动数据分析。
  • 能耗:MRI 扫描每次扫描可消耗约 10 kWh。CT 扫描可以使用大约 3 kWh。假设每位患者额外需要 2 kWh 用于数据存储和分析。
  • 每位患者的总能量:大约 15 kWh(用于全面的诊断过程)。

人工智能驱动的方法:

  • 对现有患者数据、图像等进行AI分析。
  • AI 推理的能耗:假设每位患者平均进行 30 分钟的 AI 计算,则能耗为 0.5 kWh。

CO2排放量比较:

  • 传统:15 kWh * 0.26 公吨/MWh = 每位患者 3.9 kg CO2。
  • 人工智能驱动:0.5 kWh * 0.26 公吨/MWh = 0.13 kg CO2/每位患者。

11.2. 药物发现

传统方法:

  • 广泛使用超级计算机进行模拟、实验室实验。
  • 能耗:假设每种潜在药物分析的各种过程为 500 kWh。

人工智能驱动的方法:

  • 人工智能模型预测分子相互作用和药物疗效。
  • AI 推理的能耗:假设计算 10 小时,10 kWh。

CO2排放量比较:

  • 传统:500 kWh * 0.26 公吨/MWh = 130 kg CO2 每种潜在药物。
  • 人工智能驱动:10 kWh * 0.26 公吨/MWh = 每个潜在药物 2.6 kg CO2。

讨论

在你举起干草叉反对任何创新之前,特别是在人工智能的背景下,做一些研究,并考虑这种创新在经济生产力方面带来的整体前景,从而大大减轻地球的负担。