Skip to content Skip to footer

您需要了解的人工智能术语。第二部分 — 31 个高级短语和 AI 解决方案

image-20240115211918030

我们之前关于 AI 术语的文章向您介绍了基本词典。在这一部分中,我们将深入探讨更专业的短语,这些短语将帮助您理解技术话语,并使您能够与更多以技术为导向的人讨论 AI 系统。您还将找到一些关于现有 AI 解决方案内部工作原理的解释,例如 ChatGPT、Stable Diffusion、HuggingFace 等。

人工神经网络

这是一个受动物大脑生物神经网络启发的计算系统。这些网络由相互连接的单元(神经元)组成,这些单元处理数据并可以学习执行任务。单个神经元称为“感知器”。它由乘以相关权重的输入、求和节点和确定神经元输出的激活函数组成。

image-20240115211941399

分类

分类器是机器学习中用于分类任务的一种 AI 模型。 它根据学习的模式为输入数据分配标签或类别。分类器广泛用于垃圾邮件检测、图像识别和情感分析等应用。

上下文窗口

该术语是指大型语言模型 (LLM) 的一个基本特征,它决定了它们在任何给定时间可以考虑的输入数据的范围。上下文窗口表示 LLM 在交互期间可以处理或“记住”的令牌数。 实际上,此功能对于保持对话或文本生成任务的连贯性和连续性至关重要。

当 LLM (如 GPT(生成式预训练转换器)系列中的 LLM 处理输入时,它们会结合对话历史记录和新提示。如果没有足够大的上下文窗口,这些模型可能会独立处理每个输入,从而导致响应看起来与正在进行的对话脱节。上下文窗口的大小通常指定为标记数。

例如,OpenAI 的 GPT-3.5-turbo 模型有一个 16,385 个代币的上下文窗口。这意味着在处理了这么多令牌(包括用户输入和模型响应)后,模型开始“忘记”交互的最早部分。在这种情况下,可能需要重申或总结对话的关键点,以使模型与讨论的上下文保持一致。

相比之下,更先进的 GPT-4-turbo-1106 拥有 128,000 个令牌的更大上下文窗口。 这个广阔的窗口允许更长的交互时间,使模型能够在一次对话中处理和响应大量文本,例如《哈利波特与阿兹卡班囚徒》等整本书。这一进步大大增强了该模型参与详细和扩展对话的能力,提供了更相关和上下文感知的响应。

解决上下文窗口的局限性导致了各种解决方案。一种常见的方法是“滚动上下文窗口”,其中仅向模型提供限制内的最新令牌,从而有效地维护对话的最新和最相关的部分。更复杂的方法包括使用另一个 LLM 查询来总结迄今为止的对话,并优化令牌的使用以保留上下文。

image-20240115212003076

深度学习

深度学习是机器学习的一个子集,它使用具有多层(因此称为“深度”)的神经网络来分析各种数据因素。它在图像和语音识别等任务中表现出色,可以学习复杂的模式并高精度地做出决策。

嵌入

在人工智能和自然语言处理的背景下,嵌入是指在高维空间中将数据(如文本)转换为一组向量的过程。 这种转换允许以 AI 模型(尤其是神经网络)可以处理的格式表示单词、句子甚至整个文档等复杂数据。这些向量表示捕获数据中的语义和句法关系,使模型能够更有效地理解和使用自然语言。

image-20240115212037518

单词的向量表示示例

生成式预训练转换器

生成式预训练 Transformer 是 OpenAI 开发的一系列大规模语言模型。GPT 模型在各种文本数据集上进行训练,可以生成类似人类的文本。由于他们能够理解和生成与上下文相关的文本,因此他们在各种语言任务中都具有多功能性,包括翻译、问答和内容创建。

幻觉

在大型语言模型 (LLM) 领域,幻觉是指模型生成不正确或误导性信息的现象,通常是对其训练数据范围之外的查询的响应。这种行为会导致模型“捏造”细节或提供虚假信息。例如,LLM 可能会建议编码上下文中不存在的类或函数。

image-20240115212111641

幻觉的例子

同样,在一般知识查询中,它可能会错误地断言 Zair 是唯一以“Z”开头的国家,而忽略或省略了津巴布韦等国家。LLM 中的幻觉凸显了这些模型的局限性,尤其是在处理需要事实准确性或超出其训练知识库范围的问题或任务时。

超网络

该术语是指神经网络领域的一种新方法,其中使用一个网络(称为超网络)为另一个网络生成权重。这个概念为神经网络设计和训练引入了额外的抽象层和复杂性。

在超网络中,主要关注点是优化超网络本身,这决定了目标网络的配置和性能。 这种方法可以潜在地提高神经网络训练的效率,并允许更动态和适应性的网络行为。

image-20240115212135200

推理

在 AI 中,推理是指经过训练的模型根据新的、看不见的数据做出预测或决策的过程。这是模型将其学到的知识应用于实际应用程序的阶段。

潜在空间

在机器学习中,潜在空间是指输入数据的压缩表示,通常采用低维形式。它捕获数据的基本方面,并用于生成模型。

低秩适应 (LORA)

LORA 代表了一种主要用于扩散模型的专用技术,它也适用于大型语言模型 (LLM)。在这种方法中,开发了较小的辅助模型,以便与“完整模型”结合使用。 它们通过将权重注入较大模型的特定组件(通常是“交叉注意力层”)来运行,该组件在输出生成的最后阶段起着至关重要的作用。

例如,在使用扩散模型生成图像时,如果目标是创建特定人物的动漫风格图像,而不是在该人物的图像上微调整个扩散模型,则将对这些图像进行 LORA 训练,然后与具有动漫功能的模型一起使用。这种组合允许较大的模型生成个人的个性化动漫风格图片。

同样,在LLM的上下文中,可以使用LORA将新概念或知识领域引入模型,而无需对整个模型进行大量重新训练。这种技术提供了一种更有效、更有针对性的方法来增强和定制针对特定任务或风格的 AI 模型。

机器学习

机器学习是人工智能的核心子集,涉及训练算法以根据数据做出决策或预测。它包括各种技术,如监督学习、无监督学习和强化学习。机器学习可自动构建分析模型,使系统能够从经验中学习和适应,而无需明确编程。

强化学习

强化学习是一种机器学习,在这种机器学习中,智能体通过在环境中执行操作来实现某些目标来学习做出决策。智能体从反复试验中学习,获得行为的奖励或惩罚,从而强化有利的行为。例如,这种技术可用于通过与视频游戏交互来教算法玩视频游戏。

监督学习

监督学习是一种机器学习方法,其中模型在标记数据上进行训练。该模型学习从输入数据中预测输出,并根据已知标签衡量其性能。这以向量的形式接近一组数据供模型学习,其中包含输入和预期输出。根据预期输出之间的差异,调整算法的行为(例如,通过在人工神经网络中使用反向传播)。

变压器

这个 AI 术语的背后是一个革命性的神经网络架构,它显着推动了自然语言处理领域的发展。变压器被设计用于处理顺序数据,并以其自注意力机制而著称,这使它们能够权衡输入数据不同部分的重要性。他们是许多最先进的语言模型(如 GPT 和 BERT)的幕后推手。

无监督学习

与监督学习不同,这种方法涉及在没有预定义标签的数据上训练模型。该模型从数据本身中学习模式和结构。

变分自动编码器 (VAE)

VAE 是一种用于机器学习的生成模型,主要以其将输入数据编码到压缩的潜在空间中并随后从该空间重建输入的能力而闻名。该模型由两个主要组件组成:一个编码器,用于将数据压缩到潜在空间中,一个解码器用于从该空间重建数据。

VAE 在图像生成任务中特别有效。他们可以学习生成与原始训练数据非常相似的新图像,从而创建不同的风格和逼真的图片。

例如,VAE可能用于扩散模型是其中一部分的大型系统,特别是在涉及图像编码和重建的任务中。然而,在扩散模型中,将噪声转换为相干图像的核心过程通常由扩散过程本身管理,而不是由VAE管理。

向量

在机器学习和 AI 的上下文中,向量是表示数据的数字数组。例如,在NLP中,单词通常被转换为向量,算法使用这些向量来处理和理解文本。

  • 矢量数据库 — 它专门用于存储和查询矢量数据,矢量数据是高维空间中数据点的表示形式。这种类型的数据库在涉及嵌入的方案中尤为重要,其中各种数据类型(如文本或图像)被转换为矢量格式。向量数据库的核心优势在于它能够有效地执行相似性搜索等操作。此功能在各种应用程序中至关重要,包括推荐系统。他们的目标是查找与用户兴趣和图像检索任务相似的项目,其中目标是查找视觉上类似于查询图像的图像。
  • 实际应用示例 — 矢量数据库的一个实际用例是增强大型语言模型 (LLM) 的功能。例如,与其使用特定的网站数据微调 LLM,不如将网站的内容作为向量存储在向量数据库中。收到用户查询时,可以搜索向量数据库以查找与查询最接近的内容向量。然后,可以将这些相关向量作为附加上下文提供给 LLM 提示。这种方法允许模型生成更符合网站特定内容和主题的响应,从而为用户查询提供更准确和上下文适当的答案。

AI 工具、解决方案和有用的网站

除了高级 AI 术语外,熟悉该领域的工具和网站也很有用,这些工具和网站可以方便地进行各种活动。不可能列出有限数量的此类解决方案示例,因为新的解决方案一直在创建。但是,我们提供主观选择。

Automatic1111/稳定扩散 webUI

Automatic1111/stable diffusion webUI(社区称为 Automatic1111 或 A1111),是 Stable Diffusion 模型的一种流行实现,通常用于图像生成任务。它以其用户友好的界面和高效的处理而闻名,使高级图像合成更容易获得。这种实现使用户能够插入由社区训练的各种模型检查点,以生成不同风格的图像。它还允许图像到图像的生成、修复、生成图像的放大、训练和模型检查点的合并。

image-20240115212256790

谷歌吟游诗人

Bard 是由 Google 开发的对话式生成式 AI 聊天机器人。它最初基于 LaMDA 系列的大型语言模型 (LLM),后来升级到 PaLM,然后升级到 Gemini。Bard 是谷歌对 OpenAI 的 ChatGPT 崛起的回应,于 2023 年 3 月以有限的容量推出。它的开发和发布是谷歌加强对人工智能的关注的一部分,以应对 ChatGPT 的日益突出。Bard 的设计功能类似于 ChatGPT,提供对话式 AI 服务,但集成到 Google 的搜索功能和其他产品中。

ChatGPT的

ChatGPT 由 OpenAI 开发,是 GPT(生成式预训练转换器)AI 模型的变体,专为在对话环境中生成类似人类的文本而设计。它在各种语言任务中表现出色,包括聊天、回答问题和完成文本。

CivitAI人工智能

CivitAI 是一个专注于生成式 AI 的平台,托管各种开源模型和工具。该网站收录了社区创建的图像和模型,展示了从简单形状到复杂景观和人脸的应用。Civitai 是创造力和灵感的中心。它提供有关生成式 AI 的资源、指南和教程。该网站还组织挑战和活动,鼓励社区参与人工智能生成的艺术和内容领域的合作。

对比语言-图像预训练 (CLIP)是 OpenAI 开发的一种神经网络模型,可在各种图像和文本对上进行训练。这种创新方法使模型能够在自然语言的上下文中理解和解释图像。CLIP 的关键功能之一是它能够有效地将图像与文本描述相关联。

DALL-E型

DALL-E 也是由 OpenAI 开发的,是一种 AI 扩散模型,以其从文本描述中生成创意和详细图像的能力而闻名。它展示了人工智能在艺术和创意应用中的潜力。在最新版本中,它被集成到 ChatGPT 中,允许通过聊天机器人的界面生成图像,并利用聊天模型的能力来优化用户提示。

image-20240115212346180

Dall-E 2 基于提示“Drupal software house”生成的图形

image-20240115212406051

Dall-E 3,其界面集成到 ChatGPT 中

拥抱脸

HuggingFace是一家公司和平台,以其庞大的自然语言处理预训练模型和工具库而闻名。该解决方案为实施和试验高级 AI 模型提供了一个可访问的网关。它是许多开源 LLM 和扩散模型的所在地。

稳定扩散

Stable Diffusion 于 2022 年推出,是由 Stability AI 开发的文本到图像扩散模型。它使用变分自动编码器 (VAE)、U-Net 和可选的文本编码器根据文本描述生成详细的图像。该模型将图像压缩到更小维的潜在空间中,在前向扩散过程中迭代应用高斯噪声。具有 ResNet 主干的 U-Net 模块对输出进行去噪,然后 VAE 解码器将表示转换回像素空间。

Stable Diffusion 可以以文本和图像为条件,使用 CLIP 文本编码器将文本提示转换为嵌入空间。凭借其相对轻量级的架构和在消费级 GPU 上运行的能力,Stable Diffusion 标志着与之前基于云的专有模型(如 DALL-E)的背离。

image-20240115212444120

骆马

大型语言模型 Meta AI (LLAMA) 是 Meta AI 于 2023 年 2 月发布的大型语言模型系列。它包括具有 7、13、33 和 650 亿个参数的模型。LLaMA 模型在各种 NLP 基准测试中表现出显着的性能,13B 参数模型在特定任务中优于 GPT-3(175B 参数)。

这些模型对于它们的可访问性具有重要意义。Meta 在非商业许可下向研究界发布了 LLaMA 的模型权重。2023 年 7 月,Meta 与 Microsoft 合作推出了 LLaMA-2,模型大小分别为 7、13 和 700 亿个参数。LLaMA-2 包括基础模型和微调的对话模型,称为 LLaMA-2 Chat,并提供改进的数据训练和安全措施。然而,在发布后不久,LLaMA的权重就在网上泄露,导致了广泛的传播。

中途

Midjourney 是由总部位于旧金山的独立研究实验室 Midjourney, Inc. 创建的生成式 AI 程序。它从自然语言描述中生成图像,类似于 OpenAI 的 DALL-E 和 Stability AI 的 Stable Diffusion。Midjourney 于 2022 年 7 月进入公测,可通过 Discord 机器人访问。该工具已被用于各种创意应用,包括艺术中的快速原型设计。Midjourney的图像生成能力也一直是争论和争议的主题,特别是关于人工智能生成艺术的原创性和道德性。

image-20240115212509313

使用 Midjourney 6.0 版生成的图像(Discord 界面清晰可见)

松果

Pinecone 是一种矢量数据库解决方案,旨在高效处理高维数据。Pinecone 对于相似性搜索应用程序特别有用,通常在机器学习和 AI 环境中。

文本生成-webui

Text-generation-webui 是一个基于 Gradio 的 Web UI,旨在与各种大型语言模型 (LLM) 进行交互。它支持一系列模型,如变压器、GPTQ、AWQ、EXL2、llama.cpp (GGUF) 和 Llama 模型。该界面旨在用户友好,提供多种模式,如笔记本和聊天。它包括许多功能,例如支持不同的模型架构、用于模型和检查点切换的下拉菜单,以及与扩展集成以提供长期记忆或文本转语音等附加功能。该存储库提供了详细的安装和使用说明,使希望利用 LLM 执行文本生成任务的用户可以访问它。

耳语

Whisper 由 OpenAI 开发,是一种语音识别模型,旨在提供语音转文本 (STT) 功能。它旨在准确地将音频转录为文本,识别多种语言和口音。Whisper 以其在理解口语方面的有效性而著称,这使其成为各种应用的宝贵工具,包括自动转录和协助听力障碍者无障碍。

高级 AI 术语和解决方案 — 摘要

我们希望这篇文章(尤其是与基本术语的第一部分相结合)将成为进入更广阔的人工智能世界的垫脚石,这是一个不断发展的、新的和令人兴奋的领域。愿这本AI词典能激发你探索人工智能的潜力!如果您想出一个可以从 AI 开发中受益的项目的想法,我们经验丰富的开发人员将随时为您提供帮助。