Skip to content Skip to footer

Google 发布 Gemini:性能优于 GPT4 的多模式 Llm

image-20231217171357203

它原生构建为多模态,是双子座模型时代的第一步。Gemini 优化了三种尺寸——Ultra、Pro 和 Nano。

在基准测试中,Gemini 在 32 项测试中的 30 项中优于 OpenAI 的 GPT-4,尤其是在多模态理解和 Python 代码生成方面。

每个模型都针对特定的应用

旗舰机型 Gemini Ultra 专为数据中心和企业应用程序中的复杂任务而设计,充分利用了 Google 的 AI 功能。另一方面,Gemini Pro 提供更广泛的 AI 服务,与 Google 自己的 AI 服务 Bard 无缝集成。该模型被定位为谷歌人工智能武器库中的多功能工具,可满足各种人工智能驱动的任务。

Gemini Nano 是该系列中最独特的成员,分为两个版本:具有 18 亿个参数的 Nano-1 和具有 32.5 亿个参数的 Nano-2。这些型号专为设备端操作而设计,专注于优化 Android 环境中的性能。

在编码方面,Gemini 使用 AlphaCode 2,这是一个代码生成系统,可显示模型在理解和创建各种语言的高质量代码方面的熟练程度。

Gemini 模型的核心是建立在增强型 Transformer 解码器之上的架构,专为 Google 自己的张量处理单元 (TPU) 量身定制。硬件和软件之间的这种协同作用使模型能够实现高效的训练和推理过程,与之前的迭代(如 PaLM)相比,它们在速度和成本效益方面脱颖而出。

Gemini 套件的一个关键特征是其原生的多模式特性。这些模型在大量数据集(包括文本、图像、音频和代码)上进行了训练,擅长处理和生成这些模态的输出。

这在他们的表现中尤为明显,因为据报道,它们在各种基准测试中都超过了 OpenAI 的 GPT-4,尤其是在多模态理解和 Python 代码生成方面。

本周发布的版本Gemini Pro是更高级型号Gemini Ultra的轻量级变体,预计将于明年发布。

image-20231217171427739

主要收获

  • 性能:Gemini AI 以 90% 的分数在人类水平的 MMLU 基准性能上超越了 GPT-4。
  • 建筑:利用先进的 Transformer 解码器,并在 TPUv4 Pod 上进行训练,并支持 32k 令牌的重要上下文长度。
  • 变种:提供三种定制版本:Ultra 用于复杂任务,Pro 用于可扩展性,Nano 用于提高设备效率。
  • 基准:在多模态任务中设置新的 SOTA 结果,包括图像理解和推理问题。
  • 可及性:从 12 月 13 日起,开发者可以通过 Google AI Studio 或 Google Cloud Vertex AI 上的 API 访问 Gemini Pro。

意见

Gemini Pro 现在正在为 Google 的 ChatGPT 竞争对手 Bard 提供支持,并承诺提高推理和理解能力。然而,有一个问题:谷歌不允许在推出这些模型之前对其进行独立测试,让我们相信他们的话。专业版也将很快提供给企业用户和开发人员。

更有趣的是,Gemini Ultra 声称是“原生多模态”,可以处理各种数据,包括文本、图像、音频和视频。这种能力超越了 OpenAI 的 GPT-4 with Vision,但在许多方面的改进微乎其微。例如,在某些基准测试中,Gemini Ultra 的表现仅略高于 GPT-4。

一个令人担忧的方面是谷歌对Gemini训练数据的保密性。关于数据来源和创建者权利的问题没有得到解答。这一点至关重要,因为人工智能行业面临着在没有信用或补偿的情况下使用受版权保护的内容的诉讼。