Gemini report 中文翻译

本文翻译贡献者：林夕

源文档：https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

💡

本文主要对 Gemini 的 report 进行翻译，大部分经过人工校验，少部分根据个人对 MLLM 的理解进行翻译。如果不对的地方欢迎 Comment。

本报告介绍了一种新的多模态模型 Gemini，它在图像、音频、视频和文本理解方面具有卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种尺寸，适用于从复杂的推理任务到设备内存受限的应用场景。对广泛的基准测试的评估表明，我们最有能力的 Gemini Ultra 模型在 32 个基准测试中的 30 个中提高了最先进的水平，特别是第一个在经过充分研究的考试基准测试 MMLU 上实现人类专家性能的模型，并在我们检查的 20 个多模态基准测试中的每一个中提升了现有 SOTA。我们相信 Gemini 模型在跨模态推理和语言理解方面的新能力将能够实现各种用例，并且我们讨论了负责任地向用户部署它们的方法。

1. 介绍

我们在 Google 开发了一系列高性能的多模态模型 Gemini。我们通过图像、音频、视频和文本数据共同训练了 Gemini，目的是构建一个在各个模态中具有强大的通用能力以及在各个领域中具有尖端的理解和推理性能的模型。

Gemini 1.0，我们的第一个版本，有三种尺寸：

Ultra 适用于高度复杂的任务，
Pro 提供增强性能和可扩展性，适用于大规模部署，
Nano 适用于设备上的应用程序。

每个尺寸都经过特别设计以满足不同的计算限制和应用要求。我们对 Gemini 模型在广泛的语言、编码、推理和多模态任务上进行了全面的内部和外部基准测试。

Gemini 在多个任务中获得了 SOTA 性能，包括语言模型（Anil 等，2023； Brown et al.,77.7%2023; Hoffmann et al.， 2022 年； OpenAI, 2023a; Radford 等人，2019； Rae 等人，2021 年），图像理解（Alayrac 等人，2022 年； Chen 等人，2022 年； Dosovitskiy 等人，音频处理（Radford 等人，Google 的 2023 年；张等人，2023 年），以及视频理解（Alayrac 等人，2022 年； Chen 等人，2023 年。它基于大量的序列模型的工作，机器学习分布式系统来巡礼那大规模模型。

我们最强大的模型 Gemini Ultra 在我们报告的 32 个基准测试中，在 30 个基准测试中取得了 SOTA，其中包括 12 个流行的文本和推理基准测试中的 10 个，9 个图像理解基准测试中的 9 个，6 个视频理解基准测试中的 6 个，以及 5 个语音识别和语音翻译基准测试中的 5 个。Gemini Ultra 是第一个在 MMLU 上实现人类专家水平表现的模型（Hendrycks 等人）。2021 a）-通过一系列考试测试知识和推理的突出基准-得分超过 90%。除了文本，Gemini Ultra 在具有挑战性的多模态推理任务方面取得了显著进展。例如，在最近的 MMMU 基准（Yue 等人，2023 年），其中包括关于多学科任务上的图像的问题，需要大学水平的学科知识，通过知识和深思熟虑的推理，Gemini Ultra 实现了 62.4%的最新技术水平，超过了之前最佳模型（GPT4V）超过 5 个百分点。它为视频问答和音频理解 Benchmark 上，获得了一个很好平衡的性能。

定性评估展示了令人印象深刻的跨模态推理能力，使模型能够原生地理解和推理音频、图像和文本的输入序列（见图 5 和表 13）。以图 1 所示的教育环境为例。一位老师画了一个物理问题，描述了一个滑雪者下坡的情景，而一位学生已经解决了这个问题。通过 Gemini 的多模态推理能力，该模型能够理解混乱的手写文字，正确理解问题的表述，将问题和解决方案转换为数学排版，识别学生在解决问题时出错的具体推理步骤，然后给出一个经过正确求解的问题的解答。这为令人兴奋的教育可能性打开了大门，我们相信 Gemini 模型的新的多模态和推理能力在许多领域具有重大应用。

大型语言模型的推理能力，显示出在构建能够解决更复杂的多步问题的通用 agents 方面的潜力。AlphaCode 团队构建了 AlphaCode 2（Leblond 等人，2023 年），这是一个新的基于 Gemini 的 agent，它将 Gemini 的推理能力与搜索和工具使用相结合，在解决竞争性编程问题方面表现出色。AlphaCode 2 在 Codeforces 竞技编程平台上排名前 15％的参赛者中，相比于排名前 50％的最新技术有了很大的改进（Li 等人 2022 年）。

同时，我们通过 Gemini Nano 提升了效率，这是一系列针对设备部署的小型模型。这些模型在设备上的任务中表现出色，如摘要、阅读理解、文本补全任务，并且相对于其大小，在推理、STEM、编码、多模态和多语言任务中展示出令人印象深刻的能力。

在下面的部分中，我们首先提供模型架构、训练基础结构和训练数据集的概述。然后，我们提出了详细 Gemini 模型的评估，涵盖了良好的研究 Benchmark 和人类偏好的评估，包括文本，代码，图像，音频和视频，包括英语性能和多语言能力。我们还讨论了我们的部署方法，包括在部署决策之前进行影响评估、制定模型策略、评估和减轻危害的过程。最后，我们讨论了 Gemini 的更广泛影响，以及它的局限性和潜在应用，为人工智能研究和创新开辟了新时代的道路。

2.模型架构

Gemini 模型是基于 Transformer 解码器构建的（Vaswani 等人），对模型结构进行了优化，模型优化主要是为了大规模的稳定训练，以及在 Google 的 TPU 上进行推理优化。它们经过训练以支持 32k 的上下文长度，采用高效的注意机制（例如，多查询注意力（Shazeer，2019））。我们的第一个版本 Gemini 1.0 包括三种主要尺寸，以支持广泛的应用，如表 1 所述。

Gemini 模型经过训练，可以适应与各种音频和视觉输入（如自然图像、图表、屏幕截图、PDF 和视频）交织的文本输入，并且可以生成文本和图像输出（请参见图 2）。Gemini 模型的视觉编码受到我们自己对基础模型的启发，包括 Flamingo（Alayrac 等人，2022）、CoCa（Yu 等人，2022a）和 PaLI（Chen 等人，2022 年），重要的区别在于这些模型从一开始就是多模态的，并且可以使用离散的图像标记（discrete image token）自然的输出图像（Ramesh 等人 2021； Yu et al.,2022b).

通过将视频编码为大上下文窗口中的一系列帧来实现视频理解。视频帧或图像可以自然地与文本或音频交错作为模型输入的一部分。这些模型可以处理可变的输入分辨率，以便在需要细粒度理解的任务上，进行更多的计算。并且，Gemini 能够直接的插入音频信号，来自 Universal Speech Model（USM）16khz 的特征。当音频自然地映射到文本输入时，通常会丢失细微差别（例如，参见网站上的音频理解演示），这使得模型能够捕获这些细微差别。

训练 Gemini 系列模型需要在训练算法、数据集和基础设施方面进行创新。对于 Pro 模型，我们基础设施和学习算法的固有可扩展性使我们能够在几周内完成预训练，利用了 Ultra 的一小部分资源。Nano 系列模型利用了蒸馏和训练算法的进一步改进，为各种任务（如摘要和阅读理解）提供了最佳的小型语言模型，为我们的下一代设备体验提供动力。

3.训练的 infra

我们使用 TPUv5e 和 TPUv4（Jouppi 等人）训练了 Gemini 模型。这些模型的大小和配置可能会有所不同。训练 Gemini Ultra 使用了多个数据中心的大型 TPUv4 加速器群。这代表着相对于我们之前的旗舰模型 PaLM-2 而言规模的显著增加，这也带来了新的基础设施挑战。加大加速器数量会导致整个系统中硬件故障的平均时间间隔成比例地减少。我们尽量减少计划重新安排和抢占的频率，但在如此大规模的硬件加速器中，由于各种外部因素，真正的机器故障是普遍存在的。

TPUv4 加速器部署在 4096 个芯片的“SuperPods”中，每个芯片都连接到一个专用的光开关，可以在大约 10 秒钟内将 4x4x4 芯片立方体动态重新配置为任意的 3D 环形拓扑结构（Jouppi 等人，2023 年。对于 Gemini Ultra，我们决定保留每个超级节点一小部分的立方体，以便进行热备份和滚动维护。

TPU 加速器主要通过高速芯片间互连进行通信，但在 Gemini Ultra 规模下，我们使用 Google 的集群内和集群间网络将 SuperPods 组合在多个数据中心中（Poutievski 等人，2022 年；Wetherall 等人。2023 年；姚红等人 2018 年）。Google 的网络延迟和带宽足以支持常用的同步训练范式，在超级节点内利用模型并行性和超级节点间进行数据并行性。

Jax 的“Single Controller”编程 model（Bradbury 等人。2018 年）和 Pathways（Barham 等人。在 2022 年），允许一个单独的 Python 进程来编排整个训练过程，极大地简化了开发工作流程。GSPMD 分区器（Xu 等人，2021 年），XLA 编译器在训练步骤计算中进行了分区，并且 MegaScale XLA 编译器（XLA，2019）通过静态调度适当的集合操作，以使其与计算最大程度地重叠，步骤时间变化很小。

在这个规模上保持高吞吐量是不可能的，采用传统的周期性权重检查点到持久性集群存储的方法。对于 Gemini，我们使用了模型状态的冗余内存副本，当出现任何意外的硬件故障时，我们可以直接从完整的模型副本中快速恢复。对比 PaLM 和 PaLM-2，尽管使用的训练资源显著增加，但这大大加快了恢复时间。因此，最大规模的训练任务的整体吞吐量从 85%增加到 97%。

在前所未有的规模上进行的训练不可避免地会出现新的有趣的系统故障模式-在这种情况下，我们需要解决的一个问题是“静默数据损坏（SDC）”（Dixit 等，2021 年），我们发现 Gemini Ultra 在思维链和自洽性提示下达到了 94.4%的准确率（Wang 等）。2021 年； Hochschild 等人。2021 年；Vishwanathan 等人，2023 年）2015 年。尽管这些情况非常罕见，但 Gemini 的规模意味着我们可以预期 SDC 事件每一两周影响训练。快速检测和移除故障硬件需要利用确定性重放来隔离错误计算的几种新技术，结合在空闲机器和热备份上的主动式 SDC 扫描器。我们完全确定性的基础设施使我们能够在开发过程中快速识别到根本原因（包括硬件故障），这对于稳定的训练是至关重要的。

4.训练数据集

Gemini 模型是在一个既包含多模态又包含多语言的数据集上进行训练的。我们的预训练数据集使用来自网络文档、书籍和代码的数据，并包括图像、音频和视频数据。

我们使用 SentencePiece 分词器（Kudo 和 Richardson，2018），发现在整个训练语料库的大样本上训练分词器可以改善推断的词汇，并进而提高模型性能。例如，我们发现 Gemini 模型可以高效地标记非拉丁脚本，这反过来可以提高模型质量以及训练和推理速度。

训练最大模型所使用的标记数量是根据 Hoffmann 等人（2022）的方法确定的。为了在给定的推理预算下提高性能，较小的模型被训练了更多的 token，类似于（Touvron 等人，2023a）提倡的方法。

我们对所有数据集进行过滤，使用启发式规则和基于模型的分类器。我们还进行安全过滤以删除有害内容。我们从训练语料库中筛选出我们的评估集。通过对较小的模型进行消融实验，确定了最终的数据混合和权重。我们在训练过程中进行分阶段训练，通过增加领域相关数据的权重来改变混合组合，直到训练结束。我们发现数据质量对于一个高性能的模型至关重要，并且相信在寻找预训练的最佳数据集分布方面还存在许多有趣的问题。

5.评估

Gemini 模型是天生多模态的，因为它们在文本、图像、音频和视频上进行联合训练。一个关键的问题是，这种联合训练是否能够在每个领域，都具有强大能力，与专门针对单个领域的模型和方法进行比较。我们发现这是可以的：Gemini 在广泛的文本、图像、音频和视频基准测试中都做到了 SOTA。

5.1 文本

5.1.1 学术基准

我们将 Gemini Pro 和 Ultra 与一系列外部 LLM 模型和我们先前的最佳模型 PaLM 2 进行比较，涵盖推理、阅读理解、STEM 和编码等一系列基于文本的学术基准。我们在表 2 中报告了这些结果。总体而言，我们发现 Gemini Pro 的性能优于 GPT-3.5 等推理优化模型，并且与几个最强大的模型表现相当，而 Gemini Ultra 则优于所有当前模型。在本节中，我们将研究其中一些发现。

在 MMLU（Hendrycks 等人，上 2021a） Gemini Ultra 可以超越所有现有模型，达到 90.04%的准确率。MMLU 是一个全面的考试基准，衡量了 57 个科目的知识水平。基准作者将人类专家表现评估为 89.8%，而 Gemini Ultra 是第一个超过此阈值的模型，先前的最先进结果为 86.4%。实现高性能需要在许多领域（如法律、生物学、历史等）具备专业知识，同时还需要阅读理解和推理能力。我们发现，考虑了模型的不确定性，当与思维链提示方法结合使用时，Gemini Ultra 的准确性最高（Wei 等人，2022 年）。该模型生成了一个包含 k 个样本（例如 8 或 32）的思维链。如果存在超过预设阈值的共识（基于验证集选择），则选择此答案；否则，它将回到基于最大似然选择的贪婪采样，而没有思维链。我们在附录中，详细比较了这种方法与仅基于思维链提示或仅贪婪采样的差异。

在数学领域，这是一个常用于评估模型分析能力的领域，Gemini Ultra 在初级考试和竞赛级问题集上表现出强大的性能。对于小学数学基准测试，GSM8K（Cobbe 等，2021 年），使用相同 prompt 技术，之前最佳准确率 92％，Gemini 取得了类似的积极趋势。从中学和高中数学竞赛（MATH 基准）中提取的难度增加的数学问题也观察到类似的积极趋势，Gemini Ultra 模型表现优于所有竞争对手模型，在 4 次提示下达到 53.2％。该模型在源自美国数学竞赛的更难任务上也优于现有技术（来自 2022 年和 2023 年的 150 个问题）。在这个具有挑战性的任务中，较小的模型表现不佳，得分接近随机，但是 Gemini Ultra 可以解答 32%的问题，而 GPT-4 的解答率为 30%。

Gemini Ultra 在代码方面也表现出色，这是当前 LLMs 的一个流行的测试用例。我们在许多传统和内部基准测试中评估模型，并在更复杂的推理系统（如 AlphaCode 2）中衡量其性能（请参见第 5.1.7 节关于复杂推理系统）。例如，在 HumanEval 上，一个标准的 code-completion Benchmark，根据函数描述得到 Python 实现，经过指令调优的 Gemini Ultra 正确实现了 74.4%的问题。在一个新的针对 Python 代码生成任务的，保密评估基准 Natural2Code 上，我们确保没有网络泄漏，Gemini Ultra 取得了最高分 74.9%。

在这些基准测试中进行评估是具有挑战性的，并且可能受到数据污染的影响。我们在训练后进行了广泛的泄露数据分析，以确保我们在这里报告的结果尽可能科学可靠，但仍然发现了一些小问题，并决定不报告结果，例如 LAMBADA（Paperno 等，2016）。作为评估过程的一部分，在一个流行的基准测试中，HellaSwag（Zellers 等人，2019 年），我们发现，在对应于 HellaSwag 训练集（不包括在 Gemini 预训练集中）的特定网站提取物上额外增加 100 个微调步骤，将 Gemini Pro 的验证准确度提高到 89.6%，Gemini Ultra 提高到 96.0%，当使用 1-shot 进行评估时（我们测量了 GPT- 4，当通过 API 进行 1-shot 评估时获得 92.3%）。这表明 benchmark 的结果，对预训练数据集的组成具有敏感性。我们选择仅在 10-shot 评估设置中报告 HellaSwag 的去污结果。我们认为，有必要制定更加健全和细致入微的标准化评估基准，而不泄露数据。因此，我们对 Gemini 模型进行了几个新的保留评估数据集的评估，这些数据集最近发布，例如 WMT23 和 Math-AMC 2022-2023 问题，或者是从非网络来源生成的，例如 Natural2Code。可以在附录中获取我们评估基准的全面列表。

即便如此，模型在这些基准测试中的表现，给我们提供了模型能力和它们在现实任务中可能产生影响的线索。例如，Gemini Ultra 令人印象深刻的推理和 STEM 能力为教育领域内的 LLM 进步铺平了道路。解决复杂的数学和科学概念的能力，为个性化学习和智能辅导系统开辟了令人兴奋的可能性。

5.1.2 能力趋势：

我们通过在六个不同能力的 50 多个基准测试中，对 Gemini 模型系列进行评估，研究其能力的趋势，一些最显著的基准测试在上一节中已经讨论过。这些能力包括：

“事实性”涵盖开放/封闭书检索和问题回答任务；
“长文本”涵盖长篇摘要、检索和问题回答任务；
“数学/科学”包括数学问题解决、定理证明和科学考试任务；
“推理”任务需要算术、科学和常识推理；
“多语言”任务涉及多种语言的翻译、摘要和推理。

请参阅附录以获取每个能力所包含的任务的详细列表。

我们在图 3 中观察到随着模型规模的增加，特别是在推理、数学/科学、摘要和长上下文方面，质量稳定提升。Gemini Ultra 是所有六种能力的最佳模型。Gemini Pro 是 Gemini 系列模型中第二大的模型，同时在提供服务时也更加高效。

5.1.3 Nano

为了将人工智能带向用户，我们讨论了专为设备部署而设计的 Gemini Nano 1 和 Nano 2 模型。这些模型在总结和阅读理解任务中表现出色，并对每个任务进行微调。图 3 显示了这些预训练模型与更大的 Gemini Pro 模型的性能对比，而表 3 则更深入地探讨了特定的事实性、编码、数学/科学和推理任务。Nano-1 和 Nano-2 模型的参数分别仅为 1.8B 和 3.25B。尽管他们的规模，他们显示出异常强大的性能，例如检索相关任务，并在推理、STEM、编码、多模态和多语种任务。随着新的能力可在更广泛的平台和设备上使用，Gemini 模型扩大了对所有人的可访问性。

5.1.4 多语言能力

通过使用多种任务对 Gemini 模型的多语言能力进行评估，这些任务需要多语言理解、跨语言泛化以及生成多种语言的文本。这些任务包括机器翻译基准测试（WMT 23 用于高、中、低资源翻译；Flores、NTREX 用于低资源和极低资源语言），摘要基准测试（XLSum、Wikilingua），以及常见基准测试的翻译版本（MGSM：专业翻译成 11 种语言）。

机器翻译。翻译任务在机器学习中具有悠久的历史，是一个标准的 Benchmark。个我们在 WMT 23 这个 Benchmark 的整个语言对集合上，评估了应用 Instruction tuning 的 Gemini Ultra（见第 6.4.2 节）在少量样本设置中的性能。总体而言，我们发现 Gemini Ultra（以及其他 Gemini 型号）在从英语翻译成任何其他语言方面表现出色，并且在高资源、中资源和低资源语言的翻译中超过了基于 LLM 的翻译方法。在 WMT 23 个英语翻译任务中，Gemini Ultra 实现了基于 LLM 的最高翻译质量，平均 BLEURT 为（Sellam 等人，2020 年）得分为 74.8，而 GPT-4 的得分为 73.6，PaLM 2 的得分为 72.2。在 WMT 23 的所有语言对和方向上取平均值，我们可以看到 Gemini Ultra 74.4、GPT-4 73.8 和 PaLM 2-L 72.7 在这个基准测试上的平均 BLEURT 分数呈类似趋势。

除了上述的语言和翻译任务外，我们还在非常低资源的语言上评估了 Gemini Ultra。这些语言是从以下语言集的尾部进行抽样的：Flores-200（塔马齐格语和卡努雷语），NTREX（北恩德贝勒语）和内部基准（克丘亚语）。

对于这些语言，无论是从英语翻译成其他语言，还是从其他语言翻译成英语，Gemini Ultra 在一次性设置中的平均 chrF 得分为 27.0，而下一个最佳模型 PaLM 2-L 的得分为 25.3。

多语种数学和总结。除了翻译，我们还评估了 Gemini 在各种语言的挑战性任务中的表现。我们特别调查了数学基准 MGSM（Shi 等人，2023 年）。2023 年），这是数学基准测试 GSM8K 的一个翻译变体（Cobbe 等人，2021 年）。我们发现，在 8-shot 的实验 setting 中，Gemini Ultra 在所有语言中的平均准确率为 79.0%，相比之下，PaLM 2-L 的准确率为 74.7%。我们还在多语言摘要基准测试 XLSum（Hasan 等人）上对 Gemini 进行了基准测试。2021）和 WikiLingua（Ladhak 等人，2020 年。在 XLSum 中，Gemini Ultra 的平均 rougeL 得分为 17.6，而 PaLM 2 为 15.4。对于 Wikilingua，Gemini Ultra（5-shot）在 BLEURT 得分上落后于 PaLM 2（3-shot）的表现。完整结果请参见表 5。总体而言，多样化的多语言基准测试表明，Gemini 系列模型具有广泛的语言覆盖范围，使其能够覆盖资源匮乏的地区和地域

5.1.5 长上下文：

Gemini 模型的训练使用了长度为 32,768 个标记的序列，我们发现它们有效地利用了上下文长度。我们首先通过运行一个合成检索测试来验证这一点：我们将键值对放置在上下文的开头，然后添加长的填充文本，并询问与特定键相关联的值。我们发现，当在完整的上下文长度查询时，Ultra 模型以 98%的准确率检索到正确的值。我们通过在图 4 中绘制负对数似然（NLL）与标记索引之间的关系来进一步研究这个问题，这是在一个长文档的保留集上进行的。我们发现负对数似然（NLL）随着序列位置的增加而减少，直到完整的 32K 上下文长度。Gemini 模型更长的上下文长度使得可以进行新的用例，例如在 5.2.2 节中讨论的文档检索和视频理解。

5.1.6 人类偏好评估

人类对模型输出的偏好是补充自动化评估质量的重要指示。作者在面对面的盲目评估中评估了 Gemini 模型，其中人类评估者判断两个模型对相同提示的响应。作者在第 6.4.2 节中讨论的技术进行了指令调优。指令调优的模型在各种特定能力上进行评估，如遵循指令、创意写作、多模态理解、长上下文理解和安全性。这些能力涵盖了一系列受当前用户需求和科学研究启发的使用案例和潜在的未来使用案例。

指令微调过的 Gemini Pro 模型在一系列能力上有很大的改进，包括在创意写作方面优于 PaLM 2 模型 API，65.0%的 Win-rate，在指令遵循方面 Win-rate 为 59.2%，并在更安全的响应方面提高了 68.5%的时间，如表 6 所示。这些改进直接转化为更有帮助和更安全的用户体验。

5.1.7 复杂推理系统：

Gemini 也可以与搜索和工具使用等技术相结合，创建强大的推理系统，可以解决更复杂的分步问题。一个例子是 AlphaCode 2，这是一个新的最先进的智能代理，擅长解决竞争编程问题。AlphaCode 2 使用了一种专门针对竞争编程数据的 Gemini Pro 版本，在可能程序空间上进行大规模搜索。然后进行定制的过滤、聚类和重排机制。Gemini Pro 既被调优为生成 Proposal 解决方案候选人的编码模型，也被调优为利用奖励模型识别和提取最有前途的代码候选。

AlphaCode 2 在 Codeforces 上进行了评估，Codeforces 与 AlphaCode 是相同的平台，总共参加了 12 个来自 division 1 和 2 的竞赛，总共 77 个问题。AlphaCode 2 解决了这些竞赛问题的 43%，比先前的记录-breaking AlphaCode 系统提高了 1.7 倍，AlphaCode 解决了 25%的问题。将此映射到竞赛排名中，AlphaCode 2 基于 Gemini Pro 的系统平均位于第 85 百分位，即其表现优于 85%的参赛者。这相对于 AlphaCode 的 50%的参赛者表现有了显著的提高。

结合搜索和推理机制的强大预训练模型的组合是朝着更通用代理迈出的激动人心的方向；另一个关键的角度是跨多种模态的深入理解，作者将在下一节中讨论。

5.2 多模态

Gemini 模型本身就是多模态的。这些模型展示了无缝结合跨模态能力的独特能力（例如从表格、图表或图形中提取信息和空间布局），以及语言模型的强大推理能力（例如在数学和编码方面的最新性能），如图 5 和 12 中的示例所示。这些模型在识别输入中的细微细节、在空间和时间上聚合上下文，以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。

下面的部分提供了对模型在不同模态（图像、视频和音频）上的更详细评估，以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。

5.2.1 图像理解：

我们评估了模型在四个不同的能力上：

使用 caption 或问答任务（如 VQAv2）进行高级对象识别；
使用 TextVQA 和 DocVQA 等任务进行细粒度转录，要求模型识别 low-level 的细节；
使用 ChartQA 和 InfographicVQA 任务要求模型理解输入布局的空间理解
以及使用 Ai2D、MathVista 和 MMMU 等任务进行多模态推理。

对于 zero-shot QA 评估，模型被指示提供与特定基准对齐的简短答案。所有数字都是通过 Greedy Sampling 获得的，没有使用任何外部 OCR 工具。

我们发现 Gemini Ultra 在表 7 中的各种图像理解基准测试中都是最先进的。它在回答自然图像和扫描文档的问题，以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。与其他模型（尤其是 GPT-4V）公开报告的结果相比，Gemini 在 zero-shot 评估中表现更好。它还超过了几个专门在基准训练集上进行微调的现有模型，适用于大多数任务。Gemini 模型的能力在学术基准测试中取得了显著的改进，如 MathVista（+ 3.1%）或 InfographicVQA（+ 5.2%）。

MMMU（Yue 等人，2023）是一个最近发布的评估基准，其中包含了关于图像的问题，涵盖了 6 个学科，每个学科中又有多个主题，需要大学水平的知识来解答这些问题。Gemini Ultra 在这个基准测试中取得了最好的分数，比最先进的结果提高了 5 个百分点以上，并在 6 个学科中的 5 个学科中超过了以前的最佳结果（见表 8），从而展示了它的多模态推理能力。

Gemini 模型还能够同时处理多种模态和全球语言的任务，无论是图像理解任务（例如包含冰岛文本的图像）还是生成任务（例如为多种语言生成图像描述）。我们在 Crossmodal- 3600（XM- 3600）基准测试的选定语言子集上使用 Flamingo 评估协议（Alayrac 等人，2018）在 4-shot 设置下评估生成图像描述的性能。如表 9 所示，Gemini 模型相比现有最佳模型 Google PaLI-X 取得了显著的改进。

图 5 中的定性评估，展示了 Gemini Ultra 多模态推理能力的一个例子。该模型需要解决生成由用户提供的一组子图重新排列的 matplotlib 代码的任务。模型输出显示它成功解决了这个任务，通过结合了多种能力，包括理解用户的绘图、推断生成所需的代码、按照用户的指示将子图放置在所需位置以及对输出图进行抽象推理。这突出了 Gemini Ultra 的本地多模态性，并暗示了它在图像和文本的交错序列中更复杂的推理能力。附录中可以获取更多定性示例。

5.2.2 视频理解：

理解视频输入是朝着有用的通用代理的重要一步。我们通过几个已建立的基准测试来衡量视频理解能力，这些基准测试是从训练中排除的。这些任务衡量模型是否能够理解和推理一系列时间相关的帧。对于每个视频任务，我们从每个视频剪辑中采样 16 个等间距的帧，并将它们输入到 Gemini 模型中。对于 YouTube 视频数据集（除了 NextQA 和感知测试之外的所有数据集），我们在 2023 年 11 月仍然公开可用的视频上评估了 Gemini 模型。

Gemini Ultra 获得了 SOTA 性能在不同的 few-show 视频 caption 任务以及 zero-shot video qa 任务中，如表 10 所示。这证明了它在多个帧之间具有强大的时间推理能力。附录中的图 21 提供了一个关于理解足球运动员击球机制的视频的定性示例，并推理出运动员如何改善他们的比赛。

5.2.3 图像生成

Gemini 能够直接输出图像，而无需依赖中间的自然语言描述，这可以避免模型在表达图像时受到瓶颈的影响。这使得该模型能够在 few-shot 的 setting 下，使用交错的图像和文本序列生成带有提示的图像。例如，用户可以提示模型为博客文章，或网站设计图像和文本建议（见附录中的图 10）。

图 6 展示了一次性设置中图像生成的示例。Gemini Ultra 模型会提示一个交错的图像和文本示例，用户需要提供两种颜色（蓝色和黄色）以及使用纱线创造一个可爱的蓝猫或者一个蓝狗带黄耳朵的图像建议。然后，模型基于两种新颜色（粉红色和绿色），并被要求提供使用这些颜色创造两个想法。该模型成功地生成了一个交错的图像和文本序列，并提供了一些建议，可以用纱线制作一个可爱的绿色鳄梨带粉色种子或一个绿色的兔子带粉色耳朵。

5.2.4 音频理解：

我们在各种 Benchmark 上评估了 Gemini Nano-1 和 Gemini Pro 模型，并与 Universal Speech Model（USM）（Zhang 等人，2023 年）或 large-v3（OpenAI，2023 年）进行了比较。这些 Benchmark 包括自动语音识别（ASR）任务，如 FLEURS（Conneau 等人），2021 年），多语言 Librispeech（Panayotov 等人）。2015），以及语音翻译任务 CoVoST 2，将不同的语言翻译成英语（Wang 等人，2020 年。我们还报告了一个内部基准 YouTube 测试集的结果。

ASR 任务报告了一个词错误率（WER）指标，较低的数字表示更好的性能。翻译任务报告双语评估助手（BLEU）得分，得分越高越好。FLEURS 在与训练数据有语言重叠的 62 种语言上进行了报告。四种分段语言（普通话、日语、韩语和泰语）报告字符错误率（CER），而不是词错误率（WER），类似于 Whisper（Radford 等人，2023 年）。

表 11 表明，我们的 Gemini Pro 模型在所有 ASR 和 AST 任务中，无论是英语还是多语种测试集，都明显优于 USM 和 Whisper 模型。注意，与 USM 和 Whisper 相比，FLERS 有很大的收益，因为我们的模型也使用 FLERS 训练数据集进行训练。然而，如果没有 FLEURS 数据集训练相同的模型，WER 为 15.8，仍然优于 Whisper。除了 FLEURS 数据集外，Gemini Nano-1 模型在所有数据集上的表现也优于 USM 和 Whisper。请注意，我们尚未对 Gemini Ultra 进行音频评估，尽管我们预计增加模型规模会带来更好的性能。

表 12 显示了使用 USM 和 Gemini Pro 进行的进一步错误分析。我们发现 Gemini Pro 在罕见的词汇和专有名词上产生了更易理解的回答。

5.2.5 模态组合

多模态演示通常包括文本与单一模态（通常是图像）交错组合（interleaved）。我们展示了原生处理音频和图像序列的能力

考虑一个关于制作煎蛋卷的烹饪场景，我们用一系列的音频和图像提示模型。表 13 显示了与模型的逐步交互，提供图片并询问下一步煮煎蛋的问题。我们注意到模型的响应文本相当准确，并显示模型处理细致的图像细节，以评估煎蛋是否煮熟。在网站上查看演示。

6.负责任的部署

在开发 Gemini 模型期间，我们采用结构化方法进行负责任的部署，以识别、衡量和管理我们模型可预见的对社会的影响，与谷歌 AI 技术的先前版本保持一致（Kavukcuoglu 等人，2022 年）。在项目的整个生命周期中，我们遵循以下结构。本节概述了我们通过这个过程的广泛方法和主要发现。我们将在即将发布的报告中分享更多细节。

6.1 影响评估

我们开展模型影响评估，以识别、评估和记录与先进的 Gemini 模型开发相关的重要下游社会效益和危害。这些评估是基于先前的学术文献对语言模型风险的研究（Weidinger 等人，2021 年），在整个行业范围内进行的类似先前实验的研究结果（Anil 等人，2023 年；Anthropic，2023 年；OpenAI，2023a），与内部和外部专家的持续合作，并进行非结构化的尝试以发现新的模型漏洞。关注的领域包括：事实性、儿童安全、有害内容、网络安全、生物风险、代表性和包容性。这些评估与模型开发同步更新。

影响评估用于指导缓解和产品交付工作，并且为部署决策提供信息。Gemini 的影响评估涵盖了 Gemini 模型的不同能力，评估了这些能力与谷歌的 AI 原则（谷歌，2023 年）可能产生的后果。

6.2 模型政策

在对已知和预期效果的理解基础上，我们制定了一套“模型政策”来引导模型的开发和评估。模型策略定义作为负责任开发的标准化准则和优先级模式，并作为上线准备的指示。Gemini 模型的政策涵盖了多个领域，包括：儿童安全、仇恨言论、事实准确性、公平与包容以及骚扰。

6.3 评估

为了评估 Gemini 模型在政策领域和其他在影响评估中确定的关键风险领域中的表现，我们在模型开发的整个生命周期中开展了一系列评估。

在训练和优化 Gemini 模型过程中，会进行开发评估以进行“hill-climbing”。这些评估是由 Gemini 团队设计的，或者是针对外部学术基准的评估。评估考虑诸如有用性（指令遵循和创造力）、安全性和事实性等问题。请参阅第 5.1.6 节和下一节的 mitigations 的样本结果。

保证评估是为了治理和审查而进行的，通常在关键里程碑或培训运行结束时由模型开发团队之外的团队进行。保证评估按照模态进行标准化，数据集严格保密。只有高层次的见解被反馈到训练过程中，以协助缓解工作。保证评估包括对 Gemini 政策的测试，并包括对潜在生物危害、说服力和网络安全等危险能力的持续测试（Shevlane 等，2022 年）以修订回应并在多个回应候选项之间进行选择。

外部评估由谷歌之外的合作伙伴进行，以发现盲点。外部团体对我们的模型进行了一系列问题的压力测试，包括白宫承诺书中列出的领域，测试通过结构化评估和非结构化的红队测试进行。这些评估的设计是独立的，并且结果定期报告给 Google DeepMind 团队。

除了这套外部评估之外，专业的内部团队还在各个领域进行我们的模型的持续红队测试，如 Gemini 政策和安全性。这些活动包括涉及复杂对抗攻击以识别新漏洞的较少结构化的过程。发现潜在弱点可以用于减轻风险并改进内部评估方法。我们致力于持续的模型透明度，并计划随着时间的推移分享我们评估套件中的其他结果。

6.4 Mitigations

针对上述评估、政策和评估方法的结果，制定了缓解措施。评估和缓解措施以迭代方式使用，缓解措施后重新运行评估。我们在下面讨论了我们在数据、指令微调和真实性方面减轻模型伤害的努力。

6.4.1 数据：

在训练之前，作者采取各种步骤来减轻数据策展和数据收集阶段的潜在下游危害。正如在“训练数据”部分中所讨论的，作者对训练数据进行高风险内容的过滤，并确保所有训练数据质量足够高。除了过滤之外，作者还采取步骤确保所有收集到的数据符合 Google DeepMind 在数据增强方面的最佳实践，这是基于 AI 合作组织“负责任的增强数据服务采购”10 所开发的。这包括确保所有数据增强工作者获得至少当地的最低生活工资。

6.4.2 指令微调

指令调优涵盖有监督的微调（SFT）和通过人类反馈的强化学习（RLHF），使用奖励模型。作者在文本和多模态设置中应用指令调优。指令调优的食谱精心设计，以平衡有益性的增加与与安全性和错觉相关的模型危害的减少（Bai 等人，2022 年）。

SFT 需要对“优质”数据进行整理，以进行奖励模型训练和 RLHF。数据混合比例通过较小的模型进行消融，以平衡有用性指标（如遵循指示、创造力）和减少模型危害，并且这些结果可以很好地推广到较大的模型。我们还观察到数据质量比数量更重要（Touvron 等人，2023b； Zhou 等人，特别是针对较大的模型。同样，对于奖励模型训练，我们发现平衡数据集非常重要，其中包含模型倾向于出于安全原因说“我无法帮助”的示例以及输出有帮助回答的示例。我们使用多目标优化，通过从有用性、真实性和安全性的奖励分数的加权和来训练多头奖励模型。

我们进一步阐述了我们的方法来减轻有害文本生成的风险。我们在各种用例中列举了大约 20 种有害类型（例如仇恨言论，提供医疗建议，建议危险行为）。我们通过政策专家和机器学习工程师的手动方式，或者通过使用主题关键词作为种子来提示高能力语言模型，生成了一个潜在危害查询的数据集。

在面临有害 Query 的情况下，作者通过与模型进行对照评估的方式，分析模型响应，并平衡模型输出响应的有益性和无害性。从作者识别出的风险区域中，作者创建额外的有监督微调数据来演示理想的响应。为了在规模上生成这样的响应，作者非常依赖一个受宪法 AI 启发的定制数据生成食谱，其中作者将 Google 的内容政策语言的变体作为“宪法”，并利用语言模型的强大零样本推理能力来修订响应并选择多个响应候选项。作者已经发现这种食谱是有效的 - 例如，在 Gemini Pro 中，这个整体食谱能够减轻作者识别出的大多数文本危害情况，而没有任何明显的响应有益性降低。

6.4.3 事实性

重要的是，作者的模型应该在各种场景下生成事实性的响应，并减少幻觉的频率。作者专注在指令微调角度，针对三个关键的预期行为，这些行为反映了现实世界场景：

归因（Attribution）：模型应该按照指令，完全根据 prompt 里面的上下文来生成响应，Gemini 应该生成最忠于上下文的响应。这包括对用户提供的来源进行总结，根据问题和类似 Menick 等人（2022 年）的段落生成详细的引用，从像 Mihaylov 等人（2018 年）这样的长篇来源中回答问题，以及将给定的来源转换为所需的输出（例如从会议记录的一部分中生成一封电子邮件）。
Closed-Book 回答生成：如果提供了一个不含任何给定来源的事实寻求提示，Gemini 不应编造错误的信息（参见 Roberts 等人（2020 年）第 2 节对定义的解释）。这些提示可以包括信息寻求提示（例如“谁是印度总理？”）到部分创造性提示，这些提示可能需要事实信息（例如“为采用可再生能源撰写一篇 500 字演讲”）。
hedging（含糊其辞）：如果提示包含无法回答的输入，Gemini 不应编造信息。相反，它应该承认无法提供响应，采用模糊的方式。这包括输入提示包含假定问题，输入提示指示模型进行开放式问答，但答案无法从给定的上下文中推导出来等情况。

作者通过设计有针对性的有监督微调数据集和执行强化学习，从 Gemini 模型中引出这些期望行为。请注意，这里产生的结果不包括赋予 Gemini 工具或检索，这些工具或检索据称可以提高事实性。作者将在各自的挑战集下提供三个关键结果。

事实性集合：一个包含事实寻求提示（主要是 closed-book）的评估集。该评估通过人工标注者手动检查每个 response；作者报告人工标注者判断的准确性百分比。
归因集合：一个包含各种提示的评估数据集，回答这些问题需要根据来自 prompt 的信息来回答。该评估通过人工标注者，手动检查每个响应中的提示来源归因；报告的指标是 AIS。
含糊其辞集合：一个自动评估设置，用于测量 Gemini 模型是否准确地进行含糊其辞。

我们在表 14 中将 Gemini Pro 与一种没有任何事实性适应的指令调整的 Gemini Pro 模型版本进行了比较。我们观察到，在事实性集合中，错误率减少了一半，在归因集合中，归因准确性提高了 50％，并且模型在提供的避险集任务中成功避险了 70％（从 0％增加）。

6.5 部署

完成审查后，为每个经批准的 Gemini 模型创建模型卡，以便结构化和一致地记录关键性能和责任指标，并随时间适时向外界传达这些指标的信息。

6.6 负责任的治理

在负责任的开发过程中，我们与 Google DeepMind 的责任和安全委员会（RSC）进行伦理和安全审查，这是一个跨学科小组，评估 Google DeepMind 的项目、论文和合作是否符合 Google 的 AI 原则。RSC 就影响评估、政策、评估和缓解措施提供意见和反馈。在 Gemini 项目期间，RSC 在关键政策领域（例如儿童安全）设定了具体的评估目标。

7.讨论和结论

我们提出了 Gemini，这是一系列新的模型，提升了文本、代码、图像、音频和视频的多模态模型能力。这份技术报告评估了 Gemini 在一系列广泛研究的基准测试中的能力，我们最强大的模型 Gemini Ultra 在各个方面都取得了重大进展。在自然语言领域，通过在大规模数据和模型训练中进行精心开发，性能的提升持续为质量改进做出贡献，在几个基准测试中创造了新的技术水平。特别是，Gemini Ultra 在考试基准 MMLU 上超过了人类专家的表现，得分为 90.0%，自 2020 年首次发布以来，这一指标一直是衡量 LLM 进展的事实标准。在多模态领域，Gemini Ultra 在大多数图像理解、视频理解和音频理解基准测试中都达到了最新的技术水平，而无需特定任务的修改或调整。特别是，Gemini Ultra 的多模态推理能力在最近的 MMMU 基准测试中表现出最先进的性能（Yue 等人，2023 年），其中包括需要大学水平学科知识和深思熟虑的图像问题。

除了在基准测试中取得的最新成果，我们最为兴奋的是 Gemini 模型所带来的新的应用案例。Gemini 模型的新功能可以解析复杂的图像，如图表或信息图表，对交错的图像、音频和文本序列进行推理，并生成交错的文本和图像作为响应，开辟了各种各样的新应用。正如报告和附录中的图表所示，Gemini 可以在教育、日常问题解决、多语言交流、信息摘要、提取和创造力等领域开启新的方法。我们预计这些模型的用户将发现我们自己的调查中只是触及到了一小部分的各种有益的新用途。

尽管语言模型具有令人印象深刻的能力，但我们应该注意到其使用存在一些限制。需要继续进行关于由 LLMs 生成的“幻觉”的研究和开发，以确保模型输出更可靠和可验证。尽管 LLMs 在考试基准上取得了令人印象深刻的表现，但它们在需要高级推理能力（如因果理解、逻辑推理和反事实推理）的任务上也存在困难。这凸显了需要更具挑战性和强大的评估来衡量它们对真正理解的能力，因为当前最先进的 LLM 在许多基准测试中已经饱和。

Gemini 是我们解决智能、推进科学和造福人类使命的进一步步骤，我们对看到这些模型如何被谷歌及其他人使用感到热情。我们在机器学习、数据、基础设施和负责任的开发等领域上积累了许多创新，这些领域我们在谷歌已经追求了十多年。我们在本报告中提出的模型为我们未来开发大规模、模块化系统的广泛泛化能力奠定了坚实的基础，该系统将在许多模态上具有广泛的泛化能力。

9.附录

9.1 Chain-of-Thought Comparisons on MMLU benchmark

在本节中，我们对 MMLU 的几种思路进行了对比，并讨论了它们的结果。我们提出了一种新的方法，模型生成 k 个思维链样本，如果模型的置信度超过阈值，则选择多数投票，否则采用贪婪样本选择。阈值是根据每个模型在验证集上的表现进行优化的。所提出的方法被称为不确定性路由的思维链。这种方法背后的直觉是，当模型明显不一致时，思维链样本可能会降低性能，与最大似然决策相比。我们在图 7 中比较了在 Gemini Ultra 和 GPT-4 上采用该方法所获得的收益。我们发现与仅使用思维链样本相比，GeminiUltra 从这种方法中获益更多。GPT-4 的性能从贪婪抽样的 84.2%提高到使用 32 个样本的不确定性路由思维链的 87.3%，但它已经通过使用 32 个思维链样本实现了这些收益。相比之下，Gemini Ultra 在使用 32 个样本的贪婪采样时，性能从 84.0%显著提高到 90.0%，而仅使用 32 个思维链样本时，性能略有提高，达到 85.0%。

9.2 能力和基准测试任务

我们使用 50 多个基准测试作为一个整体的工具来评估 Gemini 模型在文本、图像、音频和视频方面的表现。我们提供了一个详细的基准任务列表，涵盖了文本理解和生成的六种不同能力：事实性、长篇背景、数学/科学、推理、摘要和多语言。我们还列举了用于图像理解、视频理解和音频理解任务的基准。

事实性：我们使用了 5 个基准：BoolQ（Clark 等人，2019 年），自然问题-封闭（Kwiatkowski 等人。NaturalQuestions- Retrieved（Kwiatkowski 等人，2019 年）2019 年，RealtimeQA（Kasai 等人）2022 年，TydiQA-无上下文和 TydiQA-黄金 P（Clark 等人）2020 年。
长篇背景：我们使用 6 个基准：NarrativeQA（Kočiský等人，2018）， Scrolls- Qasper， Scrolls- Quality（ Shaham et al。，2022 年），XLsum（英文），XLSum（非英语语言）（Hasan 等人）2021 年），以及另一个内部基准。
数学/科学：我们使用 8 个基准测试：GSM8k（带有 CoT）（Cobbe 等人，2021）， Hendryck 的 MATH pass@ 1（Hendrycks 等人，2021b），MMLU（Hendrycks 等 2021a，Math-StackExchange，Math-AMC 2022-2023 问题，以及其他三个内部基准测试。
推理：我们使用了 7 个基准：BigBench Hard（与 CoT 一起）（Srivastava 等人）2022）， CLRS（Veličković等人，2022 年，Proof Writer（Tafjord 等人）推理-费米问题（Kalyan 等人）2021）， Lambada（ Paperno et al.2016 年，HellaSwag（Zellers 等人）2019）， DROP（Dua 等人，2019）。
摘要：我们使用了 5 个基准：XL Sum（英语），XL Sum（非英语语言）（Hasan 等人）2021 年，WikiLingua（非英语语言），WikiLingua（英语）（Ladhak 等人，2020 年，XSum（Narayan 等人，2019 年）2018 年）。
多语言性：我们使用 10 个基准：XLSum（非英语语言）（Hasan 等人，2021 年），WMT22（Kocmi 等。2022 年，WMT23（Tom 等人）2023 年），FRMT（Riley 等人）2023 年）， WikiLingua（非英语语言）（Ladhak 等人，2020 年，TydiQA（无上下文），TydiQA（GoldP）（Clark 等人，2020 年），MGSM（Shi 等人。2023 年，翻译 MMLU（Hendrycks 等人）2021a）， NTREX（ Federmann et al。，2022 年，FLORES-200（Team 等人）2022 年。
图像和视频：我们使用 9 个图像理解基准：MMMU（Yue 等人。2023 年），TextVQA（Singh 等人。2019 年），DocVQA（Mathew 等人。2021 年），ChartQA（Masry 等人）。2022 年），信息图 VQA（Mathew 等人。2022 年），MathVista（Lu 等人。2023 年），AI2D（Kembhavi 等人，2016）， VQAv2（ Goyal et al。，2017 年），XM3600（Thapliyal 等人。2022 年）用于多语言图像理解，以及 6 个视频理解基准：VATEX（Wang 等人，2021 年）2019 年）用于两种不同语言的字幕，YouCook2（Zhou 等人，2018 年），NextQA（肖等人。2021 年），ActivityNet-QA（Yu 等人，2019 年），以及感知测试 MCQA（Pătrăucean 等，2019 年）。2023 年）。
音频：我们使用了 5 个基准测试，包括自动语音识别（ASR）任务，如 FLEURS（Conneau 等人）2023 年，VoxPopuli（Wang 等人）2021 年），多语言 Librispeech（Panayotov 等。2015 年），以及自动语音翻译任务，如 CoVoST 2（Wang 等，2019 年）。2020 年。

9.3 定性示例

本节展示了通过提示 Gemini Ultra 模型的样本定性示例。图 8、9、11、13、14 和 15 展示了一些多模态推理的示例，用于图表、自然图像和表情包的图像理解任务。图 10 展示了 Gemini Ultra 的图像生成能力的一个示例，用户可以生成一个交错的图像和文本序列来设计博客文章。除了英语，图 16 展示了该模型在多语言环境中理解图像的能力。Gemini 模型在多模态图像理解和数学推理方面也表现出色，如图 12、18 和 19 所示。图 20 是一个复杂的多模态推理示例，展示了模型如何为给定的用户任务组合复杂的图像理解、代码生成和指令跟随能力。在图 17 中，我们看到模型能够生成可工作的代码并遵循复杂的用户指令的另一个例子。最后，图 21 展示了 Gemini Ultra 通过对一系列时间上连接的帧进行推理来理解视频的能力的示例。

9.3.1 图表理解和数据推理

9.3.2 多模态问答

💡

翻译：

Prompt：你知道这是什么植物吗？我应该如何最好地照顾它？

模型回应

这是一棵波斯盾植物。它是一种生长在东南亚的热带植物。它是一种受欢迎的室内植物，因为它易于护理并且有美丽的紫色叶子。

波斯盾植物喜欢明亮的间接光。它们可以忍受一些直射阳光，但过多的直射阳光会烧焦它们的叶子。它们还喜欢温暖的温度和高湿度。

波斯盾植物需要定期浇水，但不应让其浸泡在水中。土壤应保持湿润但不过湿。它们还受益于定期喷雾。

波斯盾叶植物在生长季节可以每两周施肥一次。平衡肥料是一个不错的选择。

波斯盾叶植物容易受到害虫的侵害，如粉虱和蜘蛛螨。这些害虫可以用杀虫肥皂或印楝油来控制

波斯盾叶植物可以通过茎插法繁殖。扦插应在春季或夏季进行，并应在水中或湿润的培养基中生根。

9.3.3 交替图像和文本生成

💡

提示

请撰写一篇关于一只狗和它的主人在纽约度过愉快时光的博客文章。在不同地标处拍摄的狗狗愉快地摆姿势的几张照片。

模型回应

嗨，我是 Cooper。我是一只两岁的 Goldendoodle，喜欢旅行。上个月，我和我的家人去了纽约市。这是我第一次来到纽约，我玩得很开心！

我们住在时代广场附近的一家酒店。看到所有明亮的灯光和人群真是太有趣了。我们去看了一场百老汇演出，我甚至还有机会见到了一些演员。

纽约市我最喜欢的地方之一是中央公园。它非常大而美丽。我喜欢四处奔跑和玩接球。我们还去了自由女神像和帝国大厦。我非常兴奋地看到了所有著名的地标。

我在纽约市玩得非常开心。这绝对是我最喜欢的旅行地之一。我迫不及待地想再回去一天！

9.3.4 图像理解和推理

9.3.5 几何推理：

9.3.6 关于物体的信息寻求

9.3.7 基于视觉线索的多模态推理

9.3.8 多模态幽默理解

9.4 多语言环境中的常识推理

9.4.1 推理和代码生成

💡

提示

创建一个名为“Opossum Search”的网络应用程序：

每次您进行搜索查询时，它应该将您重定向到一个带有相同查询的 Google 搜索页面，但在查询之前加上单词 opossum。
它应该在视觉上与 Google 搜索相似。
与谷歌的标志不同，它应该有一张从互联网上找到的负鼠的图片。
它应该是一个单独的 HTML 文件，没有单独的 js 或 css 文件。
页脚应该显示"由谷歌搜索提供支持"。

模型响应（渲染代码）这是负鼠搜索的代码：

9.4.2 数学：微积分

9.5 多步推理和数学：

💡

提示

2018 年，A 工厂生产了价值 5 亿福林的商品，而 B 工厂生产了价值 4 亿福林的商品。根据他们的长期计划，A 工厂每年将增加 5%的产量，而 B 工厂每年将增加 6%的产量。

以上计划已在一个经济网站上发布。在文章的评论区引发了一场辩论：一位用户声称在接下来的几年里，两个工厂的产量差距会越来越小。

计算下表中的缺失值，并证明上述说法不正确。标题：| 2018 | 2019 | 2020 | 2021 |

工厂 A 的生产量（百万）| 500||||

B 工厂的生产量（百万）| 400|||| 模型响应（渲染为 Markdown）

年	进口量工厂 A（百万）	进口量工厂 B（百万）	差异（百万）
2018	500	400	100
2019	525	424	101
2020	551.25	449.44	101.81
2021	578.81	476.41	102.4

💡

2019 年 A 工厂的产量为 500 * 1.05 = 525 百万福林。2019 年 B 工厂的生产量为 400 * 1.06 = 424 百万福林。2019 年生产量的差值为 525-424=101 百万福林。

2020 年 A 工厂的产量为 525*1.05=551.25 百万福林。2020 年 B 工厂的产量为 424*1.06=449.44 百万福林。

2020 年生产量的差异为 551.25- 449.44= 101.81 百万福林。

2021 年 A 工厂的产量为 551.25 * 1.05 = 578.81 百万福林。2021 年 B 工厂的生产量为 449.44 * 1.06 = 476.41 百万福林。2021 年生产量的差异为 578.81- 476.41= 102.4 百万福林。

正如您所看到的，两个工厂的生产量差异实际上是在增加，而不是减少。因此，声称两个工厂之间的生产量差异在接下来的几年中会变得越来越小是不正确的。

9.5.1 复杂图像理解、代码生成和指令跟随

9.5.2 视频理解和推理

💡

提示（视频）

这个人如何改进他们的技术？模型响应

这位足球运动员需要在球的击球机制上下功夫。他们的脚与球没有良好接触，导致球飞向离球门较远的地方。他们还需要调整身体姿势。他们应该用非踢腿的腿靠近镜头，踢腿的腿在前面，同时他们应该用踢腿的腿做出后续动作。

📣

社群其他小伙伴版本：作者阿晓 Ocean

https://m.okjike.com/originalPosts/6577e148f0da80ccb5cd6f74?s=eyJ1IjoiNjI2OTcwMzdhOTYxMDIwMDEwMTIwODY5In0%3D&utm_source=wechat_session