6. 注意力机制

在本模块中，您将了解注意力的工作原理，以及它如何用于提高各种机器学习任务的性能，包括机器翻译、文本摘要和问答。https://www.cloudskillsboost.google/course_templates/537
视频学习地址：https://youtu.be/iYC8eZL2kKw

课程字幕

介绍

你好，我是 Sanjana Reddy，一名 Google 高级解决方案实验室的机器学习工程师。目前围绕生成 AI 和新进展有很多令人兴奋的事情，包括新的 AI 功能，例如 Gen AI、Gen AI API。在这个简短的分享中，我们的目标是让您对一些使所有 Gen AI 的基本概念有一个坚实的基础。

注意力机制

今天，我将讨论所有 transformer 模型背后的注意力机制，它是 LEM 模型的核心。

示例：翻译句子

假设您想将英语句子 "the cat ate the mouse" 翻译成法语。您可以使用编码器-解码器，这是用于翻译句子的流行模型。编码器-解码器一次取一个词，并在每个时间步对其进行翻译。

处理不对齐的单词

但是，有时源语言中的单词与目标语言中的单词不一致。例如，如何训练一个模型，以使其更多地关注“猫”这个词而不是“黑”这个词呢？

引入注意力机制

为了改进翻译，您可以将所谓的“注意力机制”添加到编码器-解码器中。注意力机制是一种允许神经网络关注输入序列的特定部分的技术。这是通过为输入序列的不同部分分配权重来完成的，其中最重要的部分获得最高权重。

传统的基于 RNN 的编码器-解码器

传统的基于 RNN 的编码器-解码器模型一次接受一个单词，并在每个时间步更新隐藏状态。最后，只有最终的隐藏状态被传递给解码器。解码器使用这个最终隐藏状态进行处理，并将其翻译成目标语言。

注意力模型的改进

注意力模型与传统的序列到序列模型不同于两个方面：

更多的上下文信息：编码器将每个时间步的所有隐藏状态传递给解码器，而不仅仅是最终隐藏状态。这为解码器提供了更多上下文。
额外的注意力步骤：在产生输出之前，向解码器添加了一个额外的注意力步骤。

注意力步骤详解

解码器执行以下操作：

查看它收到的编码器状态集。
给每个隐藏状态一个分数。
将每个隐藏状态乘以其 soft-max 分数，放大得分最高的隐藏状态，缩小得分低的隐藏状态。

注意力机制的示例

以 “The black cat ate the mouse” 的翻译为例，注意力机制允许模型更有针对性地处理输入词汇，以生成更准确的翻译。

结束语

这就是如何使用注意力机制来提高传统编码器-解码器架构的性能。非常感谢您的收听。