跳转到内容

6. 注意力机制

  • 在本模块中,您将了解注意力的工作原理,以及它如何用于提高各种机器学习任务的性能,包括机器翻译、文本摘要和问答。https://www.cloudskillsboost.google/course_templates/537
  • 视频学习地址:https://youtu.be/iYC8eZL2kKw

课程字幕

介绍

你好,我是 Sanjana Reddy,一名 Google 高级解决方案实验室的机器学习工程师。目前围绕生成 AI 和新进展有很多令人兴奋的事情,包括新的 AI 功能,例如 Gen AI、Gen AI API。在这个简短的分享中,我们的目标是让您对一些使所有 Gen AI 的基本概念有一个坚实的基础。

注意力机制

今天,我将讨论所有 transformer 模型背后的注意力机制,它是 LEM 模型的核心。

示例:翻译句子

假设您想将英语句子 "the cat ate the mouse" 翻译成法语。您可以使用编码器-解码器,这是用于翻译句子的流行模型。编码器-解码器一次取一个词,并在每个时间步对其进行翻译。

处理不对齐的单词

但是,有时源语言中的单词与目标语言中的单词不一致。例如,如何训练一个模型,以使其更多地关注“猫”这个词而不是“黑”这个词呢?

引入注意力机制

为了改进翻译,您可以将所谓的“注意力机制”添加到编码器-解码器中。注意力机制是一种允许神经网络关注输入序列的特定部分的技术。这是通过为输入序列的不同部分分配权重来完成的,其中最重要的部分获得最高权重。

传统的基于 RNN 的编码器-解码器

传统的基于 RNN 的编码器-解码器模型一次接受一个单词,并在每个时间步更新隐藏状态。最后,只有最终的隐藏状态被传递给解码器。解码器使用这个最终隐藏状态进行处理,并将其翻译成目标语言。

注意力模型的改进

注意力模型与传统的序列到序列模型不同于两个方面:

  1. 更多的上下文信息:编码器将每个时间步的所有隐藏状态传递给解码器,而不仅仅是最终隐藏状态。这为解码器提供了更多上下文。
  2. 额外的注意力步骤:在产生输出之前,向解码器添加了一个额外的注意力步骤。

注意力步骤详解

解码器执行以下操作:

  1. 查看它收到的编码器状态集。
  2. 给每个隐藏状态一个分数。
  3. 将每个隐藏状态乘以其 soft-max 分数,放大得分最高的隐藏状态,缩小得分低的隐藏状态。

注意力机制的示例

以 “The black cat ate the mouse” 的翻译为例,注意力机制允许模型更有针对性地处理输入词汇,以生成更准确的翻译。

结束语

这就是如何使用注意力机制来提高传统编码器-解码器架构的性能。非常感谢您的收听。