PyTorch教程16.5之自然语言推理：使用注意力-德赢Vwin官网网

我们在16.4 节介绍了自然语言推理任务和 SNLI 数据集。鉴于许多基于复杂和深层架构的模型， Parikh等人。( 2016 )提出用注意力机制解决自然语言推理，并将其称为“可分解注意力模型”。这导致模型没有循环层或卷积层，在 SNLI 数据集上以更少的参数获得了当时最好的结果。在本节中，我们将描述和实现这种用于自然语言推理的基于注意力的方法（使用 MLP），如图 16.5.1所示。

//www.hzfubeitong.com/file/web2/M00/AA/48/pYYBAGR9PMOARtlZAAKKcqUaWlU524.svg

图 16.5.1本节将预训练的 GloVe 提供给基于注意力和 MLP 的架构以进行自然语言推理。

16.5.1。该模型

比保留前提和假设中标记的顺序更简单的是，我们可以将一个文本序列中的标记与另一个文本序列中的每个标记对齐，反之亦然，然后比较和聚合这些信息以预测前提和假设之间的逻辑关系。类似于机器翻译中源句和目标句之间的 token 对齐，前提和假设之间的 token 对齐可以通过注意力机制巧妙地完成。

//www.hzfubeitong.com/file/web2/M00/AA/48/pYYBAGR9PMaALy2sAASFcYMHqHw144.svg

图 16.5.2使用注意机制的自然语言推理。

图 16.5.2描述了使用注意机制的自然语言推理方法。在高层次上，它由三个联合训练的步骤组成：参与、比较和聚合。我们将在下面逐步说明它们。

							import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

							 

							from mxnet import gluon, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

16.5.1.1。出席

第一步是将一个文本序列中的标记与另一个序列中的每个标记对齐。假设前提是“我确实需要睡觉”，假设是“我累了”。由于语义相似，我们可能希望将假设中的“i”与前提中的“i”对齐，并将假设中的“tired”与前提中的“sleep”对齐。同样，我们可能希望将前提中的“i”与假设中的“i”对齐，并将前提中的“需要”和“睡眠”与假设中的“疲倦”对齐。请注意，使用加权平均的这种对齐是软的，其中理想情况下较大的权重与要对齐的标记相关联。为了便于演示，图 16.5.2以硬方式显示了这种对齐方式。

现在我们更详细地描述使用注意机制的软对齐。表示为 A=(a1,…,am)和 B=(b1,…,bn)前提和假设，其标记数为m和n，分别在哪里 ai,bj∈Rd (i=1,…,m,j=1,…,n) 是一个d维词向量。对于软对齐，我们计算注意力权重 eij∈R作为

(16.5.1)eij=f(ai)⊤f(bj),

哪里的功能f是在以下函数中定义的 MLP mlp 。的输出维度fnum_hiddens由的参数指定 mlp。

								def mlp(num_inputs, num_hiddens, flatten):
  net = []
  net.append(nn.Dropout(0.2))
  net.append(nn.Linear(num_inputs, num_hiddens))
  net.append(nn.ReLU())
  if flatten:
    net.append(nn.Flatten(start_dim=1))
  net.append(nn.Dropout(0.2))
  net.append(nn.Linear(num_hiddens, num_hiddens))
  net.append(nn.ReLU())
  if flatten:
    net.append(nn.Flatten(start_dim=1))
  return nn.Sequential(*net)

								 

								def mlp(num_hiddens, flatten):
  net = nn.Sequential()
  net.add(nn.Dropout(0.2))
  net.add(nn.Dense(num_hiddens, activation='relu', flatten=flatten))
  net.add(nn.Dropout(0.2))
  net.add(nn.Dense(num_hiddens, activation='relu', flatten=flatten))
  return net

								 

需要强调的是，在(16.5.1) f接受输入ai和bj分开而不是将它们中的一对一起作为输入。这种分解技巧只会导致m+n的应用（线性复杂度） f而不是mn应用程序（二次复杂度）。

对(16.5.1)中的注意力权重进行归一化，我们计算假设中所有标记向量的加权平均值，以获得与由索引的标记软对齐的假设表示i在前提下：

(16.5.2)βi=∑j=1nexp⁡(e

PyTorch教程16.5之自然语言推理：使用注意力

16.5.1。该模型

16.5.1.1。出席

PyTorch教程11.4之Bahdanau注意力机制

PyTorch教程11.6之自注意力和位置编码

PyTorch教程11.5之多头注意力

PyTorch教程16.4之自然语言推理和数据集

PyTorch教程16.7之自然语言推理：微调BERT

计算机视觉中的注意力机制

基于注意力机制的新闻文本分类模型

基于注意力机制的跨域服装检索方法综述

基于多通道自注意力机制的电子病历架构

基于注意力机制等的社交网络热度预测模型

自然语言处理在社会传播的应用综述

基于情感评分的分层注意力网络框架

结合注意力机制的跨域服装检索方法

基于深度学习的自然语言处理对抗样本模型

基于循环卷积注意力模型的文本情感分类方法

联合评论文本层级注意力和外积的推荐方法

基于多层CNN和注意力机制的文本摘要模型

一种上下文感知与层级注意力网络的文档分类方法

基于层次注意力机制的多模态围堵情感识别模型

基于语音、字形和语义的层次注意力神经网络模型

融合双层多头自注意力与CNN的回归模型

一种注意力增强的自然语言推理模型aESIM

基于双向长短期记忆神经网络的交互注意力模型

自然语言处理的图像文本建模相关研究及分析

基于注意力机制的狭小空间人群拥挤度分析方法

基于注意力机制和多尺度特征融合的网络结构

基于注意力机制的深度学习模型AT-DPCNN

多级注意力跳跃连接网络MLASC-Net

实现强人工智能自然语言理解有哪些思路？

强人工智能自然语言理解方面的13个思路详细资料免费下载

自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

什么是LLM？LLM在自然语言处理中的应用

ASR与自然语言处理的结合

自然语言处理技术有哪些

自然语言处理是什么技术的一种应用

自然语言处理包括哪些内容

神经网络在自然语言处理中的应用

全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%

自然语言处理和人工智能的概念及发展史 自然语言处理和人工智能的区别

自然语言处理的概念和应用 自然语言处理属于人工智能吗

自然语言处理包括哪些内容 自然语言处理技术包括哪些

PyTorch教程-16.7。自然语言推理：微调 BERT

PyTorch教程-16.4。自然语言推理和数据集

PyTorch教程-16.5。自然语言推理：使用注意力

PyTorch教程-11.5。多头注意力

自然语言入门之ESIM

如何开始使用PyTorch进行自然语言处理

自然语言分析(NLA)是什么

自然语言处理是什么？有什么用？

基于选择机制的自注意力网络模型

自然语言处理（NLP）的学习方向

自然语言处理的发展简史

注意力机制或将是未来机器学习的核心要素

多个视角对自然语言处理领域进行全面梳理

AAAI 2019 Gaussian Transformer 一种自然语言推理方法

浅谈自然语言处理中的注意力机制

自然语言处理入门基础之hanlp详解

深入机器学习之自然语言处理

Salesforce发布了一项新的研究成果：decaNLP十项自然语言任务的通用模型

自然语言推理数据集“人工痕迹”严重，模型性能被高估

下载排行榜

A7159和A7139射频芯片的资料免费下载

DeepSeek:从入门到精通

PIC12F629/675 数据手册免费下载

OAH0428最新规格书（中文）

PIC16F716 数据手册免费下载

dsPIC33EDV64MC205电机控制开发板用户指南

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

自然语言处理和人工智能的概念及发展史自然语言处理和人工智能的区别

自然语言处理的概念和应用自然语言处理属于人工智能吗

自然语言处理包括哪些内容自然语言处理技术包括哪些