自然语言推理数据集“人工痕迹”严重，模型性能被高估-德赢Vwin官网网

编者按：自然语言推理所用的数据集再近年得到了研究和发展，但是在本文中，来自华盛顿大学、卡内基梅隆大学和纽约大学等机构的研究人员发现，这些数据集中不可避免出现了明显的“人工痕迹”，使得模型的表现被高估了，评估自然语言推理模型的问题仍然存在。以下是论智的编译。

自然语言推理是NLP领域被广泛研究的领域之一，有了这一技术，许多复杂的语义任务如问题回答和文本总结都能得到解决。而用于自然语言推理的大规模数据集是通过向众包工作者提供一个句子（前提）p，然后让他们创作出三个新的与之相关的句子（假设）h创造出来的。自然语言推理的目的就是判断是否能根据p的语义推断出h。我们证明，利用这种方法，使得数据中的很大一部分只需查看新生成的句子，无需看“前提”，就能了解到数据的标签。具体来说，一个简单的文本分类模型在SNLI数据集上对句子分类的正确率达到了67%，在MultiNLI上的正确率为53%。分析表明，特定的语言现象，比如否定和模糊与某些推理类别非常相关。所以这一研究表示，目前的自然语言推理模型的成功被高估了，这一问题仍然难以解决。

2015年，Bowman等人通过众包标记的方法创造了大规模推断数据集SNLI；2018年，Williams等人又推出了MultiNLI数据集。在这一过程中，研究人员从一些语料中抽取某个前提句子p，让众包标注者基于p创作三个新句子，创作的句子与p有三种关系标准：

包含（Entailment）：h与p非常相关；

中立（Neutral）：h与p可能相关；

矛盾（Contradiction）：h与p绝对不相关。

下面是SNLI数据集中具体的例子：

在这篇论文中，我们发现，通过众包生成的句子人工痕迹太过明显，以至于分类器无需查看条件句子p就能将其正确分类。下面我们将详细讲解分析过程。

注释中的“人工痕迹”其实很明显

我们猜想，注释任务的框架对众包人员编写句子时会产生显著的影响，这一影响会反映在数据中，我们称之为“人工注释（annotation artifacts）”。

为了确定这种人为行为对数据的影响程度，我们训练一个模型来预测生成句子的标签，无需查看前提句子。具体来说，我们使用现成的文本分类器fastText，它可以将文本模型化为许多单词和二元语法（bigrams），以预测句子的标签。

下表显示，每个测试集中大部分数据都能在不看前提句子的情况下被正确分类，这也证明了即使不用对自然语言推理建模，分类器也能表现得很好。

人工注释的特点

之前我们说到，超过一半的MultiNLI数据和三分之二的SNLI数据都有明显的人工痕迹，为了从中总结出它们的特点，我们将对数据进行大致分析，重点关注词汇的选择和句子的长度。

词汇选择

为了了解特定词汇的选择是否会影响句子的分类，我们计算了训练集中每个单词和类别之间的点互信息（PMI）：

下表显示了每个分类中与类别最相关的几个单词，以及训练语句中包含这些单词的比例。

PyTorch教程-16.7。自然语言推理：微调 BERT

实验室在 SageMaker Studio Lab 中打开笔记本在本章前面的部分中，我们为 SNLI 数据集上的自然语言推理任务（如第 16.4 节所述）设计了一个基于注意力的架

发表于 06-05 15:44 •1231次阅读

【大语言模型：原理与工程实践】揭开大语言模型的面纱

大语言模型（LLM）是人工智能领域的尖端技术，凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习，利用神经网络框架来理解和生成自然语

发表于 05-04 23:55

python自然语言

学和人工智能，但同样受到诸如机器学习，计算统计学和认知科学这些相对新兴的学科影响。python下面只要安装自然语言工具包nltk，下面版主开始正式进入学习。Natural Language

发表于 05-02 13:50

自然语言处理的语言模型

自然语言处理——53 语言模型（数据平滑）

发表于 04-16 11:11

什么是自然语言处理

什么是自然语言处理？自然语言处理任务有哪些？自然语言处理的方法是什么？

发表于 09-08 06:51

什么是人工智能、机器学习、深度学习和自然语言处理？

领域，包括机器学习、深度学习、数据挖掘、计算机视觉、自然语言处理和其他几个学科。首先，人工智能涉及使计算机具有自我意识，利用计算机视觉、自然语言理解和模仿其他感官。其次，

发表于 03-22 11:19

自然语言处理常用模型解析

自然语言处理常用模型使用方法一、N元模型二、马尔可夫模型以及隐马尔可夫模型及目前常用的自然语言处

发表于 12-28 15:42 •5882次阅读

一种注意力增强的自然语言推理模型aESIM

在自然语言处理任务中使用注意力机制可准确衡量单词重要度。为此，提出一种注意力增强的自然语言推理模型aESM。将词注意力层以及自适应方向权重层添加到ESIM模型的双向LSTM网络中，从而

发表于 03-25 11:34 •9次下载

PyTorch教程16.4之自然语言推理和数据集

德赢Vwin官网网站提供《PyTorch教程16.4之自然语言推理和数据集.pdf》资料免费下载

发表于 06-05 10:57 •0次下载

PyTorch教程16.5之自然语言推理：使用注意力

德赢Vwin官网网站提供《PyTorch教程16.5之自然语言推理：使用注意力.pdf》资料免费下载

发表于 06-05 10:49 •0次下载

PyTorch教程16.7之自然语言推理：微调BERT

德赢Vwin官网网站提供《PyTorch教程16.7之自然语言推理：微调BERT.pdf》资料免费下载

发表于 06-05 10:52 •0次下载

PyTorch教程-16.4。自然语言推理和数据集

16.4。自然语言推理和数据集¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Col

发表于 06-05 15:44 •542次阅读

PyTorch教程-16.5。自然语言推理：使用注意力

实验室在 SageMaker Studio Lab 中打开笔记本我们在16.4 节介绍了自然语言推理任务和 SNLI 数据集。鉴于许多基于复杂和深层架构的

发表于 06-05 15:44 •561次阅读

自然语言处理的概念和应用 自然语言处理属于人工智能吗

　　自然语言处理(Natural Language Processing)是一种人工智能技术，它是研究自然语言与计算机之间的交互和通信的一门学科。自然语言处理旨在研究机器如何理解人类

发表于 08-23 17:31 •1540次阅读

自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

Learning，简称ML）是人工智能的一个核心领域，它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系，因为机器学习提供了一种强大的工具，用于从大量文本数

发表于 12-05 15:21 •447次阅读

搜索历史

自然语言推理数据集“人工痕迹”严重，模型性能被高估

评论

PyTorch教程-16.7。自然语言推理：微调 BERT

【大语言模型：原理与工程实践】揭开大语言模型的面纱

python自然语言

自然语言处理的语言模型

什么是自然语言处理

什么是人工智能、机器学习、深度学习和自然语言处理？

自然语言处理常用模型解析

一种注意力增强的自然语言推理模型aESIM

PyTorch教程16.4之自然语言推理和数据集

PyTorch教程16.5之自然语言推理：使用注意力

PyTorch教程16.7之自然语言推理：微调BERT

PyTorch教程-16.4。自然语言推理和数据集

PyTorch教程-16.5。自然语言推理：使用注意力

自然语言处理的概念和应用自然语言处理属于人工智能吗

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤