1 自然语言推理数据集“人工痕迹”严重,模型性能被高估-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自然语言推理数据集“人工痕迹”严重,模型性能被高估

zhKF_jqr_AI 来源:未知 作者:李倩 2018-03-14 18:11 次阅读

编者按:自然语言推理所用的数据集再近年得到了研究和发展,但是在本文中,来自华盛顿大学、卡内基梅隆大学和纽约大学等机构的研究人员发现,这些数据集中不可避免出现了明显的“人工痕迹”,使得模型的表现被高估了,评估自然语言推理模型的问题仍然存在。以下是论智的编译。

自然语言推理是NLP领域被广泛研究的领域之一,有了这一技术,许多复杂的语义任务如问题回答和文本总结都能得到解决。而用于自然语言推理的大规模数据集是通过向众包工作者提供一个句子(前提)p,然后让他们创作出三个新的与之相关的句子(假设)h创造出来的。自然语言推理的目的就是判断是否能根据p的语义推断出h。我们证明,利用这种方法,使得数据中的很大一部分只需查看新生成的句子,无需看“前提”,就能了解到数据的标签。具体来说,一个简单的文本分类模型在SNLI数据集上对句子分类的正确率达到了67%,在MultiNLI上的正确率为53%。分析表明,特定的语言现象,比如否定和模糊与某些推理类别非常相关。所以这一研究表示,目前的自然语言推理模型的成功被高估了,这一问题仍然难以解决。

2015年,Bowman等人通过众包标记的方法创造了大规模推断数据集SNLI;2018年,Williams等人又推出了MultiNLI数据集。在这一过程中,研究人员从一些语料中抽取某个前提句子p,让众包标注者基于p创作三个新句子,创作的句子与p有三种关系标准:

包含(Entailment):h与p非常相关;

中立(Neutral):h与p可能相关;

矛盾(Contradiction):h与p绝对不相关。

下面是SNLI数据集中具体的例子:

在这篇论文中,我们发现,通过众包生成的句子人工痕迹太过明显,以至于分类器无需查看条件句子p就能将其正确分类。下面我们将详细讲解分析过程。

注释中的“人工痕迹”其实很明显

我们猜想,注释任务的框架对众包人员编写句子时会产生显著的影响,这一影响会反映在数据中,我们称之为“人工注释(annotation artifacts)”。

为了确定这种人为行为对数据的影响程度,我们训练一个模型来预测生成句子的标签,无需查看前提句子。具体来说,我们使用现成的文本分类器fastText,它可以将文本模型化为许多单词和二元语法(bigrams),以预测句子的标签。

下表显示,每个测试集中大部分数据都能在不看前提句子的情况下被正确分类,这也证明了即使不用对自然语言推理建模,分类器也能表现得很好。

人工注释的特点

之前我们说到,超过一半的MultiNLI数据和三分之二的SNLI数据都有明显的人工痕迹,为了从中总结出它们的特点,我们将对数据进行大致分析,重点关注词汇的选择和句子的长度。

词汇选择

为了了解特定词汇的选择是否会影响句子的分类,我们计算了训练集中每个单词和类别之间的点互信息(PMI):

下表显示了每个分类中与类别最相关的几个单词,以及训练语句中包含这些单词的比例。

相关句子(Entailment)

与前提句子完全相关的生成句子都含有通用词汇,如动物、乐器和户外等,这些词语还有可能衍生出更具体的词语例如小狗、吉他、沙滩等等。另外,这些据此都会用确切的数字代替近似值(一些、至少、各种等等),并且会移除明确的性别。有些还会带有具体的环境,例如室内或室外,这些都是SNLI数据集中图片的个性特征。

中立句子

中立关系的句子中,最常见的就是修饰词(高、悲伤、受欢迎)和最高级词语(第一、最爱、最多)。除此之外,中立句子比较常见的是原因和目的从句,例如因为。

不相关句子

否定词例如“没有人”、“不”、“从不”、“没有”等都是不相关句子的常见词语。

句子长度

我们发现,生成句子中tokens的数量在不同的推理类别中并不是平均分配的。下图显示,中性的句子中token往往较长,而相关句子往往较短。句子长度的差异可能表明,众包工作者在生成相关句子时只是简单地从前提句子p中删除了几个单词。而事实上,当每个句子都用bag of words表示时,SNLI中有8.8%的相关生成句子完全包含在前提句子之中,而只有0.2%的中性和矛盾句子包含前提。

结论

通过观察结果,并对比其他人工注释分析,我们得到了三个主要结论。

很多数据集都包含有“人工痕迹”

监督模型需要利用人工注释。Levy等人证明了监督词汇推理模型在很大程度上以来数据集中人工生成的词汇。

人工注释会高估模型性能。大多数测试集都能单独依靠人工注释解决问题,所以我们鼓励开发额外的标准,能够给让人了解NLI模型的真实性能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自然语言
    +关注

    关注

    1

    文章

    287

    浏览量

    13346

原文标题:自然语言推理数据集“人工痕迹”严重,模型性能被高估

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    PyTorch教程-16.7。自然语言推理:微调 BERT

    实验室在 SageMaker Studio Lab 中打开笔记本 在本章前面的部分中,我们为 SNLI 数据上的自然语言推理任务(如第 16.4 节所述)设计了一个基于注意力的架
    的头像 发表于 06-05 15:44 1231次阅读
    PyTorch教程-16.7。<b class='flag-5'>自然语言</b><b class='flag-5'>推理</b>:微调 BERT

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    语言模型(LLM)是人工智能领域的尖端技术,凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习,利用神经网络框架来理解和生成自然语
    发表于 05-04 23:55

    python自然语言

    学和人工智能,但同样受到诸如机器学习,计算统计学和认知科学这些相对新兴的学科影响。python下面只要安装自然语言工具包nltk,下面版主开始正式进入学习。Natural Language
    发表于 05-02 13:50

    自然语言处理的语言模型

    自然语言处理——53 语言模型数据平滑)
    发表于 04-16 11:11

    什么是自然语言处理

    什么是自然语言处理?自然语言处理任务有哪些?自然语言处理的方法是什么?
    发表于 09-08 06:51

    什么是人工智能、机器学习、深度学习和自然语言处理?

    领域,包括机器学习、深度学习、数据挖掘、计算机视觉、自然语言处理和其他几个学科。首先,人工智能涉及使计算机具有自我意识,利用计算机视觉、自然语言理解和模仿其他感官。其次,
    发表于 03-22 11:19

    自然语言处理常用模型解析

    自然语言处理常用模型使用方法一、N元模型二、马尔可夫模型以及隐马尔可夫模型及目前常用的自然语言
    发表于 12-28 15:42 5882次阅读
    <b class='flag-5'>自然语言</b>处理常用<b class='flag-5'>模型</b>解析

    一种注意力增强的自然语言推理模型aESIM

    自然语言处理任务中使用注意力机制可准确衡量单词重要度。为此,提出一种注意力增强的自然语言推理模型aESM。将词注意力层以及自适应方向权重层添加到ESIM模型的双向LSTM网络中,从而
    发表于 03-25 11:34 9次下载
    一种注意力增强的<b class='flag-5'>自然语言</b><b class='flag-5'>推理模型</b>aESIM

    PyTorch教程16.4之自然语言推理数据

    德赢Vwin官网 网站提供《PyTorch教程16.4之自然语言推理数据.pdf》资料免费下载
    发表于 06-05 10:57 0次下载
    PyTorch教程16.4之<b class='flag-5'>自然语言</b><b class='flag-5'>推理</b>和<b class='flag-5'>数据</b><b class='flag-5'>集</b>

    PyTorch教程16.5之自然语言推理:使用注意力

    德赢Vwin官网 网站提供《PyTorch教程16.5之自然语言推理:使用注意力.pdf》资料免费下载
    发表于 06-05 10:49 0次下载
    PyTorch教程16.5之<b class='flag-5'>自然语言</b><b class='flag-5'>推理</b>:使用注意力

    PyTorch教程16.7之自然语言推理:微调BERT

    德赢Vwin官网 网站提供《PyTorch教程16.7之自然语言推理:微调BERT.pdf》资料免费下载
    发表于 06-05 10:52 0次下载
    PyTorch教程16.7之<b class='flag-5'>自然语言</b><b class='flag-5'>推理</b>:微调BERT

    PyTorch教程-16.4。自然语言推理数据

    16.4。自然语言推理数据¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Col
    的头像 发表于 06-05 15:44 542次阅读

    PyTorch教程-16.5。自然语言推理:使用注意力

    实验室在 SageMaker Studio Lab 中打开笔记本 我们在16.4 节介绍了自然语言推理任务和 SNLI 数据。鉴于许多基于复杂和深层架构的
    的头像 发表于 06-05 15:44 561次阅读
    PyTorch教程-16.5。<b class='flag-5'>自然语言</b><b class='flag-5'>推理</b>:使用注意力

    自然语言处理的概念和应用 自然语言处理属于人工智能吗

      自然语言处理(Natural Language Processing)是一种人工智能技术,它是研究自然语言与计算机之间的交互和通信的一门学科。自然语言处理旨在研究机器如何理解人类
    发表于 08-23 17:31 1540次阅读

    自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

    Learning,简称ML)是人工智能的一个核心领域,它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系,因为机器学习提供了一种强大的工具,用于从大量文本
    的头像 发表于 12-05 15:21 447次阅读