1 什么是XLNet,它为什么比BERT效果好-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是XLNet,它为什么比BERT效果好

电子设计 来源:电子设计 作者:电子设计 2020-12-10 19:10 次阅读
介绍最基本的XLNet的原理,理解XLNet和BERT的直觉上的不同点。
作者:Xu LIANG
编译:ronghuaiyang
首发:AI公园公众号


在发布后不到一周,我周围的NLP领域的每个人似乎都在谈论XLNet

是的,“在20个任务上比BERT做得更好”确实吸引了我们的眼球。但更重要的是理解它是如何工作的,以及为什么它比BERT表现得更好。所以我写了这个博客来分享我读了这篇文章后的想法。

内容结构如下。

  • 什么是XLNet?
  • XLNet和BERT有什么不同?
  • XLNet是如何工作的?

什么是XLNet?

首先,XLNet是一个类似于bert的模型,而不是一个完全不同的模型。但它是一个非常有前途和潜力的。总之,XLNet是一种广义的自回归预训练方法。

那么,什么是自回归(AR)语言模型

AR语言模型是利用上下文单词预测下一个单词的一种模型。但是在这里,上下文单词被限制在两个方向,要么向前,要么向后。

GPT和GPT-2都是AR语言模型

AR语言模型的优点是擅长NLP生成任务。因为在生成上下文时,通常是正向的。AR语言模型在这类NLP任务中很自然地工作得很好。

但是AR语言模型有一些缺点,它只能使用前向上下文或后向上下文,这意味着它不能同时使用前向上下文和后向上下文

XLNet和BERT的区别是什么?

与AR语言模型不同,BERT被归类为自动编码器(AE)语言模型

AE语言模型的目的是从损坏的输入中重建原始数据

损坏的输入意味着我们使用在训练前阶段将原始tokeninto替换为 [MASK] 。我们的目标是预测into来得到原来的句子。

AE语言模型的优点是它可以在向前和向后两个方向上看到上下文。

但是AE语言模型也有其不足之处。它在预训练中使用了[MASK],但是这种人为的符号在finetune的时候在实际数据中时没有的,导致了预训练 — finetune的不一致。[MASK]的另一个缺点是它假设所预测的(mask掉的)token是相互独立的,给出的是未掩码的tokens。例如,我们有一句话“It shows that the housing crisis was turned into a banking crisis”。我们盖住了“banking”和“crisis”。注意这里,我们知道,盖住的“banking”与“crisis”之间隐含着相互关联。但AE模型是利用那些没有盖住的tokens试图预测“banking”,并独立利用那些没有盖住的tokens预测“crisis”。它忽视了“banking”与“crisis”之间的关系。换句话说,它假设预测的(屏蔽的)tokens是相互独立的。但是我们知道模型应该学习(屏蔽的)tokens之间的这种相关性来预测其中的一个token。

作者想要强调的是,XLNet提出了一种新的方法,让AR语言模型从双向的上下文中学习,避免了AE语言模型中mask方法带来的弊端。

XLNet如何工作?

AR语言模型只能使用前向或后向的上下文,如何让它学习双向上下文呢?语言模型由预训练阶段和调优阶段两个阶段组成。XLNet专注于预训练阶段。在预训练阶段,它提出了一个新的目标,称为重排列语言建模。 我们可以从这个名字知道基本的思想,它使用重排列。

这里我们用一个例子来解释。序列顺序是[x1, x2, x3, x4]。该序列的所有排列如下。

对于这4个tokens (N)的句子,有24个(N!)个排列。假设我们想要预测x3。24个排列中有4种模式,x3在第1位,第2位,第3位,第4位。

[x3, xx, xx, xx]
[xx, x3, xx, xx]
[xx, xx, x3, xx]
[xx, xx, xx, x3]


4种模式

在这里,我们将x3的位置设为第t位,它前面的t-1个tokens用来预测x3。

x3之前的单词包含序列中所有可能的单词和长度。直观地,模型将学习从两边的所有位置收集信息

具体实现要比上面的解释复杂得多,这里就不讨论了。但是你应该对XLNet有最基本和最重要的了解。

来自XLNet的灵感

与BERT将mask方法公布于众一样,XLNet表明重排列法是一种很好的语言模型目标选择。可以预见,未来在语言模型目标方面的探索工作将会越来越多。

—END—

关注图像处理,自然语言处理,机器学习人工智能领域。
欢迎关注微信公众号

审核编辑 黄昊宇
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47183

    浏览量

    238200
  • 语言模型
    +关注

    关注

    0

    文章

    520

    浏览量

    10268
收藏 人收藏

    评论

    相关推荐

    ADS1601的参考电压是内部给效果,还是外接好?

    请问一下ADS1601的参考电压是内部给效果,还是外接好?谢谢
    发表于 12-20 07:29

    导电布屏蔽效果用铜箔的原因分析

    在EMC(电磁兼容)实验中,使用导电布的屏蔽效果可能优于铜箔,主要是由于以下几个原因: 1.高频电磁波的吸收与反射 铜箔的作用: 铜箔是一种良好的导体,主要通过反射来屏蔽电磁波。但在高频情况下,仅靠
    的头像 发表于 11-26 10:18 218次阅读

    什么两个THS3091并联然后和一个THS3092级联,得到的不失真波形往往不少单个的

    为什么两个THS3091并联然后和一个THS3092级联...得到的不失真波形往往不少单个的??而且单个的放大最高不失真波形只有峰峰值14V?
    发表于 09-24 07:06

    内置误码率测试仪(BERT)和采样示波器一体化测试仪器安立MP2110A

    BERTWave MP2110A是一款内置误码率测试仪(BERT)和采用示波器的一体化测量仪器,支持光模块的误码率(BERT)测量、眼图模式测试、眼图分析等评估操作
    的头像 发表于 09-23 14:34 330次阅读
    内置误码率测试仪(<b class='flag-5'>BERT</b>)和采样示波器一体化测试仪器安立MP2110A

    数字地和模拟地利用磁珠隔离或者单点接地效果都不怎么,怎样隔离效果会比较好一些?

    数字地和模拟地利用磁珠隔离或者单点接地效果都不怎么,怎样隔离效果会比较好一些?
    发表于 09-20 06:23

    osd开启还是关闭

    ,这主要取决于你的使用习惯和需求。 开启OSD的优点: 方便性 :通过OSD,用户可以直接在屏幕上看到当前的设置选项和调节效果,无需翻阅复杂的说明书或进入内部菜单。 直观性 :OSD菜单通常设计得直观易懂,即使是初次使用的用户也能快速上手。 实时反馈 :
    的头像 发表于 09-19 16:25 2496次阅读

    请问光电二极管用正电源反偏效果,还是用负电源反偏效果

    请问光电二极管用正电源反偏效果,还是用负电源反偏效果
    发表于 09-11 07:07

    M8020A J-BERT 高性能比特误码率测试仪

    M8020A 比特误码率测试仪 J-BERT M8020A 高性能 BERT 产品综述 Keysight J-BERT M8020A 高性能比特误码率测试仪能够快速、准确地表征传输速率高达 16 或
    的头像 发表于 08-21 17:13 206次阅读

    AWG和BERT常见问题解答

    随着信号的速率越来越高,调制格式越来越复杂,对测试仪器的性能要求也越来越高。是德科技也一直在推出业界领先的高带宽、高采样率的AWG和高性能的BERT
    的头像 发表于 08-06 17:27 626次阅读

    EMC与EMI测试整改:从问题识别到效果验证

    深圳创达电子|EMC与EMI测试整改:从问题识别到效果验证
    的头像 发表于 06-27 10:37 489次阅读
    EMC与EMI测试整改:从问题识别到<b class='flag-5'>效果</b>验证

    什么是边缘计算?它为何如此重要?

    ,什么是边缘计算?它为何如此重要?本文将对其进行详细的解析。 边缘计算,简而言之,是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。它的核心思想是将计算任
    的头像 发表于 04-22 15:25 443次阅读

    网线扁线和圆线哪个效果

    一起难以分离。此外,扁线网线可以像圆线那样附加屏蔽层,具备较好的抗干扰能力。在短距离应用上,扁线网线的传输效果和圆线网线差别不大。但是,扁线网线的价格圆线网线高出约50%,柔软性使其更适合在家庭环境中使用,可以轻松
    的头像 发表于 03-28 10:03 5614次阅读

    扁平线共模电感对CE噪声的高效抑制?|深圳创达电子EMC(中)

    有遇到过类似的情况,相同感量的扁平线共模电感的插损要比绕线共模电感强10dB左右,参见“电源用共模电感,感量越大越好?”一文)换上之后,效果出奇的,整体降到了限值线以下,如图5所示,超标最严重
    发表于 02-28 10:26

    ChatGPT是一个的因果推理器吗?

    因果推理能力对于许多自然语言处理(NLP)应用至关重要。最近的因果推理系统主要基于经过微调的预训练语言模型(PLMs),如BERT [1] 和RoBERTa [2]。
    的头像 发表于 01-03 09:55 842次阅读
    ChatGPT是一个<b class='flag-5'>好</b>的因果推理器吗?

    大语言模型背后的Transformer,与CNN和RNN有何不同

    for Language Understanding》,BERT模型横空出世,并横扫NLP领域11项任务的最佳成绩。而在BERT中发挥重要作用的结构就是Transformer,之后又相继出现XLNET、roBERT等模型击
    的头像 发表于 12-25 08:36 4018次阅读
    大语言模型背后的Transformer,与CNN和RNN有何不同