0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心
发布

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软亚洲研究院的研究员们提出了一种模型压缩的新思路

深度学习自然语言处理 来源:微软研究院AI头条 作者:微软研究院AI头条 2020-11-24 09:48 次阅读

编者按:深度学习的发展推动了很多大型神经网络模型的诞生,这些模型在多个领域中都取得了当前最优的性能,基于Transformer的预训练模型也在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。然而,这些模型所包含的参数量巨大,计算成本高昂,极大地阻碍了此类模型在生产环境中的应用。为了解决该问题,来自微软亚洲研究院自然语言计算组的研究员们提出了一种模型压缩的新思路。

随着深度学习的流行,很多大型神经网络模型诞生,并在多个领域中取得当前最优的性能。尤其是在自然语言处理(NLP)领域中,预训练和调参已经成为其中大多数任务的新范式。基于 Transformer 的预训练模型在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。尽管这些模型从“过参数化”的特性中获益,但它们往往包含数百万甚至数十亿个参数,这就使得此类模型的计算成本高昂,且从内存消耗和高延迟的角度来看计算低效。这一缺陷极大地阻碍了此类模型在生产环境中的应用。

为了解决该问题,研究人员提出了很多神经网络压缩技术。一般而言,这些技术可以分为三类:量化、权重剪枝和知识蒸馏(Knowledge Distillation)。其中,由于知识蒸馏能够压缩预训练语言模型,所以得到了极大关注。知识蒸馏利用大型教师模型“教”紧凑的学生模型模仿教师的行为,从而将教师模型中嵌入的知识迁移到较小的模型中。但是,学生模型的性能状况取决于设计良好的蒸馏损失函数,正是这个函数使得学生模型可以模仿教师的行为。近期关于知识蒸馏的研究甚至利用更复杂的模型特定蒸馏损失函数,以实现更好的性能。

近日,来自微软亚洲研究院自然语言计算组的研究员们提出了一种与显式地利用蒸馏损失函数来最小化教师模型与学生模型距离的知识蒸馏不同的模型压缩新方法。受到著名哲学思想实验“忒修斯之船”的启发(即如果船上的木头逐渐被替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),研究员们在 EMNLP 2020 上发表了 Theseus Compression for BERT (BERT-of-Theseus),该方法逐步将 BERT 的原始模块替换成参数更少的替代模块(点击文末阅读原文,了解论文详情)。研究员们将原始模型叫做“前辈”(predecessor),将压缩后的模型叫做“接替者”(successor),分别对应知识蒸馏中的教师和学生。

该方法的工作流程如下图所示。首先为每个前辈模块指定一个接替者模块,然后在训练阶段中以一定的概率(如抛硬币)决定是否用替代模块随机替换对应的前辈模块,并按照新旧模块组合的方式继续训练。在模型收敛后,将所有接替者模块组合成接替者模型,进而执行推断。这样就可以将大型前辈模型压缩成紧凑的接替者模型了。

举例来说,假设现在有两支篮球队每支各五人,一支是经验老道的全明星球队,另一支则是年轻球员组成的青训队。为了提高青训队的水平,所以随机选派青训队员去替换掉全明星队中的球员,然后让这个混合的球队不断地练习、比赛。通过向前辈学习经验,新加入成员的实力会有所提升,也能学会和其他队员的配合,逐渐的这个混合球队就拥有了接近全明星球队的实力。之后重复这个过程,直到青训队员都被充分训练,最终青训队员也能自己组成一支实力突出的球队。相比之下,如果没有“老司机”来带一带,青训队无论如何训练,水平也不会达到全明星队的实力。

事实上,Theseus 压缩与知识蒸馏的思路有些类似,都是鼓励压缩模型模仿原始模型的行为,但 Theseus 压缩有很多独特的优势。

首先,Theseus 压缩在压缩过程中仅使用任务特定的损失函数。而基于知识蒸馏的方法除了使用任务特定的损失函数外,还需加入繁琐的蒸馏损失函数作为优化目标。

其次,与近期研究TinyBERT 等不同,Theseus 压缩不使用Transformer 特定特征进行压缩,这就为压缩广泛模型提供了可能性。与知识蒸馏仅使用原始模型执行推断不同,该方法允许前辈模型与压缩后的接替者模型共同训练,从而实现更深层次的梯度级交互,并简化训练过程。

此外,混合了前辈模块和接替者模块的不同模块组合还添加了额外的正则化项(类似于 Dropout)。该方法基于课程学习(Curriculum Learning)方法来驱动模块替换,将模块替换概率从低到高逐渐增加,从而实现优异的 BERT 压缩性能。利用Theseus 压缩方法压缩得到的 BERT 模型运算速度是之前的1.94 倍,并且保留了原始模型超过98% 的性能,优于其它基于知识蒸馏的压缩的基线方法。

通过在预训练语言模型 BERT 上的成功实验,微软亚洲研究院的研究员们希望可以为模型压缩打开一种全新的思路,并希望看到这一方法在计算机视觉等领域的更广泛应用。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6500

    浏览量

    103480
  • 神经网络
    +关注

    关注

    42

    文章

    4716

    浏览量

    99754
  • 函数
    +关注

    关注

    3

    文章

    4213

    浏览量

    61833

原文标题:【EMNLP2020】忒修斯之船启发下的知识蒸馏新思路 - 微软研究院

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    摩尔线程携手智源研究院完成基于Triton的大模型算子库适配

    近日,摩尔线程与北京智源人工智能 研究院(简称:智源 研究院)已顺利完成基于Triton语言的高性能算子库FlagGems的适配工作。得益于摩尔线程自研统 系统计算架构MUSA,双方在短短
    的头像 发表于08-02 11:06 403次阅读

    长沙北斗研究院总部基地正式奠基

    长沙北斗 研究院总部基地正式奠基 日前长沙北斗 研究院总部基地正式奠基,项目由长沙北斗 研究院牵头建设;项目又名“北斗足迹”。项目 期预计2025年年底前建成投用。 据悉,长沙北斗
    的头像 发表于05-16 12:49 866次阅读

    航天宏图与天仪研究院合作共同推动遥感卫星数据应用创新

    近日,航天宏图信息技术股份有限公司(以下简称“航天宏图”)与长沙天仪空间科技 研究院有限公司(以下简称“天仪 研究院”)正式签署战略合作框架协议。
    的头像 发表于04-23 17:11 331次阅读
    航天宏图与天仪<b class='flag-5'>研究院</b>合作共同推动遥感卫星数据应用创新

    微软亚洲研究院发布VASA-1模型,实现图片人物自动言语表达

    模型,尤其擅长展现逼真的面部表情及各类情绪,且嘴唇动作高度拟真。然而,尽管 研究员坦承目前仍有不足之处,如无法精准处理头发等纤维质元素,但相较于其他类似 模型,VASA-1 的表现已属优异。
    的头像 发表于04-19 11:21 412次阅读

    本源入榜胡润研究院2024全球独角兽榜单!

    4月9日,胡润 研究院于广州发布《2024全球独角兽榜》,榜单列 出了全球成立于2000年之后,价值10亿美元以上的非上市公司。本源量子成功入围该榜单,也是中国量子计算领域唯 入榜企业。来源:胡润
    的头像 发表于04-12 08:22 221次阅读
    本源入榜胡润<b class='flag-5'>研究院</b>2024全球独角兽榜单!

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI 研究员Ioannis Antonoglou宣布创办了 家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾担任谷歌DeepMind的首席开发人员,自去年9月份以来,他是第4位离开谷歌Gemini
    的头像 发表于02-04 10:02 582次阅读

    微软内部对亚洲研究院的未来持有不同看法

    四位消息人士披露, 微软内部曾考虑过关闭或搬迁MSRA,但高层领导普遍倾向于维持实验室在中国的运作。目前, 微软已在加拿大温哥华设立MSR分中心,部分 研究员已被调配至此。此举旨在作为备用安置点,以应对可能面临的
    的头像 发表于01-11 13:58 436次阅读

    LabVIEW进行癌症预测模型研究

    LabVIEW进行癌症预测 模型 研究癌症是 一种细胞异常增生的疾病。随着年龄的增长,细胞分裂速度放缓,但癌细胞会失去控制地不断分裂,形成可能良性或恶性的肿瘤。 2012年的国际癌症数据显示,新发癌症
    发表于12-13 19:04

    周礼栋对话比尔·盖茨:深入的科学研究比以往任何时候都更加重要

    2023年是 微软 亚洲 研究院建院25周年。25年来, 微软 亚洲 研究院探索并实践了
    的头像 发表于12-12 15:55 243次阅读
    周礼栋对话比尔·盖茨:深入的科学<b class='flag-5'>研究</b>比以往任何时候都更加重要

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔 研究院将重点展示31项 研究成果,它们将推进面向未来的AI创新。 英特尔 研究院将在NeurIPS 2023大会上展示 系列富有价值、业界领先的AI创新成果。面向广大开
    的头像 发表于12-08 09:17 564次阅读

    新华社研究院:商汤“商量”获评中国大模型市场未来领袖

    SenseChat ” 在定量实测的情商维度上,位居全部10款大 模型, 并在定性评估中入选大 模型市场未来领袖象限 。此外,商汤赋能电力AI平台智能化升级的实践,也入围新华社 研究院
    的头像 发表于11-29 18:30 378次阅读
    新华社<b class='flag-5'>研究院</b>:商汤“商量”获评中国大<b class='flag-5'>模型</b>市场未来领袖

    一种基于横向位移检测机制的MXene增强SPR生物传感技术

    detection based on MXene-enhanced plasmonic lateral displacement measurement”的 研究成果。该团队 提出了 一种基于MXene材料增强的等离子体共振(SPR
    的头像 发表于10-29 09:16 562次阅读
    <b class='flag-5'>一种</b>基于横向位移检测机制的MXene增强SPR生物传感技术

    一种微型有源涡旋光激光器设计

    Topological Charge)的 研究成果。该成果由光子芯片 研究院顾敏院士、方心远副教授团队和中国科学院微电子 研究所合作完成,顾敏院士、方心远副教授、中国科学院微电子 研究所潘冠
    的头像 发表于10-23 09:17 409次阅读
    <b class='flag-5'>一种</b>微型有源涡旋光激光器设计

    宁波东方理工产业技术研究院将建

    东方学高等 研究院称,宁波东方理工产业技术 研究院承担主要关键通用技术的研发;关键共性技术成果转化公共服务平台建设,引导基金等四大功能和任务的国家和省委重大战略需求为中心,围绕“地方所需”、“高校所能”和“人才所长”
    的头像 发表于10-11 11:12 677次阅读

    中国移动研究院发布《网络云原生演进技术白皮书》

    、副院长段晓东,中国移动上海产业 研究院董事长王建中及合作伙伴高层领导共同出席发布仪式。中国移动 研究院网络与IT技术 研究所副所长刘景磊解读白皮书。 过去十年,中国移动作为全球运营商代表引领通信网络云化发展,创新
    的头像 发表于09-05 20:55 1061次阅读