在风格迁移中如何进行数据增强-德赢Vwin官网网

这是一篇关于风格迁移中如何进行数据增强的论文。在introduction部分，informal-->formal 的风格迁移问题，最大的障碍是训练数据的不足。为了解决此问题，本篇论文提出三种数据增强的方法来获得有用的语句对，分别为

back translation (BT)

我们使用原始语料库训练一个seq2seq模型。其中将formal语句作为模型的输入，让seq2seq模型有能力输出对应的informal句子。则模型输入的formal语句和输出的informal语句就构成了一个新的语句对。

formality discrimination (F-Dis)

F-Dis方法使用机器翻译模型，将一个informal句子重写为formal句子。首先使用Google翻译API将这些informal语句翻译成其他语种（比如法语），然后又翻译回英语。如下图所示:

其中，informal语句可以从网上论坛上收集得到。

表示收集到的第i条句子(informal)，是最后翻译回的句子(formal), 二者构成了一个新的语句对。

本方法同时使用CNN构建了一个“格式判别器”：用来给一个句子的“正规”程度打分。就是上图中右边括号内的小数。最终选出的新数据集要求如下：

其中表示句子的“正规”程度，是阈值

multi-task transfer (M-Task)

我们观察到，formal语句通常语法正确，而informal语句的语法经常出错。

前人研究表明，对FST的输出再使用一个语法错误纠正模型（ grammatical error correction model，GEC）可以提高模型效果。受此启发，本论文直接使用GEC的训练数据作为增强的新数据集。如下图

模型训练

上面提到的seq2seq模型为Transformer (base)。

本论文首先使用增强的新数据用于预训练，然后使用原始语料数据做微调，将这称为pre-training & finetuning (PT&FT)方法。下面结果证明了PT&FT的效果优于ST方法。ST是把增强数据和原数据一起训练。

下图展现了三种数据增强方法的效果：

下图展现了我们的方法与前人模型的比较结果：

责任编辑：xj

原文标题：【ACL2020】关于正式风格迁移的数据增强方法

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6670

浏览量
88171
机器学习

机器学习

+关注

关注
66

文章
8293

浏览量
131659
自然语言处理

自然语言处理

+关注

关注
1

文章
585

浏览量
13398

原文标题：【ACL2020】关于正式风格迁移的数据增强方法

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

如何进行IP检测

排查网络连接问题，并及时的防范潜在的网络攻击。那么，如 何进行IP 地址检测呢？接下来我将进行图示哦~ 使用操作系统自带的工具 ① Windows 系统中，按win+R，输入“ipconfig”命令。 ② Mac 系统

发表于07-26 14:09 • 179次阅读

求助，在IR615中可以选用哪种vpn协议？如何进行配置？

现有多台IR615路由器，希望将其配置为vpn客户端，连接云服务器的vpn服务端工程师远程连接云服务器对IR615 进行管理在IR615 中可以选用哪种vpn协议？如 何进行配置？服务

发表于07-25 07:53

ESP32-C3在SPI-AT模式下进行数据透传，最后一个数据包的数据偶尔会出现错误，为什么？

目前采用SPI-AT的方式在两个硬件板之间 进行数据的无线传输，一个作为AP开启TCP服务器，一个作为STA连接到对应的服务器，传输的数据量为3000000字节，在测试的过程

发表于06-26 06:07

stm32f105自动生成的USB主机，如何进行数据的接收？

stm32f105自动生成的USB 主机，如 何进行数据的接收？ /** * @briefThe function informs user that data have been sent

发表于03-26 07:29

【JAVA UI】【HarmonyOS】【Demo】鸿蒙如何进行xml 解析

【鸿蒙】鸿蒙如 何进行数据解析【问题描述】有时候我们从服务器获取是 xml 格式数据，我们需要将 xml 转化成 model 对象，该如何使用呢？下面举个例子说明一下，将分以下几步进行1.准备条件

发表于02-19 15:59 • 341次阅读

【JAVA UI】【HarmonyOS】【Demo】鸿蒙如<b class='flag-5'>何进行</b> xml 解析

隧道没信号怎么进行数据采集

隧道没信号怎么 进行数据采集

发表于12-06 13:27 • 652次阅读

企业数据中台如何进行数据的清洗和处理？#数据中台 #光点科技

数据

光点科技

发布于 :2023年11月30日 09:28:53

发布于 :2023年09月19日 14:09:37

搜索历史

在风格迁移中如何进行数据增强

评论

如何进行IP检测

求助，在IR615中可以选用哪种vpn协议？如何进行配置？

ESP32-C3在SPI-AT模式下进行数据透传，最后一个数据包的数据偶尔会出现错误，为什么？

stm32f105自动生成的USB主机，如何进行数据的接收？

【JAVA UI】【HarmonyOS】【Demo】鸿蒙如何进行xml 解析

隧道没信号怎么进行数据采集

企业数据中台如何进行数据的清洗和处理？#数据中台 #光点科技

navicat的数据迁移工具

如何将数据从MySQL迁移到Influxdb中

基于OpenCV的DNN图像风格迁移

基于PyQT5与ONNXRUNTIME实现风格迁移应用

数据中台如何进行数据清洗和数据质量管理？#数据中台 #光点科技

智能电力监控系统在医院配电系统中是如何进行数据采集和管理的

使用SolidFire SF光纤通道闪存阵列进行卷云数据迁移

在bash中如何进行各种文件重定向呢？