- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

NLP数据扩增方法

AI浩发表于 2021/12/23 01:14:16 2021/12/23

【摘要】扩增方法：回译将文本数据翻译成某种语言，然后再将其翻译回原始语言。回译可以生成带有不同单词的文本数据，同时保留文本数据的上下文。一般情况下回译需要借助翻译API来完成，需要耗费一定的时间。扩增方法：同义词替换从句子中随机选择N个非停止词，随机选择的同义词替换这些单词。替换前：This article&nbs...

扩增方法：回译

将文本数据翻译成某种语言，然后再将其翻译回原始语言。回译可以生成带有不同单词的文本数据，同时保留文本数据的上下文。

一般情况下回译需要借助翻译API来完成，需要耗费一定的时间。

扩增方法：同义词替换

从句子中随机选择N个非停止词，随机选择的同义词替换这些单词。

替换前：This article will focus on summarizing data augmentation techniques in NLP.

替换后：This write-up will focus on summarizing data augmentation methods in NLP.

在进行同义词替换时，关键是计算得到同义词的方法：

word2vec距离
Bert Mask预测

扩增方法：同义词插入

在句子中随机找一个非停止词的同义词。把同义词插入句子中的任意位置。

替换前：This article will focus on summarizing data augmentation techniques in NLP.

替换后：This article will focus on write-up summarizing data augmentation techniques in NLP methods.

扩增方法：随机替换

从句子中随机选取两个单词，互换它们的位置。

替换前：This article will focus on summarizing data augmentation techniques in NLP.

替换后：This techniques will focus on summarizing data augmentation article in NLP.

扩增方法：随机删除

随机删除句子中的单词。

替换前：This article will focus on summarizing data augmentation techniques in NLP.

替换后：This article focus on summarizing data augmentation in NLP.

扩增方法：对抗训练

对抗样本是让能够模型误分类的样本，且对抗样本与原始样本区别不大。将模型生成的对抗样本加入训练过程，即为对抗训练

对抗训练思路：通过产生对抗样本的思路，如FGSM来计算出扰动，添加到到连续的Word Embedding上产生，然后将再进行一次正向传播和反向传播。

https://arxiv.org/abs/1605.07725

扩增库：EDA

EDA是Easy Data Augmentation的缩写，原始提出于论文EDA: Easy Data Augmentation techniques for boosting performance on text classification tasks.

EDA库实现了同义词替换、随机插入、随机交换和随机删除等操作，使用起来非常简单。

英文版：https://github.com/jasonwei20/eda_nlp

中文版：https://github.com/zhanlaoban/EDA_NLP_for_Chinese

扩增库：nlpaug

nlpaug是一个非常常用的数据扩增库，支持文本和音频数据。nlpaug实现了较多的同义词替换方法，底层支持pytorch和tf。

https://github.com/makcedward/nlpaug

使用案例：https://github.com/makcedward/nlpaug/blob/master/example/textual_augmenter.ipynb

文章来源: wanghao.blog.csdn.net，作者：AI浩，版权归原作者所有，如需转载，请联系作者。

原文链接：wanghao.blog.csdn.net/article/details/116447584

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

NLP数据扩增方法

扩增方法：回译

扩增方法：同义词替换

扩增方法：同义词插入

扩增方法：随机替换

扩增方法：随机删除

扩增方法：对抗训练

扩增库：EDA

扩增库：nlpaug

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

NLP数据扩增方法

扩增方法：回译

扩增方法：同义词替换

扩增方法：同义词插入

扩增方法：随机替换

扩增方法：随机删除

扩增方法：对抗训练

扩增库：EDA

扩增库：nlpaug

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品