- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

探讨场景文本识别中的语言模型

是非得失发表于 2020/12/04 19:44:42 2020/12/04

【摘要】在目前基于深度学习的语言模型结构主要包括三个类别：基于RNN的语言模型，基于CNN的语言模型和基于Transformer的语言模型。接下来我会对它们进行依次介绍，并且逐一分析他们的优缺点。1．通过RNN的语言模型结构图1 基于RNN的语言模型结构随着深度学习的发展，在受到NLP(Natural Language Processing)等任务的启发，Lee等人在视觉特征建模之后，通过引入RN...

在目前基于深度学习的语言模型结构主要包括三个类别：基于RNN的语言模型，基于CNN的语言模型和基于Transformer的语言模型。接下来我会对它们进行依次介绍，并且逐一分析他们的优缺点。

1．通过RNN的语言模型结构

图1 基于RNN的语言模型结构

随着深度学习的发展，在受到NLP(Natural Language Processing)等任务的启发，Lee等人在视觉特征建模之后，通过引入RNN(Recurrent Neural Networks)代替传统的n-gram进行语言模型建模（图1所示）。RNN通过自回归的方式(Auto Regression)，在t时间步读取的是t-1步的状态，即预测当前时间步时会考虑上一时间步的信息，同时通过注意力的方式在glimpse向量中关注对应位置字符的视觉信息。该方法省去了繁琐的n-gram计算过程，在目前的场景文本识别框架中占据了主导的地位。

但是基于RNN的语言模型结构存在2个问题：1）梯度消失/爆炸的问题。2）串行计算效率慢。因此，最近的方法对RNN的语言建模方式进行了改进（上下文记忆力差的问题，因为在部分最近的工作中证明对中/短文本影响不大，所以在这里没有考虑）。

2. 通过CNN的语言模型结构