探讨场景文本识别中的语言模型:语言模型的定义

举报
谷雨润一麦 发表于 2020/12/04 12:48:48 2020/12/04
【摘要】 文本图像中包含两层信息:视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明)。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。

1. 什么是语言模型?

图1

       如图1所示,顾名思义,语言模型即根据当前语境的上下文推断当前句子的意思。具体的标准定义为:对于语言序列w1, w2, wn语言模型就是计算该序列的概率即P(w1, w2, wn)。


 


2. 为什么需要语言模型?

       文本图像中包含两层信息:视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明)。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。


 



3. 统计语言模型(n-gram)

       由链式法则可以得到:

11.PNG

       可以通过采用极大似然估计来计算每个词出现的条件概率,但是对于任意长的自然语言语句,根据极大似然估计直接计算P(wn |w1, w2, wn-1)显然不现实(计算量太大)。因此为了解决这个问题,n-gram语言模型引入马尔可夫假设(Markov assumption),即假设当前词出现的概率只依赖于前 n-1 个词,可以得到:


12.PNG

13.PNG

       


       因此,综上可以看出,基于n-gram的语言模型有如下优点:1)完全包含了前n-1个词的全部信息。2)可解释性强。对应也有缺点:1)缺乏长期依赖关系。2)参数空间随着n增大指数型增长。3)单纯的基于统计频次,泛化能力差。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。