- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

技术综述十一：视频OCR基础知识、常见数据集和挑战

谷雨润一麦发表于 2021/05/26 11:22:27 2021/05/26

【摘要】视频OCR（Video Optical Character Recognition）用于识别视频中出现的中英文字、繁简体文字、数字等内容，包括字幕、弹幕，以及部分自然场景文字、竖直文字和艺术字。通过自动分析视频中出现的文字内容，可以识别并提取违规或者关键信息。随着数字电视的不断推广和普及，对媒介管理的有效监控对于保障出品的质量和安全具有重要的作用。

视频OCR（Video Optical Character Recognition）用于识别视频中出现的中英文字、繁简体文字、数字等内容，包括字幕、弹幕，以及部分自然场景文字、竖直文字和艺术字。通过自动分析视频中出现的文字内容，可以识别并提取违规或者关键信息。

随着数字电视的不断推广和普及，对媒介管理的有效监控对于保障出品的质量和安全具有重要的作用。

图一：新闻视频

（一）应用范围

视频OCR应用范围广泛，可适用场景如下

视频、舆情监控
电视的自动化检测
手游截屏文本提取
机顶盒自动测试
无人机、机器人项目
…

图二：敏感信息监控

常用研究方法是基于追踪的方式，相对于图片OCR，视频OCR可以跟踪文字区域位置，提高精确率。

（二）常用数据集

常用数据集如下。

Dataset	Year	Category
MoCA	1998	Caption Text
Merino	2007	Scene Text
Minetto	2011	Scene Text
ICDAR-13	2013	Scene Text
Merino-Gracia	2014	Scene Text
ICDAR-15	2015	Scene Text
SVT	2010	Scene Text

表格一：常见数据集

Minetto数据集是2011年公开的数据集，主要包含5个户外的视频数据，每一帧图片尺寸都是640×480，共3575帧图片，包含28个不同的文本目标，总共出现目标8621次。文本密集的视频平均一帧大约存在15个文本目标，其余视频平均一帧大约存在1-3个目标。

ICDAR 2013 Text in Videos 数据集：公开了28个真实场景的视频数据集以及对应的标注文件，其中13个视频作为训练集，15个视频作为测试集。

ICDAR 2015 Text in Videos 数据集：在ICDAR 2013 的基础上，将训练集扩充为25个视频共13450帧，测试集扩充为24个视频共14374帧，不过新增的视频中只公开了训练集的标注文件，采用官网测评的方式。

（三）挑战

视频OCR挑战很多，包括但并不限于视频层面挑战和文本层面的挑战。

视频层面挑战：

压缩失真
运动模糊，遮挡，光照变化等
多个文字目标不断运动变化
不断消失和出

文本层面的挑战（和场景OCR类似）：

文本背景复杂
背景与文本相似
小尺度文本
文本运动复杂

图三：常见挑战

至于最新的研究、常用技术等，敬请期待本系列第二篇文章。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

技术综述十一：视频OCR基础知识、常见数据集和挑战

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

技术综述十一：视频OCR基础知识、常见数据集和挑战

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品