《深度学习之图像识别核心技术与案例实战》—3.4.3 数据清洗与整理

举报
华章计算机 发表于 2019/06/02 11:38:22 2019/06/02
【摘要】 本书摘自《深度学习之图像识别核心技术与案例实战》一书中的第3章,第3.4.3节,作者是言有三 。

3.4.3  数据清洗与整理

  数据在采集完之后,往往包含着噪声、缺失数据、不规则数据等各种问题,因此需要对其进行清洗和整理工作,主要包括以下内容。

  1.数据规范化管理

  规范化管理后的数据,才有可能成为一个标准的数据集,其中数据命名的统一是第一步。通常爬取和采集回来的数据没有统一、连续的命名,因此需要制定统一的格式,命名通常不要含有中文字符和不合法字符等,在后续使用过程中不能对数据集进行重命名,否则会造成数据无法回溯的问题,而导致数据丢失。

  另外对于图像等数据,还需要统一格式,例如把一批图片数据统一为JPG格式,防止在某些平台或批量脚本处理中不能正常处理。

  2.数据整理分类

  在采集数据的时候会有不同场景,不同风格下的数据,这些不同来源的数据需要分开储存,不能混在一起,因为在训练的时候,不同数据集的比例会对训练模型的结果产生很大的影响。对于同一个任务却不同来源的数据,比如室内、室外采集的人像数据,最好分文件夹存放。

  数据集包括训练集和测试集,平时使用时数据集、训练集、测试集需要以3个文件夹分别存储,方便进行个性化的打包与传播。

  3.数据去噪

  采集数据的时候通常无法严格控制来源,比如我们常用爬虫来爬取数据,可能采集到的数据会存在很多噪声。例如,用搜索引擎采集猫的图片,采集到的数据可能会存在非猫的图片,这时候就需要人工或者使用相关的检测算法来去除不符合要求的图片。数据的去噪一般对数据的标注工作会有很大的帮助,能提高标注的效率。

  4.数据去重

  采集到重复的数据是经常遇到的问题,比如在各大搜索引擎爬取同一类图片就会有重复数据,还有依靠视频切分成图片来获取图片的方法,数据重复性会更严重。大量的重复数据会对训练结果产生影响甚至造成模型过拟合,因此需要依据不同的任务采用不同的数据去重方案。对于图像任务来说,最简单的有逐像素比较去掉完全相同的图片,或者利用各种图像相似度算法去除相似图片。

  5.数据存储与备份

  在所有数据整理完之后,一定要及时完成数据存储与备份。备份应该遵循一式多份且多个地方存储,一般是本机、服务器、移动硬盘等地方,定时更新,降低数据丢失的可能性。数据无价,希望读者能够重视数据备份问题。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。