- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《深度学习之图像识别：核心技术与案例实战》 ——3.4.3 数据清洗与整理

华章计算机发表于 2020/02/23 13:53:41 2020/02/23

【摘要】本节书摘来自华章计算机《深度学习之图像识别：核心技术与案例实战》 ——书中第3章，第3.4.3节，作者是言有三　。

3.4.3 数据清洗与整理

　　数据在采集完之后，往往包含着噪声、缺失数据、不规则数据等各种问题，因此需要对其进行清洗和整理工作，主要包括以下内容。

　　1．数据规范化管理

　　规范化管理后的数据，才有可能成为一个标准的数据集，其中数据命名的统一是第一步。通常爬取和采集回来的数据没有统一、连续的命名，因此需要制定统一的格式，命名通常不要含有中文字符和不合法字符等，在后续使用过程中不能对数据集进行重命名，否则会造成数据无法回溯的问题，而导致数据丢失。

　　另外对于图像等数据，还需要统一格式，例如把一批图片数据统一为JPG格式，防止在某些平台或批量脚本处理中不能正常处理。

　　2．数据整理分类

　　在采集数据的时候会有不同场景，不同风格下的数据，这些不同来源的数据需要分开储存，不能混在一起，因为在训练的时候，不同数据集的比例会对训练模型的结果产生很大的影响。对于同一个任务却不同来源的数据，比如室内、室外采集的人像数据，最好分文件夹存放。

　　数据集包括训练集和测试集，平时使用时数据集、训练集、测试集需要以3个文件夹分别存储，方便进行个性化的打包与传播。

　　3．数据去噪

　　采集数据的时候通常无法严格控制来源，比如我们常用爬虫来爬取数据，可能采集到的数据会存在很多噪声。例如，用搜索引擎采集猫的图片，采集到的数据可能会存在非猫的图片，这时候就需要人工或者使用相关的检测算法来去除不符合要求的图片。数据的去噪一般对数据的标注工作会有很大的帮助，能提高标注的效率。

　　4．数据去重

　　采集到重复的数据是经常遇到的问题，比如在各大搜索引擎爬取同一类图片就会有重复数据，还有依靠视频切分成图片来获取图片的方法，数据重复性会更严重。大量的重复数据会对训练结果产生影响甚至造成模型过拟合，因此需要依据不同的任务采用不同的数据去重方案。对于图像任务来说，最简单的有逐像素比较去掉完全相同的图片，或者利用各种图像相似度算法去除相似图片。

　　5．数据存储与备份

　　在所有数据整理完之后，一定要及时完成数据存储与备份。备份应该遵循一式多份且多个地方存储，一般是本机、服务器、移动硬盘等地方，定时更新，降低数据丢失的可能性。数据无价，希望读者能够重视数据备份问题。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《深度学习之图像识别：核心技术与案例实战》 ——3.4.3 数据清洗与整理

3.4.3 数据清洗与整理

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《深度学习之图像识别：核心技术与案例实战》 ——3.4.3 数据清洗与整理

3.4.3 数据清洗与整理

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品