《深度学习之图像识别:核心技术与案例实战》 ——3.4.3 数据清洗与整理
3.4.3 数据清洗与整理
数据在采集完之后,往往包含着噪声、缺失数据、不规则数据等各种问题,因此需要对其进行清洗和整理工作,主要包括以下内容。
1.数据规范化管理
规范化管理后的数据,才有可能成为一个标准的数据集,其中数据命名的统一是第一步。通常爬取和采集回来的数据没有统一、连续的命名,因此需要制定统一的格式,命名通常不要含有中文字符和不合法字符等,在后续使用过程中不能对数据集进行重命名,否则会造成数据无法回溯的问题,而导致数据丢失。
另外对于图像等数据,还需要统一格式,例如把一批图片数据统一为JPG格式,防止在某些平台或批量脚本处理中不能正常处理。
2.数据整理分类
在采集数据的时候会有不同场景,不同风格下的数据,这些不同来源的数据需要分开储存,不能混在一起,因为在训练的时候,不同数据集的比例会对训练模型的结果产生很大的影响。对于同一个任务却不同来源的数据,比如室内、室外采集的人像数据,最好分文件夹存放。
数据集包括训练集和测试集,平时使用时数据集、训练集、测试集需要以3个文件夹分别存储,方便进行个性化的打包与传播。
3.数据去噪
采集数据的时候通常无法严格控制来源,比如我们常用爬虫来爬取数据,可能采集到的数据会存在很多噪声。例如,用搜索引擎采集猫的图片,采集到的数据可能会存在非猫的图片,这时候就需要人工或者使用相关的检测算法来去除不符合要求的图片。数据的去噪一般对数据的标注工作会有很大的帮助,能提高标注的效率。
4.数据去重
采集到重复的数据是经常遇到的问题,比如在各大搜索引擎爬取同一类图片就会有重复数据,还有依靠视频切分成图片来获取图片的方法,数据重复性会更严重。大量的重复数据会对训练结果产生影响甚至造成模型过拟合,因此需要依据不同的任务采用不同的数据去重方案。对于图像任务来说,最简单的有逐像素比较去掉完全相同的图片,或者利用各种图像相似度算法去除相似图片。
5.数据存储与备份
在所有数据整理完之后,一定要及时完成数据存储与备份。备份应该遵循一式多份且多个地方存储,一般是本机、服务器、移动硬盘等地方,定时更新,降低数据丢失的可能性。数据无价,希望读者能够重视数据备份问题。
- 点赞
- 收藏
- 关注作者
评论(0)