《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》 —3.3 自动化机器学习
【摘要】 本节书摘来自华章计算机《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》一书中第3章,第3.3.1节,作者是王健宗 瞿晓阳 。
3.3 自动化机器学习
3.3.1 机器学习面临的问题
机器学习的步骤如图3-2所示,就一般情况而言,算法工程师的任务一般从特征工程开始。
图3-2 机器学习知识图谱
特征工程是数据分析中最耗费时间精力的一部分工作,它不像算法和模型是确定的步骤,而大多情况下要依靠算法工程师的个人经验来处理。这样的特征工程具有很强的不确定性,如漏选特征、选到了无效特征、忽略高级特征等。漏选特征会造成信息的缺失,使模型效果变差;而加入了无效特征会让模型变大,增加了不必要的计算量;高级特征需要通过一般特征的运算来得到。还有其他问题,如缺失值、离散特征连续化、归一化、标准化、数据清洗等。
而在模型选择阶段,也需要依靠算法工程师的经验来做,算法工程师通常是根据特征工程后的数据来进行选择。
之后会进行模型评估阶段,通过模型评估来决定模型是否能运用在实际生产中。如果模型未能通过评估,就需要重新返工,重新进行数据收集、特征工程、模型选择过程。这是相当耗费时间的工作并且需要十分丰富的经验。在实际生产中,大多数情况下可能并不能生成理想的模型,并且会耗费大量的时间。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)