KYer.LJ的论坛回复_云社区-华为云

自动化机器学习作为一项能够帮助AI快速落地的关键技术，已经得到了国内外学术界和工业界的广泛关注。经过近几年的研究发展，AutoML在基本技术方法和任务上，已经取得显著的进展和成果。 ## 一、关键技术难题和挑战 ### (1)开发一个高效全流程数据分析模型难度大大部分实际应用的模型往往是端到端的机器学习流水线。典型的数据分析流程涉及到多个阶段，包括数据预处理、特征工程、算法选择、模型评估及超参数优化等，而且每个分析阶段又包含了多种方法。数据分析人员需要了解每个阶段中每个方法的适用场景、运行原理以及超参数调优技巧，并通过不断尝试各种算法模型，反复迭代和试错，最终针对实际业务数据特征设计性能优异的机器学习流水线。因此，开发一个高效的全流程的数据分析模型具有技术难度大、严重依赖专家经验、周期较长等困难。目前主流的贝叶斯优化方法将机器学习流水线自动化设计问题抽象成模型选择和超参数调优的联合高维优化问题。然而，大部分贝叶斯优化方法在高维场景下性能较差。另外，基于遗传算法的自动化算法又面临着效率较低、耗时过长的问题。 ###(2)概念漂移场景下的AutoML建模问题现有的AutoML技术方法大都用来解决静态数据集的自动化建模问题，但是在一些现实场景下，数据是持续产生的，数据特征是动态发生变化的。这种数据特征的动态改变也称为概念漂移。例如，在许多实际应用场景中，比如在线广告、推荐系统、情绪分析、欺诈检测等，数据按天、周、月甚至年依次到来，并且随着时间推移，数据分布会发生变化。由于存在概念漂移，一个时间段下训练所得到的模型，有可能难以适应下一个时间段的数据，从而导致预测准确性下降。终身学习(Lifelong Learning ) 的目的就是能够捕获数据概念漂移，使机器学习模型能够随着数据集的变化而动态更新。 ###(3)特征工程中的问题和挑战特征提取的主要目标是通过从输入数据中提取突出的特征来提高机器学习模型的准确性，同时还可能从输入中消除噪声和冗余。必须考虑特征的可扩展性，因为用于机器学习的数据集大小的增长使得提取特征变得困难且不可行。十年前，要对数千个特征运行特征选择算法是一个挑战，而现在的挑战是要对数百万个输入维执行此操作。这就提出了一个巨大的挑战：我们如何使特征提取具有可扩展性？特征工程通常需要相关领域的专业知识，并且涉及反复试验和错误，模型测试和评估。将原始数据转换为功能部件通常需要大量人员参与有关该问题的领域知识，因为它主要是由直觉驱动的。 ## 二、如何解决这些问题和挑战？ ### (1)超参数重要性分析工具大多数 AutoML 工具常常只能机械地给出最优的参数配置，却无法洞察超参数与模型性能之间的关系。针对该问题，超参数重要性分析工具应运而生，它对 AutoML 工具运行过程中产生的算法性能数据进行离线分析，获得关于不同算法的超参数是如何影响模型性能的见解，这有助于算法开发人员深入理解算法的工作原理。键超参数选择类似于特征选择，它可通过量化超参数重要性，以精简搜索空间的方式来加速搜索过程，提升 AutoML 效率，帮助专家洞察搜索空间。 ### (2)提高计算效率和得到良好结果为了达到高计算效率和得到具有良好结果的目标，目前主要使用经验技术来提升 AutoML 的性能和效率。根据所使用的技术不同，可大致分为三类：基于集成学习的优化技术、基于元学习的优化技术和基于迁移学习的优化技术。基于集成学习的优化技术将多个基础学习器合成一个强学习器，以达到提高学习器泛化能力的目的，在 AutoML 工具中使用集成学习技术可以提升工具所得结果的泛化性能。基于元学习的优化技术从历史经验中提取元知识（如数据集和模型的元特征、配置的性能等等），并基于元知识训练元学习器再应用于新问题中。元学习技术是 AutoML 性能优化中最常见的优化技术，常应用于在配置生成、动态配置自适应和配置评估等阶段进行性能提升，例如 Auto-Sklearn。基于迁移学习的优化技术使用来自原域的知识尝试改进目标域，它与基于元学习的优化技术的区别在于是否利用提取的知识训练模型，如果训练模型则是元学习，若直接使用知识则是迁移学习。 ### (3)根据实际应用场景搭建算法框架文献1面向全流程数据分析中的自动化机器学习流水线设计场景，首先分析全流程数据分析特点，定义一种由五阶段构成的机器学习流水线，可以同时处理离散型和连续型特征面向终身学习场景，针对普遍存在的概念漂移和数据不平衡问题，研究提出了一种基于加权集成学习的算法框架Auto-LEE。 ### 参考文献 [1]方鑫. 面向典型场景的自动化机器学习算法研究及系统实现[D].南京大学,2020. [2]梁青青. 基于关键超参数选择的监督式AutoML性能优化[D].贵州大学,2019. [3]Chia Emmanuel Tungom. 应用自动化特征工程和机器学习在预测分析中的应用[D].西安电子科技大学,2019.