- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【云驻共创】推荐一些机器学习系统MLSys中的值得研究的方向

孙叫兽发表于 2022/01/23 23:54:51 2022/01/23

5.7k+ 0 0

【摘要】 MLsys不能算是一种方向，而是一种思路。比如对于system研究者来说，可以把ML作为我们开发的系统要适配的一种benchmark，就像transaction对于数据库、某种文件场景对于File System的意义一样。这样一想可做的空间就宽广多了。下面简单推荐一些坑比较少得方向，希望大家可以适应这个潮流。

MLsys不能算是一种方向，而是一种思路。比如对于system研究者来说，可以把ML作为我们开发的系统要适配的一种benchmark，就像transaction对于数据库、某种文件场景对于File System的意义一样。这样一想可做的空间就宽广多了。

下面简单推荐一些坑比较少得方向，希望大家可以适应这个潮流。

1. 分布式机器学习（Distributed DNN Training）

这个又可以分为两个方面：from ML / system perspective。

从ML的角度做，主要是发明或改进分布式训练算法，保证在分布式加速的同时，仍然能达到原来的学习效果（loss/accuracy）。因此很多工作也被投在像ICML、NIPS这种专业ML会议上。主要用到的方法包括优化（optimization）和统计学习理论（statistical learning theory）。

还有一类工作涉及到如何把单机算法改造成分布式[ch9]，比如同步/异步SGD等。这里主要涉及到的问题是如何降低分布式环境下的通信开销，提高加速比。

System

还有一个就是从System的角度做。从分布式计算的角度来看，可以把相关工作分为以下几类：

对于计算量太大的场景（计算并行），可以多线程/多节点并行计算，多节点共享公共的存储空间。常用的一个算法就是同步随机梯度下降（synchronous stochastic gradient descent），含义大致相当于K个（K是节点数）mini-batch SGD
对于训练数据太多，单机放不下的场景（数据并行，也是最主要的场景），需要将数据划分到多个节点上训练。每个节点先用本地的数据先训练出一个子模型，同时和其他节点保持通信（比如更新参数）以保证最终可以有效整合来自各个节点的训练结果，并得到全局的ML模型。
对于模型太大的场景，需要把模型（例如NN中的不同层）划分到不同节点上进行训练。此时不同节点之间可能需要频繁的sync。这个叫做模型并行。
Pipeline Parallelism：这是去年（SOSP19 PipeDream）才出现的概念。Pipeline Parallelism相当于把数据并行和模型并行结合起来，把数据划分成多个chunk，也把训练模型的过程分成了Forward Pass和Backward Pass两个stage。然后用流水线的思想进行计算。

大致涉及以下几个点：

分布式ML系统设计
Edge Computing
大量计算资源的Scheduling / device placement
communication相关

2. 深度学习模型压缩/加速

对DL model进行压缩主要考虑两个角度：减少计算量（例如conv层的计算量） / 内存占用（NN的参数数量）。不仅要考虑ML上的metric，也要考虑system层面的performance（例如latency / throughput / 功耗。有时候这些比ML模型的accuracy还重要）。

2.1 通过Quantized（量化）降低计算精度要求

量化的含义是将卷积层（the weights and / or activations of a CNN）通常要用到的32位浮点数用更低位的数来表示，如int32, int16, int8等等，来降低资源占用（float32无论是计算还是存储都是很吃资源的..）。量化之后无疑会损失一部分精度，但神经网络对噪声并不是特别敏感，因此控制好量化的程度之后对ML任务的影响可以很小。

2.2 新硬件 / DL Acclerator

在纯硬件方面针对DL workload的工作也有很多，这里来看几个parallel相关的技术。最近Data-Level Parallelism不仅在深度学习中，在其他一些领域（比如数据库）也有了越来越多的应用。

CPU、SIMD、VLIW、GPU、系统结构、专用硬件等。

2.3 矩阵算子优化

神经网络中的很多运算本质上就是对矩阵运算，因此可以用一些矩阵乘法优化方案来加速。

3. 深度学习框架/系统设计

和Distributed Training的区别是这里更关注一些工程上的东西（框架设计、API设计等等）

几个关键要素:

支持各种算子(op) 和 tensor (data)
计算图的定义方式（动态 v.s. 静态）
Auto Diff
Optimizer（例如Adam）
各种加速和优化的库：cudnn, openblas,mkl等

4. 用ML优化传统的system问题

用ML去优化一个传统system问题中，一些需要人工经验调整、或者说可以从历史情况learn到一些东西的模块。比如数据库参数、操作系统页表、数据库索引等等。一个模块可以被ML化的前提是它必须是empirical的，参考它在页表（OS的工作集原理）、数据库（DBA是个很吃经验的活...）中的应用。

基本就这4个方向，如果想做这些东西，需要掌握一定基础知识点才能更好的入门及应用。

工程基础：C/C++、OO programming。阅读源码是个很好的学习方式
OS
分布式系统
编译原理。特别是编译器优化技术、LLVM、memory optimization。Parser之类不喜欢也可以不看
Computer Architecture。另外还需要了解：1.GPU架构，例如显存分配机制、CPU与GPU交互。 2.CPU、存储系统相关的新技术。 3.有条件可以了解下深度学习专用硬件。
常见的并行计算框架，例如MPI/OpenMP/CUDA

机器学习基础
常见的分布式机器学习算法、DL模型压缩、模型加速方法（根据具体方向而定）

这里需要注意的是，如果想研究的比较有深度，有时间多阅读一下别人的源码，比较有利于个人能力的提升，多动手记的比较牢靠一点。

机器学习是个很大的领域，也是个很成功的领域：从纯学术角度来说，这个领域“坑”大，维度很广，不管是算法、理论，还是模型、系统，有非常多值得探索和研究的问题；从工业应用来说，这个领域相比其他某些领域与工业和实际应用贴的更近，所以这个领域的成果相比其他一些领域也更容易被部署到开发过程和产品中。

机器学习是一个多维度（multi-dimensional）的研究领域，也是一个跨领域（cross-domain）的研究领域，上到理论证明，算法设计，下到模型设计、应用、系统设计和研究。

这种学习如果想出成果，还是离不开老师和同事们的协助，有那种氛围比较容易解决问题，不用自己一个人钻牛角尖，这里有一些名校及比较好的老师推荐一下：

牛X的名校

北美：业界当然是Google Brain和MSR最有影响力。CMU的Catalyst，除了大家比较熟悉的陈天奇（TVM，XGBoost，MXNet），Zhihao Jia的研究也很promising（TASO），另外两位senior的老师都已经很有名了。

欧洲：MSR Cambridge。ETH Systems Group几位AP做MLSys，拓展宽一些的话，Arch背景的Onur Mutlu和HPC背景的Torsten Hoefler都很厉害有MLSys的项目。PARSA at EPFL。德国马普所软件系统所MPI-SWS实力也很强。

国内：工业界里面MSRA的系统和网络组可能是做的最好的，字节、阿里、亚马逊ASAIL也都在特定领域里面有一些影响。

硬核的老师

1.UTK，Jack Dongarra的ICL。代表作大家耳熟能详，起草了BLAS，LAPACK，open MPI。包括大家今天以dag为基础的tensorflow，其实icl早就有相应的包给大规模hpc系统了（PARSEC，类似还有斯坦福的legion)。这个实验室，发paper一般，学校一般，但是做东西极其底层和硬核，一直是我非常尊敬的实验室之一。

2.Berkeley James Demmel和他在新加坡国大的学生You Yang。James做的比较偏算法一些，最近几年跟尤洋弄大batch分布式机器学习挺火热的。

3.斯坦福的keith winstein。serverless computing那些应用做的非常有意思.

找到有相近价值观的人共同推动这个领域的发展，因为现在机器学习已经不单单是个算法问题，很多创新横跨算法系统乃至结合硬件设计，那么有不少好工作很容易在各自领域遭遇敌意。比如系统领域喜欢改变领域mindset的相对通用的topic，对于前沿算法带来的新系统设计带着偏见；

对于比较喜欢ML的同学，我还是比较推荐大家可以考虑使用已有的系统提升各种ML算法，非深度学习算法是个性价比很高的事情，因为这个方向对于很多工业界都有很重要的里程碑意义，主要是因为这个东西做的人比较少，毕竟它不仅仅需要了解一些系统知识，更重要的你需要对机器学习算法的深刻理解。最后祝大家都能学有所成，乘风破浪。

本期内容就分享到这里，我们下期见！

本文整理自华为云社区【内容共创】活动第12期。
查看活动详情：https://bbs.huaweicloud.com/blogs/325315
相关任务详情：任务38推荐机器学习系统MLSys中的研究方向，并说明理由

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

作者其他文章

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务