伪文艺程序员的“迁移学习”啃读(A)

举报
chenjinge 发表于 2020/06/09 10:32:55 2020/06/09
【摘要】 在迁移学习(Transfer Learning)任务里面,迁移算法能够利用在源域(Source Domain)学习到的知识辅助目标域(Target Domain)的模型的建立。在非深度迁移(Shallow Transfer Learning)领域,以基于样本的迁移(Instance-based)、基于特征的迁移(Feature-based)为主;在深度迁移(Deep Transfer Lea...

迁移学习(Transfer Learning)任务里面,迁移算法能够利用在源域(Source Domain)学习到的知识辅助目标域(Target Domain)的模型的建立。在非深度迁移(Shallow Transfer Learning)领域,以基于样本的迁移(Instance-based)、基于特征的迁移(Feature-based)为主;在深度迁移(Deep Transfer Learning)领域,以基于对抗网络的迁移(Adversarial Domain Adaptation)技术为主。

基于样本的迁移主要是给源域样本赋予一个权重,使得加权(Instance Re-weighting)或者重采样(Importance Sampling)之后的源域样本和目标域样本的分布对齐,比如KMM、KLIEP、TrAdaboost等等;基于特征的迁移主要是基于子空间(Subspace)的方法,目的是寻找一个合适的映射矩阵使得源域和目标域在子空间里面的距离最小,比如SA、TCA等等。

无论是哪种迁移算法,出发点都有两个:第一,减小源域和目标域的距离,对齐数据分布;第二,保证分类算法在源域和目标域(如果目标域有标记)上的性能不会下降太多

本文就简单从上面的出发介绍一些迁移学习领域的知识,包括浅度迁移模型举例深度网络迁移迁移两大因素迁移理论研究迁移度量技术迁移前沿研究等内容。

下面是文章的目录结构:

  1. Shallow Transfer Models

  2. Deep Domain Adaptation

  3. Transfer Learning Theory

  4. Transferability & Discriminability

  5. Quantify Transfer Learning Factors

  6. Transfer Learning New Researches




1


Shallow Transfer Models



本节介绍一些传统的迁移算法,有的只是列出优化目标,并不会详细进行推导,主要是一个梳理工作,大概包括以下算法(按发表时间排序):

  • KMM(NeurIPS 2006)

  • KLIEP(NeurIPS 2007)

  • MMDE(AAAI 2008)

  • TCA(IJCAI 2009)

  • GFK(CVPR 2012)

  • ITL(ICML 2012)

  • MSDA(ICML 2012)

  • SA(ICCV 2013)

  • GTL(TKDE 2014)

  • CORAL(AAAI 2016)

  • LSDT(TIP 2016)

下面就分别简单地介绍一下这些算法的核心思想。

  • KMM

KMM的全称是Kernel Mean Match,是NeurIPS 2006年《Correcting Sample Selection Bias by Unlabeled Data》提出的一个算法。这里的Sample Selection Bias指的是训练集和测试集的采样分布有稍微的偏差,和Covariate ShiftDomain Adaptation的概念有一定相似。

 image.png

image.png

image.png

image.png

image.png


此外,KLIEP文章里面还给出了一种交叉验证选择最优超参数(比如高斯核的Bandwidth)的方法,不是本文的重点,留给读者阅读,同时也请读者思考,为什么KMM不可以使用交叉验证。


  • MMDE

MMDE是AAAI 2008年《Transfer Learning via Dimensionality Reduction》提出的算法,作者是大名鼎鼎的Sinno Jialin Pan和Qiang Yang。

刚刚提到了KMM和KLIEP,都是基于Instance加权的算法,目的是使得加权后的两个分布MMD/KL距离减小。MMDE则是基于Feature和MMD的,主要思想是学习一个Embedding使得两个域之间的MMD最小,因此叫做Maximum Mean Discrepancy Embedding

image.png

image.png


image.png


  • TCA

TCA则是MMDE的续作,发表在IJCAI 2009,论文是《Domain Adaptation via Transfer Component Analysis》。

这篇工作也是在MMD上着手,但是不同于MMDE直接学习一个Kernel的表示,本文是基于固定核函数表示的特征变换进行构造算法

image.pngimage.png


  • GFK

KMM和KLIEP是基于Instance进行迁移的算法,MMDE和TCA是基于Feature的迁移,GFK则是基于Manifold的迁移方法,是2012年CVPR论文《Geodesic Flow Kernel for Unsupervised Domain Adaptation》提出来的,作者是Boqing Gong, Yuan Shi, Fei Sha,又是一群大佬的工作。

GFK全称是Geodesic Flow Kernel,其中Geodesic的意思是测地线,一般来说机器学习里面涉及到Geodesic的都会和Manifold Learning(流形学习)有关系,这是一个很抽象的方向,和Metric Learning(度量学习)有很大的关系。曾经研究过一段时间。

image.png

image.png

image.png

这样的话其实就相当于是定义了一个新的Kernel来计算样本之间的内积(相似度),这个Kernel就是Geodesic Flow Kernel,简称为GFK,利用这个Kernel计算的样本相似度可以充分考虑源域和目标域之间逐渐变化的趋势。


  • ITL

ITL是ICML 2012《Information-Theoretical Learning of Discriminative Clusters for Unsupervised Domain Adaptation》提出的。

方法的主要目的是对齐数据分布的同时,仍要引入特征的区分度(Discriminability),引用原文的话就是:

The method identi es a feature space where data in the source and the target domains are similarly distributed, it also learns the feature space discriminatively, optimizing an information theoretic metric as an proxy to the expected misclassi cation error on the target domain.

image.png

image.png


image.png


  • MSDA

MSDA是ICML 2012 《Marginalized Denoising Autoencoders for Domain Adaptation》,具体参加之前的文章:

李新春:Auto Encoder for Domain Adaptationzhuanlan.zhihu.com


  • SA

image.png


  • GTL

GTL是TKDE 2014提出的,发表在《Transfer Learning with Graph Co-Regularization》,GTL指的是Graph co-regularized Transfer Learning.

image.png

image.png上述框架最大的好处就是可以将源域和目标域一块考虑做矩阵分解,提取一些公共的特征表示,也就是Features Shared Cross Domains。然后GTL的思想就是在这个过程里面加入一些约束正则项,比如Example Regularization和Feature Regularization,例如样本在原来空间里面是近邻关系,那么在低维空间也需要保持近邻关系等等。

image.png


作者:新春

————————

计算机软件新技术国家重点实验室
伪文艺程序员

既可提刀立码,行遍天下

又可调参炼丹,卧于隆中


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。