人工智能之机器学习篇——统计关系学习

举报
竹叶青 发表于 2019/09/03 20:14:06 2019/09/03
【摘要】 传统机器学习模型假设数据是独立同分布的 (independent and identically distributed, iid),也就是说,数据样本之间相互独立,不存在任何关系。然而,在很多实际应用中,尤其是最近出现的像Facebook、微信和微博这种社交网络应用中,数据样本之间是有关系的,也就是说,样本之间是不独立的。例如,互联网上网页之间存在超链接关系,学术论文之间存在引用关系,社交...

top3.f349c0d.png

传统机器学习模型假设数据是独立同分布的 (independent and identically distributed, iid),也就是说,数据样本之间相互独立,不存在任何关系。然而,在很多实际应用中,尤其是最近出现的像Facebook、微信和微博这种社交网络应用中,数据样本之间是有关系的,也就是说,样本之间是不独立的。例如,互联网上网页之间存在超链接关系,学术论文之间存在引用关系,社交网络中的对象之间存在各种各样的关系,人与人之间存在着通信关系,蛋白质之间存在各种交互关系。我们把这种样本之间存在关系的数据叫做关系数据 (relational data),把基于关系数据的机器学习叫做统计关系学习 (statistical relational learning, SRL)。由于关系数据在互联网数据挖掘、社交网络分析、生物信息学、经济学、恐怖和恶意行为预测、以及市场营销等各个领域不断涌现,统计关系学习已经成为一个具有重要科学意义和应用价值的研究课题。

目前主流的统计关系学习方法可以大致分为以下五类:基于个体推理模型的方法(IIM), 基于启发式联合推理的方法(HCI), 基于概率关系模型的方法(PRMs), 基于概率逻辑模型的方法(PLMs),以及基于隐因子模型的方法(LFMs)。

基于个体推理模型的方法(IIM方法)从关系信息中抽取出特征,并将关系数据转化成适合传统机器学习算法的特征向量形式,然后用传统学习算法来进行分类。由于IIM方法忽略了关系数据中样本之间的相关性,分类性能往往比较差。另外,这类模型主要用于分类任务,而不适合于链接预测等其它统计关系学习任务。因此,IIM方法实用性不是很强;基于启发式联合推理的方法 (HCI方法)利用有关系的样本之间的相关性,采用启发式的循环迭代方式对多个样本同时进行分类。由于考虑了有关系的样本之间的相关性,这类方法在实际应用中取得了比IIM方法更好的分类性能。但是,HCI方法主要用于联合分类,而不适合于其它统计关系学习任务。因此,HCI方法的实用性也比较有限。


11111.jpg

概率关系模型PRMs通过拓展传统的图模型来对样本之间的相关性进行建模。典型的PRMs包括关系型贝叶斯网络(RBNs)、关系型马尔可夫网络(RMNs)和关系型依赖网络(RDNs)。基于概率关系模型的方法 (PRMs方法)从概率统计角度对关系数据进行建模,能很好地处理不完整和不精确数据。但是,学习一个图模型需要进行结构学习和参数学习。结构学习是对变量之间的各种依赖关系进行确定,是一个组合优化问题,因此复杂度非常高。另外,RMNs和RDNs的参数学习也没有收敛和快速的方法,实际应用中往往采用一些近似的逼近策略。因此,PRMs方法的一个主要缺点是学习速度慢,只适合于小规模数据的处理。

概率逻辑模型PLMs将概率引进一阶谓词逻辑,能够很好地对关系数据进行建模[156][157][158]。代表性的PLMs有概率Horn溯因(PHA),贝叶斯逻辑编程(BLP),马尔可夫逻辑网络(MLNs)。PLMs的底层建模工具还是基于图模型,因此基于概率逻辑模型的方法(PLMs方法)也具有PRMs方法的学习速度慢的缺点,只适合于小规模数据的处理。基于隐因子模型的方法(LFMs方法)将统计学中的隐因子模型引进统计关系学习。其中,常用的矩阵分解算法对应于某个LFM的一个最大似然估计或者最大后验估计。因此,矩阵分解方法可以看成LFMs的一种特例。大部分LFMs方法具有相对于观察到的链接数的线性复杂度,学习速度远远超过PRMs方法和PLMs方法,能很好地对较大规模数据进行建模。因此,包括矩阵分解这个特例在内的LFMs方法已经发展成为目前统计关系学习算法的主流,具有比其他方法更广阔的应用前景。

近年来,大数据应用中的关系数据呈现出下面两个特性:(1)动态性:数据是随着时间的推移不断变化的,例如,在一个社交网络中,随着时间推移,可能有成员退出,也可能有新成员加入;(2)海量性:随着数据采集设备自动化程度的不断提高,很多应用中的数据已经从TB(TeraByte)级迅速发展到PB(PetaByte)级甚至更高的数量级,对这些超大规模数据(大数据或海量数据)的分析和处理将给统计关系学习研究带来极大的挑战。目前已有的统计关系学习方法不能很好地对动态关系数据进行建模和分析,因此,设计在线学习模型以实现对动态关系数据的有效建模是统计关系学习的一个研究热点。另外,目前大部分统计关系学习模型都是集中式的,也就是说,都是基于单机实现的,无论在存储还是计算方面,都不能实现对海量数据的处理。因此,设计超大规模分布式学习算法以实现对海量关系数据的有效建模是一个值得深入探索的研究热点。

本文转载自异步社区

原文链接:

https://www.epubit.com/articleDetails?id=N49242473-3ce3-4aca-a93a-c8b73689642c


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。