传统机器学习模型假设数据是独立同分布的 (independent and identically distributed, iid),也便是说,数据样本之间相互独立,不存在任何关系。
然而,在很多实际运用中,尤其是最近涌现的像Facebook、微信和微博这种社交网络运用中,数据样本之间是有关系的,也便是说,样本之间是不独立的。
例如,互联网上网页之间存在超链接关系,学术论文之间存在引用关系,社交网络中的工具之间存在各种各样的关系,人与人之间存在着通信关系,蛋白质之间存在各种交互关系。
我们把这种样本之间存在关系的数据叫做关系数据 (relational data),把基于关系数据的机器学习叫做统计关系学习 (statistical relational learning, SRL)。
由于关系数据在互联网数据挖掘、社交网络剖析、生物信息学、经济学、胆怯和恶意行为预测、以及市场营销等各个领域不断呈现,统计关系学习已经成为一个具有主要科学意义和运用代价的研究课题。

人工智能之机械进修篇——统计关系进修_关系_办法 科技快讯

目前主流的统计关系学习方法可以大致分为以下五类:基于个体推理模型的方法(IIM), 基于启示式联合推理的方法(HCI), 基于概率关系模型的方法(PRMs), 基于概率逻辑模型的方法(PLMs),以及基于隐因子模型的方法(LFMs)。

基于个体推理模型的方法(IIM方法)从关系信息中抽取出特色,并将关系数据转化成适宜传统机器学习算法的特色向量形式,然后用传统学习算法来进行分类。
由于IIM方法忽略了关系数据中样本之间的干系性,分类性能每每比较差。
其余,这类模型紧张用于分类任务,而不适宜于链接预测等其它统计关系学习任务。
因此,IIM方法实用性不是很强;基于启示式联合推理的方法 (HCI方法)利用有关系的样本之间的干系性,采取启示式的循环迭代办法对多个样本同时进行分类。
由于考虑了有关系的样本之间的干系性,这类方法在实际运用中取得了比IIM方法更好的分类性能。
但是,HCI方法紧张用于联合分类,而不适宜于其它统计关系学习任务。
因此,HCI方法的实用性也比较有限。

概率关系模型PRMs通过拓展传统的图模型来对样本之间的干系性进行建模。
范例的PRMs包括关系型贝叶斯网络(RBNs)、关系型马尔可夫网络(RMNs)和关系型依赖网络(RDNs)。
基于概率关系模型的方法 (PRMs方法)从概率统计角度对关系数据进行建模,能很好地处理不完全和禁绝确数据。
但是,学习一个图模型须要进行构造学习和参数学习。
构造学习是对变量之间的各种依赖关系进行确定,是一个组合优化问题,因此繁芜度非常高。
其余,RMNs和RDNs的参数学习也没有收敛和快速的方法,实际运用中每每采取一些近似的逼近策略。
因此,PRMs方法的一个紧张缺陷是学习速率慢,只适宜于小规模数据的处理。

概率逻辑模型PLMs将概率引进一阶谓词逻辑,能够很好地对关系数据进行建模[156][157][158]。
代表性的PLMs有概率Horn溯因(PHA),贝叶斯逻辑编程(BLP),马尔可夫逻辑网络(MLNs)。
PLMs的底层建模工具还是基于图模型,因此基于概率逻辑模型的方法(PLMs方法)也具有PRMs方法的学习速率慢的缺陷,只适宜于小规模数据的处理。
基于隐因子模型的方法(LFMs方法)将统计学中的隐因子模型引进统计关系学习。
个中,常用的矩阵分解算法对应于某个LFM的一个最大似然估计或者最大后验估计。
因此,矩阵分解方法可以算作LFMs的一种特例。
大部分LFMs方法具有相对付不雅观察到的链接数的线性繁芜度,学习速率远远超过PRMs方法和PLMs方法,能很好地对较大规模数据进行建模。
因此,包括矩阵分解这个特例在内的LFMs方法已经发展成为目前统计关系学习算法的主流,具有比其他方法更广阔的运用前景。

近年来,大数据运用中的关系数据呈现出下面两个特性:(1)动态性:数据是随着韶光的推移不断变革的,例如,在一个社交网络中,随着韶光推移,可能有成员退出,也可能有新成员加入;(2)海量性:随着数据采集设备自动化程度的不断提高,很多运用中的数据已经从TB(TeraByte)级迅速发展到PB(PetaByte)级乃至更高的数量级,对这些超大规模数据(大数据或海量数据)的剖析和处理将给统计关系学习研究带来极大的寻衅。
目前已有的统计关系学习方法不能很好地对动态关系数据进行建模和剖析,因此,设计在线学习模型以实现对动态关系数据的有效建模是统计关系学习的一个研究热点。
其余,目前大部分统计关系学习模型都是集中式的,也便是说,都是基于单机实现的,无论在存储还是打算方面,都不能实现对海量数据的处理。
因此,设计超大规模分布式学习算法以实现对海量关系数据的有效建模是一个值得深入探索的研究热点。