AI研习丨专题:面向个性化推荐的偏许多若干样性建模研究进展_矩阵_用户
随着用户数与物品种类爆炸式增长,用户偏好的多样性加倍加剧个性化推举的难度。近年来,偏好多样性建模已受到工业界和研究领域越来越多的关注。其核心思路是剖析用户、物品间的局部关联关系,进而挖掘用户的偏好多样性。本文重点先容目前国内外利用评分矩阵的用户偏好多样性建模方法,紧张从传统局部矩阵近似、自适应局部矩阵近似,以及领悟局部全局信息的矩阵近似这三个方面进行梳理和剖析,并磋商了基于用户多样性建模的个性化推举仍旧面临的问题及未来研究方向。
关 键 字
矩阵近似;个性化推举;偏好多样性
0 弁言
在互联网快速发展的本日,各行各业产生的数据呈爆发式增长。这些数据虽然可以供应丰富多彩的信息,但也带来严重的信息过载问题。从用户的角度来讲,面对层出不穷的信息源,自主获取信息的办法变得非常低效;从企业角度来讲,合理快速地提取关联信息是提高产品渗透率或盈利的有效路子。这些需求也标志着推举对人类生活的主要性,我们正从信息时期迈向推举时期。推举系统作为人工智能领域的一个主要产品,成为办理信息过载问题的必要工具,受到各行各业的广泛接管和运用。
个性化推举系统期望通过挖掘用户历史行为数据[1]来获取用户偏好,从而提升用户体验。对用户兴趣偏好建模已成为智能推举领域的核心研究问题之一。目前,研究者已提出多种用户偏好表示方法,个顶用户物品低维隐向量表示是该领域最为有效且被广泛运用的办法。隐因子剖析是一 种基于模型的协同过滤方法,它将推举问题定义为对稀疏用户-物品行为矩阵的近似问题,通过假设该低秩矩阵,进行矩阵低秩近似,以实现用户/物品隐表示的学习任务。基于矩阵近似的隐因子剖析方法可以有效地估计用户物品的全局构造。然而,当物品种类繁多、用户数量弘大时,用户偏好常常表现出多样性,如用户对相同特性的物品表现出不同偏好。因此,如何利用隐表示捕获用户偏好的多样性仍是推举领域的一大寻衅。
为了捕获用户多种多样的兴趣,越来越多的研究职员开始考虑用户之间或物品之间的局部关联信息。首先将原始的行为矩阵拆分为多个子矩阵,个中每个子矩阵包含一些志趣相投的用户和这些用户感兴趣的物品;然后针对每个子矩阵,采取低秩矩阵近似技能来建模子矩阵特定的用户和物品的隐表示;末了,利用子矩阵中预测结果的加权和,估计缺失落的行为信息。这类方法被称为两阶段的分离局部低秩矩阵近似。也便是说,它们须要一个与低秩子矩阵近似解耦合的独立评分矩阵划分阶段,之后再利用统一的概率图模型将这两个阶段结合起来。只管这些研究在一定程度上改进了全局低秩矩阵近似方法在用户多样性建模上的问题,但可能由于每个子矩阵只覆盖了某个特 定用户或物品的部分评分信息而限定了推举的质量。同时,这类方法因过分强调局部构造却忽略了全局信息,从而难以获取用户的整体特性。
为了有效地探索评分矩阵的全局和局部构造,研究职员将全局和局部隐表示的识别过程合并起来,或者将预先学习的全局构造嵌入到局部构造的演习过程之中。然而,这些方法面临着两方面问题,一是在捕获局部信息的过程中如何自适应地决定子矩阵的数目而不是手工调节;另一个是如何自适应地为每个子矩阵设置得当的秩而不是固定所有子矩阵的秩。由于用户之间或物品之间的评分数量有着显著差异,因此为不同的子矩阵设置不同的秩是必要的。比如,具有较少评分的子矩阵该当是低秩的,而具有较多评分的子矩阵可能具有相对较高的秩。
由以上问题驱动,我们分别从传统线性模型角度和深度天生模型角度探究了适用于个性化推举的用户偏好多样性建模办法,重点阐述了自适应局部低秩矩阵近似模型和非参数化深度天生全局与局部推举模型。上述方法能在确定子矩阵个数的同时,确定每个子矩阵的最优低维表示空间,学习子矩阵特定的隐表示,并结合缺失落机制估计潜在特色的主要性。
1 问题场景与定义
真实推举场景中,用户偏好常常是多样的。以Yelp数据集[2]为例,该数据集包含了用户与商户间的详细交互信息,且不同商户被预先标记了多种标签(标签凑集中共1240个属性标签)。图1(a) 展示了所有用户的商户评价个数分布信息。可以看到,该分布服从幂律分布,因此大部分用户仅仅评价过少量的商户;同时,这一统计特性也表明用户的反馈数据存在极强的稀疏性。图1(b)展示了不同用户的标签数分布,值得把稳的是,大多数用户同时对多个标签感兴趣。为了进一步表示用户偏好的多样性,统计了每位用户的标签数与商家数的比例。如图1(c)所示,只管 与每位用户干系联的商户数与种别数都较小,但相应的种别比例较高,毫无疑问,这充分表示了用户偏好的多样性。
图 1 Yelp 数据分布
在推举系统中,广泛运用矩阵近似来添补评分矩阵R中的缺失落值。为了预测原始评分矩阵中的缺失落值,常用的思路是设计一个最小化预测评分偏差的优化问题。在这种情形下,基于矩阵近似的推举行法可用如下模型表示:
bACCAMS利用贝叶斯联合聚类技能进行局部构造检测,并在线性加权策略中构建了简洁的矩阵近似模型。同时也有研究职员提出了局部矩阵分解的贝叶斯方法,利用一个联合模型整合概率矩阵分解与聚类(主题)检测任务,取得了较好的推举精度。然而,上述方法将每个用户或物品分配给单个簇,难以恰当地处理拥有多重兴趣的用户。因此,研究职员引入了具有从属关系的评分,用以刻画用户或物品与相应子矩阵之间的关系。然而,如何有效确定子矩阵划分策略,以及如何自适应学习每位用户的最优子空间,仍旧阻碍着用户偏好多样性的学习。
针对上述问题,我们做了部分研究,提出了一个自适应局部低秩矩阵近似的推举模型(ALoMA)。通过非参数化的统一贝叶斯图模型构建策略,ALoMA能在确定评分子矩阵的同时,自适应识别各子矩阵的最优秩,学习各子矩阵的特定用户和物品隐表示,并结合缺失落机制估计潜在特色的主要性。这四部分在统一学习框架下可以无缝衔接并且相互促进,如图2所示。详细来 说,ALoMA利用中国餐馆过程(许可在簇与簇 之间动态分配统计容量),捕获用户或物品子集中的局部关联信息,自适应得到不同大小的簇信 息。针对各子矩阵中用户物品信息,利用自动关联确定技能,自适应确定最优子空间大小,此外通过挖掘评分数据的缺失落机制确定潜在特色的主要性。ALoMA统一概率模型的泛化偏差界线的理论展示,充分担保了评分矩阵的精确近似。采取基于Gibbs采样对ALoMA模型进行推断,能确保大规模推举数据的有效处理。在六个真实标准数据集(Epinions、Douban、Dianping、Yelp、Movielens 10M和Netflix)上的一系列实验,也充分展示了ALoMA模型的偏好多样性建模的能力。与已有推举行法比较,ALoMA在评分预测和排序预测上都较显著地提升了推举性能,并且能友好地供应可阐明的推举结果。
图 2 自适应局部低秩矩阵近似模型(ALoMA)框架图
3 领悟局部全局信息的多样性建模
只管局部低秩矩阵近似在推举性能上取得了不错成果,但由于每个子矩阵只覆盖了某个特定用户或物品的部分反馈信息,该类方法强调局部构造却忽略了全局信息,每每遭受子矩阵信息不充分的影响。事实上,在局部低秩矩阵近似之前,全局低秩矩阵近似是协同过滤中最受欢迎的方法之一,它通过对全体评分凑集的探索,可以有效挖掘全局构造。因此,在获取用户偏好多样性时,有必要同时考虑局部和全局信息。
最近,研究职员将全局低秩矩阵近似和局部低秩矩阵近似相结合,以此提升整体推举性能。受多任务特色学习启示,同济大学Chen等提出结合全局与局部特色表示的稠浊概率矩阵近似推举模型,通过高斯稠浊模型将用户和物品的全局最优隐表示和局部最优隐表示统一起来,对缺失落评分进行预测。此外也有研究职员通过对基于聚类的矩阵近似方法进行扩展,利用预演习的标准矩阵近似模型捕获全局信息,并将局部模型与全局信息结合。将用户物品子矩阵中的局部关联信息与所有用户或物品之间的公共关联信息统一起来,是提升推举性能的好方法。然而,与局部低秩矩阵近似方法一样,这些全局-局部低秩矩阵近似方法在确定用户或物品的表示时必须固定隐空间大小。实际场景中,为所有用户和物品设置一个固定的隐空间大小是难以真实仿照评分矩阵内部构造的,这将导致不完备近似乃至降落预测精度。因此,为稠浊模型中的子矩阵设置不同秩,成为评分矩阵近似任务中一个亟待办理的问题。然而,从大范围内找出得当的值显然是一个高繁芜的打算问题。
考虑到上述自适应局部低秩矩阵近似推举模型并未考虑特色间的非线性转换,从而限定了数据表示能力。为此,我们探究了数据天生过程与深度学习的关系,将全局与局部特性表示引入深度天生推举模型,预期对用户偏好多样性进行充分建模。针对推举数据稀疏性的特点,基于当前盛行的深度天生模型(Wasserstein Autoencoder),提出全局与局部深度天生推举模型 (DGLGM),使实在用于对高维稀疏隐式反馈数据的重构,整体架构如图3所示。DGLGM利用高斯稠浊模型对用户局部偏好特性进行建模,确保不同偏好有其自身的统计特性。针对偏好个数和偏好表示的个性化设置问题,DGLGM采取非参数化隐表示先验,实现稠浊模型干系参数的自适 应确定;同时领悟全局特色表示,共同挖掘用户的全局与局部偏好模式,由此实现用户偏好更风雅化的建模。
图 3 全局与局部深度天生推举模型(DGLGM)框架图
实验证明,非参数化的稠浊先验能为稠浊身分(子矩阵)个数确认供应自适应的担保。在不同特点的数据上,我们的方法均挖掘出了得当个数的子矩阵。与已有的方法为所有子矩阵设置相同的秩不同,DGLGM通过自动关联确定技能以某一阈值(所有实验中均为0.0001)确定子矩阵 隐表示的最优空间大小。实验显示,该自适应确定最优子空间,能较好地刻画不同用户偏好;同时对每个稠浊模块中的种别属性进行可视化可以创造,每个子矩阵均具有占比高且具有代表性的种别属性。此外,该方法不仅能挖掘用户内在偏 好的多样性实质构造,在推举性能上也取得了显著提升。
4 研究难点与发展方向
局部矩阵近似推举算法的研究由来已久。互联网的快速发展,以及新的机器学习等方法的不断涌现,为局部矩阵近似推举模型的研究供应了新的方向。然而,只管基于局部矩阵近似的推举模型不断呈现,并取得了一系列进展,但仍旧存在如下难点。期望通过对这些难点的深入剖析,引起更多研究者在该领域的深入探究。
(1) 数据稀疏性
数据稀疏一贯是推举数据的显著特点。基于协同过滤的推举行法实质为相似性打算, 若用户或物品不存在任何评分,则无法进行用户对或物品对间的相似性度量,由此导致无法给评分少的用户推举,同时也无法推举未被评分的产品。局部矩阵近似推举算法中子矩阵划分操作虽然能划分用户偏好,但也一定程度上加剧了子矩阵稀疏性,为此集成策略和全局信息的引入一定程度上能缓解数据稀疏带来的精度丢失。然而,如何合理利用全局信息和设计快捷有效的集成策略,仍旧是局部矩阵近似推举算法研究的难点。此外, 可以通过领悟多种信息来构建用户属性和物品属 性,从而依据更多的额外信息来缓解数据稀疏性带来的问题。
(2) 数据噪声
推举算法构建的条件假设是所有用户历史行为都是准确的。因此,已有多数推举算法每每依据用户已有历史行为信息来预测目标用户的行为。然而,用户历史行为信息中存在大量自然噪声和蓄意噪声。常日自然噪声是示正常用户的行为数据中所包含的一些与用户行为模式不符合的行为数据,例如用户的误操作所产生的行为数据;而蓄意噪声是指人为蓄意地天生的、非正常用户的、非正常行为模式的数据,例如,在电子商务领域中,某些商家为了提升自家商品的曝光,而进行的蓄意刷单行为数据便是一种蓄意噪声。因此,用户历史行为数据中存在与推举无关的额外信息,冗余的额外信息常常对推举没有任何积极浸染, 反而可能会影响推举算法对用户偏好的判断。如何剔除无效的噪声信息,创造用户间的真实偏好相似关系,对局部矩阵个性化推举模型的构建具有主要意义。
(3) 可阐明性推举模型
已有局部矩阵推举行法紧张聚焦于提升推举预测的准确率,而对付如何推举、为何推举却知之甚少,这正是现有推举系统存在的紧张问题。大多推举系统给用户的觉得便是一个 “黑盒子 ”,既无从理解其运作事理,也无法得到关于推举结果的附加信息。然而,推举阐明的目标是让用户理解推举产生的缘故原由,提高用户对推举结果的接管度,提升用户在系统可信度和可辨性等方面的体验。缺少适当阐明解释的推举系统难以得到用户的信赖,从而降落用户体验,乃至阻碍推举系统的发展。局部矩阵近似推举算法通过将用户偏 好风雅化,能更加详细反响用户偏好的多样性,一定程度上也为偏好的可阐明性供应了保障。
(4) 可扩展性推举模型与多源信息的领悟
矩阵近似推举模型因其较高的可扩展性成为推举模型构建的首选方法,然而,纯挚领悟反馈信息无法担保较大幅度地提升推举性能。虽然局部矩阵近似算法通过领悟集成策略一定程度上提升了推举性能,其仍旧具备可扩展性。随着数据采集技能的发展,推举系统已经搜集到丰富的多源信息 (如物品内容描述信息、物品属性信息、物批驳论信息、用户属性信息和用户社交关系等)。如何设计可扩展性高的局部矩阵近似推举模型,将更多额外信息有效融入推举模型中,精准挖掘用户偏好的多样性将成为多源数据推举模型研究 的重点。
(5) 前沿理论与方法在推举上的运用
现有局部矩阵近似方法的研究多数还勾留在传统线性模型的根本上。近年来,深度学习、强化学习和AutoML等新技能在办理推举问题上的巨大成功,引起了人们的强烈关注。数据挖掘和信息检索等顶会上,深度学习与强化学习等前沿技能专题上不乏有推举系统的身影。由此可见,结合数据局部特性与最新序言技能来提升推举性能具有广阔的前景。
5 结束语
在一个信息资源爆炸式增长的时期,推举技能是办理信息过载问题的紧张方法之一。在过去的数十年中,无论在学术研究领域还是在工业运用领域 , 都取得了长足的进步与发展。随着用户数量和物品规模的不断增加,用户偏好常常表现出多样性。局部矩阵近似算法的引入,有效刻画了用户偏好的多样性。本文先容了目前国内外关于局部低秩矩阵近似的个性化推举模型,尤其是在用户偏好多样性建模方面的研究进展,并磋商了干系领域的研究难点及潜在的研究方向。
1.此处用户历史行为数据指用户的点击、不雅观看、购买、收藏和评分等行为数据。2. Yelp 数据集为美国最大的点评网站 Yelp 为寻衅赛而公开的通用数据集(http://www.yelp.com/dataset_challenge)。
(参考文献略)
选自《中国人工智能学会通讯》
2020年 第10卷 第5期 机器学习及其运用专题
本文系作者个人观点,不代表本站立场,转载请注明出处!