分布式机器学习(Distributed Machine Learning)已成为大规模机器学习,尤其是大模型时期处理数据的主要范式。
但在现实场景中,存在两个方面会严重影响学习模型的性能:一是模型非凸性和数据异构性。
非凸优化问题可能具有多个局部最优值,从而导致次优解,并降落模型的整体准确性。
此外,它还会导致模型不稳定并阻碍演习过程;二是数据异构性是分布式机器学习演习的关键寻衅之一,导致收敛缓慢和不稳定,并影响模型泛化性。
因此,有必要从全面的角度考虑非凸性和数据异构性,以提高分布式机器学习在现实天下中的运用性能。

上海电力大年夜学科研团队在人工智能顶级学术期刊上揭橥分布式机械进修最新研究成果_模子_散布式 计算机

目前大部分研究集中于上述问题之一,但短缺一个最优的通用框架。
为此,论文提出了一个基于动量的统一范式(UMP),它包括两个算法:D-SUM和GT-DSUM。
前者为一样平常非凸目标供应了收敛担保,而后者通过引入梯度跟踪技能来估计全局优化方向以缓解数据异构性。
论文通过严格的数学推导证明了提出的两个算法在光滑、非凸条件下的收敛上界。
此外,通过设定UMP中的不同参数,还可以推导出其他不同场景下基于动量技能的分布式机器学习算法,从而让UMP成为基于动量技能的分布式机器学习的统一泛化性框架。

D-SUM算法提出了一种新的随机统一动量(SUM)的关键更新公式。
通过调节算法的超参数,D-SUM能够覆盖一系列基于动量的分布式机器学习算法,使它们成为UMP的特例,例如经典的Heavy Ball,Nesterov’s momentum与PR-SGDm算法。

为了减轻异构数据的影响,论文提出了第二个算法:GT-DSUM。
通过引入一个赞助变量来追踪全局梯度方向,GT-DSUM能够调度本地模型的参数向量,从而有效办理数据异构性对分布式学习的影响,提高模型的准确性和收敛速率。

实验结果表明,与有名的去中央化基线比较,D-SUM和GT-DSUM在不同的non-IID程度下分别提高了35.8%和57.6%的模型准确性。
而GT-DSUM在数据异构性的演习任务中,在模型泛化上比D-SUM表现得更好。

据理解,《Artificial Intelligence》是国际著名爱思唯尔出版社在人工智能领域于1970年创建的顶级学术期刊,被中国打算机学会(CCF)评定为排名第一的A类推举期刊,其影响因子高达14.4,在人工智能学科领域中属于顶级期刊。
研究成果被该期刊吸收并揭橥,被视为在人工智能研究领域取得了一项主要造诣。
(通讯员:樊丽达)