一站式AI平台架构

AI平台AutoML在哈啰的探索与实践_模子_算法 科技快讯

产品架构

算法模型的研发具有很强的范式,首先是特色数据加工,选取一些数据作为特色。
拿到特色之后,选择一个模型并进行干系的演习。
第三步是把演习好的模型支配到模型平台上面。
末了,决策平台会做业务流程的编排。

如图是全体平台的产品架构图。
上面是各种运用处景,包括智能调度、营销&增长、司乘匹配、根本算法等。
平台接入层供应内部SOA协议的接入,上面有各种各样的做事,会对接我们的平台。
我们的平台分为离/近线系统和近/在线系统,个中离/近线系统包括特色平台和演习平台,近/在线系统包括模型平台和决策平台。

技能架构

如图是AI平台的技能架构图。
从上往下,决策平台层是在线做事的入口,除了算法在上面做一些流程编排,一个主要的职责是承担了在线业务流量的稳定性。
为了加速模型推理的功能,我们把模型直接跟特色绑定,拉取到本地。
在这个过程中,如何把海量数据,大量的高维特色加载到本地机器上运行,让本地的模型直接读取,是有寻衅性的地方。
二是在线部分,分布式动态扩缩容、高可用、限流熔断,也是我们的核心能力之一。
三是模型平台,要面对各种各样的算法框架所开拓出的模型,如tensorflow模型、pytorch模型等,这些模型还会经由一些常用的模型压缩算法,变成优化好的模型。
我们把这些模型加载起来,有Tensorflow集群、GPU集群、Python集群等。

接下来,底层的特色平台紧张运用的是大数据技能。
上面可以支配各种定时任务,这些任务是通过spark的脚本分发给数据平台,申请打算资源,最后进行算法的推理和打算。
同时,我们对hive、数据湖都须要有一定的理解。

末了是云原生干系技能的运用。
演习平台用的是云原生的docker直接加载jupyter notebook镜像,把这些资源开释给算法同学利用,得到能效的提升。

发展进程

我们在2021年做了平台化,2022上半年进行稳定性管理和性能优化,下半年在自动化和实时化上发力。
自动化是为了提升效率,降落门槛;实时化是为了提升算法效果和用户的体验。

自动化演习的实践

为什么须要自动化演习

机器学习有着固定的研发流程,问题抽象、模型选择、超参调头等比较依赖算法工程师履历。

业黑幕况和发展

AutoML最早由Google在2018年初提出,紧张分为Auto FE(自动特色工程)、HPO(超参优化)、NAS(神经网络架构搜索)。

华为、阿里、百度、美团等海内大厂纷纭跟进,运用于实际生产。

HPO效果测试集

在上线之前,拿了内部真实的场景,对AutoML技能做了一些测评。
通过AutoML里HPO的算法,去优化我们的超参,优化后的效果有了小幅的提升。

技能方案

基于开源项目Ray Tune与NNI供应的根本能力,通过Python SDK供算法代码利用,初期算法通过代码模板选取演习代码。

产品方案

编程式建模

交互式建模

自动化流程

赋能场景

AutoML在哈啰广告CTR预测场景下上线,如图是哈啰APP首页腰封的营销广告。
为了提升广告的点击率,我们进行了优化,利用的是DeepFM模型,在这个模型下以前没有用到超参搜索。
类似的场景还有很多,实际效果基本都得到了提升。

未来展望和方案

一是数据和特色决定了机器学习的上限,模型和算法只是逼近这个上限而已,因此特色的生产和选择很依赖履历,有一定的提升空间。

二是在模型自动选择上,算法可以代替人工履历,通过算法比拟不同模型的效果,终极选择最优解。
后面我们也有开源操持,目前在方案中。

我们的愿景是大家都是算法工程师。
算法代码有很强的范式,模型的开拓和利用也趋近于稳定并积累了大量履历,调参模型开拓等机器的事情更多的被机器替代,我们该当更专注于业务场景的剖析、问题的抽象与定义、新技能(AIGC)工程化的实践等。

作者:任天兵

来源:微信"大众年夜众号:哈啰技能

出处:https://mp.weixin.***.com/s/BEfcos_T33k0MIHfOZReMg