从数据预处理到排序算法全方位解读 Uber 人工智能客服 COTA_客服_计划

2024-08-13 15:49:49 AI快讯

为了打造最佳用户体验，Uber 持续优化客户支持流程，让客户支持做事更易用，更方便。
为实现这一目标，Uber Customer Obsession 团队基于其内部平台，供应 5 种不同客服渠道（运用内置客户支持、官网客户支持、本地司机网、电话客服、线下做事网点）。
这个内部平台具备客服工单功能，以便跟踪办理问题。
每天提交到这个平台上的客服工单有数十万条，遍布环球 400 多个城市。
Customer Obsession 团队必须确保客服代表能尽可能准确、快速地办理问题。

从数据预处理到排序算法全方位解读 Uber 人工智能客服 COTA_客服_计划 AI快讯

基于此，Uber 打造了一个人工智能客服助理平台——COTA（Customer Obsession Ticket Assistant），它利用机器学习和自然措辞处理（NLP）技能，帮助客服代表供应更好的客户支持做事。

在 Uber 客户支持平台上，利用 Michelangelo 平台的机器学习做事，COTA 可以快速高效地办理 90％以上的客服问题。

下面，我们会详细先容创造 COTA 的动机，COTA 后端架构，并展示如何利用这一强大工具提高客户满意度。

没有 COTA 之前的客户支持

当客户联系 Uber 寻求支持时，我们必须及时为他们供应最好的办理方案。

我们可以让用户在提交问题报告时，点选问题所属的种别，填写细节。
这一过程为客服供应了很多背景信息，从而能更快办理问题。

Uber 内置的客户支持做事能反响问题的背景信息，虽然这些信息很主要，但要办理客户的问题，单靠这些信息远远不足，特殊是在一个问题有多种工单答案的情形下。
此外，同一个问题，客户可以通过多种办法来描述，因此问题的办理过程更为繁芜。

随着 Uber 的做事规模不断扩大，客服必须应对不断增长的客户支持问题，同时，问题也变得更为多样化，包括技能故障和用度调度等。
事实上，当客服在办理客户提交的问题时，他们首先要做的是从数千个种别中，确定问题所属类型，这绝非易事！

缩短识别问题类型的韶光非常主要，它能减少客服办理用户问题的总韶光。

确定问题类型后，下一步便是给出精确的办理方案，每种类型的工单都有不同协议和解决方法。
此外，还要从成千上万个可能的办理方案中进行选择，这也是一个耗时的过程。

COTA：客户工单助手

基于前面的背景，我们设计 COTA 来帮助客服提高办理问题的速率和准确性，从而改进客户体验。

COTA 利用 Michelangelo 平台来简化、加速和标准化客服工单流程。
目前，COTA 由一组向客服推举办理方案的模型组成，只支持英文工单，我们正试图建立可以处理西班牙语和葡萄牙语客服工单的模型。

基于我们的支持平台，根据客服工单内容和行程高下文信息，Michelangelo 模型供应三种最可能的问题类型及其办理方案。

COTA 系统包括如下 7 步：

1. 客服工单进入客户支持平台（CSP），后端做事系统采集工单的干系特色；

2. 后端做事系统将这些特色发送到 Michelangelo 机器学习模型；

3. 模型预测每个可能的办理方案的得分；

4. 后端做事系统吸收预测方案和分数，并将其保存到 Schemaless 数据库中；

5. 客服打开客服工单后，前端做事系统将触发后端做事系统，以检讨客服工单内容是否有更新。
如果没有更新，后端做事系统将检索保存于数据库中的办理方案；如果工单有更新，它将抓取更新后的特色，并再次实行步骤 2-4。

6. 后端做事系统将办理方案按分数高低排列，然后返回至前端做事系统；

7. 将排名前三的办理方案推举给客服；至此，客服只需做出选择，就可以办理工单。

COTA 的表现非常精良：根据客户做事调查结果显示，COTA 可以将工单办理韶光缩短 10％以上，同时还可以达到之前用人工处理的客户满意度，乃至比之古人工处理的满意度更高。

COTA 中的机器学习模型为客服供应了更快和更准确的工单办理方案，使 Uber 客户支持做事更加完美。

基于 NLP 和机器学习构建 COTA

表面上看，COTA 只需网络工单问题的高下文信息，并返回可能的办理方案，但幕后还有很多事情要做。
COTA 后台卖力完成两项任务：确定工单所属类型并确定最合理的办理方案。

为了实现这一点，机器学习模型须要从客户提交的文本中提取特色、行程信息和客户提交问题时所选的种别。

当模型天生特色分数时，最有代价的特色是用户发送的问题的文本。
由于用户发送的文本对付理解问题很主要，我们建立了一个 NLP「管道」，能将多种不同措辞的文本转换为对机器学习模型有用的特色。

NLP 模型可以翻译和解释不同的文本元素，包括音韵、词性、语法、句法和语义。
根据模型的布局单元，NLP 可以建立字符级、单词级、短语级和句子/文档级的措辞识别模型。

传统的 NLP 模型是基于人类措辞学专业知识来提取文本信息的特色，随着端到端演习的深度学习模式兴起，研究职员开始开拓能够解析全体文本块的模型，这时候不必明确地解析一个句子中不同单词之间的关系，而是直策应用原始文本。

在 COTA 中，我们首先构建一个单词级别的 NLP 模型，以更好地理解文本的语义。
自然措辞处理中一个盛行的方法是主题建模，通过单词的计数统计信息来理解句子的主题。
虽然主题建模没有考虑到字词的顺序，但是对付诸如信息检索和文档分类等任务，已经被证明非常有用。

在 COTA 中，我们利用基于主题建模的 NLP「管道」模型处理文本。

预处理

为了洗濯文本，我们首先删除文本中的 HTML 标签。
接下来，我们分割工单中的句子，并删除停顿用词。
然后再进行词形化，将单词从不同的时态、派生形式进行还原。
末了，我们将文档转换成单词凑集，并建立这些单词的字典。

主题建模

为了理解用户意图，预处理之后我们对单词包进行主题建模。

详细而言，我们利用词频 – 逆向文件频率（TF-IDF）的统计方法和潜在语义剖析算法（LSA）来提取主题。

特色工程

主题建模使我们能够直策应用主题向量作为特色，下贱的分类器能将其作为识别问题类型和选择办理方案的依据。

然而，这种方法太直接，会受到主题向量稀疏性的影响。
为了故意义地表达这些主题，我们须要利用数百乃至数千维度的主题向量，而主题向量的之间的干系性靠近于零。
由于特色空间的维度非常高，须要处理大量的数据，因此演习这些模型变得相称困难。

考虑到这些成分，我们决定以间接办法进行主题建模：通过打算余弦相似度特色来实行下一步的特色工程，如图 4（b）所示。
以选择工单办理方案为例，我们网络每个工单办理方案对应的历史工单，并形成这一工单办理方案对应的词搜集。

在这种情形下，主题建模转换是基于历史工单的词搜集表示。
我们用向量 Ti 表示工单办理方案 i，对所有工单办理方案都进行这种转换。
我们可以将任何新的工单映射到工单办理方案的主题向量空间 T1，T2 … Tm，个中 m 是可能利用的工单办理方案的总数。
接下来形成工单 j 的矢量 tj。
可以打算出 Ti 和 tj 之间余弦相似度得分 sij，就可以知道工单办理方案 i 和工单 j 之间的相似度，从而将特色空间从数百或数千个维度减少到很低维度。

基于点的排序算法

接下来阐明机器学习算法是如何选择工单办理方案的。

为了设计这个算法，我们将余弦相似度特色与其他工单信息、行程特色进行组合。
每种工单类型有超过 1,000 种可能的工单办理方案，COTA 的超大的解空间使区分这些工单办理方案之间的细微差异变得很困难。

为了给客服供应最佳的工单办理方案，我们运用了学习排序 (learning-to-rank) 算法，并构建了基于检索的点排序算法。

详细而言，我们将工单办理方案和工单之间的精确匹配标记为正（1），从工单办理方案与工单不匹配的凑集中，我们随机抽样形成子集，并标记为负（0）。
利用余弦相似度以及工单、行程特色，我们可以建立一个二分法分类器，接下来利用随机森林算法来判断工单办理方案与工单是否匹配。
利用算法对可能的匹配进行评分，我们可以对评分进行排名，并给出排名最高的三个办理方案。

更便捷更快的工单处理 = 更好的客户支持

COTA 性能精良，只有运用到实际场景中才故意义。
为了衡量 COTA 对客户支持体验的影响，我们对多个在线英语工单进行了受控的 A / B 比拟实验。
在这些实验中，我们选择了几千名客服，将他们随机分配到对照组和实验组。
对照组中的客服代表利用原来的事情流程，而实验组中的客服代表利用 COTA 助理，交互界面包含问题类型和建议的工单办理方案。
我们网络了两个组的工单处理结果，并丈量了一些关键指标，包括模型准确性、均匀处理韶光和客户满意度得分。

测试进行如下：

我们首先丈量了模型的在线表现，并将其与离线表现进行了比较。
我们创造模型性能从离线到在线都是同等的。

然后，我们丈量了客户满意度分数，并比较了对照组和实验组。
总的来说，实验组的客户满意度提高了几个百分点。
这一创造表明，COTA 可以供应相同或略高于人工的客户做事质量。

末了，为了确定 COTA 对工单处理速率的影响，我们比较了对照组和实验组的均匀工单处理韶光。
均匀而言，COTA 将工单处理韶光缩短了大约 10％。

通过提高客服的绩效和缩短工单办理韶光，COTA 帮助 Customer Obsession 团队更好地做事于用户，从而提高客户满意度。
COTA 加速了工单处理过程，每年可以为 Uber 节省数千万美元。

下一代 COTA 中的深度学习

COTA 的成功使我们更武断地持续优化机器学习算法，以提高系统准确性，并为客服和终端用户供应更好的体验。

深度学习框架可以在文本分类、汇总，机器翻译和许多赞助 NLP 任务（句法和语义剖析，文本蕴含，命名实体识别和链接）中利用。

与深度学习干系的实验

在 Uber AI 实验室的研究职员的支持下，我们考试测验将深度学习运用于下一代 COTA。
我们基于卷积神经网络（CNN），递归神经网络（RNN）以及这两者的几种不同组合，实现了多种体系构造，包括分层构造和基于把稳力的体系构造。

利用深度学习框架，我们能够以多任务学习的办法来演习我们的模型，利用单一模型既能够识别问题类型，又能提出最佳工单办理方案。
由于问题类型被组织成层次构造，我们可以演习模型来预测问题在层次构造中的位置，在这个中利用波束搜索的循环解码器（类似于序列模型的解码组件），可以进行更精确的预测。

超参数优化选择最佳模型

为了确定最佳的深度学习架构，我们针对所有类型的架构进行了大规模超参数优化，并在 GPU 集群上进行了并行演习。
末了的结果表明，最精确的体系构造既适用于 CNN 也适用于 RNN，但为了我们的研究目的，我们决定寻求一种更大略的 CNN 体系构造，该体系构造精准度稍有欠缺，但在演习和推断韶光上更具上风。
我们末了设计的模型精度比原始随机森林模型高 10％。

我们目前正与 Uber Michelangelo 团队紧密互助，处于将这个深度学习模型产品化的末了阶段。

本文来自粹客网，创业家系授权发布，略经编辑修正，版权归作者所有，内容仅代表作者独立不雅观点。
[ ***创业家APP，读懂中国最赢利的7000种买卖 ]