终于有人把用户画像的流程、方法疏解白了_标签_用户

2024-08-02 18:29:18 AI简讯

作者：马海平于俊吕昕向海

终于有人把用户画像的流程、方法疏解白了_标签_用户 AI简讯

来源：华章科技

01 用户画像概述

1. 什么是用户画像

当代交互设计之父Alan Cooper很早就提出了Persona的观点：Persona是真实用户的虚拟代表，是建立在一系列真实数据之上的目标用户模型，用于产品需求挖掘与交互设计。

通过调研和问卷去理解用户，根据他们的目标、行为和不雅观点的差异，将他们区分为不同的类型，然后从每种类型中抽取出范例特色，授予名字、照片、人口统计学要素、场景等描述，就形成了一个Persona。
Persona便是最早对用户画像的定义，随着时期的发展，用户画像早已不再局限于早期的这些维度，但用户画像的核心依然是真实用户的虚拟化表示。

在大数据时期，用户画像尤其主要。
我们通过一些手段，给用户的习气、行为、属性贴上一系列标签，抽象出一个用户的全貌，为广告推举、内容分发、活动营销等诸多互联网业务供应了可能性。
它是打算广告、个性化推举、智能营销等大数据技能的根本，绝不夸年夜地说，用户画像是大数据业务和技能的基石。

用户画像的核心事情便是给用户打标签，标签常日是人为规定的高度精髓精辟的特色标识，如年事、性别、地域、兴趣等。
由这些标签凑集能抽象出一个用户的信息全貌，如图10-1所示是某个用户的标签凑集，每个标签分别描述了该用户的一个维度，各个维度相互联系，共同构成对用户的一个整体描述。

▲图10-1 用户标签凑集

2. 为什么须要用户画像

Cooper最初建立Persona的目的是让团队成员将产品设计的焦点放在目标用户的动机和行为上，从而避免产品设计职员草率地代表用户。
产品设计职员常常不自觉地把自己当作用户代表，根据自己的需求设计产品，导致无法捉住实际用户的需求。
每每对产品做了很多功能的升级，用户却以为体验变差了。

在大数据领域，用户画像的浸染远不止于此。
如图10-2所示，用户的行为数据无法直接用于数据剖析和模型演习，我们也无法从用户的行为日志中直接获取有用的信息。
而将用户的行为数据标签化往后，我们对用户就有了一个直不雅观的认识。
同时打算机也能够理解用户，将用户的行为信息用于个性化推举、个性化搜索、广告精准投放和智能营销等领域。

▲图10-2 用户标签化

对付一个产品，尤其是互联网产品，建立完善的用户画像体系，有着重大的计策意义。
基于用户画像能够构建一套剖析平台，用于产品定位、竞品剖析、营收剖析等，为产品的方向与决策供应数据支持和事实依据。
在产品的运营和优化中，根据用户画像能够深入用户需求，从而设计出更适宜用户的产品，提升用户体验。

02 用户画像流程

用户画像的核心事情便是给用户打“标签”，构建用户画像的第一步便是搞清楚须要构建什么样的标签，而构建什么样的标签是由业务需求和数据的实际情形决定的。
下面先容构建用户画像的整体流程和一些常用的标签体系。

1. 整体流程

对构建用户画像的方法进行总结归纳，创造用户画像的构建一样平常可以分为目标剖析、标签体系构建、画像构建三步，下面详细先容每一步的事情。

1）目标剖析

用户画像构建的目的不尽相同，有的是实现精准营销，增加产品销量；有的是进行产品改进，提升用户体验。
明确用户画像的目标是构建用户画像的第一步，也是设计标签体系的根本。

目标剖析一样平常可以分为业务目标剖析和可用数据剖析两步。
目标剖析的结果有两个：

一个是画像的目标，也便是画像的效果评估标准；另一个是可用于画像的数据。

画像的目标确立要建立在对数据深入剖析的根本上，分开数据制订的画像目标是没故意义的。

2）标签体系构建

剖析完已有数据和画像目标之后，还不能直接进行画像建模事情，在画像建模开始之前须要前辈行标签体系的制订。
对付标签体系的制订，既须要业务知识，也须要大数据知识，因此在制订标签体系时，最好有本领域的专家和大数据工程师共同参与。

在制订标签体系时，可以参考业界的标签体系，尤其是同行业的标签体系。
用业界已有的成熟方案办理目标业务问题，不仅可以扩充思路，技能可行性也会比较高。

此外，须要明确的一点是：标签体系不是一成不变的，随着业务的发展，标签体系也会发生变革。
例如电商行业的用户标签，最初只须要消费偏好标签，GPS标签既难以刻画也没有利用场景。
随着智好手机的遍及，GPS数据变得易于获取，而且线下营销也越来越看重场景化，因此GPS标签也有了构建的意义。

3）画像构建

基于用户根本数据，根据构建好的标签体系，就可以进行画像构建的事情了。
用户标签的刻画是一个长期的事情，不可能一步到位，须要不断地扩充和优化。
一次性构建中如果数据维度过多，可能会有目标不明确、需求相互冲突、构建效率低等问题，因此在构建过程中建议将项目进行分期，每一期只构建某一类标签。

画像构建中用到的技能有数据统计、机器学习和自然措辞处理技能（NLP）等，如图10-3所示。
详细的画像构建方法会在本文后面的部分详细先容。

▲图10-3 用户画像的构建技能

2. 标签体系

目前主流的标签体系都是层次化的，如图10-4所示。
首先标签分为几个大类，每个大类再进行逐层细分。
在构建标签时，只须要构建最下层的标签，就能够映射出上面两级标签。

上层标签都是抽象的标签凑集，一样平常没有实用意义，只有统计意义。
例如我们可以统计有人口属性标签的用户比例，但用户有人口属性标签，这本身对广告投放没有任何意义。

▲图10-4 互联网大数据领域常用标签体系

用于广告投放和精准营销的一样平常是底层标签，对付底层标签有两个哀求：一个是每个标签只能表示一种含义，避免标签之间的重复和冲突，便于打算机处理；另一个是标签必须有一定的语义，方便干系职员理解每个标签的含义。

此外，标签的粒度也是须要把稳的，标签粒度太粗会没有区分度，粒度过细会导致标签体系太过繁芜而不具有通用性。

下文列举了各个大类常见的底层标签。

人口标签：性别、年事、地域、教诲水平、出生日期、职业、星座兴趣特色：兴趣爱好、利用App/网站、浏览/收藏内容、互动内容、品牌偏好、产品偏好社会特色：婚姻状况、家庭情形、社交/信息渠道偏好消费特色：收入状况、购买力水平、已购商品、购买渠道偏好、末了购买韶光、购买频次

末了先容一下构建各种标签的优先级。
对此须要综合考虑业务需求、构建难易程度等，业务需求各有不同，这里先容的优先级排序方法紧张依据构建的难易程度和各种标签的依存关系，优先级如图10-5所示。

▲图10-5 各种标签的构建优先级

1）事实标签

基于原始数据首先构建的是事实标签，事实标签可以从数据库直接获取（如注册信息），或通过大略的统计得到。
这类标签构建难度低、实际含义明确，且部分标签可用作后续标签挖掘的根本特色（如产品购买次数可用来作为用户购物偏好的输入特色数据）。

事实标签的布局过程，也是对数据加深理解的过程。
对数据进行统计的同时，不仅完成了数据的处理与加工，也对数据的分布有了一定的理解，为高等标签的布局做好了准备。

2）模型标签

模型标签是标签体系的核心，也是用户画像中事情量最大的部分，大多数用户标签的核心都是模型标签。
模型标签的构建大多须要用到机器学习和自然措辞处理技能，下文先容的标签构建紧张指的是模型标签构建，详细的布局算法会不才文中详细先容。

3）高等标签

末了布局的是高等标签，高等标签是基于事实标签和模型标签进行统计建模得出的，它的布局多与实际的业务指标紧密联系。
只有完成根本标签的构建，才能够布局高等标签。
构建高等标签利用的模型，可以是大略的数据统计模型，也可以是繁芜的机器学习模型。

03 构建用户画像

我们把标签分为三类，这三类标签有较大的差异，构建时所用技能的差别也很大。

第一类是人口属性，这一类标签比较稳定，一旦建立很长一段韶光基本不用更新，标签体系也比较固定；第二类是兴趣属性，这类标签随韶光变革很快，标签有很强的时效性，标签体系也不固定；第三类是地理属性，这一类标签的时效性跨度很大，如GPS轨迹标签须要做到实时更新，而常住地标签一样平常可以几个月不用更新，所用的挖掘方法和前面两类也大有不同，如图10-6所示。

▲图10-6 三类标签属性

1. 人口属性画像

人口属性包括年事、性别、学历、人生阶段、收入水平、消费水平、所属行业等。
这些标签基本是稳定的，构建一次可以很长一段韶光不用更新，标签的有效期都在一个月以上。
同时标签体系的划分也比较固定，表10-2是中国无线营销同盟对人口属性的一个划分。

大部分主流的人口属性标签都和这个体系类似，有些在分段上有一些差异。

表10-2 人口标签

很多产品（如***、Facebook等）都会勾引用户填写基本信息，这些信息就包括年事、性别、收入等大多数的人口属性，但完全填写个人信息的用户只占很少一部分。
对付无社交属性的产品（如输入法、团购App、***网站等），用户信息的添补率非常低，有的乃至不敷5%。

在这种情形下，一样平常会用填写了信息的用户作为样本，把用户的行为数据作为特色演习模型，对无标签的用户进行人口属性的预测。
这种模型把有标签用户的标签教授与他行为相似的用户，可以认为是对人群进行了标签扩散，因此常被称为标签扩散模型。

下面利用***网站性别年事画像的例子来解释标签扩散模型是如何构建的。

某个***网站希望理解自己的用户组成，于是对用户的性别进行画像。
通过数据统计，有大约30%的用户在注册时填写了个人信息，将这30%的用户作为演习集，以构建全量用户的性别画像，所用数据如表10-3所示。

表10-3 ***网站用户数据

下面来构建特色。
通过剖析创造男性和女性对付影片的偏好是有差别的，因此利用用户不雅观看的影片列表预测用户性别有一定的可行性。
此外，还可以考虑用户的不雅观看韶光、浏览器、不雅观看时长等，为了简化，这里只利用用户不雅观看的影片特色。

由于不雅观看影片特色是稀疏特色，以是可以调用MLlib，利用LR、线性SVM等模型进行演习。
考虑到注册用户填写的用户信息的准确性不高，以是可以从30%的样本集中提取准确性较高的部分（如用户信息填写较完备的）用于演习，因此整体的演习流程如图10-7所示。

对付预测性别这样的二分类模型，如果行为的区分度较好，一样平常准确率和覆盖率都可以达到70%旁边。

▲图10-7 演习流程

对付人口属性标签，只要有一定的样本标签数据，并找到能够区分标签类别的用户行为特色，就可以构建标签扩散模型。
个中利用的技能方法紧张是机器学习中的分类技能，常用的模型有LR、FM、SVM、GBDT等。

2. 兴趣画像

兴趣画像是互联网领域中利用最广泛的画像，互联网广告、个性化推举、精准营销等领域最核心的标签都是兴趣标签。
兴趣画像紧张是从用户海量的行为日志中进行核心信息抽取、标签化和统计，因此在构建用户兴趣画像之前须要先对用户有行为的内容进行内容建模。

内容建模须要把稳粒度，过细的粒度会导致标签没有泛化能力和利用代价，过粗的粒度会导致标签没有区分度。

例如用户在购物网上点击查看了一双“Nike AIR MAX跑步鞋”，如果用单个商品作为粒度，画像的粒度就过细，结果是只知道用户对“Nike AIR MAX跑步鞋”有兴趣，在进行商品推举时，也只能给用户推举这双鞋；而如果用大品类作为粒度，如“运动户外”，将无法创造用户的核心需求是买鞋，从而会给用户推举所有的运动用品，如乒乓球拍、篮球等，这样的推举缺少准确性，用户的点击率就会很低。

为了担保兴趣画像既有一定的准确性又有较好的泛化性，我们会构建层次化的兴趣标签体系，个中同时用几个粒度的标签去匹配用户兴趣，既担保了标签的准确性，又担保了标签的泛化性。
下面以用户的***兴趣画像举例，先容如何构建层次化的兴趣标签。

***兴趣画像的处理难度要比购物兴趣画像困难，购物标签体系基本固定，如图10-8所示，京东页面已经有成熟的三级类目体系。

▲图10-8 三级类目体系

1）内容建模

***数据本身是非构造化的，首先须要人工构建一个层次化的标签体系。
考虑如图10-9所示的一篇***，看看哪些内容可以表示用户的兴趣。

▲图10-9 ***例子

首先，这是一篇体育***，体育这个***分类可以表示用户兴趣，但是这个标签太粗了，由于用户可能只对足球感兴趣，以是体育这个标签就显得不足准确。

其次，可以利用***中的关键词，尤其是里面的专有名词（人名、机构名），如“桑切斯”“阿森纳”“厄齐尔”，这些词也表示了用户的兴趣。
关键词的紧张问题在于粒度太细，如果某天的***里没有这些关键词，就无法给用户推举内容。

末了，我们希望有一个中间粒度的标签，既有一定的准确度，又有一定的泛化能力。
于是我们考试测验对关键词进行聚类，把一类关键词当成一个标签，或者拆分一个分类下的***，天生像“足球”这种粒度介于关键词和分类之间的主题标签。
我们可以利用文本主题聚类完成主题标签的构建。

至此，就完成了对***内容从粗到细的“分类-主题-关键词”三层标签体系的内容建模，***的三层标签如表10-4所示。

表10-4 三层标签体系

可能读者会有疑问，既然主题的准确度和覆盖率都不错，我们只利用主题不就可以了吗？为什么还要构建分类和关键词这两层标签呢？这么做是为了针对用户进行尽可能精确和全面的内容推举。

当用户的关键词命中***时，显然能够给用户更准确的推举，这时就不须要再利用主题标签；而对付比较小众的主题（如体育类的冰上运动主题），若当天没有***覆盖，就可以根据分类标签进行推举。
层次标签兼顾了刻画用户兴趣的覆盖率和准确性。

2）兴趣衰减

在完成内容建模往后，就可以根据用户点击，打算用户对分类、主题、关键词的兴趣，得到用户兴趣标签的权重。
最大略的计数方法是，用户点击一篇***，就把用户对该篇***的所有标签兴趣值上加1，用户对每个词的兴趣打算利用如下的公式：

scorei+1=scorei+ C×weight

个中，词在这次浏览的***中涌现，则C=1，否则C=0, weight表示词在这篇***中的权重。

这样做有两个问题：一个是用户的兴趣累加是线性的，数值会非常大，老的兴趣权重会特殊高；另一个是用户的兴趣有很强的时效性，对一篇***昨天的点击要比一个月之前的点击主要得多，线性叠加无法突出用户的近期兴趣。

为理解决这个问题，须要对用户兴趣得分进行衰减，可利用如下的方法对兴趣得分进行次数衰减和韶光衰减。

次数衰减的公式如下：

scorei+1=α×scorei+ C×weight, 0<α<1

个中，α是衰减因子，每次都对上一次的分数做衰减，终极得分会收敛到一个稳定值，α取0.9时，得分会无限靠近10。

韶光衰减的公式如下：

scoreday+1=scoreday×β, 0<β<1

它表示根据韶光对兴趣进行衰减，这样做可以担保韶光较早期的兴趣会在一段韶光往后变得非常弱，同时近期的兴趣会有更大的权重。
根据用户兴趣变革的速率、用户生动度等成分，也可以对兴趣进行周级别、月级别或小时级别的衰减。

3. 地理位置画像

地理位置画像一样平常分为两部分：一部分是常驻地画像；一部分是GPS画像。
这两类画像的差别很大，常驻地画像比较随意马虎布局且标签比较稳定，GPS画像须要实时更新。

常驻地包括国家、省份、城市三级，一样平常只细化到城市粒度。
在常驻地挖掘中，对用户的IP地址进行解析，并对应到相应的城市，再对用户IP涌现的城市进行统计就可以得到常驻城市标签。
用户的常驻城市标签不仅可以用来统计各个地域的用户分布，还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等。

GPS数据一样平常从手机端网络，但很多手机App没有获取用户GPS信息的权限。
能够获取用户GPS信息的紧张是百度舆图、滴滴打车等出行导航类App，此外网络到的用户GPS数据比较稀疏。

百度舆图利用该方法并结合韶光段数据，构建了用户公司和家的GPS标签。
此外百度舆图还基于GPS信息，统计各条路上的车流量，进行路况剖析，图10-10所示是北京市某天的实时路况图，赤色表示拥堵线路。

▲图10-10 北京的实时路况图

04 用户画像评估和利用

人口属性画像的干系指标比较随意马虎评估，而兴趣画像的标签比较模糊，以是人为评估比较困难，对付兴趣画像的常用评估方法是设计小流量的A/B测试进行验证。

可以筛选一部分打了标签的用户，给这部分用户进行和标签干系的推送，看他们对干系内容是否有更好的反馈。
例如，在***推举中，我们给用户构建了兴趣画像，从体育类兴趣用户中选取一小批用户，给他们推送体育类***，如果这批用户对***的点击率和阅读时长明显高于均匀水平，就解释标签是有效的。

1. 效果评估

评估利用用户画像的效果最直接的方法便是，看其提升了多少实际业务，如在互联网广告投放中，用户画像的利用效果紧张是看它提升了多少点击率和收入，在精准营销过程中，紧张是看利用用户画像后销量提升了多少等。

但是如果把一个没有经由效果评估的模型直接用在线上，风险是很大的，因此我们须要一些在上线前可打算的指标来衡量用户画像的质量。

用户画像的评估指标紧张是准确率、覆盖率、时效性等。
（篇幅有限，这里不详细先容，有须要的同学可以看《Spark机器学习进阶实战》一书第10.4.1节）

2. 用户画像利用

构建好用户画像并做了评估之后，就可以在业务中利用它。
对此，一样平常须要一个可视化平台，对标签进行查看和检索。
用户画像的可视化过程中，一样平常利用饼图、柱状图等对标签的覆盖人数、覆盖比例等指标做形象的展示，如图10-11所示是用户画像的一个可视化界面。

▲图10-11 用户画像的可视化界面

此外，对付所构建的用户画像，还可以利用不同维度的标签，进行高等的组合剖析，产出高质量的剖析报告。
用户画像可以运用在智能营销、打算广告、个性化推举等领域，详细的利用方法与运用领域紧密结合，在此不再详细先容。

关于作者：马海平，科大讯飞大数据研究院研究主管，中国科学与技能大学打算机技能博士，专注数据挖掘和人工智能算法的研究，及其在打算广告和个性化教诲等方向的落地运用。
于俊，科大讯飞大数据专家，专注大数据和人工智能运用方案设计、基于Spark的大数据剖析和代价挖掘，在大数据算法工程化实现方面具有丰富履历。
吕昕，科大讯飞大数据专家，专注大数据和人工智能技能在消费者业务中的运用、基于Spark的大数据剖析和算法建模，在用户画像、内容推举和精准营销领域有丰富的实践。
向海，邂智科技算法卖力人，前科大讯飞大数据专家。
专注Spark机器学习在智能客服中的运用，在NLP与对话机器人运用方面有丰富履历。
本文摘编自《Spark机器学习进阶实战》，经出版方授权发布。
延伸阅读《Spark机器学习进阶实战》
推举语：科大讯飞大数据专家撰写，从根本到运用，面面俱到。