片子封面海报个性化推荐+人工智能设计师_用户_山君机

2024-11-13 18:38:25 云服务

Netflix，让每个用户都看到不一样的电影海报

片子封面海报个性化推荐+人工智能设计师_用户_山君机云服务

这家***网站在最近宣告了他们利用情境 bandits 推举算法，实现了***配图的个性化处理的方案，是一个范例人工智能设计师运用的场景，关于个性化推举+人工智能设计师，这个方向在我前阵子的文章里有谈论过。

1 Netflix的实现方法

Netflix 的产品超过一亿种，为每个用户供应个性化推举和个性化的视觉效果是其业务增长的关键技能。

基本方法是什么？

用一张对用户有足够的吸引力的配图，吸引用户点开***。

利用哪些图片呢？

比如用户熟习的演员、让人热血沸腾的汽车竞速场景，或者一部电影／电视节目中的代表性的场景等。

如何为所有会员的***匹配最得当的图片？

Netflix通过多臂老虎机算法（multi-armed bandits），为***找到最得当的配图，以《怪奇物语》为例，基于用户的品味和偏好，找到每个用户偏好的点，在配图中能呈现出他们最感兴趣的东西，引发他们点击的激情亲切，如下图所示。

2 基于演员的个性化推举例子

根据每个用户对不同类型和主题的***内容的偏好，把该类型／主题对应的演员作为配图主体。

例如Netflix为电影《心灵捕手》设计的个性化配图：

对付看过许多浪漫爱情（类型／主题）电影的人，如果他的推举图片中包含马特·达蒙（Matt Damon）和米妮·司各德（Minnie Driver）的信息，可能他会对《心灵捕手》感兴趣，而如果是对付看过很多笑剧片的用户，我们在推举图中包含有名笑剧演员罗宾·威廉斯（Robin Williams）的信息，吸引他的几率可能更大。

基于用户喜好的演员来配图，来吸引用户点击不雅观看影片：

3 核心算法

多臂老虎机算法可以当作一种分外的强化学习问题，没有状态(state)，只须要采纳行动(action)并获取最大的褒奖(reward)即可。

把个性化推举系统看作智能体（Agent）、把用户看做环境（Environment），则个性化匹配的问题可以被视为范例的顺序决策问题。
Agent每一次排序策略的选择可以算作一次试错（Trial-and-Error），把用户的反馈（点赞、收藏、评论等），点击不雅观看***等作为从环境得到的奖赏。
在这种反复不断地试错过程中，Agent将逐步学习到最优的排序策略，最大化累计奖赏。
而这种在与环境交互的过程中进行试错的学习，正是强化学习（Reinforcement Learning，RL）的根本思想。

多臂老虎机算法来源于公民群众喜闻乐见的赌钱学：

一个赌徒，要去摇老虎机，走进赌场一看，一排老虎机，外表千篇一律，但是每个老虎机吐钱的概率可不一样，他不知道每个老虎机吐钱的概率分布是什么，那么想最大化收益该怎么操作呢？这便是多臂老虎机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。

多臂老虎机的运用，远不止于以下这些方面：

1. 一个用户对不同类别的内容感兴趣程度不同，那么推举系统初次打仗这个用户的时候，如何迅速知道该用户对每类内容的感兴趣程度？这便是推举系统冷启动要办理的问题。

2. 假设我们有多少广告库存，怎么知道该给每个用户展示哪个广告，从而得到最大的点击收益？如果每次都挑效果最好那个广告进行投放，那么新广告将没有机会被投放给用户；

3. 我们的线上产品又出了新的功能，有没有比A/B test更快的方法知道它和旧功能比较谁更受用户喜好？

4. 一个风投，须要把收益最大化,他长期会面临一个两难：何时去投资那些已经成功的公司，何时去投资那些还没有成功但具有很大潜力的公司。

5.……

4 如何构建这么一套系统？

数据采集与处理

知识图谱

图像池

多臂老虎机算法

人工智能设计师