还在苦逼做内容风控吗?看人工智能带你玩转社区_用户_答非所问
内容来源:2018年4月27日,在第十届环球移动互联网大会(GMIC)上,李大海揭橥主题演讲 “AI算法与人文代价”。条记侠作为互助方,经主理方与讲者审阅授权发布。
封图设计 | Holly责编| 嘉琪
第 2156 篇深度好文:4502 字 | 6 分钟阅读
全网首发·完全条记·产品运营
本文新鲜度:★★★★★+ 口感:多芒小丸子
条记君邀您,先思考:
你常常碰着答非所问的情形吗?
如何利用AI打造智能社区?
很荣幸能够代表知乎参与在GMIC上的分享。
我们处在深度学习引发的AI热潮里,并且现在AI算法已经被全面运用在内容平台的各个环节,成为不可短缺的一部分。
业界对付AI算法,对付平台的商业代价,还有业务代价已经讲得很多了,本日我想借此机会跟大家讲讲AI的人文代价。
一、引入AI算法,帮助掩护社区氛围
1.知乎的现状
知乎的出身源于一个非常大略的初心:我们相信,在垃圾泛滥的互联网海洋中,真正有代价的信息是绝对的稀缺品。
基于这样的理念我们想建立这样一个平台:把用户大脑里彼此最主要的信息分享出来,并且能够相互利用。其余,这些信息能够沉淀下来,当有其他用户有类似问题的时候,我们能够方便快捷地找到干系信息,进而让所有用户能够更好地去认识这个天下。
我们认为,要让用户主动分享自己脑袋里的知识、履历、见地,一定要有开放、原谅的谈论环境。
以是从知乎出身第一天起,我们就利用运营和产品的手段去掩护一个良好的谈论氛围,同时,我们也是第一个把友善作为哀求写进社区规范的社区。
这个决策是非常主要的,由于在良好的社区谈论氛围下,知乎已经成为中国互联网中最大的知识分享平台。
截止到今年三月尾,知乎已经有1.4亿注册用户,我们全平台的日生动用户超过3400万,用户在知乎上累计提出2300万个问题,并收成了靠近1亿的回答。
在知乎,人跟人的连接,人跟内容的连接,都已经达到了爆炸状态。如果把知乎算作一座拥有一亿四千万居民和游客的超级城市,这个城市的法律法规便是知乎的社区规范。
2.AI运用的上风
在这样规模的城市里,如果还是通过人工办法掩护法律法规的话,一定是低效的,以是我们引入了AI前沿算法技能,帮助知乎小管家团队来掩护社区氛围。
我们要办理的问题都是自然措辞处理(NLP)领域的问题。虽然AI在NLP领域的成果并不出色,但是在AI运用上,知乎有两大上风。
一方面,知乎积累了一个非常高质量的中文语料库,不仅拥有大量优质的提问和回答的文本。同时,用户在知乎上的行为本身也是非常主要的数据。
这个怎么理解呢?用户到知乎去生产和消费内容的时候,他们同时也在培植这个社区,由于他们的行为本身便是社区体系的一部分。
举个例子,用户对一个回答的赞许或者反对、对任何内容的举报、对问题和话题进行公共编辑等等,在某种程度上我们都可以把它认为是对相应文本语料进行标注。
有了这样的标注,我们就能够利用有监督的机器学习算法去得到一个更好的语义表示,从而对措辞的理解能够达到一个更高的层次。
其余它还会形成一个正向的闭环。由于知乎良好的社区氛围,以是用户在知乎上的行为大部分都是高质量的。
有了这些高质量行为,我们就会有高质量的标注数据,这就更有利于我们用AI算法坚持或者提升知乎的谈论氛围。
另一方面,经由七年多的运营,知乎团队已经培养了非常丰富的社区管理履历。我们认识到一个社区的规范不是制订出来的,而一定是在平台和用户相互之间摸索出来的。
我们在摸索社区规范的过程中,理解了不同用户的不同诉求,再根据这些不同诉求去让规范适配繁芜多变的各种场景。
这些丰富的履历对付知乎利用AI算法来进行氛围管理打下了坚实的根本,对AI算法的落地是非常有帮助的。
3.AI可以办理的问题
由于它能够把氛围这个很虚无的大问题分解为很多小的明确的目标,降落这个问题的难度,成为可以办理的问题。
接下来讲一些危害社区氛围的例子:
第一种是答非所问。所谓答非所问,便是没有答到点子上,离题万里的回答。这些回答每每是没有什么代价的信息,有些乃至只有感情。以是当读者看到这样的无效信息时,实在是在摧残浪费蹂躏他们的韶光。
第二种是不友善的评论。换位思考一下,如果自己是一位作者,花了半天辛辛劳苦写了一个回答,结果评论区都是不友善的回答,你们是什么感想熏染?即便是作为读者,当你看到每一个精彩的答案下面的谈论区都是这种一塌糊涂的氛围,对你来说也不是良好的体验。
第三种是阴阳怪气。这虽然看起来不算什么,但是根据我们的履历,它对付创作者的创作激情亲切、创作体验的侵害会更大。
当然危害社区氛围的例子不仅仅是这些,我提这些只是给大家一个基本的感性认识。
经由两年多的事情,我们培植了一个算法机器人——瓦力,目前瓦力已经能够在线上快速实时去相应并处理答非所问,以及不友善,像歧视、恶意贴标签、辱骂等等低质内容,全力帮助知乎小管家团队去减少低质内容和无关内容对用户造成的滋扰,为用户供应人文关怀。
二、算法机器人:瓦力
目前,瓦力的准确率在部分场景中最高能达到 99.13%。我们在这个事情上有两个方向:
第一,在不同领域再进一步提高它的准确率和召回率;
第二,在担保准确率的根本上,不断提高瓦力机器人的适用范围。
1.用户的深度参与
瓦力机器人能力的提升是离不开我们的用户的。我们最近上线了一个“有情由反对”功能内测,有50000名用户参与个中。所谓“有情由反对”便是用户点击反对的时候,同时选择一下反对的情由,包括:事实缺点、答非所问、鞭策感情、不阐明。
用户的每次选择都是瓦力学习的机会。我们在内测期间通过用户选择判断和瓦力智能学习的结合,一共处理了超过20000条答非所问的回答。
2.升级模型
下面我从技能的角度大略去讲讲我们的瓦力机器人是怎么做的。
以答非所问作为例来大略讲述:
我们最早办理这个问题的时候采取的是随机森林的模型,什么是随机森林?大略来讲,便是用随机的机制去产生很多分类树所组成的森林,它的分类树便是把这个样本放到每个树里去分类。
比如:在知乎上谈论一个问题,知乎的吉祥物是狗还是狐?让每个树自己投票。在完成这个模型往后,我们取得了一个不错的效果,达到了97%这样一个非常高的准确率。
但是存在两个问题:
第一,它的召回率只有58%,这就意味着我们会错过“坏人”,会把一些答非所问的回答放到线上去。这样的话就会给我们的用户带来不好的体验,以是召回率是我们很在意的东西。
第二,这个模型会用到用户的行为统计特色,须要去看有多少用户对它进行了点击回答,或者点击举报的特色。但如果用这个特色的话,对一个新的回答做分类判断是不是答非所问的时候,就必须放到线上不雅观察一段韶光,看看线上对它的点击反对或者举报。
这就出问题了,由于它上线了。如果真的是答非所问的话,看到这个回答的用户的体验实在就已经受到了侵害,这个是存在韶光差的。
于是我们基于孪生模型的思路开拓了一个模型,去提升网络构造的表达能力。同时对特色进行选取时也做了很多仔细的考虑,以避免利用前面所说的用户行为的统计特色。
末了的结果是:
我们在召回率上有了一个非常大的提升,从60%提升到80%。同时任何一个回答只要发出来,就能被快速分类,到底是不是答非所问。
当然它也有缺点,准确率低落了。但是在这个场景中,我们可以结合其他的业务策略来填补这个差距。以是末了我们就上线新的模型,去替代老的模型。
我们的算法团队这个月在知乎专栏上揭橥了三篇文章,比较详细地阐述了瓦力机器人在知乎的事情。大家感兴趣的话可以上知乎专栏看一看。
我特殊想跟大家同步一下,知乎在阴阳怪气这个领域的识别的一些实践,由于这是一个非常难也非常故意思的问题,虽然这个事情还没有做完。
3.“反讽”识别算法
阴阳怪气便是反讽。我们处理的思路,首先还是要基于深层语义理解,也便是语义剖析事情,但这是不足的。
从我们的实践来看,每每同一句话,如果是两个好朋友之间发生的话,它有可能是插科打诨,打情骂俏。但如果是两个陌生人之间,一定是有敌意或者不友善的。以是基于这样的思考我们会从两个方向去综合判断。
之以是要跟大家分享反讽这个问题,是由于它是情绪剖析领域的前沿问题,难度很大。由于反讽是用一种完备正面的词语,去表达负面的意思,是一个很高等的修辞手腕,机器人很难解白。
在演习中我们会把内容本身的特色尽可能地融入到模型中去,包括像文本特色、一些数值特色、反讽词表,以及一些表现符特色等等。但是不会把用户统计特色放进去。
我们利用的网络拓扑模型利用的CNN(卷积神经网络)和LSTM(Long Short-Term Memory,一种韶光递归神经网络)的结合。最关键的实在是末了一部分,我们在分类层是用知乎大量同等的语料产生标注数据,这便是我前面讲的用户行为。
大略地说,如果一个评论中有很多好的用户,都进行了反对,我们可能就认为这是负向的。如果其余一个评论有很多用户点了赞许,它可能便是正向的。
基于这个我们可以构建大量的标注数据,但这个方案我们现在仍处于开拓过程中,有结果后我们会发布到知乎专栏上,大家也可以关注一下。
当然这个问题比较难,我们可能还要办理很多细节问题,须要比较久的韶光。但是,我们相信知乎通过对弘大且高质量用户行为数据的剖析、学习,对语义和用户关系这两方面进行更深层次的理解和建模,从而有机会打破“识别反讽”这个一贯困扰情绪剖析领域的前沿话题。这将对中文互联网乃至天下互联网的谈论环境产生积极的促进浸染。
以上是我关于AI算法和人文代价的一些分享。一个开放原谅的氛围是很主要的,它是孕育文化上百花齐放状态的非常主要的土壤。当然知乎作为一家技能公司,我们不仅仅把AI用在这个领域,而且已经广泛运用在知乎的内容生产、流利、消费等环节。
三、打造智能社区:AI深度参与,
用技能实现更精准高效的连接
我们接下来的操持是用AI,进行人机结合打造一个智能社区。
让更多有代价的问题被提出,让最适宜回答的用户被约请,让更多分享见地履历的希望被勉励,让更多专业负责的知识被推举,让更多人的好奇心被知足,让1亿4000万注册用户乃至数亿网民连接到一起。
这是知乎正在努力,并且初步成型的知乎智能社区,也是知乎的初心和长久的愿景。以是知乎长久以来所做的统统都是为了建立这种前所未有的连接,知足彼此的需求。
我们相信在不远的未来,来到知乎的每个人,都能快速看到他感兴趣的人和内容,他的疑问可以被极速地送达到那群故意愿和有能力回答的人,他也会快速地碰着那个让他乐意拍案的好问题,分享那些只有他最懂的信息,收成到最令他知足和愉悦的认同,与他希望碰着的人产生有代价的互换、谈论,乃至争执。
这统统会是这个时期的思考和总结。我们会以前所未有的效率创造思维的连接,让每个个体的思考和履历,都能够被极速地分享、筛选、总结,被转化成为这个时期的知识。而知识的生产办法和迭代效率在这样的连接之下会发生质的改变。这便是我们认为的智能社区。
在经营这样一个智能社区的过程中,我们有很好的数据,问题也都很明确,紧张的寻衅就在人上。
比较于要办理的问题的难度来说,我们团队很不错;但是比较于这些问题的数量,我们的人还是比较少的。以是我们希望有业界厉害的人加入我们,一起把知乎创建成一个具有人文代价的一个智能社区。
感激大家。
本文来自「条记侠」,微信搜索「Notesman」即可关注,记得奉告我们您是来自“今日”的哦。
本文系作者个人观点,不代表本站立场,转载请注明出处!