很多读者给芯君后台留言,说看多了相对大略的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。

DuerQuiz:一个面向智能招聘笔试、面试的个性化试题推荐系统_技巧_实体 AI简讯

为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。
每一篇论文翻译校正完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没紧要,但芯君敢担保,你终有一天会因此爱上一个AI的新天下。

读芯术读者论文互换群,请加

这是读芯术解读的第142篇论文

KDD 2019

DuerQuiz:一个面向智能招聘笔试、口试的个性化试题推举系统

DuerQuiz: A Personalized QuestionRecommender System for Intelligent Job Interview

中国科学技能大学、百度

本文是中国科学技能大学和百度TIC联合揭橥于KDD2019的事情,文章提出一种个性化智能事情笔试、口试的试题推举系统。
为此,我们首先提出一种技能图构建的方法,紧张包含技能实体抽取、技能实体降噪以及技能高下位关系抽取三个部分。
随后我们提出一种基于历史招聘数据下的一种启示式个性化试题推举行法。
实验结果表明我们的系统可以在招聘环节中有效的选取人才。

原文:

Chuan Qin, Hengshu Zhu, Chen Zhu, Tong Xu, Fuzhen Zhuang, Chao Ma, Jingshuai Zhang, Hui Xiong, DuerQuiz: A Personalized Question Recommender System for Intelligent Job Interview, In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2019) , Anchorage, Alaska, 2019

1. 弁言

人才招聘对付企业能否保持竞争上风至关主要,并且会直接影响企业的成功。
为了招募得当的人才,笔试、口试有助于评估候选人与职位需求干系的技能和履历。
但是,以得当高效的办法评估人才是一项艰巨的任务,糟糕的招聘决策会摧残浪费蹂躏公司大量的韶光和金钱。
例如,如美国一篇HR专业宣布的那样,如今的公司要雇用得当的人才均匀要支付4129美元,而事情口试的过程常日须要24天旁边。
因此,在过去的几十年中,人们在改进事情笔试、口试过程方面做出了巨大的努力,例如人际适宜度评估,事情技能剖析,口试官的安排和针对性评估。

但是,事情笔试、口试的关键寻衅在于如何利用得当的问题,来全面评估被认为与个人和事情需求干系并具有代表性的能力。
一方面,如果问题的设计常日侧重于基本的事情哀求,就像传统候选人筛选的笔试情形一样,事情口试将不会有区分能力。
例如,如果某位机器学习工程师岗位的申请者具有与深度学习干系的运用程序干系的丰富履历,则如果仅用根本机器学习根本算法或代码编程考察,去替代那些事实上确实和这个岗位很干系并且反应其个人履历的技能(例如,利用深度神经网络的履历),那么并不会有很好的区分性。
另一方面,如果过多地关注与候选人的个人背景有关的问题,则考察可能会忽略事情的基本哀求,从而无法确定出适宜该职位的人才。
因此,在设计试题时,应在事情哀求和应聘者的经历之间取得平衡。

为此,在本文中,我们开拓了一种新颖的个性化问题推举系统DuerQuiz,以增强人才招聘中的事情笔试、口试评估。
图1显示了我们的推举系统的动机示例。
可以看出,在数据科学家的职位描述中,分别有三个通用哀求,分别是编程,机器学习和大数据剖析。
根据两位候选人的简历,他们在知足相应哀求方面具有不同的个人技能背景。
换句话说,候选人A精通Python和深度学习,而候选人B熟习Matlab和迁移学习。
因此,DuerQuiz的空想情形是可以基于候选人背景个性化地进行试题推举。
例如,对付应聘者1,DuerQuiz将推举有关Python干系编程技巧和Deep Leaning干系机器学习模型的问题。
同时,通过挖掘当前担当数据科学家职位的员工的历史招聘数据,我们认识到Hadoop和Spark是大数据剖析的两个主要技能。
在这种情形下,纵然技能没有在简历中列出,DuerQuiz也会为两个候选人推举干系的Hadoop和Spark问题。

DuerQuiz的关键思想是构建事情技能的知识图,即Skill-Graph,以通过挖掘丰富的历史招聘数据和网络中可用的大规模事情技能数据,全面建模那些应在求职笔试、口试中进行评估的能力。
详细来说,我们首先开拓一种基于具有自适应门机制的双向LSTM-CRF神经网络的技能实体提取方法。
特殊地,为了提高提取的技能实体的可靠性,我们设计了一种基于实体-URL图上的标签传播方法,该实体-URL图是根据百度搜索引擎的查询日志中的点击数据构建的。
此外,我们创造技能实体之间的上位词-下位词关系,并通过利用具有广泛高下文特色(例如招聘特色和搜索查询特色)演习的分类器来构建技能图。
末了,我们提出了一种基于技能图的个性化问题推举算法,以提高事情笔试、口试评估的效率和有效性。
图2是DuerQuiz系统的一个示例图。

2. 模型框架

如图二所示,我们的系统紧张分为技能图构建,即技能实体抽取、技能降噪与技能关系抽取,和个性化试题推举组成。

2.1 技能实体抽取

要构建技能图,我们首先要从招聘数据(职位发布中的职位哀求以及候选人简历中的事情/项目履历)中提取技能实体。
例如,我们须要从职位需求文本“类似PaddlePaddle的深度学习框架中的履历”中提取技能Deep Learning和PaddlePaddle。
在这里,我们依照基于名称实体识别的模型LSTM-CRF,来提取技能实体。
此外,具有字符信息的基于字符的LSTM-CRF模型在没有显式词分隔符的措辞(如中文和日语)上表现出比基于词的模型有更好的性能。
因此,我们将基于字符的LSTM-CRF作为紧张构造。
其余,我们还将字符级别的bi-gram信息作为更好的字符表示的输入。

详细地,给定输入句子X,即职位发布中的事情哀求或应聘者简历中的事情/项目履历描述,我们将上述三个元素信息(即字符、单词和字符的bi-gram)全部考虑在内。
在这里,我们用{c­­1­,c2,...,cn}表示X的字符序列,{b1,b2,..., bn}表示字符的bi-gram序列,个中bi= cici + 1。
为了网络单词信息,我们首先利用中文分词器将X拆分为m个单词,即{w1,w2,...,wm}。
同时,为了使单词序列的长度与字符序列对齐,表示为{w'1,w'2,...,w'n}。
我们打算三类元素信息的表征为:

然后我们通过一个门构造掌握字符级与词级别信息得到:

我们将其作为一个双向LSTM的输入,并引入一个标准的CRF层,他们的末了的预测标签为y= {y1,y2,...,yn},个中yi∈{I,O,B,E,S}表示当前字符是技能实体的Inside, Outside, Beginning, Ending 或 Singleton。
我们有:

我们通过最大化

来进行模型的演习。

2.2 技能实体降噪

从招聘数据中提取技能实体后,我们得到了一组技能,表示为Ve = {v1e,…}。
只管技能实体抽取模型的表现良好,但在Ve中依旧不可避免的包含一些非技能词。
为理解决这个问题,我们希望利用网络搜索数据(即点击日志(查询,单击的URL和标题))作为过滤实体的额外知识数据。
受到之前研究者的启示,我们通过标记一部分的Ve(每个实体是否是真正的技能),设计一种基于标签传播(LP)的算法来对技能实体进行降噪。

详细来说,我们创建一个实体-url图G =(V,E)。
节点集V包含两种节点,即实体Ve和包含在这些实体的查询日志中的点击URLs Vu = {vu}。
边E的凑集同样包括两个部分,即Eeu和Eee。
详细来说,Eeu⊂Ve×Vu是Ve中的点与它们在Vu中的相应单击的URL之间的链接集。
特殊是,我们删除了在标记数据中同时连接了技能实体和非技能实体的URL的边,以减少实体节点和URL节点之间的噪音。
我们用Weu∈Rpe×pu表示权重矩阵。
并且,由于有些节点未连接Vu中的任何节点,因此我们在实体节点Ve之间定义了一组边Eee⊂Ve×Ve,以传播这些节点的信息。
在这里,我们首先通过在点击的URL标题上演习主题模型,为每个实体节点天生主题向量。
然后,我们可以打算一个高斯核矩阵S,个中每个元素si,j = exp {-||ti-tj||2/2σ2}。
末了,我们仅在每个实体与其最靠近的ke个节点之间创建边。
对应的边集是Eee。
我们定义权重矩阵Wee∈Rpe×pe,算法1显示告终构Eee的细节。

然后,我们通过基于LP的方法打算一个实体是否为技能的概率,如算法2所示。
这里,将Y∈Rpe×2表示为实体标签。
详细来说,当实体被标记为技能词时,我们设置对应的y0i,1= 1,如果实体被标记为非技能词,则设置y0i,0= 1。
然后,我们打算如下两个归一化权重矩阵。

个中Deu和Dee是两个对角矩阵,个中每个元素

,而


然后,我们迭代地利用LP来更新Yeu,Yee∈Rpe×2,分别表示Weu和Wee所获实体标签的得分。
对付第t次迭代,我们有:

末了,在收敛之后,我们可以如下打算试题是否是技能实体的概率:

2.3 技能关系抽取

在技能实体提取和过滤过程之后,我们转向提取技能之间的关系,特殊是上位词-下位词(“ is-a”)关系。
例如,机器学习和强化学习技能具有特殊是上位词-下位词的关系。
该问题可以表述为分类问题,该分类问题用于确定技能对(vei,vej)是否为上位词-下位词。
在这里,我们利用历史招聘数据、网络搜索日志数据和百科全书数据来构建特色,演习分类模型。

为了天生演习数据,我们受到Fu等人的想法启示,网络每个技能实体的候选上位词。
详细来说,我们选择涌如今成功应聘的岗位-简历对的共现技能对(职位发布中的需求的一项技能,候选人在简历描述中的另一项技能)和点击数据中的共现技能对(搜索查询中的一项技能和另一项技能)。

选择涌如今历史成功运用程序中的同现技能(即,给定职位发布中的一项技能,以及候选人的相应简历中的另一项技能)和点击数据(即,搜索查询中的一项技能和点击链接的标题涌现的另一个技能)作为候选的上位词。
并且,我们手动标注了演习数据。
演习分类模型的特色可以划分为四类,如下:

•招聘数据类特色:招聘数据,即岗位需求与其对应申请的简历数据中可以帮我们有效的提取高下位词的特色。
常日,职位发布中的技能常日是简历中事情/项目履历中某些技能的上位词。
例如,涌如今事情哀求中的机器学习技能是SVM和LDA的上位词,它们涌如今相应的成功注册候选人的简历中。
其余,技能对涌如今相同的事情哀求中,或者事情/项目履历也可能反响它们之间的关系。

•搜索查询日志特色:点击日志可以帮助我们理解技能之间的关系。
例如,点击的URL标题中包含的技能将与检索到的技能词有很强的关联。
此外,许多搜索查询和URL标题包含多种技能,也可以反响出它们之间的一些协作关系。

•百科知识特色:百科全书数据中包含有关实体关系的大量知识,可以提取出有效的特色。
例如“百度百科”页面择要中显示的技能可能与此技能具有上位词-下位词关系的描述。

在这里,我们利用GBDT作为分类器。
在我们预测了技能词的所有上位词之后,我们可以利用所有上位词-下位词关系作为图中的有向边来布局技能图。
并且我们基于Fu等人的方法去除掉一些较弱的边,避免形成有向环。

2.4 个性化试题推举算法

末了,我们先容利用技能图Gr进行口试问题推举。
我们首先网络一组口试问题,并将其与Gr技能进行手动关联。
然后,对付一个申请(即给定了一对候选人的简历和申请的职位),我们利用候选人的简历文本,申请职位文本和历史招聘数据来探求适宜稽核的技能,以及他们该当稽核的权重。
我们希望由我们的推举算法产生的口试问题不仅可以涵盖事情的技能哀求,而且可以同时考虑候选人背景。

给定岗位J,将当前岗位的员工们的简历表示为R={R1,…},并且我们还利用员工的事情表现表示为P = {P1,…},候选人的简历为S。
我们首先根据技能图得到上述文本数据中包含的技能,将VJ,VRi和VS分别表示为J,Ri和S的技能凑集。
随后我们打算:

我们将所有技能分成三个部分:匹配的技能,个性化的技能和未匹配的技能,并分别打算其权重。
此外,为办理冷启动问题,我们还考虑了仅涌如今职位发布中但没有涌如今历史招聘数据或应聘者简历中的技能。
我们通过如下打算所有提取的技能的权重:

在标准化wfk为wf’k后,我们可以打算属于V’RUV’S的技能的孩子节点的权重为:

随后,我们通过

更新vk的权重。
在天生推举问题集时,对付每个vk,我们都会针对该技能天生W'fk·N个问题。
并且,如果没有与vk关联的问题,我们将其权重添加到其父节点中,并进一步为父节点天生问题。
详细的推举算法由算法3给出。

3. 实验

•技能实体抽取的效果:在这里,我们利用了历史招聘数据集来提取技能实体。
为了演习我们的模型以及验证模型效果,我们手动在2,000个岗位需求和3,700个事情/项目履历中标记了技能实体。
表2中显示了模型的总体表现,可以看出我们利用的三类信息(字符、单词、字符bi-gram)对建模技能实体抽取的有效性,以及门构造的有效性。

•技能实体降噪的效果:在这里,我们网络了2018年1月至2018年6月之间的点击数据,个中每个搜索查询都包含上述候选实体。
删除噪声数据后,我们对查询进行了细分,并将其n-gram项与候选实体匹配。
终极,我们得到了3.74亿个实体-url-标题三元组。
我们手动标注了1416个技能实体与502个非技能实体。
随机选择了60%的数据作为演习集,10%作为校验凑集,30%作为测试集验证器性能。
结果如表三所示,我们创造,短缺Eee导致测试集中20%的实体节点无法连接任何URL,因此无法对其进行预测。
因此,只管精度很高,但召回率仅为0.75。
而利用Eee,我们提出的LP算法可以预测所有实体标签,并且与经典机器学习算法比较,得到最好的效果。

•技能关系抽取的效果: 这里我们人工标注了364个技能词,以及上文描述的方法探求他们对应的候选上位词对,并且对付每个词仅分别留下其招聘数据以及点击数据共现词频前20的技能。
末了得到对付每个词约有24个候选词,并且标注了其是否具有高下位词关系。
实验结果如表4所示,可以看出我们所提出每一类特色的有效性。
此外,我们也根据基于Hearst等人提出的pattern-based的方法,利用Fu等人提出的Chinese Hearst-style lexical patterns。
但是仅有10.73%的上位词可以被提取出。
这也解释了我们方法的意义。

•试题推举的效果: 我们在实际场景中评估我们的推举系统。
详细地,我们将其支配到了2018年的百度校招中。
对付4类选定的岗位:机器学习/ NLP工程师,C ++ / PHP研发工程师,Java研发工程师和移动软件研发工程师,我们约请应聘者参加我们由DuerQuiz系统天生的在线笔试练习。
为了验证我们系统的性能,我们网络了他们的终极招聘结果以及他们在口试中的表现,包括我们的智能笔试,传统笔试和现场面试。
表5显示数据的统计信息。

在这里,我们利用Spearman干系系数来衡量候选人的不同笔试评估方法与其招聘结果之间的干系性。
详细来说,我们首先将终极的口试成绩映射为[0,8],终极的招聘结果分为三种类型:招聘失落败,正常offer和special offer与分数0、1和2相对应。
干系系数剖析的结果如表6所示。
根据结果,我们创造我们的DuerQuiz框架和传统笔试都与大多数事情岗位的口试结果、招聘结果显著干系。
而且很多岗位中我们的智能笔试与传统考试比较具有更好的干系性,这表明DuerQuiz能很好的进行人才评估。

•案例剖析: 为了进一步解释我们的DuerQuiz系统的有效性,表7展示了我们系统推举的前4个问题的示例,以及一个最新的口试题推举行法JLMIA [2],该方法通过在成功的事情口试记录中关于职位发布,候选人简历,口试评估文本中利用预先演习的概率主题模型来推举口试问题。
我们可以看到DuerQuiz推举的问题涉及职位需求和应聘者简历中提到的技能。
(Q1与推举系统有关,Q2与聚类->机器学习有关,Q3与Python有关,Q4与RNN有关,个中“->”表示下位词-上位词关系。
)同时,JLMIA模型不能很好的同时稽核岗位需求和候选人简历信息。
例如,JLMIA推举了两个有关C ++和Python的问题,以匹配职位发布哀求。
但是,由于无法捕获候选人具有Python履历的事实,因此建议推举C ++和Python干系的问题。

4. 总结

在本文中,我们先容了一个个性化问题推举系统DuerQuiz,用于人才招聘中的智能求职笔试、口试评估中。
DuerQuiz的关键思想是通过挖掘历史招聘数据和从网络中得到的事情技能数据来构建事情技能的知识图。
详细来说,我们首先基于双向LSTM-CRF神经网络设计了一种技能实体提取方法。
然后基于点击日志数据设计了标签传播方法,以提高提取的技能实体的可靠性。
此外,我们提出基于技能实体之间的上位词-下位词关系,构建技能图,并提出了一种启示式的个性化的问题推举算法,以改进事情笔试、口试评估。
末了,对现实天下的招聘数据进行的实验证明了DuerQuiz的有效性。
个中,DuerQuiz被支配在2018年百度校园招聘活动中进行笔试试题推举。

留言 点赞 关注

我们一起分享AI学习与发展的干货

如需转载,请后台留言,遵守转载规范