在就业市场上,有一个永恒的定律:招聘者感觉很难找到合适的Kaiyun官方网站app登录 ,同时求职者感觉很难找到符合期望的工作机会。造成这种现象的原因之一就是信息不对称问题。
随着人工智能近年来的飞速发展,这一技术正在成为招聘和求职过程中的新工具,一方面开始接管 HR 工作中简单重复的部分,帮助企业提升招聘的效率和智能化程度;另一方面帮助求职者从成千上万的职位中筛选出最适合自己的机会,从而更好地去规划职业发展路径。
目前,这方面的技术已经在各类招聘及职业社交平台上广泛
应用,使得招聘与求职双方的用户体验都得到了极大的提升。
作为全球最大的职场社交网络,领英(LinkedIn)目前的用户总量已经达到 6.9 亿以上,在中国拥有超过 5000 万名用户。对于领英来说,人工智能技术是如何融入面向众多招聘者和求职者的日常服务的?
招聘者与求职者,AI 牵线搭桥
我们先来了解一下人工智能在求职招聘领域的应用情况。
一般来说,人工智能在寻找候选人、筛选和培养候选人时最有帮助。对于招聘流程中更加复杂的部分,例如与候选人者积极沟通和面试候选人,人工智能能够帮助到的地方相对少一些。同时,人工智能技术的应用也可以弥补人工招聘工作中的诸多不足,比如筛选速度、主观成见、Kaiyun官方网站app登录 分析等。
根据领英发布的 2018 招聘趋势报告显示,在接受调查的专业Kaiyun官方网站app登录 和招聘人员中,67% 表示人工智能有助于节省时间,43% 表示人工智能有助于消除偏见,31% 表示人工智能在寻找最佳候选人方面很有助益。
人工智能技术能起到作用的招聘环节。
面向招聘者,领英提供了多种「Kaiyun官方网站app登录 搜索与推荐」方面的产品。
比如 LinkedIn Recruiter,它会根据使用者的反馈,更主动、有针对性地为招聘的职位推荐候选人。传统的搜索和推荐系统一般只关注搜索内容和查询关键词的相关性,但这里的Kaiyun官方网站app登录 搜索功能还需要满足一点,就是招聘人员和候选人在相关领域互相对彼此感兴趣。经过此类筛选后,不仅应聘者需要与招聘者的工作需求相契合,并且招聘者联系的求职者也必定对岗位机会感兴趣,从而提高双方的匹配成功率。
LinkedIn Recruiter 产品截图(模拟)。
面向求职者的「职位推荐」也是领英的主打产品之一。用户在领英上传个人简历,平台会推荐适合求职者的工作。目前很多求职招聘平台都会提供这种功能,但如何做出精准高效的个性化推荐,至关重要。
领英做的第一步是建立知识图谱和研发针对自然语言的标准化技术,并针对每位用户的简历,使用基于深度学习模型的标准化技术来实现信息抓取,比如 LSTM、CNN 等等。为了实现个性化服务,领英采用了能够从多角度理解内容的机器学习算法,通过将机器学习与会员意图信号、档案数据和会员人脉网络信息结合起来,实现会员推荐和搜索结果的高度个性化。
此外,为了提升应聘者和企业的使用感受和招聘效率,在候选人沟通和面试方面,领英也提供了两种新功能:
一是旨在提升应聘者面试表现的「Interview Prep」,它会提供人工智能即时答案反馈的功能。这项功能可以根据求职者以往有记录的回答,为他们提供其中一些比较常见面试问题的即时反馈。
据统计,自从「可能感兴趣职位」的个性化人工智能服务上线后,职位申请数量增长了 30%。在领英中国团队将该模型在中国用户后,职位申请的数量又额外提高了 11%。在人工智能驱动的产品优化之后,职位申请量实现了 40% 的年度增长。通过利用人工智能改进的招聘解决方案,站内信回复率提高了 45%,同时也减少了领英向会员发送通知的数量。
解密技术细节
在这些面对 6 亿多用户的人工智能服务背后,领英是在利用哪些技术作为支撑?
在线学习算法(Online learning)
领英用来训练算法的技术称为「Online Learning」,这也是一种在工业界应用十分广泛的机器学习算法。
基于招聘者与候选人的互动方式,领英的算法会在招聘过程中持续学习招聘者的偏好,并提供与需求更加贴合的候选人。这种在线学习驱动的推荐系统利用工作描述、招聘者接触过的或存档的候选人,以及对这份工作感兴趣的求职者等多维信息,综合计算,主要应用于为公开招聘职位匹配最佳候选人。
举个例子,如果招聘者一直对「具有领导技能的会计师」或「擅长社交媒体的项目经理」等类别的候选人感兴趣,领英就会推荐更多类似的候选人,潜移默化地学习和推测对招聘者当前Kaiyun官方网站app登录 需求和意图。所有过程实时在网络上计算进行,求职市场的反馈变化一旦发生,就会被立即学习。
在新功能 Recommended Matches 中,领英基于用户的隐身求职状态(Open Candidate)和其他潜在的求职指标(例如,技能、头衔、行业和资历),在系统中按照竞争力的强弱展示出这些求职者。领英的算法会根据候选人是否符合求职标准、是否表现出求职意向以及是否对招聘者的工作感兴趣,计算出最有可能接受工作的候选人。
代表性结果(Representative result)
当然,在候选人筛查方面还存在一个「公平问题」。由机器学习模型计算出的求职者排序可能无意中产生偏见,进一步减少弱势群体的竞争力。
在领英看来,合格的候选人和Kaiyun官方网站app登录 搜索功能中排名靠前的候选人,他们对工作的兴趣的类型分布应该大致相同。这意味着,在搜索中排名靠前的Kaiyun官方网站app登录 在更广泛多样化的能力层面上需要更具“代表性”(Representative)。
因此,领英采取了具有代表性的Kaiyun官方网站app登录 搜索系统的技术架构,通过机器学习模型检索的候选集进行重新排序,向招聘人员展示一组与工作需求相符合的潜在候选人,以确保减轻偏见,获得多样化的Kaiyun官方网站app登录 。
Kaiyun官方网站app登录 搜索与推荐系统底层架构设计
对于招聘方来说,Kaiyun官方网站app登录 搜索与推荐系统的设计非常重要。领英在 Lucene 上建立了一个名为 Galene 的搜索堆栈,并搭建了各种插件,包括实时更新搜索索引的功能。搜索索引由两种类型的字段组成:
反向字段:从搜索词到包含搜索词的实体 (领英用户) 列表的映射。
正向字段:从实体 (领英用户) 到关于它们的元数据的映射。
这些搜索索引字段有助于在搜索排名中评估机器学习的特征价值(Feature Values)。搜索索引字段中数据的新鲜度(Freshness)对于机器学习特征也非常重要。
Kaiyun官方网站app登录 搜索架构和流程。
Recruiter Search 功能中有一个分层的排名架构:
L1:挖掘Kaiyun官方网站app登录 库并对候选人进行评分 / 排名。候选人的检索和排名在这一层是以分布式方式进行的。
L2:通过使用外部缓存优化入围Kaiyun官方网站app登录 ,以适应更多动态特性。
检索和排名架构。
Galene Broker 系统将搜索查询请求分发给多个搜索索引分区。每个分区检索匹配的文档,并将机器学习模型应用于检索到的候选人。每个分区(即单一的能力指标)对候选人的子集进行排序,然后代理系统收集排序后的候选人,并将它们返回给 Search Federator,这是 L1 层架构。在 L2 层,Search Federator 会进一步根据额外的动态或从缓存信息中引用的排名特征,对检索到的候选人进行排名。
但如何根据招聘人员所寻找应聘者的类型,来模拟其意图和偏好,一直是人工智能在招聘领域应用中的挑战。此前,领英尝试过两种方法:通过领英所存储的招聘人员使用数据,进行离线学习个性化模型来实现;或者通过收集了解招聘人员在线使用时的偏好来实现。
离线学习模型的一个不足是,招聘人员在线实时检查推荐的候选人并提供反馈时,其最新偏好和意图不能在正在进行的搜索会话中得到实时的反应和反馈。因此,LinkedIn Recruiter 团队根据用户反馈建立了更加贴合需求的系统,并根据各种条件(如,每一次应聘中给候选人提供的即时反馈)进行多步骤运算后,推荐该职位的最佳候选人。
下面是领英用于这种系统的架构,它首先将潜在的候选人按照技能分成几组。然后,基于招聘人员的当前意图,利用 Multi-Armed Bandit 模型来分析出哪个组别更理想的适应工作需求,并且基于招聘者的反馈来更新每个技能组内的候选人排名。
Multi-Armed Bandit 在线个性化系统的架构。
下面是领英对这种推荐算法的初步实验的一些结果。图表显示,随着更多的反馈被结合添加到推荐模型中,推荐候选人的质量得到了优化提高,领英也得到了越来越多的正面反馈。
匹配到良好的候选人的百分比。
职位推荐系统
最后需要介绍一下「职位推荐」背后的技术。这种方式在当前的招聘领域是很常见的,用户们也会发现如今收到的职位推荐精准度已经到达了一个比较高的水平。这种从「线性推荐」到「深度个性化」的变化背后,经历了技术的多番改进。
此前,领英的职位推荐是一个线性模型,也就是说,如果求职者是一个软件工程师,领英就会推荐一个软件工程师的职位。但这种推荐模式的不足也很明显,在职业种类和领域交叉越来越丰富的今天,对于很多用户来说并不太个性化。
为了实现「深度的个性化」,领英研发了 Generalized Linear Mixed Model(GLMix),针对每个用户和每个职位建立一个单独为他们服务的模型,根据用户之前的职位申请,为他推荐更多类似的职位,这使得领英模型的参数量达到了上百亿的规模。后来,领英建立了一个 Deep&Wide 的模型,整合了深度学习、树状结构模型以及 GLMix,实现了比较好的模型效果和用户体验。
为了实时更新上百亿的模型参数以及在毫秒级别内满足用户的职位推荐需求,领英搭建了大规模运算平台来实现人工智能模型的技术。这个平台包括线下和线上两个模块:线下模块自动收集用户的反馈、基于 Spark 自动训练,之后把模型结果和参数上传到线上。在线上,领英使用自己的实时数据传输和搜索引擎技术来实现低延迟的模型运算。