那么,“阅卷”是不是也可以由机器代劳呢?
答案是肯定的。
目前,科大讯飞机器智能阅卷技术已经在安庆、合肥等地成功试点
应用。经过对人机评分结果的分析,计算机在评分一致率、平均分差、相关度以及与仲裁分更接近的比例等指标方面都已达到或超过人工评分水平。这意味着,让机器评阅主观题已不再是空想。其中最让人眼前一亮的,是哈工大讯飞联合实验室研发的语文作文评分技术。
批阅主观题的可能性
我们知道,几乎所有的考卷都包含两个部分,客观题、主观题。在有了答题卡,扫描仪后,客观题可以全部由机器批阅,阅卷速度大大提升,且更加准确。
可是面对主观题,机器也能替代人脑来思考吗?
答案是肯定的。自20世纪60年代以来,国外许多专家和学者就致力于主观题的机器阅卷技术研究,也出现了各种不同的自动批改系统。比如美国的MBA、托福考试中就应用了E-rater系统等。
但是,不管是E-rater还是国内的一些研究,大部分针对的都是第二语言作文,即非母语作文。非母语作文的特点是,学生的错误大多是一些基础性的拼写、语法方面的初级错误,这些错误是比较容易确立一个规则并让机器执行和批阅。
要想机器阅卷技术真正普及并为阅卷工作带来便利,无法回避的一个难关就是:批阅学生用母语写的作文。
与第二语言作文不同,中学生母语作文中基本很少犯语言基础性错误,需要在更高层次,比如作文的文采、篇章的衔接、作文立意等方面做出评判。
那么面对这些主观性很强的文本,我们应该从哪些维度去评判,又如何去量化这些维度呢?
机器凭什么给我们打分?
科大讯飞机器智能阅卷技术实现机器批改作文
要回答这个问题其实也不难,我们可以先想想:老师是怎么为我们的中高考作文进行评分的呢?
首先,他们有一套严格的标准。
中高考阅卷中,全国的老师都是以一套统一的、严格的标准为基准来进行评分的。同理,想让机器批阅作文,最重要的也是让机器学到这套标准,然后按标准批阅。
以本次应用在语文试卷批阅中的讯飞作文评分系统为例。教师们设置了一套通用的从字迹工整度、词汇丰富性、句子通顺度、文采、篇章结构、立意等多个层次综合评估一篇作文质量的解决方案。哈工大讯飞联合实验室的研究人员则让机器来学习这套方案,利用机器学习算法从少量人工评分的样本中学习获得作文评分标准。
这每一项标准背后都需要复杂、精密的技术来支持。比如要判断字迹工整度,则需要用到手写识别技术,我们可以在自动将
图片中手写体字转写为文本的同时,给出识别概率,来表示工整度。
再比如,判断一篇作文是否离题,首先需要根据题目内容提取关键词,并根据主题进行扩展,同时提取作文的关键词,计算作文的关键词和题目的关键词的相似度。
再比如,判断一篇作文是否离题,首先需要根据题目内容提取关键词,并根据主题进行扩展,同时提取作文的关键词,计算作文的关键词和题目的关键词的相似度。
另外,也可以在本次考试的大规模数据上训练主题模型,得到全局的主题分布,然后和待考察作文的主题分布对比。词汇丰富性和立意属于内容相关的特征;字迹工整度、局部连贯性、句法正确性和篇章结构属于表达相关的特征;文采属于发展等级特征。
除了上述特征外,我们还利用人工神经网络对作文的语义进行深度表示,从而得以从宏观上把握文章的立意。
通过从这一系列复杂、精密的技术支持,“机器老师”便能够为学生评分了。
机器阅卷技术的未来
未来,随着人工智能技术的发展,除了开放式作文、甚至政史地问答题等试题的批阅中,机器都可以自动阅卷。机器可以自动学习教师的阅卷方法。比如一次考试有2000份卷子,从第一份卷子开始,机器就可以学习教师的阅卷方法,学到200份的时候机器就可以代替人工,自动对剩下的试卷进行智能化打分。
如果全自动机器阅卷变成现实,“阅卷”这件需要教师们投入大量人力物力才能完成的事将变得轻松,教师们将会有更多的时间和精力被解放出来,投入到对教学方法、教学手段等创造性工作的研究中,相信学生们也会因此获得更好、更全面的教育。
这样的未来,你期待吗?
哈工大讯飞联合实验室背景介绍
哈工大讯飞联合实验室成立于2014年9月,实验室主任由哈工大刘挺教授担任,副主任由科大讯飞胡国平博士担任。
哈工大讯飞联合实验室是“讯飞超脑”计划中的核心研发团队之一,致力于在语言认知计算领域长期、深入的技术创新,目前重点研究的前瞻课题包括类人答题、作文评阅、语音转写等,作文自动评分是联合实验室在过去一年中最重要的研发成果。