关键问题是,打算机能够像文学家一样,识别出作文中眇小而关键的那些差别吗?正好是这些眇小的差别,区分出了普通的好文章和卓越精彩文章之间的差异。
电脑能否捕捉到书面互换的关键要素,譬如合理性,道德态度,论证能力,和清晰程度?

教师解放新前沿:让机械给作文打分_评分_体系 云服务

自动评分的先驱——埃利斯·佩奇

1966年,打算机体积还很弘大,康涅狄格大学的研究员埃利斯·佩奇(Ellis Page)就率先开始了对自动评分的研究。
打算机在那时是相对新颖的技能,紧张用来处理最高级的任务。
在佩奇同龄人眼中,利用打算机进行文本输入而非打算数据更是新奇的想法。
在当时的环境下,不管是从实用的角度、还是从经济成本来看,利用打算机给作文评分这个想法都非常得不切实际。
与同代的人比较,佩奇是个眼力真正长远的人。

埃利斯佩奇团队开拓出第一套作文自动评分系统PEG(Project Essay Grader)。
PEG(Project Essay Grade)、IEA(Intelligent Essay Assessor)和E-rater是国外最具代表性的三种作文自动评分系统。

国外作文自动评分系统述评

作文自动评分是近三年自然措辞处理中的热点问题。
大规模作文阅卷面临两大难题:其一,阅卷须要耗费大量人力、物力等资源;其二,评判作文质量具有很强的主不雅观性,阅卷的信度和效度不强。
近几十年来,随着打算机硬件和软件性能快速提高,自然措辞处理等技能得到了长足的发展,国外一批作文自动评分系统相继问世,这两个长期困扰大规模作文阅卷的难题有望得到办理。

(一)PEG——一个重措辞形式的评分系统

PEG于1966年由美国杜克大学的Ellis Page等人开拓。
PEG的设计者们认为,打算机程序没有必要 理解作文内容,大规模考试中尤其如此。
因此,他们在其网站上公开申明:“PEG 不能理解作文的内容”。
在PEG的开拓者看来,作文质量的诸要素是作文的内在成分,无法直接丈量,因此,最为合乎逻辑的方法是从作文文本中提取一些能够间接反响作文质量的文本表层特色项。

概括起来,PEG的技能大体包括两方面:其一, PEG利用的统计方法是多元线性回归,以此来确定各变量的beta值,这样,基于演习集作文而构建的统计模型便可以用来为新的作文进行自动评分。
这一技能合理而随意马虎理解,后期涌现的作文自动评分系统大多采取这一技能。
其二,自然措辞处理技能是PEG提取变量的紧张方法。
基于这两种技能,PEG取得了很好的评分效果。

(二)IEA——一个重内容的评分系统

IEA是一种基于潜伏语义剖析的作文自动评分系统,由美国科罗拉多大学的ThomasLandauer等学者开拓。
与PEG显著不同的是,IEA的设计者们在其网站上申明:“IEA是唯一能够丈量语义和作文内容的程序”。
据IEA的设计者们报告,潜伏语义剖析紧张剖析文本的内容和学生作文中所传达的知识,而不是作文的风格或措辞。

将潜伏语义剖析用于学生作文自动评分时,待评分的作文与预先选定的范文(演习集)被视作为矢量, 对矢量进行比较之后,可以得到每一篇待评分作文与范文在内容上的相似度得分。
该得分被直接视为机器评分或经由转换后得到机器评分。

(三)E-rater——一个模块构造的稠浊评分系统

E-rater是由美国教诲考试处于20世纪90年代开拓,其目的是评估GMAT考试中的作文质量。
据Burstein et a.l(2001)、Cohen et a.l(2003)和Valenti et a.l(2003)的描述,E-rater自1999 年以来已经进入操作阶段,至2003年,共评定作文 750,000篇。

E-rater的开拓者们声称,他们的作文评分系统利用了多种技能,个中包括统计技能、矢量空间模型技能和自然措辞处理技能(Valenti et a.l2003)。
凭借这些技能,E-rater不只能够像PEG那样评判作文的措辞质量,还能够像IEA那样评判作文的内容质量。
除此之外,E-rater还对作文的篇章构造进行剖析。

海内紧张英语作文自动评价工具软件

在海内,业已颁布的《国家中长期教诲改革和发展方案纲要(2010-2020年)》明确指出,信息技能对教诲发展具有革命性的影响,必须给于高度重视。
到2020年,全国范围内该当力争基本建成覆盖城乡各级各种学校的教诲信息化体系,以促进教诲内容、传授教化手段和方法当代化。
就受众群体弘大的英语传授教化领域而言,海内关于英语作文自动评价系统的研究起步晚,缺少系统性的综述研究。

(一)句酷批改网

由北京词网科技有限公司研发,于2011年4月开始展开大规模利用。
它是一个基于语料库和云打算技能的英语作文在线自动批改做事网站。
批改网的核心算法是打算学生作文和标准语料库之间的间隔,再通过一个映射将间隔转化成作文分数和评语。
核心技能点是将每一篇输入的作文剖析成可丈量的192个维度,剖析过程充分利用了前辈的自然措辞技能和机器学习的方法,每篇作文先被自动切分成句子,然后对每个句子进行深度的语义剖析,从中抽取词、搭配、词组等构造化单元。
紧张功能包括:分数即刻显现、图文报表式作文剖析结果、缺点自动批改、点评细致入微、阶段性进度报告、抄袭检测等。

批改网是完备自主研发的国产软件,从核心引擎到批改运用都是完备自主知识产权的。
它表示写作传授教化的多样性,鼓励学生的自主性学习、探索性学习、团队式学习、研究型学习等教与学新模式。

(二)冰果英语智能作文评阅系统

杭州增慧网络科技有限公司联合浙江大学、外语传授教化与研究出版社,以及中外人工智能专家军队,依据措辞传授教化理论、打算机网络教诲技能、大规模数据挖掘技能,研发出这一个性化智能化的作文评阅软件。
它可以即时给出作文评分,并从词汇、语法、文风、内容等方面给出反馈。
但是,该系统目前无法做到用户同一篇作文多次反复修正,多次提交给系统,并得到系统的即时评阅和反馈。

(三)TRP传授教化资源平台

经由对一线西席的调研及需求剖析,高档教诲出版社与清华大学杨永林教授的科研团队互助研究,2010年10月正式对外发布了《体验英语写作传授教化资源平台》。
2012年3月,该平台的升级版产品《TRP传授教化资源平台》面世。
它根据写作传授教化需求,将数字化、网络化与区域化传授教化平台进行了有机的整合,并涵盖了资源培植、平台构建、写作学习、句型练习、语法测验、作文评分、写作研究、评语天生、作为考试等功能。
为高校英语传授教化的进一步改革供应了“专本硕博,四级贯通”的可操作平台。
特殊一提的是,学术写作是该写作软件系统的特色版块,从这一点来讲,TRP传授教化资源平台彷佛对付研究型高校的学习者来说具有更加分外的意义。

海内里文作文自动评价工具软件概述

根据作文自动评分的事理,可以得到打算机评分的事情机制:首先提取出反响写作水平的特色,然后利用这些特色和数学模型打算出分数。
并且确保这个分数最大程度的靠近人工评分的结果。

汉语笔墨的打算机识别及加工能技能难题须要打算机领域的专家来占领,而汉语的打算机自然措辞处理技能有了突飞年夜进的发展。
例如由于中文词语之间没有空格分割,利用打算机进行分词是进行自动评分研究须要办理的紧张问题。
随着中文自然措辞处理研究的发展,目前这一困难基本得到办理。
中国科学院打算技能研究所在多年研究根本上,研制出了基于多层隐马模型的汉语词法剖析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统不仅完备具备了中文分词的功能,还有词性标注和未登录词识别的功能。
ICTCLAS分词的精确率高达97.58%(最近的973专家组评测结果)。
其余北京大学、北京措辞大学都有汉语自然措辞处理工具成功开拓,为汉语作文自动评分研究打下了根本。

自动评分很好地做到了作文评价的客不雅观化,可以做到在不同的韶光地点,在不同的打算机环境里面对于同一篇作文的评价结果完备相同。
利用这些系统进行作文评分,不仅提高了作文评价效率、降落了人工本钱,而且从根本上肃清了评分者之间的不一致。
可以说,利用打算机进行自动评分是评价科学化发展的必由之路,是提高作文评分准确性和评分效率的最有效路子。
在美国Erater已经成功的在ETS组织的托福等考试中运用,而日本Jess研制的目的便是处理日今年夜学入试的作文评分。
最近***也研发出了一套“中文写作自动化评分系统”(ACES),该软件能自动剖析初中基准测试考生的作文程度,并给于6个等级的评分。

人工与智能,效率与质量的较劲

当今时期,利用打算机自动评分的需求正在猛增。
在人工审核流程中,每篇文章必须要有两名西席打分,这样的批阅本钱很高,含有写作部分的标准化测试批阅本钱也愈发昂贵。
这种高昂的本钱已经致使许多州在标准考试中,放弃了主要的写作测试。
目前,自动评分系统还处在人机耦合的阶段。
许多低年级的标准化考试利用自动评分系统,已经带来不错的奏效。
然而,孩子们的命运并非完备节制在打算机手中。
大多数情形下,在标准化测试中,机器人评分员只是取代了个中一位必要的评分员。
如果自动评分员的见地截然不同,这样的文章就会被标记,并转发给另一位人工评分员作进一步评估。
这个步骤的目的是担保评估质量,同时也有助于提高自动评分技能。

EdX总裁Anant Agarwal称,智能自动评分的优点不仅仅是能节省宝贵的韶光。
新技能所实现的即时反馈对学习也有积极影响。
当今,人工给作文评分要花费好几天、乃至是好几周的韶光才能完成,但是有了即时反馈,学生对自己的文章影象犹新,可以立即填补弱项,而且效率更高。

机器学习软件刚开始运用时,西席必须将已经评好的几篇文章输入系统,作为好文章和坏文章的示例。
随着越来越多文章输入,软件就越来越善于这种评分事情,终极险些就能供应专门的即时反馈。
Anant Agarwal称,须要做的事情还有很多,不过自动评分的质量已经很快靠近真正西席的评分。
随着更多学校的参与,EdX系统的发展越来越快。
截至本日,已有11所重点大学对这款不断发展的评分软件贡献了力量。

自动评分的运用效果及发展前景

为了改进这种趋势,2012年,威廉和弗洛拉休利特基金会(William and Flora Hewlett Foundation)资助了一项自动评分的竞赛,以数千篇作文为样本,用六万美金作为褒奖,鼓励能智能取代西席评分的最佳方案。
休利特基金会教诲项目卖力人芭芭拉·周表示:“我们听说机器算法已经达到和人工评分同样的水平,但我们希望创建一个中立且公正的平台来评估供应商的各种声明。
事实证明,那些说法并非炒作。

自动评分的发展也吸引了慕课供应商的极大兴趣。
影响线上教诲遍及的最大问题之一就在于个人评估文章。
一位西席可以为5000逻辑学生供应授课资源,但却不能对每位学生单独进行评估。
有人说现行教诲系统编制已不完善,而办理这一问题正是向冲破这种系统编制所迈出的一大步。
在过去短短几年中,评分软件的发展突飞年夜进,现在的评分软件已可以在大学中上线测试利用。
个中一个领先者便是慕课供应商EdX,同时也是哈佛和麻省理工旨在提高线上教诲的联合发起者。

休斯顿大学大学教诲学院院长Mark Shermis教授被视为天下上自动评分领域的顶尖专家之一。
在2012年,他辅导了休利特竞赛,对参赛者的表现印象非常深刻。
154个团队参加了竞赛,一万六千多篇文章拿来做了比拟。
冠军团队与人工评分者的同等度高达81%。
Shermis的见地非常积极,他表示这项技能肯定会在未来的教诲中霸占一席之地。
从这次比赛以来,自动评分领域的研究已经取得了积极进展。

自动评分目前仍有几项瓶颈和技能局限(一)评分标准未统一

自动评分系统还没有科学深入地研究人类分级机之间的评估差异,且个体间的差异性很可能非常大。
很明显的是,从最初紧张依赖打算字数、检测句子和单词繁芜性和构造的大略工具,自动分级技能如日方升,有了很大的进展。

自动作文评分系统供应商是如何提出各种算法的这一问题深深隐蔽于知识产权规章背后。
然而,莱斯·派勒尔曼(Les Perelman),长期疑惑论者和麻省理工学院前本科生论文处主任有了一些答案。
他花费十年韶光用各种方法恶搞不同的自动分级软件,并且在某种程度上发动了一场有关全面抵制这些系统的运动。
分级软件必须将不同文章进行比较,区分重点与非重点部分,然后将文章压缩至一个数字以进行评级。
相应的,文章必须是在一个完备不同的主题下与不同文章具有可比性。
谷歌在比较不同目标文本和图片与不同搜索术语的匹配度时利用了相似的策略。
问题在于谷歌运用了数百万数据样本进行估值。
而一所学校最多只能输入几千篇文章。
只有拥有弘大的数据库,这个问题才能逐渐得到办理。

(二)基于规则的弊端

由于打算机无法读取,办理过度拟合最可行的方法是为打算机明确指定一套详细的规则,来检测文本是否讲得通。
这一方法在其他软件上都行得通。
目前,自动评级供应商大量投入来制订这样的规则,由于要制订出一条检测诸如论文这样创造性文实质量的规则十分困难。
打算机方向于用常见的办法办理问题:打算。

在自动评分系统中,例如,评分预测器可以是句子长度、单词数量、动词数量、繁芜单词的数量等。
这些规则是否能做出合理的评估?至少派勒尔曼不这样认为。
他说,预测规则常日非常去世板局限,限定了评估的质量。
例如,他创造:

—长篇文章的评级会比短篇的评级高(自动评级倡导者马克舍米斯教授认为这只是个巧合。

—同繁芜思想干系的详细词汇,例如“并且”“然而”,都会使文章得到更高的评级。

—利用“贪婪”这种繁芜词汇会比利用“贪心”这种大略词汇评级高。

他创造规则很难运用或者根本没有运用的另一些例子是这个软件不能分辨真实性。

(三)信度和效度有待提高

作文自动评分的目的是利用多学科技能有效地仿照人工评分,以达到快速评定作文质量的目的。
因此,在对打算机评分模型进行演习时,演习集作文人工评分的信度至关主要。
只有有效地仿照具有较高信度的人工评分,打算机评分才故意义。
根据Barrett(2001)和Stemler(2004)的研究,评分员间的信度达到r=0.70旁边才是可以接管的,但现有作文评分系统在对演习集作文进行人工评分时常常达不到这样的信度哀求,可能使得打算机评分模型很难仿照到人工评分的精髓。

评价对学生作文的评分是否合理,所需稽核的另一个方面是评分的效度。
对作文进行评分一样平常至少须要从作文的措辞质量、内容质量和篇章构造质量三个紧张方面对作文的整体质量加以衡量。
自动评分系统在评分过程中并未能够很好地兼顾这三个紧张方面,因而评分的构造效度值得质疑。
PEG虽然对作文的措辞质量有着较强的剖析能力,但忽略了作文的内容质量和篇章构造质量,因而其评分结果存在较大的效度问题。
与此相类似,IEA突出了评分过程中作文内容的主要性,但忽略了作文的措辞质量和篇章构造质量,显然也存在较大的效度问题。
与这两种系统比较,E-rater虽然以其模块构造兼顾了作文质量的三个紧张方面,但每个模块的剖析能力尚可进一步提高。

参考:

AI In Education — Automatic Essay Scoring

https://edx-ora-2.readthedocs.io/en/latest/architecture/ai_grading.html

11月15日,雷锋网联合乂学教诲·松鼠AI,以及IEEE教诲工程和自适应教诲标准事情组共同举办『环球AI+智适应教诲峰会』。

本次峰会汇聚了国内外产学研三界顶尖阵容,届时,斯坦福国际研究院(SRI)副总裁Robert Pearlstein、美国大学入学考试机构ACT学习方案组高等研究科学家Michael Yudelson等顶尖学者;VIPKID、作业帮、沪江网等海内著名教诲创业公司创始人;以及Knewton、Byju's、DreamBox、Duolingo、ALEKS、AltSchool等国外最具影响力的AI智适应教诲公司创始人将齐聚北京,共同磋商AI智适应热点话题,年度盛会,不容错过!
免费门票、VIP门票开放申请中,访问大会官网即刻申请:https://gair.leiphone.com/gair/aiedu2018

雷锋网雷锋网