Duolingo English Test是怎样运作的?
近日,语言学习教育公司Duolingo在Transactions of Computational Linguistics期刊上发表了其借助人工智能技术和机器学习来自动创建英语测试并打分的相关论文。在论文中,研究人员介绍了Duolingo English Test的基础算法。Duolingo English Test是一项时长1小时的在家完成的英语能力测试,收费49美元,现已被超过2000个大学项目接受,包括哥伦比亚大学、麦吉尔大学、纽约大学、伦敦大学学院、和威廉姆斯学院。
像Duolingo这样的基于人工智能技术的测试,对于那些需要在疫情期间雇用英语作为第二语言(ESL)的员工的雇主来说,能帮上大忙。参加诸如托福之类的英语水平考试要求考生前往受监管的考点,这在因为疫情而限制非必要活动的国家中造成了难题。Duolingo发言人表示,全球的考试量增长了300%,而在中国就增长了375%。且自疫情开始以来,已有500个新项目开始接受Duolingo English Test。
正如论文中所解释的,Duolingo English Test借鉴了心理测验学中的项目反应理论来设计测试方法以评估考生的能力。这种方式是大多数重要的现代标准化考试的基础,且它假设可以用表示考生的能力和问题难度的离散函数对测试项目(即问题)的回答进行建模。幸运的是,对于Duolingo来说,这种范例非常适合估算能力和难度等变量。创建问题后,考生接受测试,产生被标为“正确”或“错误”的结果,从中可以得出预测未来应试者能力的参数。
自适应测试(CAT)技术使Duolingo能够向能力较高的应试者分配更难的问题,从而设计出更有效的语言测试,反之亦然。自适应算法通过观察考生在测试过程中对问题的回答,评估其能力。然后,根据当前对能力的估算选择下一个问题,并不断重复该过程,直到测试完成。
Duolingo为Duolingo English Test设计了一个100分的评分系统,该系统对应欧洲通用参考框架(CEFR),一个用于描述外语学习者的阅读、写作、听力和口语能力的国际标准。Duolingo的研究人员采用了多种不同的测试形式,包括:
对/错判断——使用文本或音频等不同形式以评估词汇量,同时给予考生文本和音频选项,考生必须区分英语单词和伪英语单词(在形态和语音上合理但没有真正意义的单词);
C-test——通过提供某些单词被“损坏”的段落(删除部分单词的后半部分),并要求考生填写缺少的字母来衡量阅读能力;
听写测试——通过让考生抄录录音来评估听写技能;
口语测试——要求考生大声说出一句英语。
为了实现根据难度对问题进行排序的词汇测试算法,以使测试中的一系列问题与能力匹配,Duolingo聘用了一批具有英语教学经验的语言学博士,根据CEFR级别编制了一系列带有标签的单词清单,从“初学者/突破”到“熟练/精通”。他们将语料库输入AI模型以对其进行训练,这些模型了解到高级单词(甚至是伪单词)很少见,并且大多具有拉丁和希腊词源,而基本单词则很常见,并且大多是盎格鲁-萨克逊词源。
对于c-tests,Duolingo利用在线资源中的一系列语料库,包括英语自学网站、英语水平考试备考资源、用Simple English重写的English Wikipedia文章以及英语语句数据库Tatoeba,并结合回归和排序来构建较长的AI模型。这种模型先在标记的文本上训练,然后再在具有相似语言特征的未标记文本上进行训练,不仅能够学会预测具体c-test的难度,还能预测听写和口语测试的难度。
Duolingo报告表示,经过训练的模型在85%的情况下能够正确地将较困难的段落排在较简单段落之上,并且其预测与四位专家的预测相似。研究人员使用这些预测从语料库中的段落和专家撰写的400多个段落中自动生成c-test。最终,需要通过已进行25,000多个测试的CAT管理算法,将所有问题自动提供给考生,以实现智能的循环考察(例如,文本或音频的对/错词汇判断、c-test、听写、口语)。随机选择前四个问题后,算法会估算测试分数,并选择下一个问题的难度,然后重复此过程,直到测试完25个项目(或40分钟)。
在真实的考试环境中,监考员会在AI的帮助下,在多轮考试的不同测试阶段中查看大约75种考生行为,以检测是否违反规则。除此之外,在测试过程中,计算机视觉算法会通过考生的网络摄像头验证其身份,如果他们尝试访问外部应用程序或插件,则会自动取消测试。
Duolingo对2018年进行的超过21000次考试中的50万个考生考试数据进行了分析,结果显示,Duolingo English Test的排名几乎与传统的考试所提供的排名相同。此外,该测试与TOEFL和IELTS之类的英语评估有“显著”(0.73)关联,并且在可靠性和测试安全性方面达到了行业标准。Duolingo发现,应试者平均需要参加大约1000次测试才能看到相同的测试题目。
在将来的工作中,Duolingo研究人员计划调查能力相同但性别或年龄等不同的人,其成功答出测试问题的概率在多大程度上是不平等的。此外,他们希望研究能否将诸如叙事能力和单词准确性之类的其他指标纳入Duolingo English Proficiency模型中,以预测文本的难度。因此,最近发布的测试版本包含更多细化的口语和写作练习,并且测试结果可靠性更高。
Duolingo机器学习科学家Burr Settles和评估科学家Geoffrey LaFlair在最近发表的博客文章中表示,“英语是Duolingo中最受欢迎的语言,很多初学者询问我们是否能够提供证书来帮助他们获得更高水平的教育和更好的工作机会。Duolingo是一家有使命感的公司,我们创建了Duolingo English Test以打破通往高等教育的障碍。结果我们了解到,一种在线的、个性化的测试方法不仅对于增加访问量很重要,它亦是一项重要的创新,正在重塑我们的教育体系,我们很高兴能引领这一潮流。”
Duolingo在AI支持的英语测试方面的投资与其在语言学习平台上对AI的改进相吻合,其平台旨在自动为每个语言学习者量身定制更具吸引力的课程。Settles在去年7月的一次采访中表示,统计和机器学习模型(例如半衰期回归)可以分析数百万用户的错误模式,以预测一个人长期记忆中每个单词的“半衰期”,并帮助平台内容创作者为初级、中级、和高级学习者量身定制学习材料。
“英语中有数百万个单词,其中可能有1万个是高频单词,我们要按什么顺序教它们?我们如何将它们串在一起?”Settles说,“我们AI战略的核心是尽可能模仿人与人的交互体验。”
Powered by Froala Editor