• 公司介绍
  • 发展历程
  • 新闻中心
  • 人才招聘
  • 典型客户
  • 联系我们
  • 驰声动态 行业新闻

    你知道中高考英语人机对话考试的评分标准怎么来的吗?

    驰声科技   2017-8-22 17:47:18

    智能时代到来的今天,学习也不再只是“纸上谈兵”,随着全国中高考改革的不断推进,各地方的考试政策都在发生着变革。以外语学科来说,到目前为止,全国推行在英语中高考考试中加入听说考试,已经和即将要采用“人机对话”考试的地区有:

    中考:北京、江苏、浙江、广东、重庆、沈阳、银川、合肥、长沙、衡阳、青岛、淄博、威海等地

    高考:北京、广东、云南、江苏、上海等地


    数字还在增加,越来越多的省市准备要加入这个行列,这预示着英语人机对话口语考试的时代已悄然来临。机器可以取代老师吗?机器是按照什么标准来评分的?下面跟着小编来一一揭秘。


    什么是英语人机对话口语考试

    英语人机对话口语考试,是指由电脑代替英语教师扮演考官的角色,所有考题和指令均由电脑发出,考生根据从耳机中听到的或在电脑屏幕上看到的指令和要求回答问题,机器根据专家老师的评分标准,对考生的成绩自动评分。


    机器当考官,它的评分标准从何而来

    就像评论一个人普通话说得如何,口语考试评分是主观评分,此类评分具有主观性和不确定性。传统的人工评分会受到不同考官的专业能力、喜好、疲劳程度、注意力是否集中等因素影响。而口语考试评分的专业性要求也非常强,不仅要求评卷老师必须具备良好的英语口语基础,且必须经过专业的培训,对评分标准形成统一的认知。就像中文的作文批改,评分员需要经历专家老师的样卷讲解和评分培训,达到标准之后才可以进行正式评分。而机器替代人,如何成为考官?又要经过什么样的训练来确定评分标准呢?

    首先,通过一张图了解一下机器评分的流程:


    每一家提供机器评分的厂商,首先需要积累足够多的口语考试的录音数据和评分数据,然后根据这些数据通过算法训练,将机器训练成为一个合格的老师。

    以某个地区某次考试为例,考试结束以后,从当地所有考生中随机独立均匀抽取一定数量学生的样卷,然后由多位专家老师对样卷进行评分,专家老师们依据当地的评卷要求对考生语言表达的完整性、准确性、流利性、韵律性等方面进行综合评估打分,这些样卷称之为标杆卷。然后机器通过标杆卷,以多位专家老师的打分平均值为标准,同时参考当地的评分标准要求,进行自适应训练。这其实是根据本地区的情况,对机器的二次培训。训练完成后,先对样卷进行测试,将测试结果与多位专家老师打分的平均值进行比较,来确定机器的评分性能。


    所以,每家厂商的机器评分的标准并不是由厂商而定,而是来自当地的专家老师的评分标准。


    在实际的英语口语考试中,机器评分的准确定、稳定性、客观性已经得到了验证。从成本考量,短期内组织具有丰富评分经验的一线英语口语老师比较困难,而机评则节约了大量的人力、物力、财力。所以,在像中高考等较大范围的大规模的英语口语考试中,机评要优于人评。


    如何保证机器评分更公平

    目前,在全国范围内,真正有超过10万人中高考口语考试实施经验,并在中高考等高利害关系考试中评分性能得到官方认可的厂商仅有两家。但由于不同公司的机器评分系统在设计目标和实现方式上不同,也会使得在某些题型或某些考生的音频上会出现评分的差异。在这种情况下,如何保证机评的准确、公平、公正呢?


    (1)“双评+仲裁”制解决差异音频问题

    “双评+仲裁”制是国际惯例,用来针对所有科目的主观题评判采取的模式。即将同一题目随机分发给不同的评卷老师,通过预设阈值控制分差。若两人评出的分数在专家组设定的评分误差范围之内,则取其平均值计分;超出评分误差范围的,进行专家第三评;仍超出评分误差范围的由评卷专家组集体研究仲裁。

    所以,在较大范围的大规模的英语口语考试中,为了保证评分的公平、公正,同样可以采取机器评分的“双评+仲裁”制。

     

    (2)“双评”:两家机评厂商的“双评” 胜于 一家厂商的两种评分方案

    机评的“双评”需要保证两个评分方案是完全独立的算法和思想,才能够互相印证,互相均衡,达到最终的评分稳定、不出错。虽然,在正式考试中,每一家机评厂商的方案都会采用多种评分算法融合而来。但是,如果采用一家厂商的两种评分方案,实际上是“近亲繁殖”,极不可取。所以,在中高考的口语考试中,最好是采取两家机评厂商的“双评+仲裁”的模式。 

    下面,以驰声参与过的某省某次高考评分验证来说明采取两家厂商的“双评+仲裁”制的优势。

    在对机器评分进行有效性和可行性验证评价时,评价组采用评分专家组的五评分去掉一个最高分和一个最低分后的均值作为基准分,把两家厂商机器评分结果与基准分进行比较。从样本数据的评分精确度、评分误差率这两个维度来说明两家厂商机评数据融合后的统计分析。

    验证结果:

    两家厂商机评数据采用“双评+仲裁”制进行融合后,评分准确度比任何一家都大幅提升,评分误差率大幅下降。因此机器评分采取“双评+仲裁”的模式,会更加公平、公正、客观。

    2016年,辽宁省沈阳市中考英语口语考试中成功实施了两家厂商的“双评+仲裁”模式。超过五万初中毕业考生参与了此次中考。 2016年5月下旬公布成绩以后,无任何一位考生提出对分数进行复查和申诉,保证了考试的公平公正。


    随着人工智能技术的发展,技术服务于教育。人机对话考试不仅可以提高大范围、大规模的口语考试的组织效率,还能进一步减轻考务人员和阅卷老师的压力。且机器的评分标准也更科学,与“双评+仲裁”制相结合,更加保障了机器评分方案的公平性和客观性。

    解决方案
    微口语解决方案
    英语学习行业解决方案
    典型客户案例
    考试方案
    正式考试评分方案
    校园版考辅训练方案
    典型客户案例
    关于我们
    公司介绍   人才招聘
    发展历程   典型客户
    新闻中心   联系我们

    微信公众号
    微博二维码
    苏州驰声信息科技有限公司 Copyright © 2016 All Rights Reserved 苏ICP备14027754号 百度统计

    电话

    我们随时准备为您提供帮助

    联系销售专家
    • 致电驰声 0512-62729572
    • 全球联系方式

    社交

    关注

    • 社交媒体目录