在国家鼓励教育评价改革、教育考试数字化发展的背景下,为了提高学生英语综合语言语用能力,2009年,江苏成为全国首个将英语口语口试纳入中考的先行试验区。
如今,中考英语听说考试机考机评已在全国大多数城市落地,听力口语分值占外语总分的比例可达16%至40%,比重还有不断上升的趋势。
英语听说考试的机评方案也在实际落地应用中不断被打磨——从“单一AI大脑机评”到“智能双评+人工仲裁”,英语口语考试评价更精准、公正、客观、有效。
2013年,驰声首倡“双机评”,已被多地中高考采纳并实施
“智能双评+人工仲裁”的评分方案,是2013年广西高考口语考试自动评分技术验证项目时,驰声率先提出的方案设想。
“双评+仲裁”制是中高考主观题普遍采用的评分机制,即将同一题目随机分发给不同的评卷老师,通过预设阈值控制分差。若两人评出的分数在专家组设定的评分误差范围之内,则取其平均值计分;超出评分误差范围的,进行专家第三评;仍超出评分误差范围的由评卷专家组集体研究仲裁。
在中高考英语听说考试中采取“智能双评+人工仲裁”方案,正是借鉴了上述严肃严谨的人评方式。即,两家技术服务商的智能评分引擎,分别自适应学习标杆卷的专家评分标准,独立评分后取平均分。如果两家评分结果的差值超出考试院规定的阈值,比如:20%,触发专家仲裁。
2016年沈阳中考英语口语考试,首次在正式考试中采用“双机评”方案,超过5万初中毕业考生参与了此次中考。2016年5月下旬公布成绩以后,无任何一位考生提出对分数进行复查和申诉,有效保障了考试的公平公正。
之后,“双机评”在2021年得到标志性规模应用。上海、湖北宜昌、辽宁盘锦等多地中考英语听力口语自动化考试“智能双评+人工仲裁”同时落地实施,成效显著。
以上考试,均由驰声提供AI口语阅卷技术。
2024年,中国教育风向标——上海,成为全国首个在普通高等学校招生全国统一考试外语听说测试启动“第二机评”项目验证研究工作的城市。高考也启动AI双机评,这意味着,中国考试评价改革迈向新里程,AI推进选才公平公正的道路,再进一步。
“双机评”优势得以验证,科学、严谨、公平、安全
在中高考英语听说考试中引入“智能双评+人工仲裁”的评分机制,其科学性和严谨性已得到认可——
1、相互校验比对,确保评分质量:“智能双评+人工仲裁”引入多个评分源,结果相互比对和校验后,大分差出现机率比单机评可有效降低30-80%。
驰声曾参与某省某次高考评分验证,数据说话:采取两家厂商的“智能双评+人工仲裁”机制,最终二者融合后的最终成绩准确性、客观性、有效性得到大幅提高——
※在对机器评分进行有效性和可行性验证评价时,评价组采用评分专家组的五评分去掉一个最高分和一个最低分后的均值作为基准分,把两家厂商机器评分结果与基准分进行比较。
2、增强评分透明度,提高可追溯性:考试数据严格归属于考试组织方,机器评分标准也必须使用专家评阅标杆卷后的评分结果进行训练,通过统一的考试评分流程和数据验收标准,两家技术商相互监督和制约,数据查询和成绩复核更便捷。
3、双AI+专家,多方共护社会信任:“智能双评+人工仲裁”可有效解决评分争议、打消公众疑虑,增强社会对考试评分公正的信任,维护考试权威和考生的权益。
总的来说,采用"双机评"模式符合当前教育信息化和智能化的发展趋势,通过多个智能评分引擎的评分结果进行比较和综合,可减少单一评分系统可能存在的误差,确保考试评分更加客观和公正。
多年来,驰声与各地教育主管部门高效协同,积累了丰富的中高考英语听说考试“智能双评”合作经验。
未来,驰声将继续保持技术研发创新态势,不断提升项目组专业能力,并搭建全面的问题知识库,用更高标准、更严要求打造“智能双评”SOP流程,确保执行规范有序,为中高考一路护航。