【方案概述】
革新中高考英语听说考试评分模式:旗鼓相当,但和而不同
2013年,在广西高考口语考试自动评分技术验证项目时,驰声率先提出“智能双评+人工仲裁”的评分方案设想。
“双评+仲裁”制是中高考主观题普遍采用的人评机制。在中高考英语听说考试中采取“智能双评+人工仲裁”方案,则用更客观的机评介入,保障考试公平。即,两家技术服务商的智能评分引擎,分别自适应学习标杆卷的专家评分标准,独立评分后取平均分。如果两家评分结果的差值超出考试院规定的阈值(如:20%),则触发专家仲裁。
“旗鼓相当”但“和而不同”,恰如其分的形容了英语听说考试中两个AI大脑的合作之旅。“双机评”需要保证两个评分方案是完全独立的算法和思想,才能够互相印证、互相质检、互相均衡,达到最终的评分稳定、不出错。如果采用一家厂商的两种评分方案,实际上是“近亲繁殖”,极不可取。
2021年起,“双机评”得到标志性规模应用。上海、湖北宜昌、辽宁盘锦、大连、营口等多地中考英语听说考试“智能双评+人工仲裁”先后落地实施,驰声均担任AI阅卷技术服务提供方。
【政策背景】
英语听说考试公平性备受重视,「双机评」写入多地中高考方案
1、2021年7月,教育部等六部门 《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》:鼓励有条件的地区和学校探索试行规模化在线考试、无纸化考试。
随着英语听说考试机评的逐步开展,考试的公平性和公正性成为关注的焦点,也对英语听说考试的评分模式提出了更高的要求。
2、2019年9月,《盘锦市初中学业水平考试英语科目听力口语自动化考试说明解读》中明确要求:英语听力口语自动化考试采用双系统同时进行评分,确保评分公平、准确。
2023年10月,《大连市初中学业水平考试外语听力口语测试实施方案(试行)》中明确要求:评分工作由市招生办统一组织实施,评分标准由市命题组统一制定,采用智能“双评”进行机器评分。
3、2024年3月,上海成为全国首个启动普通高等学校招生全国统一考试外语听说测试“第二机评”的项目验证研究工作的城市。
4、2023年5月,北京教育考试院副院长、研究员李鸿江、北京教育考试院信息化处高级工程师孙利君发表论文《数字化转型视域下英语听说机考的创新与实践》:随着智能评分引擎技术的成熟,“智能双评+人工仲裁”的双机评模式将成为可能,目前北京教育考试院已邀请多家行业内公司共同开展双机评研究。北京教育考试院将根据研究结果确定是否在后续考试中开展双机评的试点与推广。
【考情变化】
多地已验证「双机评」机制公平性,减少单一机评可能存在的误差
1、相互校验比对,确保评分质量:“智能双评+人工仲裁”引入多个评分源,结果相互比对和校验后,大分差出现机率比单机评可有效降低30-80%。
驰声曾参与某省某次高考评分验证,数据说话:采取两家厂商的“智能双评+人工仲裁”机制,最终二者融合后的最终成绩准确性、客观性、有效性得到大幅提高——
2、增强评分透明度,提高可追溯性:考试数据严格归属于考试组织方,机器评分标准也必须使用专家评阅标杆卷后的评分结果进行训练,通过统一的考试评分流程和数据验收标准,两家技术商相互监督和制约,数据查询和成绩复核更便捷。
3、双AI+专家,多方共护社会信任:“智能双评+人工仲裁”可有效解决评分争议、打消公众疑虑,增强社会对考试评分公正的信任,维护考试权威和考生的权益。
【业务挑战】
「双机评」模式下,对「双机评」厂商有4大严格要求
当前英语听说考试主流的机器学习算法相似,效果的差异在于训练样本集合规模、特征提取的种类和权重等。想要达到客观公平的评分目标,在双机评模式下对于副机评厂商的要求也较为严格,需具备以下条件:
准确性:副机评需与主机评效果相当;
互补性:副机评需能够检出主机评评分不准确的样本,起到质检效果;
稳定性:副机评的算法均需要经过多次同一场考试评分效果验证,保障算法具备评分的稳定性,没有波动带来的效果差异。
有完善的评卷组织流程:副机评需要针对双机评模式设计完备的效果保障机制、运营监控机制以及应急预案,防范双机评出现系统性评分偏误。
【方案亮点】
11年「双机评」丰富经验,评分技术过硬
1、与专家评分、头部友商机器评分结果无限接近
驰声拥有17 年人工智能算法和自然语言处理技术研究持续完善算法模型,具有高效的数据处理能力,可轻松应对百万量级音频评分。
历年数据显示,驰声机器评分系统标准化、规范化,机评结果与专家评分、头部友商机器评分结果一致性相当接近,可确保最终成绩的公正、准确、严谨、可信,增强公众信任。
2、“双机评”经验丰富,与教育局、友商配合默契
2013年,在广西高考口语考试自动评分技术验证项目时,这是教育界首次启用“双机评”评分方案,由驰声与科大讯飞共同参与。此后,2016年沈阳中考英语口语考试,首次在正式考试中采用“双机评”方案,亦由驰声与科大讯飞共同完成。
时至今日,驰声与业内头部友商精诚合作,已完成多地、10多场中高考英语听说考试双机评的技术服务项目。在沟通协作方面,各地教育部门也给予驰声满分信赖。不论与哪家友商合作,驰声都充分理解与尊重合作伙伴的工作方式,数据对接规范、衔接流程顺畅。
3、制定“双机评”SOP评卷流程,操作规范严谨
基于积累的双评合作经验和心得,驰声梳理出“智能双评+人工仲裁”SOP,六大流程,覆盖了考前筹备、人工定标、机器自适应学习、机器评分、提交成绩、人工仲裁——
4、金牌团队全程考评护航服务,搭建完善的应急预案
驰声搭建考试算法研发中心、专项技术专家团队、重大事件应急团队、服务监管团队,各团队随时候命,持续改进考评质量。
此外,驰声还设计了完备的评分应急体系,保密性强,技术人员、服务器双备份,数据全程安全加密,操作规范,配合度高,高度服从考试院、教育局决策指挥,全面汇报,确保考试数据验收合格达标。
【成功案例】
大连:2024年中考英语听说首考,驰声为5万考生保公平
2024年是辽宁省新中考改革落地实施的第一年,也是大连中考举行外语听力口语测试的第一年,外语科目共计120分,其中,听力口语30分,分值占比高,重要性强。
驰声作为机评方之一不负使命,顺畅沟通、高效协作,严肃、严谨、严格完成5万余名中考生、20多万个音频的口语阅卷工作,评分结果验收合格达标。
盘锦:驰声连年服务当地中考英语听说考试“双机评”
盘锦是中国较早开始主动探索初中学业水平考试英语听力口语自动化考试“双机评”的城市。2021年,盘锦中考外语听力口语测试首考,驰声便是双机评服务商之一。在随后公开招投标的2022-2024年盘锦中考机评项目中,驰声再次通过严格的资质审查和技术验证环节,成功中标。
2024年,为与辽宁省中考改革方案接轨,盘锦中考英语听说考试不仅变更了新题型,分值也从之前的20分上升到30分,考试重要性不断提升。
驰声为盘锦近1.2万名中考生提供英语听力口语阅卷服务,用稳定准确的阅卷能力、专业可靠的服务、高效的数据处理能力,获得当地招考办的一致认可。
【合作通道】
与渠道合作伙伴,共拓中高考英语听说大市场
驰声致力于提供卓越的英语听说考试方案、服务和模拟考试、AI课堂教学产品,现正寻找志同道合的渠道伙伴,共同开拓教育领域的新篇章。
如果您对英语听说考试大市场有兴趣,欢迎与我们联系。
座机:0512-62729761
手机:18015582611