本文作者Sahlgren 是教育经济学研究中心的研究主任, 也是工业经济研究所的附属研究员。文章观点不代表英国私校指南观点,仅供参考。

2000年以来, 比萨在全球范围内一直扮演教育政策的主导,角色 但从纸面到计算机测试的转变使得每年都无法进行有效的比较。

自从国际学生评估方案 (Pisa) 于2000年第一次进行以来, 它已成为全世界教育政策的主导。每三年, 随着新的分数的发布, 媒体非常关注那些在排行榜上表现出色或成绩不佳的国家。

 

伴随着这些媒体的狂热, 教育政策制定者们已经开始对教育系统的成功和失败进行基准测试, 很多政策来自与于该国家在Pisa 评分的变化。例如, 在 2012年, 波兰的教育政策在该国不断提高的PISA成绩后, 就一跃成为明星政策。相反, 瑞典被认为是世界范围内的一个警示案例, 因为它在同一时期的排行榜上暴跌。

 

然而, 在这一测试中随着时间而改变的测试规则对横向比较结果带来的影响并没有得到重视的事实。如果测试的方法做了变动, 则可能几乎不可能与前几轮进行有效的比较。

 

明显的下降

也许对 Pisa 测试管理的最重大的变化是最近2015年从纸面到基于计算机的评估。在之前的几年, 所有学生都用纸和笔完成了测试。在比萨 2015, 大多数国家的学生转而在电脑上进行测试。

 

在 Pisa 2015 分的发布之后, 各国表现都出现明显的下降, 导致人们猜测这一考试方法的转变是否影响了考试的结果。例如, 在2012和2015之间, 香港的科学指数下跌了32点, 南韩的数学成绩则下降了30点, 而日本的阅读成绩则下跌了22点。这一下降并不限于东亚: 例如, 德国、爱尔兰和波兰的科学得分也下降了15-24 点。

 

这些都是相当大幅度的下降, 相当于50%至100%的一个学年的学习价值-这是完全不合理的, 他们不能反映真正的变化。深入研究这个问题, 我发现各国在数学课程中的平均 ICT 使用率与 Pisa 2012 和2015之间数学表现的变化之间有着显著的正相关关系。似乎对信息和通信技术熟悉程度高的学生受益, 而对信息通信技术了解不多的学生则从改变到计算机的评估中拿不到高分。

 

受影响的比萨
然而, 相关性并不是因果关系。这种模式背后可能还有其他原因, 今天, 教育经济学中心发表了有史以来第一篇文章, 以表明, 在基于计算机基础上的评估确实影响了 Pisa 评分的可比性。

 

这篇论文由约翰. Jerrim 教授撰写, 利用了 Pisa 的现场试验, 学生被随机分配到电脑上或用纸和钢笔完成同样的问题。因此, 我们可以肯定, 任何差异都反映了计算机本身的因果效应。

 

通过分析来自爱尔兰、德国和瑞典的数据, 研究表明完成计算机测试的学生比完成试卷测试的学生要差得多。区别是最明显的在德国 (至多26比萨点), 然后是爱尔兰 (至多18比萨点) 和瑞典 (15 比萨点)。然而, 有趣的是, 很少有证据表明计算机测试的影响上有系统性的性别差异。

 

发布数据
重要的是, 在 Pisa 2015 中, 正式用于计算计算机和纸面评估之间差异的方法并不能解决各个国家差异的问题, 尽管在这方面不同国家有不同的情况: 在德国和爱尔兰的学生用不同的方法测试,两个国家之间的差异依然一样。

 

由于我们无法将调查结果用于其他国家, 所以我敦促各国尽快将其实地试验数据发布给研究人员, 因为这将使我们能够更全面地了解这一变化对全世界 Pisa 评分的影响。

 

尽管如此, 该论文的研究结果表明, 在最近的 Pisa 测试中, 测试方法的转变可能对一些国家的影响比其他一些国更严重。因此, 政策制定者应该保持谨慎态度,从最近的分数变化中能否得出有关教育系统性的结论?这个风险实在太大了, 任何这样的结论都是不准确的。

 

留言