Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling

Q4 Social Sciences

Acta Didactica Norge Pub Date : 2018-11-27 DOI:10.5617/ADNO.6358

Tor Midtbø, A. Rossow, B. Sagbakken

{"title":"Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling","authors":"Tor Midtbø, A. Rossow, B. Sagbakken","doi":"10.5617/ADNO.6358","DOIUrl":null,"url":null,"abstract":"Sensorer vurderer skriftlige tekster ulikt, og menneskelig sensur er en utfordring for prøvers reliabilitet. Dette er en utfordring som Kompetanse Norge må ta høyde for i arbeidet med å utvikle og kvalitetssikre Norskprøven for voksne innvandrere. Denne artikkelen redegjør for hvordan den statistiske modellen Many-Facets Rasch Measurement (MFRM) er brukt til å undersøke sensorkorpsets reliabilitet ved sensurering av Norskprøvens delprøve i skriftlig framstilling for desemberavviklingen 2017. MFRM-modellen gir oss informasjon om hvor streng og pålitelig hver sensor er i vurderingen av kandidatbesvarelser. Analysen viser at det er klare forskjeller i strenghet innad i sensorkorpset, og at kandidatens endelige resultat kan være påvirket av hvilke sensorer som vurderer besvarelsen. Samtidig finner vi at de fleste av de 77 sensorene sensurerer stabilt og pålitelig, som vil si at de har høy intra-sensorreliabilitet. Dette viser at sensorkorpset i stor grad oppfyller målsetningen om sensorer som uavhengige eksperter med konsekvent vurderingsadferd. Avslutningsvis diskuteres utfordringene knyttet til begrensninger ved prøvens utforming for analyse av sensorreliabilitet. I lys av diskusjonen vurderer vi MFRM sin rolle og egnethet, og peker på noen utviklingsområder.Nøkkelord: norskprøve, skriftlig vurdering, reliabilitet, inter-sensorreliabilitet, intra-sensorreliabilitet, Many-Facet Rasch MeasurementNorwegian language test - Measuring rater reliability in the assessment of written presentationAbstractRaters assess written texts differently, and rater-mediated assessment is a challenge for test reliability. This is something Skills Norway has to take into consideration as test developer of the Norwegian test for adult immigrants. In this article, we demonstrate how the statistical model Many-Facets Rasch Measurement (MFRM) has been used to examine rater reliability in the written part of the test, using data from the December 2017 test. The MFRM model produces estimates on all raters in terms of severity and consistency. The results show large and significant variation in severity among the raters, and the candidates’ final results can be affected by which raters have assessed the test. Nevertheless, we find that most of the 77 raters assess consistently, showing high intra-rater reliability. This finding suggests that the raters, to a large degree, fulfil their role as independent experts with consistent rating behaviour. Finally, we discuss the challenges associated with the limitations of the test’s design, with respect to analysing rater reliability. We assess MFRM’s role and suitability, and identify possible areas of future study.Keywords: language testing, written assessment, rater-mediated assessment, inter-rater reliability, intra-rater reliability, Many-Facet Rasch Measurement","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2018-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Acta Didactica Norge","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5617/ADNO.6358","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"Social Sciences","Score":null,"Total":0}

引用次数: 0

Abstract

Sensorer vurderer skriftlige tekster ulikt, og menneskelig sensur er en utfordring for prøvers reliabilitet. Dette er en utfordring som Kompetanse Norge må ta høyde for i arbeidet med å utvikle og kvalitetssikre Norskprøven for voksne innvandrere. Denne artikkelen redegjør for hvordan den statistiske modellen Many-Facets Rasch Measurement (MFRM) er brukt til å undersøke sensorkorpsets reliabilitet ved sensurering av Norskprøvens delprøve i skriftlig framstilling for desemberavviklingen 2017. MFRM-modellen gir oss informasjon om hvor streng og pålitelig hver sensor er i vurderingen av kandidatbesvarelser. Analysen viser at det er klare forskjeller i strenghet innad i sensorkorpset, og at kandidatens endelige resultat kan være påvirket av hvilke sensorer som vurderer besvarelsen. Samtidig finner vi at de fleste av de 77 sensorene sensurerer stabilt og pålitelig, som vil si at de har høy intra-sensorreliabilitet. Dette viser at sensorkorpset i stor grad oppfyller målsetningen om sensorer som uavhengige eksperter med konsekvent vurderingsadferd. Avslutningsvis diskuteres utfordringene knyttet til begrensninger ved prøvens utforming for analyse av sensorreliabilitet. I lys av diskusjonen vurderer vi MFRM sin rolle og egnethet, og peker på noen utviklingsområder.Nøkkelord: norskprøve, skriftlig vurdering, reliabilitet, inter-sensorreliabilitet, intra-sensorreliabilitet, Many-Facet Rasch MeasurementNorwegian language test - Measuring rater reliability in the assessment of written presentationAbstractRaters assess written texts differently, and rater-mediated assessment is a challenge for test reliability. This is something Skills Norway has to take into consideration as test developer of the Norwegian test for adult immigrants. In this article, we demonstrate how the statistical model Many-Facets Rasch Measurement (MFRM) has been used to examine rater reliability in the written part of the test, using data from the December 2017 test. The MFRM model produces estimates on all raters in terms of severity and consistency. The results show large and significant variation in severity among the raters, and the candidates’ final results can be affected by which raters have assessed the test. Nevertheless, we find that most of the 77 raters assess consistently, showing high intra-rater reliability. This finding suggests that the raters, to a large degree, fulfil their role as independent experts with consistent rating behaviour. Finally, we discuss the challenges associated with the limitations of the test’s design, with respect to analysing rater reliability. We assess MFRM’s role and suitability, and identify possible areas of future study.Keywords: language testing, written assessment, rater-mediated assessment, inter-rater reliability, intra-rater reliability, Many-Facet Rasch Measurement

查看原文本刊更多论文

通过挪威写作进度测试评估传感器可靠性

传感器对文本的评估不同，而人类传感器是测试可靠性的一个挑战。这是一个挑战，挪威专员必须在为成年移民开发和提供高质量的挪威样本的工作中发挥高水平的作用。本文解释了如何使用统计模型Many Facets Rasch Measurement（MFRM），通过对2017年12月革命书面进展中的挪威部分测试进行传感，来调查传感器尸体的可靠性。MFRM模型为我们提供了关于每个传感器在评估候选响应时的严格程度和可靠性的信息。分析表明，传感器尸体内部的压力存在明显差异，候选传感器的最终结果可能会受到评估响应的传感器的影响。同时，我们发现77个传感器中的大多数传感稳定可靠，这意味着它们具有较高的传感器内可靠性。这表明，传感器尸体作为具有一致评估行为的独立专家，广泛地完成了传感器的测量。最后，讨论了与传感器可靠性分析测试公式中的局限性相关的挑战。根据讨论情况，我们考虑了MFRM的作用和自决权，并指出了一些发展中的领域。评分者介导的评估是对测试可靠性的挑战。作为挪威成人移民测试的开发人员，挪威技能协会必须考虑到这一点。在这篇文章中，我们展示了统计模型Many Facets Rasch Measurement（MFRM）是如何在测试的书面部分使用2017年12月测试的数据来检查评分者的可靠性的。MFRM模型根据严重程度和一致性对所有费率进行估计。结果显示，不同评分之间的严重程度差异很大，考生的最终成绩可能会受到评分者对考试的评估的影响。然而，我们发现，77名评分者中的大多数都进行了一致的评估，显示出较高的评分者内部可靠性。这一发现表明，评分者在很大程度上履行了他们作为独立专家的角色，具有一致的评分行为。最后，我们讨论了与测试设计的局限性相关的挑战，以分析评分器的可靠性。我们评估MFRM的作用和适用性，并确定未来研究的可能领域。RapidKeywords:语言测试，书面评估，评分者中介评估，评分间可靠性，评分者内部可靠性，多方面Rasch测量

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊