{"title":"Det första nationella provet i samhällskunskap - en studie i bedömarsamstämmighet","authors":"Arne Löfstedt","doi":"10.5617/ADNO.6283","DOIUrl":"https://doi.org/10.5617/ADNO.6283","url":null,"abstract":"Skolämnet samhällskunskap som eget ämne existerar i princip enbart i de nordiska länderna. I många andra länder delar flera skolämnen på ämnesinnehållet, till exempel geografi och civics. Ämnesinnehållet är stort och genomgår ständig förändring. År 2013 genomfördes de första nationella proven i samhällskunskap i Sverige för årskurs 9. Med tanke på ämnets karaktär kan det vara speciellt viktigt att undersöka om dessa prov är ”rättvisa.” Avsikten med denna studie är att undersöka en aspekt av denna ”rättvisa”, nämligen interbedömarstabilitet, dvs om samma elevsvar ger upphov till samma bedömning oavsett bedömare. Skolverket i Sverige genomförde 2009 en större studie av de ämnen som då genomförde nationella prov och föreliggande studie försöker dels efterlikna och dels bygga ut upplägget från Skolverket. Studien genomfördes på de första nationella proven i samhällskunskap 2013. Genom att pröva olika reliabilitetsmått inom kategorierna ”consensus estimates”, och ”consistency estimates” analyseras resultaten, bland annat diskuteras måttet intraclass correlation. Syftet är också, då detta var de första proven, att skapa en ram för återkommande studier av Interbedömarreliabilitet. Upplägget med en större mängd lärare som genomför totalt tre bedömningar av de utvalda hela proven försöker också efterlikna bedömningssituationen ute på skolorna såtillvida att det var relativt många lärare med i studien, och de kom från olika skolor spridda över Sverige. Genom detta testas också bedömningsanvisningarnas stabilitet. Själva genomförandet var omfattande och tog två hela dagar. Resultaten pekar på en god överensstämmelse för provbetyget, det sammanfattande omdöme eleverna får. Studien avses att återupprepas under kommande år.Nyckelord: Samhällskunskap, nationella prov, interbedömarreliabilitet, intraclass correlationThe first national test in samhällskunskap – a study of interrater reliabilityAbstractThe Swedish school subject Samhällskunskap (Societal knowledge) exists basically only in the Nordic countries. In other countries a number of different subjects, such as geography and civics, share the content. The content of the subject is constantly changing, depending on how society is changing. The first national tests in Samhällskunskap for all Swedish ninth graders took place in 2013. A large part of the test contains constructed responses. Given the characteristics of the subject we consider it especially important to investigate whether these tests are “fair” or not. The intent of this study is to investigate one aspect of “fairness”, interrater reliability, meaning the degree to which the same student responses are scored equally by different raters. In 2009, the National Agency of Education in Sweden conducted a large study of the subjects Swedish, English and Mathematics. Our study aims to mimic and further develop the design of the study from 2009. Our study was carried out on the first national tests in 2013. The results were analyzed by exploring dif","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47543162","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Bente Rigmor Walgermo, Per Henning Uppstad, Kjersti Lundetræ, Finn Egil Tønnessen, OddnyJudith Solheim
{"title":"Kartleggingsprøver i lesing - tid for nytenking?","authors":"Bente Rigmor Walgermo, Per Henning Uppstad, Kjersti Lundetræ, Finn Egil Tønnessen, OddnyJudith Solheim","doi":"10.5617/adno.6499","DOIUrl":"https://doi.org/10.5617/adno.6499","url":null,"abstract":"Som en del av det Nasjonale kvalitetsvurderingssystemet for grunnopplæringen (NKVS) i norsk utdanning har vi i dag forskjellige leseprøver med ulikt formål og utforming for bruk i det 13-årige skoleløpet. I denne artikkelen tegner vi opp en historisk bakgrunn for innføringen av kartleggingsprøvene i lesing i begynneropplæringen, og peker på flere forhold som kaller på en nytenking av dette prøvekonseptet. I artikkelen viser vi ved hjelp av data fra en longitudinell studie hvordan en kort oppgave gjennomført i slutten av første klasse predikerer vansker med leseforståelse i 3. klasse. Med utgangspunkt i disse resultatene drøfter vi kimen til et mulig nytt prøvekonsept med potensiale for a) bedre samsvar mellom teori om lesing og måling av lesing, b) longitudinell prediksjon, og c) en prøve som kan gjennomføres på kortere tid med forbedret pedagogisk potensiale. Sentralt i dette forslaget står tanken om en kort inngangsprøve som oppfyller prøvens primære formål om å identifisere de elevene som står i fare for å utvikle vansker med lesing, fulgt av en utforskende del gjennomført en-til-en som gir læreren informasjon om hvordan vansken arter seg.Nøkkelord: kartleggingsprøver i lesing, longitudinell prediksjon, tidlig innsats, dysleksi, lese- og skrivevansker, intensiv opplæring. Is it time to rethink screening tests for Reading?AbstractAs part of the national quality assessment system in education, Norwegian schools use a variety of reading test with different purposes and designs. In this study we initially provide a historical background regarding the development and implementation of the first-grade screening tests for reading. Within this historical context, we point to the need for rethinking the overall design and philosophy of these tests. Using longitudinal study data, we empirically document how a short group-administered assessment task at the end of first grade predicts difficulties in reading comprehension at the end of third grade. Based on these results we discuss the development of a new design with potentially a) better concurrence of reading theory and reading measures, b) longitudinal prediction, c) a shorter test with better pedagogical potential. Central to this idea is a short initial task that can fulfil the primary purpose of the screening, followed by an explorative, observational aspect, implemented in a one-to-one manner, that would provide greater information regarding the nature of the difficulty.Keywords: screening tests for reading, longitudinal prediction, early efforts, dyslexia, reading and writing difficulties, special education","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"42708767","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Marit B. Henriksen, Karen Inga Eira, Jan Henry Keskitalo, Kamil Øzerk
{"title":"Nasjonale prøver i lesing på samisk - på hvilke vilkår?","authors":"Marit B. Henriksen, Karen Inga Eira, Jan Henry Keskitalo, Kamil Øzerk","doi":"10.5617/adno.6293","DOIUrl":"https://doi.org/10.5617/adno.6293","url":null,"abstract":"Tema for denne artikkelen er de nasjonale prøvene i lesing på samisk. Disse prøvene utformes på nord-, lule- og sørsamisk, og gjennomføres årlig for elever med samisk som førstespråk på 5., 8. og 9. klassetrinn. Problemstillingen om¬fatter bakgrunnen for utviklingen av et eget Rammeverk for nasjonale prøver i lesing samisk, forhold omkring elevpopulasjonen, samt forhold knyttet til opplærings- og læremiddelsituasjonen; og hvordan disse faktorene påvirker utforming og oppfølging av prøvene. Presentasjonen av bakgrunnen for de nasjonale prøvene i lesing på samisk bygger på analyse av dokumentasjon fra prøveutviklingsprosjektet fra og med 2004 og fram til i dag. Videre identifiserer vi premissene for prøvene ut fra gjeldende lovverk og læreplanverk. Undersøkelsen av elevpopulasjon og deltakelse bygger vi på analyse av tilgjengelig tallmateriale, kommentert statistikk og andre studier som tar for seg elevtall og opplæringssituasjonen for samiske elever. Vi legger her fram nye sammenstillinger av tallmaterialet, hvor vi ser på antall elever med samisk som opplæringsspråk i forhold til antall elever med samisk som førstespråk. I kapitlet om de nasjonale leseprøvene på samisk i møte med skolen tar vi for oss opplærings- og læremiddelsituasjonen med bakgrunn i kommentert statistikk og forskningsrapporter, og vi ser at det er stor variasjon på dette området. Denne variasjonen problematiseres i forhold til elevenes muligheter til å oppøve gode leseferdigheter på samisk.Nøkkelord: nasjonale prøver, lesing, samisk, nordsamisk, lulesamisk, sørsamisk, elevpopulasjon, prøveutviklingNational reading tests in Sámi languages – on which terms?AbstractFirst language Sámi speaking students in Norway receive separate Sámi-medium national literacy tests. Literacy tests are developed in North, Lule and South Sámi, and the tests are organized yearly for first language Sámi speaking students in grades 5, 8 and 9. In this article, we look at the background for the development of a separate Framework for national Sámi-medium literacy tests. We also examine conditions concerning the student population, and the situation regarding Sámi-medium instruction and Sámi-medium teaching materials; and how these factors affect the development and follow-up of the tests. The background for the national Sámi-medium literacy tests builds on an analysis of documentation produced in the period ranging from 2004, when the development of reading tests in Sámi started as a project, and up until today. We identify formal terms for the tests, determined by current legislation as well as national curricula. The examination of student population and test participation builds on available statistical material and on studies dealing with student numbers and Sámi-medium instruction in schools. We present new displays of material, where we compare numbers of students receiving Sámi-medium instruction with numbers of students registered as first language Sámi speakers. Based on studies and commented s","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47589118","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"«Det er et verktøy, ikke sant, for oss» - Erfaringer fra fire gjennomføringer med kartleggingsprøver i regning 2014 - 2017","authors":"Guri A. Nortvedt","doi":"10.5617/ADNO.6383","DOIUrl":"https://doi.org/10.5617/ADNO.6383","url":null,"abstract":"I 2014 ble andre generasjon av de statlige kartleggingsprøvene i regning tatt i bruk på 1.–3. trinn i småskolen i Norge. Disse prøvene skal brukes til å identi-fisere elever som kan ha behov for ekstra oppfølging, og skal i tillegg brukes til vurdering for læring med identifiserte elever. Derfor er det mange enkle oppgaver på prøven, slik at lærerne skal få mye informasjon om hva disse elevene mestrer. Kartleggingsprøvene skal normalt ha en levetid på fem år, slik at innholdet i prøvene over tid blir godt kjent for skolene og lærerne. Hva vet vi om norske elevers tallforståelse og regneferdigheter etter fire gjennomføringer, og hvordan bruker lærerne prøvene? Innsamling av elevdata etter hver gjennomføring viser at andelen elever under bekymringsgrensen ikke har sunket i perioden 2014–2017. Elever under bekymringsgrensen viser at de mestrer enkle tellestrategier og at de er i ferd med å utvikle en mental tallinje, men også at de sannsynligvis bruker enkle og kanskje ikke hensiktsmessige regnestrategier. Dybdeintervjuer med sju lærere fra fire skoler viser at de er godt forberedt og påpasselige med å gjennomføre prøvene etter de retningslinjene Utdanningsdirektoratet har fastsatt, men at de strever med å tolke og følge opp resultatene. Enkelte lærere viser også holdninger til prøvene og kartlegging som tilsynelatende ikke er produktive med tanke på effektiv undervisning. Det antas at målrettet etterutdanning og verktøy som kan hjelpe lærere med å tolke data, vil kunne bidra til en positiv endring der prøveresultater i større grad tas i bruk og at dette på sikt vil føre til at færre elever skårer under bekymringsgrensen.Nøkkelord: kartleggingsprøver i regning, lærerholdninger, vurdering for læring, oppfølging, tallforståelse, regneferdigheter “This is a tool, isn’t it, for us to use?”Experiences from four implementations of the national mapping tests in numeracy in 2014–2017AbstractIn 2014, second generation national mapping tests of numeracy were imple-mented in primary grades 1–3 in Norway. These tests should be used to identify students who might benefit from extra teaching. In addition, test outcomes should be used for assessment for learning. To provide teachers with much information about identified students’ competence, the assessment comprises many easy items. The same mapping tests are normally used for five consecutive years to allow teachers insight into what the tests measure. What do we know about students’ concepts of numbers and calculation strategies after four implementations? How do teachers use insights from the assessments? Analysis of student data collected after each implementation reveals that the number of students identified has not decreased from 2014 to 2017. Students below the cut-off score master simple counting strategies and are in the process of developing a mental number line, but most likely use simple and perhaps unproductive calculation strategies. In-depth interviews with seven teachers from four schools reveal ","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" 640","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41251905","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Vilka typer av uppgifter gynnar elever som följer kursplanen i svenska som andraspråk? En undersökning med data från de nationella proven i geografi.","authors":"Andreas Alm Fjellborg, Lena Molin","doi":"10.5617/ADNO.6286","DOIUrl":"https://doi.org/10.5617/ADNO.6286","url":null,"abstract":"Elever med utländsk bakgrund tenderar att prestera sämre än svenskfödda elever i skolan primärt på grund av sämre kunskaper i det svenska språket. Utifrån statistisk analys (Differential item functioning) identifieras uppgifter från de nationella proven i geografi (2014 – 2017) där elever som följer kursplanen i svenska som andraspråk klarar sig avsevärt mycket bättre - eller sämre - än förväntat. Tidigare forskning har visat att geografiska begrepp är särskilt svåra för elever som inte har svenska som modersmål, vilket också påvisas i denna studie. Den visar att det särskilt är uppgifter med lite text som handlar om geografiska begrepp som uppvisar större skillnader i prestationer mellan elever som följer kursplanen i svenska respektive svenska som andraspråk. Resultaten kan stödja såväl lärare som provkonstruktörer att bättre anpassa undervisning och prov genom att undvika att skapa uppgifter som mäter irrelevanta bakgrundsfaktorer som påverkar elevernas möjligheter att besvara uppgifter på ett adekvat vis utifrån deras kunskapsnivåer.Nyckelord: Nationella prov i geografi, uppgiftsformat, elever med utländsk bakgrund, svenskfödda elever, DIF-analysWhat types of test items benefit students who follow the syllabus in Swedish as a second language? A study using data from the Swedish national assessments in geography.AbstractPupils born outside Sweden are likely to accomplish less in comparison to native pupils, primarily as a result of inferior knowledge of the Swedish language. Based on a statistical analysis (Differential item functioning) of questions given at national tests in geography (2014-2017), it was possible to identify questions where pupils following the syllabus of Swedish as a second language attain either considerably better or more inferior results than expected. Earlier research has shown that pupils whose native language is not Swedish find it particularly hard to comprehend geographic concepts, which was confirmed by the present study. This study furthermore revealed that in particular questions containing a limited amount of text concerning geographic concepts resulted in larger differences than expected between native pupils following the syllabus in Swedish and foreign born pupils following the syllabus in Swedish as a second language. These findings could aid teachers and test constructors in their efforts to adjust teaching and tests by not formulating questions that measure irrelevant background factors, which might affect the pupils’ ability to answer questions adequately, based on their level of knowledge.Keywords: National tests in geography, question format, pupils born outside Sweden, Swedish-born pupils, DIF-analysis","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44896968","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Kvantiteter i kvalitativt bedömda elevtexter – framtida verktyg för rättvis bedömning?","authors":"A. Palmér","doi":"10.5617/ADNO.6357","DOIUrl":"https://doi.org/10.5617/ADNO.6357","url":null,"abstract":"Ett problem i bedömning av skrivprov är bristande samstämmighet mellan bedömare. Att fler än en person bedömer samma skrivprov är ett vanligt sätt att öka samstämmigheten, men denna metod är tidskrävande och kostsam. Ett automatiskt bedömningsverktyg, som ger bedömaren stöd på ett effektivt och förutsägbart sätt, vore därför ett användbart hjälpmedel. I artikeln presenteras en pilotundersökning inför ett framtida arbete med automatisk bedömning av skrivprov, där användbarheten av fyra olika textmått i automatisk bedömning undersöks: textlängd, ordlängd, ordvariationsindex och nominalkvot. Materialet utgörs av två korpusar med benchmarktexter från nationella prov, Np 1 och Np 3. Varje prov ges i två olika skolämnen, svenska och svenska som andraspråk. I analysen beräknas medel- och medianvärden samt korrelationer för textmåtten och texternas betyg. Resultatet visar att skillnaderna mellan textmåttens värden i de två korpusarna är relativt stora. I Np 3 uppmäts generellt högre värden för de fyra textmåtten än i Np 1. Vidare korrelerar samtliga undersökta textmått med betyg i Np 1, medan de textmått som visar starkast korrelation i Np 1 inte på ett signifikant sätt korrelerar med betyg i Np 3. Dessutom visar analysen att texter från ett av proven, som har samma betyg men har tillkommit inom olika svenskämnen, ligger nära varandra utifrån de objektiva textmåtten. I ett framtida arbete inför automatisk bedömning av skrivprov måste användningen av textmåtten anpassas till det specifika provet. Vidare bör en automatisk bedömning omfatta många fler textegenskaper än de som mäts med de undersökta måtten.Nyckelord: skrivbedömning, automatisk bedömning, nationella prov, elevtexter, bedömning i svenska och svenska som andraspråkAnalyzing Quantity in Qualitatively Assessed Student Texts – a Future Tool for Fair Assessment?AbstractIn assessing writing one problem is the lack of rater consistency. Letting more than one rater take part in the assessment of the same test is one way of improving rater consistency, but this method is time-consuming and expensive. A tool for automated assessment, giving the human rater support in an effective and predictable way, would therefore be useful. In this article a pilot study is presented, where the usefulness of four automatic text measures in the assessment of writing tests are investigated: text length, word length, word variation and nominal ratio. The data consists of two corpora with benchmark texts from two national tests, Np 1 and Np 3. Each test is given in both Swedish and Swedish as a second language. Mean and median values are calculated, as well as correlations for the text measures and the assessment grades of the texts. The results show important differences between the values of the text measures from the two tests. In Np 3 the values for text measures are generally higher than in Np 1. Further, the four text measures correlate significantly with grades in Np 1, but the measures correlating strongest in Np ","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47237469","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Eva-Kristina Olsson, Sofia Nilsson, AnnaKarin Lindqvist
{"title":"Test-taker feedback i utvecklingsprocessen av nationella prov i engelska","authors":"Eva-Kristina Olsson, Sofia Nilsson, AnnaKarin Lindqvist","doi":"10.5617/adno.6288","DOIUrl":"https://doi.org/10.5617/adno.6288","url":null,"abstract":"De nationella proven i engelska syftar till att stödja lärares betygssättning i svensk skola. Målsättningen i provutvecklingen är därför att konstruera prov med en så hög grad av validitet och reliabilitet som möjligt. Syftet med denna studie är, med utgångspunkt i Messick (1987, 1989), att undersöka och belysa på vilket sätt och i vilken utsträckning test-taker feedback kan bidra till provens validitet och reliabilitet. I en empirisk studie analyserades samvariation mellan elevers åsikter om läsförståelseuppgifter och det faktiska utfallet, det vill säga hur väl eleverna lyckades lösa uppgifterna. Data, som samlats in vid utprövning av nya uppgifter till det nationella provet i årskurs 9, bestod av feedback om nio läsförståelseuppgifter från cirka 400 elever per uppgift samt deras resultat på uppgiften. Analysen visar att elevers uppfattningar om hur bra uppgiften var, hur svår den var respektive hur väl de lyckades lösa den delvis samvarierar på ett statistiskt signifikant sätt med deras resultat när uppgiften poängsattes. Vidare visar resultaten att test-taker feedback kan tillföra värdefull information för att upptäcka om en uppgift tycks gynna någon grupp framför en annan. Informationen som test-taker feedback ger kan också bidra till stärkt validitet och reliabilitet om den exempelvis används för att sekvensera uppgifter utifrån upplevd svårighetsgrad eller för att sortera bort olämpliga uppgifter.Nyckelord: Test-taker feedback, läsförståelse, nationella prov, engelska, validitetThe use of test-taker feedback in the development of national tests of englishAbstractThe purpose of the national tests of English is to provide support for teachers’ grading of students in Swedish schools. Hence, the aim is to develop as valid and reliable tests as possible. Based on Messick (1987, 1989), the purpose of this study is to explore and illustrate in what ways and to what extent test-taker feedback may contribute to the validity and reliability of the tests. An empirical study was carried out, where the covariation between students’ opinions about reading comprehension tasks and their actual results were analysed. Data con¬sisted of test-taker feedback collected when trying out nine reading compre-hension tasks for the national test in grade 9 among 400 students per task, and of students’ results on the tasks. The analysis shows that the students’ opinions about the overall quality and the difficulty of the tasks, as well as their outcome expectancy after completing the tasks, covaried in a statistically significant way with their performance, when the tasks were marked. Furthermore, the results indicate that test-taker feedback may provide useful information related to bias. The information from test-taker feedback may also contribute to the validity and reliability of a test, for instance when used for sequencing tasks according to experienced level of difficulty or for sorting out less suitable tasks.Keywords: Test-taker feedback, reading comprehensi","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49364807","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
E. Moe, Hildegunn Lahlum Helness, Craig Grocott, Norman Verhelst
{"title":"Standardsetting av læringsstøttende prøver i engelsk for Vg1","authors":"E. Moe, Hildegunn Lahlum Helness, Craig Grocott, Norman Verhelst","doi":"10.5617/ADNO.6281","DOIUrl":"https://doi.org/10.5617/ADNO.6281","url":null,"abstract":"Formålet med denne artikkelen er å beskrive framgangsmåten som ble brukt for å bestemme kuttskårer (grenser) mellom tre nivåer i Det europeiske ramme-verket for språk (A2, B1 og B2) på to læringsstøttende lytteprøver i engelsk for Vg1-elever. Målet har vært å undersøke om det er mulig å etablere enighet om kuttskårene, og om standardsetterne som deltok i arbeidet fikk tilstrekkelig opp-læring på forhånd. Videre var det et mål å se på hvilke konsekvenser kuttskårene vil få for fordeling av elever på de ulike rammeverksnivåene. Standardsettingen ble gjennomført med utgangspunkt i pilotdata fra 3199 elever på Vg1, Cito-metoden og 16 panelmedlemmer med god kjennskap til Rammeverkets nivåer. Flere av panelmedlemmene var eller hadde vært lærere i engelsk for elever på 10. trinn eller Vg1. Cito-metoden fungerte bra for å etablere kuttskårer som standardsetterne var forholdsvis enige om. Sluttresultatene viser at målefeilen var relativt liten. Resultatene viser større enighet om kuttskåren mellom nivåene B1 og B2 enn mellom A2 og B1, og dette kan ha en sammenheng med at det ble brukt mer tid på forberedelsesarbeid for B1 og B2. Lærere i panelet som kjenner elevgruppa godt, mener at konsekvensen kutt-skåren har for fordeling av elever på de ulike rammeverksnivåene, stemmer med deres egen vurdering av elevenes lytteferdigheter.Nøkkelord: standardsetting, testsentrert metode, Cito-metoden, standard, kutt-skår, vippekandidatStandard setting for English tests for 11th grade students in NorwayAbstractThis article presents the process used to determine the cut scores between three levels of the Common European Framework of Reference for languages (A2, B1 and B2) for two English listening tests, taken by Norwegian pupils at the 11th grade. The aim was to establish whether agreement can be reached on cut scores and whether the standard setters received enough preparation before the event. Another aim was to examine the potential consequences the cut scores would have for the distribution of pupils across the different levels. The standard setting took place using pilot data from 3199 pupils, the Cito method and 16 panel members with a good knowledge of the framework levels. Some panel members were or had been 10th or 11th grade English teachers. The Cito method worked well for establishing cut scores with which the panel members mostly agreed. The results indicated a small margin of error. The results showed a higher level of agreement for the cut score between B1 and B2 than between A2 and B1, possibly connected to the longer preparation time dedicated to B1 and B2. Teachers on the panel with good knowledge of the pupil base believe that the consequences these cut scores have for the distribution of pupils, correlate with their own experiences of pupils' ability.Keywords: standard setting, test-centered method, the Cito method, standard, cut score, borderline person / minimally competent user","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47136370","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling","authors":"Tor Midtbø, A. Rossow, B. Sagbakken","doi":"10.5617/ADNO.6358","DOIUrl":"https://doi.org/10.5617/ADNO.6358","url":null,"abstract":"Sensorer vurderer skriftlige tekster ulikt, og menneskelig sensur er en utfordring for prøvers reliabilitet. Dette er en utfordring som Kompetanse Norge må ta høyde for i arbeidet med å utvikle og kvalitetssikre Norskprøven for voksne innvandrere. Denne artikkelen redegjør for hvordan den statistiske modellen Many-Facets Rasch Measurement (MFRM) er brukt til å undersøke sensorkorpsets reliabilitet ved sensurering av Norskprøvens delprøve i skriftlig framstilling for desemberavviklingen 2017. MFRM-modellen gir oss informasjon om hvor streng og pålitelig hver sensor er i vurderingen av kandidatbesvarelser. Analysen viser at det er klare forskjeller i strenghet innad i sensorkorpset, og at kandidatens endelige resultat kan være påvirket av hvilke sensorer som vurderer besvarelsen. Samtidig finner vi at de fleste av de 77 sensorene sensurerer stabilt og pålitelig, som vil si at de har høy intra-sensorreliabilitet. Dette viser at sensorkorpset i stor grad oppfyller målsetningen om sensorer som uavhengige eksperter med konsekvent vurderingsadferd. Avslutningsvis diskuteres utfordringene knyttet til begrensninger ved prøvens utforming for analyse av sensorreliabilitet. I lys av diskusjonen vurderer vi MFRM sin rolle og egnethet, og peker på noen utviklingsområder.Nøkkelord: norskprøve, skriftlig vurdering, reliabilitet, inter-sensorreliabilitet, intra-sensorreliabilitet, Many-Facet Rasch MeasurementNorwegian language test - Measuring rater reliability in the assessment of written presentationAbstractRaters assess written texts differently, and rater-mediated assessment is a challenge for test reliability. This is something Skills Norway has to take into consideration as test developer of the Norwegian test for adult immigrants. In this article, we demonstrate how the statistical model Many-Facets Rasch Measurement (MFRM) has been used to examine rater reliability in the written part of the test, using data from the December 2017 test. The MFRM model produces estimates on all raters in terms of severity and consistency. The results show large and significant variation in severity among the raters, and the candidates’ final results can be affected by which raters have assessed the test. Nevertheless, we find that most of the 77 raters assess consistently, showing high intra-rater reliability. This finding suggests that the raters, to a large degree, fulfil their role as independent experts with consistent rating behaviour. Finally, we discuss the challenges associated with the limitations of the test’s design, with respect to analysing rater reliability. We assess MFRM’s role and suitability, and identify possible areas of future study.Keywords: language testing, written assessment, rater-mediated assessment, inter-rater reliability, intra-rater reliability, Many-Facet Rasch Measurement","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45629685","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Fører opplæring i felles vurderingskriterier til større grad av enighet? En studie av tekstvurdering som en del av spesialpedagogutdanning.","authors":"M. Matre, David Lansing Cameron","doi":"10.5617/ADNO.6379","DOIUrl":"https://doi.org/10.5617/ADNO.6379","url":null,"abstract":"Hovedformålet med studien var å undersøke effekten av å gi spesialpedagogikkstudenter undervisning og trening i å bruke felles vurderingskriterier i møte med tekstvurdering. Studien tar utgangspunkt i datamaterialet fra NORM-prosjektet, der et utvalg elevtekster har blitt samlet i et digitalt korpus (Berge et al., 2017). Førti spesialpedagogikkstudenter vurderte de samme fire elevtekstene fra Normkorpuset, to før og to etter intervensjonen. Hensikten var blant annet å undersøke om studentene hadde større grad av enighet i sine vurderinger etter intervensjonen. Resultatene viste at det ikke var signifikante forskjeller i grad av enighet før og etter intervensjonen på de fleste områdene. Det kan være flere årsaker til dette. For eksempel er det mulig at intervensjonen var for kortvarig eller at skalaen som brukes for å måle de ulike vurderingsområdene var for lite nyansert for å fange opp små endringer i studentenes vurderingsferdigheter. Studiens funn understreker at det er svært vanskelig å finne pålitelige vurderingsformer for elevtekster, og øke påliteligheten blant studenter gjennom trening i vurderingsområder og skriveforventinger. Det er et klart behov for mer forskning på hvordan en kan øke pålitelighet for tekstvurdering og finne didaktiske tilnærminger for å forbedre vurderingsevner blant studenter innen pedagogiske studier.Nøkkelord: skriving, vurdering, pålitelighet, skrivedidaktikk i høyere utdanningDoes training in a common set of assessment criteria lead to greater levels of agreement? A study of writing assessment as part of special educator preparationAbstractThe main goal of the study was to investigate whether teaching and training in a shared set of assessment criteria results in a greater degree of consistency in the assessment of writing performance. The study was based on data collected from the study “Developing national standards for writing. A tool for teaching and learning”, also known as the “the Norm project” (Berge et al., 2017). Forty preservice special educators rated the same 4 pupil-texts before and after an intervention consisting of lectures and seminars on writing norms and formal assessment criteria. The results showed no significant differences in agreement between students’ assessments before and after the intervention. There are several possible explanations for these findings. For example, the lack of change may be due to the limited scope of the intervention or connected to characteristics of the assessment tool. The findings also illustrate the difficulty associated with conducting reliable assessments of pupils’ writing and increasing the quality of preservice educators’ assessments through training. There is a clear need for more research on how to increase the reliability of writing assessment and find better approaches to improving the assessment abilities of future educational professionalsKeywords: writing, Assessment, Reliability, Teaching Assessment in Higher Education","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-11-26","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47454763","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}