定性评估的学生文本中的数量——未来公平评估的工具?

Q4 Social Sciences
A. Palmér
{"title":"定性评估的学生文本中的数量——未来公平评估的工具?","authors":"A. Palmér","doi":"10.5617/ADNO.6357","DOIUrl":null,"url":null,"abstract":"Ett problem i bedömning av skrivprov är bristande samstämmighet mellan bedömare. Att fler än en person bedömer samma skrivprov är ett vanligt sätt att öka samstämmigheten, men denna metod är tidskrävande och kostsam. Ett automatiskt bedömningsverktyg, som ger bedömaren stöd på ett effektivt och förutsägbart sätt, vore därför ett användbart hjälpmedel. I artikeln presenteras en pilotundersökning inför ett framtida arbete med automatisk bedömning av skrivprov, där användbarheten av fyra olika textmått i automatisk bedömning undersöks: textlängd, ordlängd, ordvariationsindex och nominalkvot. Materialet utgörs av två korpusar med benchmarktexter från nationella prov, Np 1 och Np 3. Varje prov ges i två olika skolämnen, svenska och svenska som andraspråk. I analysen beräknas medel- och medianvärden samt korrelationer för textmåtten och texternas betyg. Resultatet visar att skillnaderna mellan textmåttens värden i de två korpusarna är relativt stora. I Np 3 uppmäts generellt högre värden för de fyra textmåtten än i Np 1. Vidare korrelerar samtliga undersökta textmått med betyg i Np 1, medan de textmått som visar starkast korrelation i Np 1 inte på ett signifikant sätt korrelerar med betyg i Np 3. Dessutom visar analysen att texter från ett av proven, som har samma betyg men har tillkommit inom olika svenskämnen, ligger nära varandra utifrån de objektiva textmåtten. I ett framtida arbete inför automatisk bedömning av skrivprov måste användningen av textmåtten anpassas till det specifika provet. Vidare bör en automatisk bedömning omfatta många fler textegenskaper än de som mäts med de undersökta måtten.Nyckelord: skrivbedömning, automatisk bedömning, nationella prov, elevtexter, bedömning i svenska och svenska som andraspråkAnalyzing Quantity in Qualitatively Assessed Student Texts – a Future Tool for Fair Assessment?AbstractIn assessing writing one problem is the lack of rater consistency. Letting more than one rater take part in the assessment of the same test is one way of improving rater consistency, but this method is time-consuming and expensive. A tool for automated assessment, giving the human rater support in an effective and predictable way, would therefore be useful. In this article a pilot study is presented, where the usefulness of four automatic text measures in the assessment of writing tests are investigated: text length, word length, word variation and nominal ratio. The data consists of two corpora with benchmark texts from two national tests, Np 1 and Np 3. Each test is given in both Swedish and Swedish as a second language. Mean and median values are calculated, as well as correlations for the text measures and the assessment grades of the texts. The results show important differences between the values of the text measures from the two tests. In Np 3 the values for text measures are generally higher than in Np 1. Further, the four text measures correlate significantly with grades in Np 1, but the measures correlating strongest in Np 1 do not show a significant correlation in Np 3. In one of the tests, the texts with the same assessment grade but different school subjects are very similar according to the text measures. The conclusion is that a tool for automated assessment must be adapted to a specific writing test. Furthermore, an automated assessment should include the analysis of a greater amount of text qualities than those having been the focus of this study.Keywords: assessing writing, automated assessment, national tests, student texts, assessment in Swedish and Swedish as a second language","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"Kvantiteter i kvalitativt bedömda elevtexter – framtida verktyg för rättvis bedömning?\",\"authors\":\"A. Palmér\",\"doi\":\"10.5617/ADNO.6357\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Ett problem i bedömning av skrivprov är bristande samstämmighet mellan bedömare. Att fler än en person bedömer samma skrivprov är ett vanligt sätt att öka samstämmigheten, men denna metod är tidskrävande och kostsam. Ett automatiskt bedömningsverktyg, som ger bedömaren stöd på ett effektivt och förutsägbart sätt, vore därför ett användbart hjälpmedel. I artikeln presenteras en pilotundersökning inför ett framtida arbete med automatisk bedömning av skrivprov, där användbarheten av fyra olika textmått i automatisk bedömning undersöks: textlängd, ordlängd, ordvariationsindex och nominalkvot. Materialet utgörs av två korpusar med benchmarktexter från nationella prov, Np 1 och Np 3. Varje prov ges i två olika skolämnen, svenska och svenska som andraspråk. I analysen beräknas medel- och medianvärden samt korrelationer för textmåtten och texternas betyg. Resultatet visar att skillnaderna mellan textmåttens värden i de två korpusarna är relativt stora. I Np 3 uppmäts generellt högre värden för de fyra textmåtten än i Np 1. Vidare korrelerar samtliga undersökta textmått med betyg i Np 1, medan de textmått som visar starkast korrelation i Np 1 inte på ett signifikant sätt korrelerar med betyg i Np 3. Dessutom visar analysen att texter från ett av proven, som har samma betyg men har tillkommit inom olika svenskämnen, ligger nära varandra utifrån de objektiva textmåtten. I ett framtida arbete inför automatisk bedömning av skrivprov måste användningen av textmåtten anpassas till det specifika provet. Vidare bör en automatisk bedömning omfatta många fler textegenskaper än de som mäts med de undersökta måtten.Nyckelord: skrivbedömning, automatisk bedömning, nationella prov, elevtexter, bedömning i svenska och svenska som andraspråkAnalyzing Quantity in Qualitatively Assessed Student Texts – a Future Tool for Fair Assessment?AbstractIn assessing writing one problem is the lack of rater consistency. Letting more than one rater take part in the assessment of the same test is one way of improving rater consistency, but this method is time-consuming and expensive. A tool for automated assessment, giving the human rater support in an effective and predictable way, would therefore be useful. In this article a pilot study is presented, where the usefulness of four automatic text measures in the assessment of writing tests are investigated: text length, word length, word variation and nominal ratio. The data consists of two corpora with benchmark texts from two national tests, Np 1 and Np 3. Each test is given in both Swedish and Swedish as a second language. Mean and median values are calculated, as well as correlations for the text measures and the assessment grades of the texts. The results show important differences between the values of the text measures from the two tests. In Np 3 the values for text measures are generally higher than in Np 1. Further, the four text measures correlate significantly with grades in Np 1, but the measures correlating strongest in Np 1 do not show a significant correlation in Np 3. In one of the tests, the texts with the same assessment grade but different school subjects are very similar according to the text measures. The conclusion is that a tool for automated assessment must be adapted to a specific writing test. Furthermore, an automated assessment should include the analysis of a greater amount of text qualities than those having been the focus of this study.Keywords: assessing writing, automated assessment, national tests, student texts, assessment in Swedish and Swedish as a second language\",\"PeriodicalId\":36494,\"journal\":{\"name\":\"Acta Didactica Norge\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2018-12-12\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Acta Didactica Norge\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5617/ADNO.6357\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"Social Sciences\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Acta Didactica Norge","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5617/ADNO.6357","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"Social Sciences","Score":null,"Total":0}
引用次数: 1

摘要

笔试评估中的一个问题是评估员之间缺乏一致性。多人评估同一考试是提高一致性的常见方法,但这种方法耗时且成本高昂。因此,为评估员提供有效和可预测支持的自动评估工具将是一个有用的工具。本文为未来打字测试的自动评估工作提供了一项试点研究,研究了四种不同的文本测量方法在自动评估中的有用性:文本长度、单词长度、单词变异指数和名词比率。该材料由两个语料库组成,其中包含来自国家测试的基准文本,Np1和Np3。每次考试分为两门不同的学校科目,瑞典语和瑞典语作为第二语言。该分析计算文本测量和文本评级的平均值和中值以及相关性。结果表明,两个语料库中的文本维度值差异较大。在Np3中,四个文本维度的测量值通常高于Np1。此外,所有研究的文本测量都与Np1中的等级相关,而在Np1中表现出最强相关性的文本测量与Np3中的等级没有显著相关性。此外,分析表明,根据客观的文本测量,其中一项测试的文本是接近的,这些测试的成绩相同,但被添加到了不同的瑞典语科目中。在未来的笔迹测试自动评估工作中,文本测量的使用必须适应特定的测试。此外,自动评估应该包括比被检查测量更多的文本属性。关键词:书面评估、自动评估、国家测试、学生文本、瑞典语和瑞典语作为第二语言的评估。分析质量评估学生文本中的数量——未来公平评估的工具?摘要在评估写作时,一个问题是缺乏评分的一致性。让多个比率参与同一测试的评估是提高比率一致性的一种方法,但这种方法耗时且昂贵。因此,一种自动评估工具,以有效和可预测的方式提供人工费率支持,将是有用的。本文进行了一项初步研究,研究了四种自动文本测量方法在写作测试评估中的有用性:文本长度、单词长度、单词变异和名词比例。数据由两个语料库组成,其中包含来自两个国家测试的基准文本,Np1和Np3。每项测试都以瑞典语和瑞典语作为第二语言。计算平均值和中值,以及文本测量和文本评估等级的相关性。结果显示,两次测试的文本测量值之间存在重要差异。在Np3中,文本度量的值通常高于Np1中的值。此外,四个文本测量值与Np1中的成绩显著相关,但在Np1中相关性最强的测量值在Np3中没有显示出显著的相关性。在其中一项测试中,根据文本测量,评估等级相同但学校科目不同的文本非常相似。结论是,自动化评估工具必须适应特定的写作测试。此外,自动化评估应该包括对比本研究重点更多的文本质量的分析。关键词:评估写作、自动评估、国家测试、学生文本、瑞典语和瑞典语作为第二语言的评估
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Kvantiteter i kvalitativt bedömda elevtexter – framtida verktyg för rättvis bedömning?
Ett problem i bedömning av skrivprov är bristande samstämmighet mellan bedömare. Att fler än en person bedömer samma skrivprov är ett vanligt sätt att öka samstämmigheten, men denna metod är tidskrävande och kostsam. Ett automatiskt bedömningsverktyg, som ger bedömaren stöd på ett effektivt och förutsägbart sätt, vore därför ett användbart hjälpmedel. I artikeln presenteras en pilotundersökning inför ett framtida arbete med automatisk bedömning av skrivprov, där användbarheten av fyra olika textmått i automatisk bedömning undersöks: textlängd, ordlängd, ordvariationsindex och nominalkvot. Materialet utgörs av två korpusar med benchmarktexter från nationella prov, Np 1 och Np 3. Varje prov ges i två olika skolämnen, svenska och svenska som andraspråk. I analysen beräknas medel- och medianvärden samt korrelationer för textmåtten och texternas betyg. Resultatet visar att skillnaderna mellan textmåttens värden i de två korpusarna är relativt stora. I Np 3 uppmäts generellt högre värden för de fyra textmåtten än i Np 1. Vidare korrelerar samtliga undersökta textmått med betyg i Np 1, medan de textmått som visar starkast korrelation i Np 1 inte på ett signifikant sätt korrelerar med betyg i Np 3. Dessutom visar analysen att texter från ett av proven, som har samma betyg men har tillkommit inom olika svenskämnen, ligger nära varandra utifrån de objektiva textmåtten. I ett framtida arbete inför automatisk bedömning av skrivprov måste användningen av textmåtten anpassas till det specifika provet. Vidare bör en automatisk bedömning omfatta många fler textegenskaper än de som mäts med de undersökta måtten.Nyckelord: skrivbedömning, automatisk bedömning, nationella prov, elevtexter, bedömning i svenska och svenska som andraspråkAnalyzing Quantity in Qualitatively Assessed Student Texts – a Future Tool for Fair Assessment?AbstractIn assessing writing one problem is the lack of rater consistency. Letting more than one rater take part in the assessment of the same test is one way of improving rater consistency, but this method is time-consuming and expensive. A tool for automated assessment, giving the human rater support in an effective and predictable way, would therefore be useful. In this article a pilot study is presented, where the usefulness of four automatic text measures in the assessment of writing tests are investigated: text length, word length, word variation and nominal ratio. The data consists of two corpora with benchmark texts from two national tests, Np 1 and Np 3. Each test is given in both Swedish and Swedish as a second language. Mean and median values are calculated, as well as correlations for the text measures and the assessment grades of the texts. The results show important differences between the values of the text measures from the two tests. In Np 3 the values for text measures are generally higher than in Np 1. Further, the four text measures correlate significantly with grades in Np 1, but the measures correlating strongest in Np 1 do not show a significant correlation in Np 3. In one of the tests, the texts with the same assessment grade but different school subjects are very similar according to the text measures. The conclusion is that a tool for automated assessment must be adapted to a specific writing test. Furthermore, an automated assessment should include the analysis of a greater amount of text qualities than those having been the focus of this study.Keywords: assessing writing, automated assessment, national tests, student texts, assessment in Swedish and Swedish as a second language
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
Acta Didactica Norge
Acta Didactica Norge Social Sciences-Education
CiteScore
0.50
自引率
0.00%
发文量
0
审稿时长
16 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信