{"title":"Estudio de la fiabilidad de test multirrespuesta con el método de Monte Carlo","authors":"José Calaf Chica, María José García Tárrago","doi":"10.4438/1988-592X-RE-2021-392-479","DOIUrl":null,"url":null,"abstract":"espanolDurante gran parte del siglo XX se ha escrito mucho sobre la fiabilidad de los test multirrespuesta como metodo para la evaluacion de contenidos. En concreto son muchos los estudios teoricos y empiricos que buscan enfrentar los distintos sistemas de puntuacion existentes. En esta investigacion se ha disenado un algoritmo que genera estudiantes virtuales con los siguientes atributos: conocimiento real, nivel de cautela y conocimiento erroneo. El primer parametro establece la probabilidad que tiene el alumno de conocer la veracidad o falsedad de cada opcion de respuesta del test. El nivel de cautela refleja la probabilidad de responder a una cuestion desconocida. Finalmente, el conocimiento erroneo es aquel conocimiento falsamente asimilado como cierto. El algoritmo tambien tiene en cuenta parametros de configuracion del test como el numero de preguntas, el numero de opciones de respuesta por pregunta y el sistema de puntuacion establecido. El algoritmo lanza test a los individuos virtuales analizando la desviacion generada entre el conocimiento real y el conocimiento estimado (la puntuacion alcanzada en el test). En este estudio se confrontaron los sistemas de puntuacion mas comunmente utilizados (marcado positivo, marcado negativo, test de eleccion libre y metodo de la respuesta doble) para comprobar la fiabilidad de cada uno de ellos. Para la validacion del algoritmo, se comparo con un modelo analitico probabilistico. De los resultados obtenidos, se observo que la existencia o no de conocimiento erroneo generaba una importante alteracion en la fiabilidad de los test mas aceptados por la comunidad educativa (los test de marcado negativo). Ante la imposibilidad de comprobar la existencia de conocimiento erroneo en los individuos a traves de un test, es decision del evaluador castigar su presencia con el uso del marcado negativo, o buscar una estimacion mas real del conocimiento real a traves del marcado positivo. EnglishDuring the twentieth century many investigations have been published about the reliability of the multiple-choice tests for subject evaluation. Specifically, there are a lot of theoretical and empirical studies that compare the different scoring methods applied in tests. A novel algorithm was designed to generate hypothetical examinees with three specific characteristics: real knowledge, level of cautiousness and erroneous knowledge. The first one established the probability to know the veracity or falsity of each answer choice in a multiple-choice test. The cautiousness level showed the probability to answer an unknown question by guessing. Finally, the erroneous knowledge was false knowledge assimilated as true. The test setup needed by the algorithm included the test length, choices per question and the scoring system. The algorithm launched tests to these hypothetical examinees analysing the deviation between the real knowledge and the estimated knowledge (the test score). The most popular test scoring methods (positive marking, negative marking, free-choice tests and the dual response method) were analysed and compared to measure their reliability. In order to validate the algorithm, this was compared with an analytical probabilistic model. This investigation verified that the presence of the erroneous knowledge generates an important alteration in the reliability of the most accepted scoring methods in the educational community (the negative marking method). In view of the impossibility of ascertaining the existence of erroneous knowledge in the examinees using a test, the examiner could penalize its presence with the use of negative marking, or looking for a best fitted estimation of the real knowledge with the positive marking method.","PeriodicalId":21314,"journal":{"name":"Revista De Educacion","volume":"41 1","pages":"63-96"},"PeriodicalIF":2.0000,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista De Educacion","FirstCategoryId":"95","ListUrlMain":"https://doi.org/10.4438/1988-592X-RE-2021-392-479","RegionNum":4,"RegionCategory":"教育学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q2","JCRName":"EDUCATION & EDUCATIONAL RESEARCH","Score":null,"Total":0}
引用次数: 1
Abstract
espanolDurante gran parte del siglo XX se ha escrito mucho sobre la fiabilidad de los test multirrespuesta como metodo para la evaluacion de contenidos. En concreto son muchos los estudios teoricos y empiricos que buscan enfrentar los distintos sistemas de puntuacion existentes. En esta investigacion se ha disenado un algoritmo que genera estudiantes virtuales con los siguientes atributos: conocimiento real, nivel de cautela y conocimiento erroneo. El primer parametro establece la probabilidad que tiene el alumno de conocer la veracidad o falsedad de cada opcion de respuesta del test. El nivel de cautela refleja la probabilidad de responder a una cuestion desconocida. Finalmente, el conocimiento erroneo es aquel conocimiento falsamente asimilado como cierto. El algoritmo tambien tiene en cuenta parametros de configuracion del test como el numero de preguntas, el numero de opciones de respuesta por pregunta y el sistema de puntuacion establecido. El algoritmo lanza test a los individuos virtuales analizando la desviacion generada entre el conocimiento real y el conocimiento estimado (la puntuacion alcanzada en el test). En este estudio se confrontaron los sistemas de puntuacion mas comunmente utilizados (marcado positivo, marcado negativo, test de eleccion libre y metodo de la respuesta doble) para comprobar la fiabilidad de cada uno de ellos. Para la validacion del algoritmo, se comparo con un modelo analitico probabilistico. De los resultados obtenidos, se observo que la existencia o no de conocimiento erroneo generaba una importante alteracion en la fiabilidad de los test mas aceptados por la comunidad educativa (los test de marcado negativo). Ante la imposibilidad de comprobar la existencia de conocimiento erroneo en los individuos a traves de un test, es decision del evaluador castigar su presencia con el uso del marcado negativo, o buscar una estimacion mas real del conocimiento real a traves del marcado positivo. EnglishDuring the twentieth century many investigations have been published about the reliability of the multiple-choice tests for subject evaluation. Specifically, there are a lot of theoretical and empirical studies that compare the different scoring methods applied in tests. A novel algorithm was designed to generate hypothetical examinees with three specific characteristics: real knowledge, level of cautiousness and erroneous knowledge. The first one established the probability to know the veracity or falsity of each answer choice in a multiple-choice test. The cautiousness level showed the probability to answer an unknown question by guessing. Finally, the erroneous knowledge was false knowledge assimilated as true. The test setup needed by the algorithm included the test length, choices per question and the scoring system. The algorithm launched tests to these hypothetical examinees analysing the deviation between the real knowledge and the estimated knowledge (the test score). The most popular test scoring methods (positive marking, negative marking, free-choice tests and the dual response method) were analysed and compared to measure their reliability. In order to validate the algorithm, this was compared with an analytical probabilistic model. This investigation verified that the presence of the erroneous knowledge generates an important alteration in the reliability of the most accepted scoring methods in the educational community (the negative marking method). In view of the impossibility of ascertaining the existence of erroneous knowledge in the examinees using a test, the examiner could penalize its presence with the use of negative marking, or looking for a best fitted estimation of the real knowledge with the positive marking method.
在20世纪的大部分时间里,关于多反应测试作为内容评估方法的可靠性有很多文章。特别是,有许多理论和经验研究试图面对不同的评分系统。在这种情况下,虚拟学生被认为是不可靠的,因为他们不知道自己在做什么,也不知道自己在做什么。第一个参数建立了学生知道每个测试答案选项的真假的概率。谨慎程度反映了对未知问题作出反应的可能性。最后,错误的知识是那些被错误地同化为真理的知识。该算法还考虑了测试配置参数,如问题数量、每个问题的答案选项数量和建立的评分系统。该算法对虚拟个体进行测试,分析真实知识和估计知识之间产生的偏差(在测试中获得的分数)。本研究比较了最常用的评分系统(阳性评分、阴性评分、自由选择测试和双反应法),以检验每种评分系统的可靠性。为了验证算法的有效性,将其与概率分析模型进行了比较。结果表明,错误知识的存在或不存在对教育界最接受的测试(阴性标记测试)的可靠性产生了重大影响。由于不可能通过测试来验证个人是否存在错误知识,评估者决定使用负面标记来惩罚他们的存在,或者通过积极标记来寻求对真实知识的更真实的估计。在20世纪,发表了许多关于多项选择测试的可靠性的研究。为此,there are a lot of理论和经验研究指出,比较不同scoring方法应用在测试。was A小说algorithm to generate hypothetical而设计的examinees with三具体特征:实际知识,level of cautiousness和erroneous知识。= =地理= =根据美国人口普查,这个县的土地面积为。cautiousness层面显示The probability答案an unknown问题by guessing。= =地理= =根据美国人口普查,这个县的面积为。= =地理= =根据美国人口普查,这个县的面积为。The algorithm to这些测试的威慑作用hypothetical examinees承受实际分析The deviation between The knowledge and The knowledge (The test score)。对最流行的评分测试方法(阳性评分、阴性评分、自由选择评分和双反应评分)进行了分析和比较,以衡量其可靠性。In order to validate the algorithm, this was算不上with an analytical概率模型。这项调查证实,错误知识的存在对教育界最普遍接受的评分方法(消极评分方法)的可靠性造成了重大影响。由于无法通过测试来确定被审查员是否存在错误知识,审查员可以通过使用否定标记来惩罚其存在,也可以通过阳性标记方法对实际知识进行最合适的估计。
期刊介绍:
La Revista de Educación es una publicación científica del Ministerio de Educación y Formación Profesional español. Fundada en 1940, y manteniendo el título de Revista de Educación desde 1952, es un testigo privilegiado de la evolución de la educación en las últimas décadas, así como un reconocido medio de difusión de los avances en la investigación y la innovación en este campo, tanto desde una perspectiva nacional como internacional. La revista es editada por la Subdirección General de Atención al Ciudadano, Documentación y Publicaciones, y actualmente está adscrita al Instituto Nacional de Evaluación Educativa de la Dirección General de Evaluación y Cooperación Territorial. Cada año se publican cuatro números con tres secciones: Investigaciones, Ensayos y Reseñas. Uno de los números anuales podrá contar con una sección Monográfica con convocatoria pública en esta web. Todos los artículos enviados a las diferentes secciones están sometidos a evaluación externa. En el primer número del año se incluye un índice bibliográfico, y en el segundo un editorial con la Memoria anual que recoge las principales estadísticas del proceso editor de ese período, los índices de calidad e impacto, así como el listado de revisores externos.