computerized adaptive testing

Las pruebas adaptativas computarizadas (PAC) son un enfoque de evaluación basado en IA donde la prueba se personaliza en función de su desempeño a medida que realiza la prueba, lo que hace que la prueba sea más corta, más precisa, más segura, más atractiva y más justa. Si le va bien, los elementos se vuelven más difíciles y, si le va mal, los elementos se vuelven más fáciles. Si se alcanza una puntuación precisa, la prueba se detiene antes. Al adaptar la dificultad de las preguntas al desempeño de cada examinado, PAC garantiza un proceso de prueba eficiente y seguro.

Los algoritmos de IA casi siempre se basan en la teoría de respuesta al ítem (TRI), una aplicación del aprendizaje automático a la evaluación, pero también pueden basarse en otros modelos.

 

¿Prefieres aprender haciendo? Solicite una cuenta gratuita en FastTest, nuestra poderosa plataforma de pruebas adaptativas.

Free FastTest Account

¿Qué son las pruebas adaptativas computarizadas?

computerized adaptive testing

Las pruebas adaptativas computarizadas (PAC), a veces llamadas pruebas adaptativas por computadora, evaluación adaptativa o pruebas adaptativas, son un algoritmo que personaliza cómo se entrega una evaluación a cada examinado. Está codificada en una plataforma de software, utilizando el enfoque de aprendizaje automático de TRI para seleccionar elementos y calificar a los examinados. El algoritmo procede en un bucle hasta que se completa la prueba. Esto hace que la prueba sea más inteligente, más corta, más justa y más precisa.

Los pasos del diagrama anterior están adaptados de Kingsbury y Weiss (1984) en función de estos componentes.

Componentes de una pruebas adaptativas computarizadas

  1. Banco de ítems calibrado con TRI
  2. Punto de inicio (nivel theta antes de que alguien responda un ítem)
  3. Algoritmo de selección de ítems (normalmente, máxima información de Fisher)
  4. Método de puntuación (p. ej., máxima verosimilitud)
  5. Criterio de finalización (¿detener la prueba en 50 ítems o cuando el error estándar sea inferior a 0,30? ¿Ambos?)

Cómo funcionan los componentes

computerized Adaptive testing options

Para empezar, necesitas un banco de ítems que haya sido calibrado con un modelo psicométrico o de aprendizaje automático relevante. Es decir, no puedes simplemente escribir unos pocos ítems y clasificarlos subjetivamente como de dificultad Fácil, Media o Difícil. Esa es una forma fácil de ser demandado. En cambio, necesitas escribir una gran cantidad de ítems (la regla general es 3 veces la duración prevista de la prueba) y luego probarlos en una muestra representativa de examinados. La muestra debe ser lo suficientemente grande para soportar el modelo psicométrico que elijas, y puede variar de 100 a 1000. Luego necesitas realizar una investigación de simulación (más sobre eso más adelante).

Una vez que tenga un banco de elementos listo, así es como funciona el algoritmo de prueba adaptativa computarizada para un estudiante que se sienta a tomar la prueba, con opciones sobre cómo hacerlo.

  1. Punto de partida: hay tres opciones para seleccionar la puntuación inicial, que los psicometristas llaman theta
    • Todos obtienen el mismo valor, como 0,0 (promedio, en el caso de modelos que no son Rasch)
    • Aleatorizado dentro de un rango, para ayudar a probar la seguridad y la exposición del artículo
    • Valor previsto, tal vez a partir de datos externos o de un examen anterior
  2. Seleccionar artículo
    • Encuentra el elemento en el banco que tenga el mayor valor informativo
    • A menudo, es necesario equilibrar esto con restricciones prácticas, como la exposición del artículo o el equilibrio del contenido.
  3. Calificar al examinado
    • Generalmente IRT, máxima verosimilitud o modal bayesiano
  4. Evaluar el criterio de terminación: utilizando una regla predefinida respaldada por su investigación de simulación
    • ¿Se alcanza un cierto nivel de precisión, como un error estándar de medición < 0,30?
    • ¿No quedan artículos buenos en el banco?
    • ¿Se alcanzó un límite de tiempo?
    • ¿Se ha alcanzado el límite máximo de artículos?

El algoritmo funciona repitiendo los pasos 2-3-4 hasta que se satisface el criterio de terminación.

¿Cómo se adapta la prueba? ¿Por dificultad o cantidad?

Las PAC funcionan adaptando tanto la dificultad como la cantidad de elementos que ve cada examinado.

Dificultad
La mayoría de las caracterizaciones de las pruebas adaptativas computarizadas se centran en cómo se combina la dificultad de los elementos con la capacidad del examinado. Los examinados de alta capacidad reciben elementos más difíciles, mientras que los de baja capacidad reciben elementos más fáciles, lo que tiene importantes beneficios para el estudiante y la organización. Una prueba adaptativa generalmente comienza entregando un elemento de dificultad media; si lo responde correctamente, recibe un elemento más difícil, y si lo responde incorrectamente, recibe un elemento más fácil. Este patrón continúa.

Cantidad: longitud fija frente a longitud variable
Una faceta menos publicitada de la adaptación es la cantidad de elementos. Las pruebas adaptativas pueden diseñarse para detenerse cuando se alcanzan ciertos criterios psicométricos, como un nivel específico de precisión de la puntuación. Algunos examinados terminan muy rápidamente con pocos elementos, por lo que las pruebas adaptativas suelen tener aproximadamente la mitad de preguntas que una prueba regular, con al menos la misma precisión. Dado que algunos examinados tienen exámenes más largos, estos exámenes adaptativos se denominan de duración variable. Obviamente, esto supone un beneficio enorme: reducir el tiempo de examen a la mitad, en promedio, puede reducir sustancialmente los costos de los exámenes.

Algunas pruebas adaptativas utilizan una duración fija y solo adaptan la dificultad de los ítems. Esto es simplemente por cuestiones de relaciones públicas, es decir, la incomodidad de tratar con examinados que sienten que fueron tratados injustamente por el PAC, a pesar de que se podría decir que es más justo y válido que las pruebas convencionales. En general, es una mejor práctica fusionar los dos: permitir que la duración de la prueba sea más corta o más larga, pero poner límites en cada extremo que eviten pruebas inadvertidamente demasiado cortas o pruebas que potencialmente podrían llegar a 400 ítems. Por ejemplo, el NCLEX tiene un examen de duración mínima de 75 ítems y el examen de duración máxima de 145 ítems.

Ejemplo de algoritmo de prueba adaptativa computarizada

item information functions

Veamos un ejemplo muy simplificado. Aquí tenemos un banco de preguntas con 5 preguntas. Comenzaremos con una pregunta de dificultad promedio y responderemos como lo haría un estudiante con una dificultad por debajo del promedio.

A continuación se muestran las funciones de información de las preguntas para cinco preguntas de un banco. Supongamos que la theta inicial es 0,0.

  1. Encontramos el primer elemento a entregar. ¿Qué elemento tiene la información más alta en 0.0? Es el elemento 4.
  2. Supongamos que el estudiante responde incorrectamente.
  3. Ejecutamos el algoritmo de puntuación IRT y suponemos que la puntuación es -2.0.
  4. Comprobamos el criterio de terminación; ciertamente no hemos terminado todavía, después de 1 elemento.
  5. Encontramos el siguiente elemento. ¿Cuál tiene la información más alta en -2.0? Elemento 2.
  6. Supongamos que el estudiante responde correctamente.
  7. Ejecutamos el algoritmo de puntuación IRT y suponemos que la puntuación es -0.8.
  8. Evaluamos el criterio de terminación; aún no hemos terminado.
  9. Encontramos el siguiente elemento. El elemento 2 es el más alto en -0.8 pero ya lo usamos. El elemento 4 es el siguiente mejor, pero ya lo usamos. Entonces, el siguiente mejor es el elemento 1.
  10. El elemento 1 es muy fácil, por lo que el estudiante lo responde correctamente.
  11. La nueva puntuación es -0.2.
  12. El mejor elemento restante con -0,2 es el elemento 3.
  13. Supongamos que el estudiante responde incorrectamente.
  14. La nueva puntuación es quizás -0,4.
  15. Evalúa el criterio de finalización. Supón que la prueba tiene un máximo de 3 elementos, un criterio extremadamente simple. Lo hemos cumplido. La prueba ya está hecha y se envió automáticamente.

 

Ventajas de las pruebas adaptativas informatizadas

Al hacer que la prueba sea más inteligente, las pruebas adaptativas brindan una amplia gama de beneficios. A continuación, se enumeran algunas de las ventajas conocidas de las pruebas adaptativas, reconocidas por la investigación psicométrica académica.

Pruebas más cortas

Las investigaciones han demostrado que las pruebas adaptativas producen una reducción de entre el 50% y el 90% en la duración de la prueba. Esto no es ninguna sorpresa. Supongamos que tienes un conjunto de 100 ítems. Un estudiante destacado tiene prácticamente garantizado que responderá correctamente las 70 preguntas más fáciles; solo las 30 más difíciles le harán pensar. Lo mismo ocurre con un estudiante de bajo nivel. Los estudiantes de nivel medio no necesitan las preguntas superdifíciles ni las superfáciles.

¿Por qué es importante esto? Principalmente, puede reducir en gran medida los costos. Supongamos que estás realizando 100.000 exámenes al año en centros de evaluación y pagas 30 dólares la hora. Si puedes reducir la duración de tu examen de 2 horas a 1 hora, acabas de ahorrar 3.000.000 de dólares. Sí, habrá mayores costos por el uso de la evaluación adaptativa, pero es probable que ahorres dinero al final.

Para la evaluación K12, no estás pagando por el tiempo de asiento, pero existe el costo de oportunidad del tiempo de instrucción perdido. Si los estudiantes toman evaluaciones formativas 3 veces al año para verificar el progreso, y puedes reducir cada una en 20 minutos, es decir 1 hora; si hay 500,000 estudiantes en tu estado, entonces acabas de ahorrar 500,000 horas de aprendizaje.

Puntuaciones más precisas

CAT hará que las pruebas sean más precisas, en general. Esto se logra diseñando los algoritmos específicamente en torno a cómo obtener puntuaciones más precisas sin perder el tiempo del examinado.

Más control de la precisión de la puntuación (exactitud)

CAT garantiza que todos los estudiantes tendrán la misma precisión, lo que hace que la prueba sea mucho más justa. Las pruebas tradicionales miden bien a los estudiantes intermedios, pero no a los mejores o peores. ¿Es mejor que A) los estudiantes ven los mismos elementos pero pueden tener una precisión de puntuación drásticamente diferente, o B) tener una precisión de puntuación equivalente, pero ver elementos diferentes?

Mayor seguridad de la prueba

Dado que todos los estudiantes reciben esencialmente una evaluación que está diseñada para ellos, hay una mayor seguridad de la prueba que si todos ven los mismos 100 elementos. La exposición a los elementos se reduce en gran medida; sin embargo, tenga en cuenta que esto presenta sus propios desafíos y los algoritmos de evaluación adaptativos tienen consideraciones de su propia exposición a los elementos.

Una mejor experiencia para los examinados, con menos fatiga

Las evaluaciones adaptativas tenderán a ser menos frustrantes para los examinados en todos los rangos de habilidad. Además, al implementar reglas de detención de longitud variable (por ejemplo, una vez que sabemos que eres un estudiante destacado, no te damos los 70 ítems fáciles), se reduce la fatiga.

Mayor motivación del examinado

Dado que los examinados solo ven los ítems que son relevantes para ellos, esto proporciona un desafío apropiado. Los examinados de baja habilidad se sentirán más cómodos y obtendrán muchos más ítems correctos que con una prueba lineal. Los estudiantes de alta habilidad obtendrán los ítems difíciles que los hagan pensar.

Es posible volver a realizar pruebas con frecuencia

La idea de la “forma única” se aplica al mismo estudiante que toma el mismo examen dos veces. Supongamos que tomas la prueba en septiembre, al comienzo de un año escolar, y tomas la misma nuevamente en noviembre para verificar tu aprendizaje. Es probable que hayas aprendido bastante y estés más arriba en el rango de habilidad; tendrás ítems más difíciles y, por lo tanto, una nueva prueba. Si fuera una prueba lineal, podría ver exactamente la misma prueba.

Esta es una de las principales razones por las que la evaluación adaptativa desempeña un papel formativo en la educación K-12, y se realiza varias veces al año a millones de estudiantes solo en los Estados Unidos.

Ritmo individual de las pruebas

Los examinados pueden avanzar a su propio ritmo. Algunos pueden avanzar rápidamente y terminar con solo 30 ítems. Otros pueden dudar, también ver 30 ítems pero tomar más tiempo. Aún así, otros pueden ver 60 ítems. Los algoritmos pueden diseñarse para maximizar el proceso.

Ventajas de las pruebas computarizadas en general

Por supuesto, las ventajas de usar una computadora para realizar una prueba también son relevantes. A continuación, se presentan algunas

  • Informe de puntaje inmediato
  • Las pruebas a pedido pueden reducir la impresión, la programación y otras preocupaciones basadas en papel
  • Almacenar los resultados en una base de datos de inmediato facilita la gestión de datos
  • Las pruebas computarizadas facilitan el uso de multimedia en los ítems
  • Puede ejecutar informes psicométricos de inmediato
  • Los plazos se reducen con un sistema de banco de ítems integrado

 

Cómo desarrollar una evaluación adaptativa que sea válida y defendible

Las PAC son el futuro de la evaluación. Funcionan adaptando tanto la dificultad como la cantidad de ítems a cada examinado individual. El desarrollo de una prueba adaptativa no es una tarea fácil y requiere cinco pasos que integren la experiencia de los desarrolladores de contenido de pruebas, ingenieros de software y psicometristas.

El desarrollo de una prueba adaptativa de calidad es complejo y requiere psicometristas experimentados tanto en calibración de la teoría de respuesta al ítem (TRI) como en investigación de simulación PAC. FastTest puede proporcionarle el psicometrista y el software; si proporciona ítems de prueba y datos piloto, podemos ayudarlo a publicar rápidamente una versión adaptativa de su prueba.

   Paso 1: Estudios de viabilidad, aplicabilidad y planificación. Primero, debe realizarse una investigación exhaustiva de simulación de Monte Carlo y los resultados deben formularse como casos de negocios para evaluar si las pruebas adaptativas son factibles, aplicables o incluso posibles.

   Paso 2: Desarrollar un banco de ítems. Se debe desarrollar un banco de ítems para cumplir con las especificaciones recomendadas en el Paso 1.

   Paso 3: Realizar pruebas previas y calibrar el banco de ítems. Los ítems deben probarse de manera piloto en 200 a 1000 examinados (dependiendo del modelo de TRI) y ser analizados por un psicometrista con doctorado.

   Paso 4: Determinar las especificaciones para la PAC final. Los datos del Paso 3 se analizan para evaluar las especificaciones de la PAC y determinar los algoritmos más eficientes utilizando software de simulación de PAC como CATSim.

   Paso 5: Publicar la PAC en vivo. La prueba adaptativa se publica en un motor de pruebas capaz de realizar pruebas totalmente adaptativas basadas en TRI. No hay muchos de ellos en el mercado. ¡Regístrese para obtener una cuenta gratuita en nuestra plataforma  FastTest  y pruébelo usted mismo!

¿Quiere obtener más información sobre nuestro modelo único? Haga clic aquí para leer el artículo fundamental de nuestros dos cofundadores. Hay más investigaciones sobre pruebas adaptativas disponibles aquí.

Requisitos mínimos para las pruebas adaptativas computarizadas

computerized Adaptive testing options

A continuación, se indican algunos requisitos mínimos que debe evaluar si está considerando adoptar el enfoque PAC.

  • Un gran banco de ítems probado de modo que cada ítem tenga al menos 100 respuestas válidas (modelo Rasch) o 500 (modelo 3PL)
  • 500 examinados por año
  • Software especializado de calibración TRI y simulación PAC como  Xcalibre  y  CATSim.
  • Personal con un doctorado en psicometría o un nivel equivalente de experiencia. O aproveche nuestra experiencia reconocida internacionalmente en el campo.
  • Ítems (preguntas) que se puedan calificar objetivamente como correctos/incorrectos en tiempo real
  • Un sistema de banco de ítems y una plataforma de entrega PAC
  • Recursos financieros: debido a que es tan complejo, el desarrollo de un PAC costará al menos $10,000 (USD), pero si está evaluando grandes volúmenes de examinados, será una inversión significativamente positiva. Si pagas $20/hora para supervisar los asientos y reduces la duración de un examen de 2 horas a 1 hora para solo 1000 examinados… eso es un ahorro de $20 000. ¿Y si estás haciendo 200 000 exámenes? Eso es un ahorro de $4 000 000 en tiempo de asiento.

 

Pruebas adaptativas: recursos para leer más

Visite los enlaces a continuación para obtener más información sobre la evaluación adaptativa.

  • Primero le recomendamos que lea este artículo fundamental de nuestros cofundadores.
  • Lea este artículo sobre cómo producir mejores mediciones con PAC del profesor David J. Weiss.
  • Asociación Internacional para Pruebas Adaptativas Computarizadas: www.iacat.org
  • A continuación, se incluye el enlace al seminario web sobre la historia de PAC, a cargo del padrino de PAC, el profesor David J. Weiss.

Ejemplos las pruebas adaptativas computarizadas

Muchas evaluaciones a gran escala utilizan tecnología adaptativa. El GRE (Graduate Record Examinations) es un excelente ejemplo de una prueba adaptativa. También lo es el NCLEX (examen de enfermería en los EE. UU.), el GMAT (admisión a escuelas de negocios) y muchas evaluaciones formativas como el NWEA MAP. El SAT ha pasado recientemente a un formato adaptativo de varias etapas.

Cómo implementar las pruebas adaptativas computarizadas

Nuestra revolucionaria plataforma,  FastTest, facilita la publicación de un CAT. Una vez que cargue los textos de sus artículos y los parámetros IRT, puede elegir las opciones que desee para los pasos 2, 3 y 4 del algoritmo, simplemente haciendo clic en los elementos en nuestra interfaz fácil de usar.

Contáctenos para registrarse para obtener una cuenta gratuita en nuestra plataforma PAC líder en la industria o para hablar con uno de nuestros psicometristas con doctorado.

 

modified-Angoff Beuk compromise

Un estudio con el método Angoff modificado es una de las formas más comunes de establecer una puntuación de corte defendible en un examen. Por lo tanto, significa que las decisiones de aprobado/reprobado tomadas por la prueba son más confiables que si eligiera un número redondo arbitrario como el 70%. Si su médico, abogado, contador u otro profesional ha aprobado un examen en el que la puntuación de corte se ha establecido con este método, puede confiar más en sus habilidades.

¿Qué es el método Angoff?

El método Angoff es una forma científica de establecer un puntaje de corte (punto de aprobación) en una prueba. Si tiene una interpretación basada en criterios, no es legalmente defendible simplemente elegir convenientemente un número redondo como 70%; necesita un proceso formal. Hay una serie de metodologías aceptables en la literatura psicométrica para estudios de establecimiento de estándares, también conocidos como puntajes de corte o puntos de aprobación. Algunos ejemplos incluyen Angoff, Angoff modificado, Bookmark, Grupos contrastantes y Borderline. El enfoque Angoff modificado es, por lejos, el enfoque popular. Se utiliza especialmente con frecuencia para exámenes de certificación, licencia, certificado y otras credenciales.

Originalmente fue sugerido como una mera nota a pie de página por el reconocido investigador William Angoff, del Educational Testing Service.

¿Cómo funciona el enfoque Angoff?

Primero, reúne a un grupo de expertos en la materia (EM), con un mínimo de 6, aunque se prefieren 8-10 para una mejor confiabilidad, y pídeles que definan lo que consideran un Candidato Mínimamente Competente (CMC). A continuación, pídeles que estimen el porcentaje de candidatos mínimamente competentes que responderán cada elemento correctamente. Luego, analiza los resultados en busca de valores atípicos o inconsistencias. Si los expertos no están de acuerdo, deberá evaluar la confiabilidad y el acuerdo entre evaluadores, y luego hacer que los expertos discutan y vuelvan a calificar los elementos para obtener un mejor consenso. La calificación final promedio es entonces el puntaje porcentual correcto esperado para un candidato mínimamente competente.

Ventajas del método Angoff

  1. Es defendible. Debido a que es el enfoque más comúnmente utilizado y se estudia ampliamente en la literatura científica, es bien aceptado.
  2. Puede implementarse antes de que se administre una prueba. Algunos otros métodos requieren que primero se administre la prueba a una muestra grande.
  3. Es conceptualmente simple, lo suficientemente fácil de explicar a los no psicometristas.
  4. Incorpora el juicio de un panel de expertos, no solo de una persona o un número redondo.
  5. Funciona para pruebas con teoría de pruebas clásica y teoría de respuesta al ítem.
  6. No lleva mucho tiempo implementarlo: si es una prueba corta, ¡se puede hacer en cuestión de horas!
  7. Se puede usar con diferentes tipos de ítems, incluidos ítems con puntaje politómico (multipuntos).

Desventajas del método Angoff

  1. No utiliza datos reales, a menos que implementes el método Beuk junto con él.
  2. Puede hacer que los expertos sobreestimen el desempeño de los candidatos principiantes, ya que olvidaron cómo era empezar hace 20 o 30 años. Esta es una razón para usar el método Beuk como una “verificación de la realidad” al mostrarles a los expertos que, si se quedan con el puntaje de corte que acaban de elegir, ¡la mayoría de los candidatos podrían fallar!

Ejemplo del método Angoff modificado

En primer lugar, no espere un proceso sencillo y directo que conduzca a una puntuación de corte incuestionablemente correcta. Todos los métodos de establecimiento de estándares implican cierto grado de subjetividad. El objetivo de los métodos es reducir esa subjetividad tanto como sea posible. Algunos métodos se centran en el contenido, otros en los datos de rendimiento del examinado, mientras que algunos intentan fusionar los dos.

Paso 1: Prepare a su equipo

El proceso Angoff modificado depende de una muestra representativa de EM, generalmente de 6 a 20. Cuando digo “representativa” me refiero a que deben representar a las distintas partes interesadas. Por ejemplo, una certificación para asistentes médicos podría incluir asistentes médicos, enfermeras y médicos experimentados de diferentes áreas del país. Debe capacitarlos sobre su función y cómo funciona el proceso, para que puedan comprender el objetivo final y avanzar hacia él.

Paso 2: Definir el Candidato Mínimamente Competente (CMC)

Este concepto es el núcleo del método Angoff modificado, aunque se lo conoce con una variedad de términos o acrónimos, incluidos candidatos mínimamente calificados (CMC) o apenas calificados (CAC). El razonamiento es que queremos que nuestro examen separe a los candidatos que están calificados de los que no lo están. Por lo tanto, les pedimos a los expertos en la materia que definan qué hace que alguien esté calificado (¡o no calificado!) desde una perspectiva de habilidades y conocimientos. Esto conduce a una definición conceptual de un CMC. Luego queremos estimar qué puntaje obtendría este candidato en el límite, que es el objetivo del resto del estudio. Este paso se puede realizar en persona o mediante un seminario web.

Paso 3: Calificaciones de la ronda 1

A continuación, pida a sus expertos en la materia que lean todos los ítems de su formulario de prueba y calculen el porcentaje de candidatos mínimamente competente que responderían cada uno correctamente. Una calificación de 100 significa que el ítem es una apuesta segura; es tan fácil que todos los candidato mínimamente competente lo responderían correctamente. Una calificación de 40 es muy difícil. La mayoría de las calificaciones están en el rango de 60 a 90 si los ítems están bien desarrollados. Las calificaciones deben recopilarse de forma independiente; si todos están en la misma sala, déjelos trabajar solos en silencio. Sin embargo, esto se puede realizar fácilmente de forma remota.

Paso 4: Discusión

Aquí es donde se pone divertido. Identifique los elementos en los que hay más desacuerdo (tal como se define por las distribuciones de frecuencia agrupadas o la desviación estándar) y haga que los expertos en la materia los discutan. Tal vez dos expertos en la materia pensaron que era muy fácil y le dieron un 95 y otros dos pensaron que era muy difícil y le dieron un 45. Intentarán convencer a la otra parte de su locura. Es probable que no falten opiniones y usted, como facilitador, descubrirá que su mayor desafío es mantener la reunión encaminada. Este paso se puede realizar en persona o mediante un seminario web.

Paso 5: Calificaciones de la ronda 2

Luego, los evaluadores vuelven a calificar los ítems en función de la discusión. El objetivo es que haya un mayor consenso. En el ejemplo anterior, no es probable que todos los evaluadores se conformen con un 70. Pero si todos los evaluadores terminan con una calificación entre 60 y 80, no hay problema. ¿Cómo se sabe que hay suficiente consenso? Recomendamos la confiabilidad entre evaluadores sugerida por Shrout y Fleiss (1979), así como también observar el acuerdo entre evaluadores y la dispersión de las calificaciones para cada ítem. Este uso de múltiples rondas se conoce como el enfoque Delphi; se aplica a todas las discusiones impulsadas por el consenso en cualquier campo, no solo a la psicometría.

Paso 6: Evaluar los resultados y la recomendación final

Evalúa los resultados de la Ronda 2 y de la Ronda 1. A continuación, se incluye un ejemplo de esto. ¿Cuál es la puntuación de corte recomendada, que es el promedio o la suma de las puntuaciones de Angoff según la escala que prefieras? ¿Mejoró la confiabilidad? Calcula la media y la desviación estándar de las puntuaciones de los examinados (hay varios métodos para esto). ¿Qué tipo de tasa de aprobación esperas? Mejor aún, utiliza el Compromiso de Beuk como una “verificación de la realidad” entre el enfoque de Angoff modificado y los datos de prueba reales. Debes tener en cuenta múltiples puntos de vista, y los expertos en la materia deben votar sobre una recomendación final. Por supuesto, ellos conocen el material y a los candidatos, por lo que tienen la última palabra. Esto significa que el establecimiento de estándares es un proceso político; nuevamente, reduce ese efecto tanto como puedas.

Algunas organizaciones no establecen el puntaje de corte en el punto recomendado, sino en un error estándar de juicio (ESJ) por debajo del punto recomendado. El ESJ se basa en la confiabilidad entre evaluadores; tenga en cuenta que NO es el error estándar de la media ni el error estándar de medición. Algunas organizaciones utilizan este último; el primero es simplemente incorrecto (aunque lo he visto utilizado por aficionados).

 

modified angoff

Paso 7: Redacta tu informe

La validez se refiere a la evidencia reunida para respaldar las interpretaciones de los puntajes de las pruebas. Bueno, tienes mucha evidencia relevante aquí. Documentala. Si tu prueba es cuestionada, tendrás todo esto en su lugar. Por otro lado, si simplemente elegiste 70% como tu puntaje de corte porque era un número redondo, podrías tener problemas.

Temas adicionales

En algunas situaciones, hay más cuestiones de las que preocuparse. ¿Múltiples formas? Deberá hacer alguna comparación. ¿Utiliza la teoría de respuesta al ítem? ​​Deberá convertir la puntuación de corte del método Angoff modificado a la métrica theta utilizando la función de respuesta a la prueba (FRP). ¿Tiene una nueva credencial y no dispone de datos? Ese es un verdadero problema del huevo y la gallina.

¿A dónde voy desde aquí?

¿Está listo para dar el siguiente paso y aplicar realmente el proceso Angoff modificado para mejorar sus exámenes? Regístrese para obtener una cuenta gratuita en nuestro banco de ítems FastTest. También puede descargar nuestra herramienta de análisis Angoff de forma gratuita.

Referencias

Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability. Psychological bulletin86(2), 420.

test response functions

La teoría de respuesta al ítem (TRÍ) es una familia de modelos de aprendizaje automático en el campo de la psicometría, que se utilizan para diseñar, analizar, validar y puntuar evaluaciones. Se trata de un paradigma psicométrico muy potente que permite a los investigadores construir evaluaciones más sólidas, tanto si trabajan en Educación, Psicología, Recursos Humanos u otros campos. También resuelve problemas de medición críticos como la equiparación entre años, el diseño de pruebas adaptativas o la creación de escalas verticales.

¿Quiere saber más sobre la TRÍ, cómo funciona y por qué es tan importante para la evaluación? Siga leyendo.

¿Qué es la Teoría de Respuesta al Ítem?

La TRÍ es una familia de modelos que intentan describir cómo responden los examinandos a los ítems de un test, de ahí su nombre. Estos modelos pueden utilizarse para evaluar el rendimiento de los ítems, ya que las descripciones son bastante útiles en sí mismas. Sin embargo, la teoría de respuesta al ítem acabó haciendo mucho más.Example Item response theory function

La TRÍ se basa en modelos, en el sentido de que hay una ecuación matemática específica que se asume, y ajustamos los modelos basándonos en datos brutos, de forma similar a la regresión lineal. Hay diferentes parámetros(a, b, c) que ajustan esta ecuación a diferentes necesidades. Eso es lo que define los diferentes modelos de TRÍ. Esto se tratará en profundidad más adelante.

Los modelos sitúan a las personas y a los ítems en una escala latente, que suele denominarse θ(theta). Esto representa lo que se está midiendo, ya sea el coeficiente intelectual, la ansiedad o el conocimiento de las leyes de contabilidad en Croacia. La TRÍ nos ayuda a comprender la naturaleza de la escala, cómo responde una persona a cada pregunta, la distribución de la dificultad de los ítems y mucho más. La TRÍ solía conocerse como teoría del rasgo latente y teoría de la curva característica del ítem.

La TRÍ requiere un software especialmente diseñado. Haga clic en el siguiente enlace para descargar nuestro software Xcalibre, que proporciona una plataforma visual y fácil de usar para aplicar la TRÍ.

IRT analysis with Xcalibre

¿Por qué necesitamos la Teoría de la Respuesta al Ítem?

La TRÍ representa una importante innovación en el campo de la psicometría. Aunque ya tiene más de 50 años -suponiendo que el “nacimiento” sea el texto clásico de Lord y Novick (1969)-, todavía está infrautilizada y sigue siendo un misterio para muchos profesionales.

La teoría de la respuesta al ítem es algo más que una forma de analizar los datos de los exámenes, es un paradigma para dirigir todo el ciclo de vida del diseño, la construcción, la entrega, la calificación y el análisis de las evaluaciones.

La TRÍ requiere muestras de mayor tamaño y es mucho más compleja que su predecesora, la teoría clásica de los tests, pero también es mucho más potente. La TRÍ requiere mucha experiencia, normalmente un doctorado. Por eso no se utiliza para evaluaciones pequeñas, como un examen final en las universidades, pero sí para casi todas las evaluaciones importantes del mundo.

El conductor: Problemas con la teoría clásica de los tests

La Teoría Clásica de los Test (TCT) tiene aproximadamente 100 años de antigüedad, y sigue siendo de uso común porque es adecuada para determinadas situaciones, y es lo suficientemente sencilla como para que pueda ser utilizada por muchas personas sin formación formal en psicometría. La mayoría de los estadísticos se limitan a medias, proporciones y correlaciones. Sin embargo, su simplicidad significa que carece de la sofisticación necesaria para tratar una serie de problemas de medición muy importantes. Más adelante se presenta una lista de ellos.

Obtenga más información sobre las diferencias entre la TCT y la TRÍ aquí.

Parámetros de la Teoría de Respuesta al Ítem

La base de la TRÍ es un modelo matemático definido por los parámetros del ítem. Un parámetro es un aspecto de un modelo matemático que puede cambiar su forma u otros aspectos. Para los ítems dicotómicos (los que se puntúan correcto/incorrecto), cada ítem tiene tres parámetros:

a: el parámetro de discriminación, un índice de lo bien que el ítem diferencia a los examinados con puntuaciones bajas de los examinados con puntuaciones altas; suele oscilar entre 0 y 2, donde más alto es mejor, aunque no hay muchos ítems por encima de 1,0.

b: el parámetro de dificultad, un índice del nivel de los examinandos para el que el ítem es apropiado; suele oscilar entre -3 y +3, siendo 0 un nivel medio de examinando.

c: el parámetro de pseudoadivinanza, que es una asíntota inferior; normalmente se centra en 1/k, donde k es el número de opciones.

Estos parámetros se utilizan en la fórmula siguiente, pero también se muestran gráficamente.

3PL irt equation

Item response function

Estos parámetros se utilizan para representar gráficamente una función de respuesta al ítem (FRÍ), que modela la probabilidad de una respuesta correcta en función de la capacidad. En el ejemplo de IRF, el parámetro a es aproximadamente 1,0, lo que indica un ítem de test bastante discriminante. El parámetro b es aproximadamente 0,0 (el punto del eje x donde se encuentra el punto medio de la curva), lo que indica un ítem de dificultad media; los examinandos con una capacidad media tendrían un 60% de probabilidades de responder correctamente. El parámetro c es aproximadamente 0,20, como un ítem de opción múltiple de 5 opciones. Considere que el eje x son las puntuaciones z en una escala normal estándar.

En algunos casos, no hay que adivinar y sólo utilizamos a y b. Esto se denomina modelo de dos parámetros. Si sólo utilizamos b, se trata del modelo de un parámetro o modelo de Rasch. He aquí cómo se calcula.

One-parameter-logistic-model-IRT

Los parámetros del ítem, que son cruciales en el marco de la TRÍ, pueden cambiar con el tiempo o en múltiples ocasiones de prueba, un fenómeno conocido como deriva del parámetro del ítem.

Ejemplo de cálculos de la Teoría de Respuesta al Ítem

Los examinados con mayor capacidad tienen muchas más probabilidades de responder correctamente. Observe el gráfico anterior. Alguien con +2,0 (percentil 97) tiene un 94% de probabilidades de acertar el ítem. Mientras tanto, alguien con un -2,0 sólo tiene un 25% de probabilidades, apenas por encima de la tasa de aciertos de 1 de cada 5, que es del 20%. Una persona media (0,0) tiene un 60% de posibilidades. ¿Por qué 60? Porque tenemos en cuenta las suposiciones. Si la curva fuera del 0% al 100% de probabilidad, entonces sí, el cambio en el medio sería del 50%. Pero aquí, asumimos un 20% como base debido a las suposiciones, así que la mitad es el 60%.

five item response functions

Por supuesto, los parámetros pueden y deben diferir de un ítem a otro, reflejando las diferencias en el rendimiento del ítem. El siguiente gráfico muestra cinco IRF con el modelo de tres parámetros. La línea azul oscuro es el ítem más fácil, con una b de -2,00. El ítem azul claro es el más difícil, con una b de -2,00. El ítem azul claro es el más difícil, con una b de +1,80. El morado tiene un c=0,00 mientras que el azul claro tiene c=0,25, lo que indica que es más susceptible de ser adivinado.

Estos IRF no son sólo un gráfico bonito o una forma de describir el rendimiento de un elemento. Son el elemento básico para alcanzar los importantes objetivos mencionados anteriormente. Eso viene a continuación…

Aplicaciones de la teoría de la respuesta al ítem para mejorar la evaluación

La teoría de respuesta al ítem utiliza el IRF para varios propósitos. He aquí algunos de ellos.

test information function from item response theory

  1. Interpretar y mejorar el rendimiento de los ítems
  2. Calificación de examinados con métodos de máxima verosimilitud o bayesianos
  3. Ensamblaje de formularios, incluida la prueba lineal sobre la marcha (LOFT) y la preigualación
  4. Cálculo de la precisión de las puntuaciones de los examinandos
  5. Desarrollo de prueba adaptativa computarizada (CAT)
  6. Posecuación
  7. Funcionamiento diferencial de los ítems (detección de sesgos)
  8. Análisis forense de datos para detectar tramposos u otros problemas

Además de utilizarse para evaluar cada ítem individualmente, los IRF se combinan de varias formas para evaluar el test o formulario en su conjunto. Los dos enfoques más importantes son el error estándar condicional de medida (CSEM) y la función de información del test (TIF). La función de información del test es más alta cuando el test proporciona más información de medida sobre los examinandos; si es relativamente baja en un determinado rango de capacidad de los examinandos, éstos no están siendo medidos con precisión. La CSEM es la inversa de la TIF, y tiene la ventaja interpretable de poder utilizarse para intervalos de confianza; la puntuación de una persona más o menos 1,96 veces la SEM es un intervalo de confianza del 95% para su puntuación. El gráfico de la derecha muestra parte del proceso de montaje de formularios en nuestra plataforma FastTest.

Supuestos de la Teoría de Respuesta al Ítem

La teoría de respuesta al ítem presupone algunas cosas sobre los datos.

  1. El rasgo latente que está midiendo es unidimensional. Si es multidimensional, existe una teoría de respuesta al ítem multidimensional, o puede tratar las dimensiones como rasgos separados.
  2. Los ítems tienen independencia local, lo que significa que el acto de responder a uno no se ve afectado por otros. Esto afecta al uso de testlets e ítems enemigos.
  3. La probabilidad de responder correctamente a un ítem (o en una determinada respuesta, en el caso de los politómicos como Likert), es una función del nivel de habilidad/rasgo del examinando y de los parámetros del modelo, siguiendo el cálculo de la función de respuesta al ítem, con cierta tolerancia al error aleatorio. Como corolario, estamos suponiendo que la capacidad/rasgo tiene una cierta distribución, con algunas personas que tienen niveles más altos o más bajos (por ejemplo, la inteligencia) y que estamos tratando de encontrar esas diferencias.

Muchos textos sólo postulan los dos primeros supuestos, porque el tercero se asume implícitamente.

Ventajas y beneficios de la teoría de respuesta al ítem

¿Por qué es importante? Volvamos a los problemas de la teoría clásica de los tests. ¿Por qué es mejor la TRÍ?

  • Independencia de la muestra de la escala: Las estadísticas clásicas dependen de la muestra y no se pueden utilizar en una muestra diferente; los resultados de la TRI son independientes de la muestra. dentro de una transformación lineal. Dos muestras de diferentes niveles de capacidad pueden convertirse fácilmente en la misma escala.
  • Estadística de pruebas: Las estadísticas clásicas están vinculadas a una forma de prueba específica.
  • Las matrices dispersas son adecuadas: Los estadísticos clásicos no funcionan con matrices dispersas introducidas por formas múltiples, pruebas lineales sobre la marcha o pruebas adaptativas.
  • Vinculación/igualación: La teoría de respuesta al ítem tiene una equiparación mucho más fuerte, por lo que si su examen tiene múltiples formas, o si realiza dos entregas al año con una nueva forma, puede tener una validez mucho mayor en la comparabilidad de las puntuaciones.
  • Medición del rango de estudiantes: Los exámenes clásicos se construyen para el estudiante medio, y no miden muy bien a los estudiantes altos o bajos; a la inversa, las estadísticas de los ítems muy difíciles o fáciles son sospechosas.
  • Escala vertical: La TRÍ puede escalar verticalmente, pero la TCT no.
  • Contabilización de las suposiciones: La TCT no tiene en cuenta las suposiciones en los exámenes de elección múltiple.
  • Puntuación: La puntuación en la teoría clásica de los tests no tiene en cuenta la dificultad de los ítems. Con la TRÍ, puede puntuar a un alumno en cualquier conjunto de ítems y estar seguro de que se encuentra en la misma escala latente.
  • Pruebas adaptativas: La TCT no admite pruebas adaptativas en la mayoría de los casos. Las pruebas adaptativas tienen su propia lista de ventajas.
  • Caracterización del error: La TCT asume que cada examinando tiene la misma cantidad de error en su puntuación (SEM); la TRI reconoce que si la prueba consiste en todos los ítems de dificultad media, entonces los estudiantes bajos o altos tendrán puntuaciones inexactas.
  • Construcción de formularios más sólida: La TRÍ dispone de funciones para construir formas que sean más fuertemente equivalentes y cumplan los objetivos del examen.
  • Función no lineal: La TRÍ no asume una función lineal de la relación alumno-elemento cuando es imposible. La TCT asume una función lineal (punto-biserial) cuando es descaradamente imposible.

Modelos de la Teoría de Respuesta al Ítem: Una gran familia feliz

Recuerde: la TRÍ es en realidad una familia de modelos, que hace un uso flexible de los parámetros. En algunos casos, sólo se utilizan dos(a,b) o un parámetro(b), dependiendo del tipo de evaluación y del ajuste de los datos. Si hay ítems multipunto, como las escalas de valoración Likert o los ítems de crédito parcial, los modelos se amplían para incluir parámetros adicionales. Obtenga más información sobre la situación del crédito parcial aquí.

He aquí un rápido desglose del árbol genealógico, con los modelos más comunes.

¿Cómo analizo mi test con la Teoría de Respuesta al Ítem?

OK item fit

Primero: necesitas conseguir un software especial. Hay algunos paquetes comerciales como Xcalibre, o puedes usar paquetes dentro de plataformas como R y Python.

El software analizará los datos en ciclos o bucles para intentar encontrar el mejor modelo. Esto se debe a que, como siempre, los datos no siempre se alinean perfectamente. Es posible que veas gráficos como el siguiente si comparas las proporciones reales (en rojo) con las predichas a partir de la función de respuesta al ítem (en negro). No pasa nada. La TRÍ es bastante robusta. Y hay análisis incorporados para ayudarle a evaluar el ajuste del modelo.

Más información sobre la imagen anterior:

  • Este fue el ítem #39 de la prueba
  • Utilizamos el modelo logístico de tres parámetros (3PL), ya que se trataba de un ítem de elección múltiple con 4 opciones.
  • 3422 examinados respondieron al ítem
  • 76,9 de ellos acertaron
  • La discriminación clásica del ítem (correlación ítem-total biserial puntual) fue de 0,253, que está bien pero no es muy alta
  • El parámetro a fue de 0,432, lo que está bien pero no es muy alto.
  • El parámetro b fue de -1,195, lo que significa que el ítem era bastante fácil.
  • El parámetro c fue de 0,248, lo que cabría esperar si hubiera un 25% de posibilidades de acertar.
  • El estadístico de ajuste Chi-cuadrado rechazó la nulidad, lo que indica un mal ajuste, pero este estadístico depende del tamaño de la muestra.
  • El estadístico de ajuste z-Resid es un poco más robusto y no indicó que el ítem tuviera un mal ajuste.

Xcalibre-poly-output
La imagen muestra la salida de Xcalibre del modelo de crédito parcial generalizado, que es un modelo politómico utilizado a menudo para ítems puntuados con crédito parcial. Por ejemplo, si una pregunta enumera 6 animales y pide a los alumnos que hagan clic en los que son reptiles, de los que hay 3. Las puntuaciones posibles son entonces 0, 1, 2, 3.

Aquí, el gráfico los etiqueta como 1-2-3-4, pero el significado es el mismo. Así es como se puede interpretar.

  • Es probable que alguien obtenga 0 puntos si su theta es inferior a -2,0 (el 3% inferior de los estudiantes, más o menos).
  • Algunos alumnos con capacidades bajas podrían obtener 1 punto (verde)
  • Los estudiantes de capacidad media-baja probablemente obtengan 2 correctos (azul)
  • Los que estén por encima de la media (0,0) probablemente acierten los 3 puntos.

Los puntos límite son aquellos en los que un nivel es más probable que otro, es decir, donde se cruzan las curvas. Por ejemplo, puede ver que las líneas azul y negra se cruzan en el límite -0,339.

¿Dónde puedo obtener más información?

Para más información, recomendamos el libro de texto Item Response Theory for Psychologists de Embretson & Riese (2000) para aquellos interesados en un tratamiento menos matemático, o de Ayala (2009) para un tratamiento más matemático. Si realmente desea profundizar en el tema, puede consultar el libro de 3 volúmenes Handbook of Item Response Theory editado por van der Linden, que contiene un capítulo en el que se analiza el software de análisis de la TRÍ de ASC, Xcalibre.

¿Quiere hablar con uno de nuestros expertos sobre cómo aplicar la TRÍ? Póngase en contacto con nosotros.

Contáctenos

Contáctenos