modified-Angoff Beuk compromise

Un estudio con el método Angoff modificado es una de las formas más comunes de establecer una puntuación de corte defendible en un examen. Por lo tanto, significa que las decisiones de aprobado/reprobado tomadas por la prueba son más confiables que si eligiera un número redondo arbitrario como el 70%. Si su médico, abogado, contador u otro profesional ha aprobado un examen en el que la puntuación de corte se ha establecido con este método, puede confiar más en sus habilidades.

¿Qué es el método Angoff?

El método Angoff es una forma científica de establecer un puntaje de corte (punto de aprobación) en una prueba. Si tiene una interpretación basada en criterios, no es legalmente defendible simplemente elegir convenientemente un número redondo como 70%; necesita un proceso formal. Hay una serie de metodologías aceptables en la literatura psicométrica para estudios de establecimiento de estándares, también conocidos como puntajes de corte o puntos de aprobación. Algunos ejemplos incluyen Angoff, Angoff modificado, Bookmark, Grupos contrastantes y Borderline. El enfoque Angoff modificado es, por lejos, el enfoque popular. Se utiliza especialmente con frecuencia para exámenes de certificación, licencia, certificado y otras credenciales.

Originalmente fue sugerido como una mera nota a pie de página por el reconocido investigador William Angoff, del Educational Testing Service.

¿Cómo funciona el enfoque Angoff?

Primero, reúne a un grupo de expertos en la materia (EM), con un mínimo de 6, aunque se prefieren 8-10 para una mejor confiabilidad, y pídeles que definan lo que consideran un Candidato Mínimamente Competente (CMC). A continuación, pídeles que estimen el porcentaje de candidatos mínimamente competentes que responderán cada elemento correctamente. Luego, analiza los resultados en busca de valores atípicos o inconsistencias. Si los expertos no están de acuerdo, deberá evaluar la confiabilidad y el acuerdo entre evaluadores, y luego hacer que los expertos discutan y vuelvan a calificar los elementos para obtener un mejor consenso. La calificación final promedio es entonces el puntaje porcentual correcto esperado para un candidato mínimamente competente.

Ventajas del método Angoff

  1. Es defendible. Debido a que es el enfoque más comúnmente utilizado y se estudia ampliamente en la literatura científica, es bien aceptado.
  2. Puede implementarse antes de que se administre una prueba. Algunos otros métodos requieren que primero se administre la prueba a una muestra grande.
  3. Es conceptualmente simple, lo suficientemente fácil de explicar a los no psicometristas.
  4. Incorpora el juicio de un panel de expertos, no solo de una persona o un número redondo.
  5. Funciona para pruebas con teoría de pruebas clásica y teoría de respuesta al ítem.
  6. No lleva mucho tiempo implementarlo: si es una prueba corta, ¡se puede hacer en cuestión de horas!
  7. Se puede usar con diferentes tipos de ítems, incluidos ítems con puntaje politómico (multipuntos).

Desventajas del método Angoff

  1. No utiliza datos reales, a menos que implementes el método Beuk junto con él.
  2. Puede hacer que los expertos sobreestimen el desempeño de los candidatos principiantes, ya que olvidaron cómo era empezar hace 20 o 30 años. Esta es una razón para usar el método Beuk como una “verificación de la realidad” al mostrarles a los expertos que, si se quedan con el puntaje de corte que acaban de elegir, ¡la mayoría de los candidatos podrían fallar!

Ejemplo del método Angoff modificado

En primer lugar, no espere un proceso sencillo y directo que conduzca a una puntuación de corte incuestionablemente correcta. Todos los métodos de establecimiento de estándares implican cierto grado de subjetividad. El objetivo de los métodos es reducir esa subjetividad tanto como sea posible. Algunos métodos se centran en el contenido, otros en los datos de rendimiento del examinado, mientras que algunos intentan fusionar los dos.

Paso 1: Prepare a su equipo

El proceso Angoff modificado depende de una muestra representativa de EM, generalmente de 6 a 20. Cuando digo “representativa” me refiero a que deben representar a las distintas partes interesadas. Por ejemplo, una certificación para asistentes médicos podría incluir asistentes médicos, enfermeras y médicos experimentados de diferentes áreas del país. Debe capacitarlos sobre su función y cómo funciona el proceso, para que puedan comprender el objetivo final y avanzar hacia él.

Paso 2: Definir el Candidato Mínimamente Competente (CMC)

Este concepto es el núcleo del método Angoff modificado, aunque se lo conoce con una variedad de términos o acrónimos, incluidos candidatos mínimamente calificados (CMC) o apenas calificados (CAC). El razonamiento es que queremos que nuestro examen separe a los candidatos que están calificados de los que no lo están. Por lo tanto, les pedimos a los expertos en la materia que definan qué hace que alguien esté calificado (¡o no calificado!) desde una perspectiva de habilidades y conocimientos. Esto conduce a una definición conceptual de un CMC. Luego queremos estimar qué puntaje obtendría este candidato en el límite, que es el objetivo del resto del estudio. Este paso se puede realizar en persona o mediante un seminario web.

Paso 3: Calificaciones de la ronda 1

A continuación, pida a sus expertos en la materia que lean todos los ítems de su formulario de prueba y calculen el porcentaje de candidatos mínimamente competente que responderían cada uno correctamente. Una calificación de 100 significa que el ítem es una apuesta segura; es tan fácil que todos los candidato mínimamente competente lo responderían correctamente. Una calificación de 40 es muy difícil. La mayoría de las calificaciones están en el rango de 60 a 90 si los ítems están bien desarrollados. Las calificaciones deben recopilarse de forma independiente; si todos están en la misma sala, déjelos trabajar solos en silencio. Sin embargo, esto se puede realizar fácilmente de forma remota.

Paso 4: Discusión

Aquí es donde se pone divertido. Identifique los elementos en los que hay más desacuerdo (tal como se define por las distribuciones de frecuencia agrupadas o la desviación estándar) y haga que los expertos en la materia los discutan. Tal vez dos expertos en la materia pensaron que era muy fácil y le dieron un 95 y otros dos pensaron que era muy difícil y le dieron un 45. Intentarán convencer a la otra parte de su locura. Es probable que no falten opiniones y usted, como facilitador, descubrirá que su mayor desafío es mantener la reunión encaminada. Este paso se puede realizar en persona o mediante un seminario web.

Paso 5: Calificaciones de la ronda 2

Luego, los evaluadores vuelven a calificar los ítems en función de la discusión. El objetivo es que haya un mayor consenso. En el ejemplo anterior, no es probable que todos los evaluadores se conformen con un 70. Pero si todos los evaluadores terminan con una calificación entre 60 y 80, no hay problema. ¿Cómo se sabe que hay suficiente consenso? Recomendamos la confiabilidad entre evaluadores sugerida por Shrout y Fleiss (1979), así como también observar el acuerdo entre evaluadores y la dispersión de las calificaciones para cada ítem. Este uso de múltiples rondas se conoce como el enfoque Delphi; se aplica a todas las discusiones impulsadas por el consenso en cualquier campo, no solo a la psicometría.

Paso 6: Evaluar los resultados y la recomendación final

Evalúa los resultados de la Ronda 2 y de la Ronda 1. A continuación, se incluye un ejemplo de esto. ¿Cuál es la puntuación de corte recomendada, que es el promedio o la suma de las puntuaciones de Angoff según la escala que prefieras? ¿Mejoró la confiabilidad? Calcula la media y la desviación estándar de las puntuaciones de los examinados (hay varios métodos para esto). ¿Qué tipo de tasa de aprobación esperas? Mejor aún, utiliza el Compromiso de Beuk como una “verificación de la realidad” entre el enfoque de Angoff modificado y los datos de prueba reales. Debes tener en cuenta múltiples puntos de vista, y los expertos en la materia deben votar sobre una recomendación final. Por supuesto, ellos conocen el material y a los candidatos, por lo que tienen la última palabra. Esto significa que el establecimiento de estándares es un proceso político; nuevamente, reduce ese efecto tanto como puedas.

Algunas organizaciones no establecen el puntaje de corte en el punto recomendado, sino en un error estándar de juicio (ESJ) por debajo del punto recomendado. El ESJ se basa en la confiabilidad entre evaluadores; tenga en cuenta que NO es el error estándar de la media ni el error estándar de medición. Algunas organizaciones utilizan este último; el primero es simplemente incorrecto (aunque lo he visto utilizado por aficionados).

 

modified angoff

Paso 7: Redacta tu informe

La validez se refiere a la evidencia reunida para respaldar las interpretaciones de los puntajes de las pruebas. Bueno, tienes mucha evidencia relevante aquí. Documentala. Si tu prueba es cuestionada, tendrás todo esto en su lugar. Por otro lado, si simplemente elegiste 70% como tu puntaje de corte porque era un número redondo, podrías tener problemas.

Temas adicionales

En algunas situaciones, hay más cuestiones de las que preocuparse. ¿Múltiples formas? Deberá hacer alguna comparación. ¿Utiliza la teoría de respuesta al ítem? ​​Deberá convertir la puntuación de corte del método Angoff modificado a la métrica theta utilizando la función de respuesta a la prueba (FRP). ¿Tiene una nueva credencial y no dispone de datos? Ese es un verdadero problema del huevo y la gallina.

¿A dónde voy desde aquí?

¿Está listo para dar el siguiente paso y aplicar realmente el proceso Angoff modificado para mejorar sus exámenes? Regístrese para obtener una cuenta gratuita en nuestro banco de ítems FastTest. También puede descargar nuestra herramienta de análisis Angoff de forma gratuita.

Referencias

Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability. Psychological bulletin86(2), 420.

split-half-reliability-analysis

La psicometría es la ciencia de la evaluación educativa y psicológica, que utiliza datos para garantizar que las pruebas sean justas y precisas. ¿Alguna vez has sentido que hiciste una prueba que era injusta, demasiado difícil, que no cubría los temas correctos o que estaba llena de preguntas que eran simplemente confusas o estaban mal escritas? Los psicometristas son las personas que ayudan a las organizaciones a solucionar estos problemas utilizando la ciencia de datos, así como temas más avanzados como cómo diseñar un algoritmo de IA que se adapte a cada examinado.

La psicometría es un aspecto fundamental de muchos campos. Tener información precisa sobre las personas es esencial para la educación, los recursos humanos, el desarrollo de la fuerza laboral, la capacitación corporativa, las certificaciones/licencias profesionales, la medicina y más. Estudia científicamente cómo se diseñan, desarrollan, entregan, validan y califican las pruebas.

Puntos clave sobre la psicometría

  • La psicometría es el estudio de cómo medir y evaluar los constructos mentales, como la inteligencia, la personalidad o el conocimiento de las leyes contables.
  • La psicometría NO es solo una prueba de selección laboral.
  • La psicometría se dedica a hacer que las pruebas sean más precisas y justas.
  • La psicometría se basa en gran medida en el análisis de datos y el aprendizaje automático, como la teoría de respuesta a los ítems.

 

¿Qué es la psicometría?

Psychometrician Qualities

La psicometría es el estudio de la evaluación en sí, independientemente del tipo de prueba que se esté considerando. De hecho, muchos psicometristas ni siquiera trabajan en una prueba en particular, solo trabajan en la psicometría en sí, como nuevos métodos de análisis de datos. A la mayoría de los profesionales no les importa lo que mide la prueba y, a menudo, cambian de trabajo y se dedican a temas completamente ajenos, como pasar de una empresa de pruebas K-12 a una empresa de medición psicológica o a un examen de certificación de contabilidad. A menudo nos referimos a lo que estamos midiendo simplemente como “theta”, un término de la teoría de respuesta a los ítems.

La psicometría aborda cuestiones fundamentales en torno a la evaluación, como la forma de determinar si una prueba es fiable o si un ítem es de buena calidad, así como cuestiones mucho más complejas, como la forma de garantizar que la puntuación de un examen de acceso a la universidad hoy sea la misma que hace 10 años. También examina fenómenos como la variedad positiva, en la que las diferentes capacidades cognitivas tienden a estar correlacionadas positivamente, lo que respalda la coherencia y la generalización de las puntuaciones de las pruebas a lo largo del tiempo.

La psicometría es una rama de la ciencia de datos. De hecho, existe desde mucho antes de que ese término se convirtiera en una palabra de moda. ¿No me cree? Eche un vistazo a este curso de Coursera sobre ciencia de datos y el primer ejemplo que ofrecen como uno de los proyectos seminales de referencia en la ciencia de datos es… ¡la psicometría! (una investigación temprana sobre el análisis factorial de la inteligencia).

Aunque la evaluación está en todas partes y la psicometría es un aspecto esencial de la evaluación, para la mayoría de las personas sigue siendo una caja negra y a los profesionales se les llama en broma “psicomagos“. Sin embargo, es importante que todos los que trabajan en la industria de las pruebas tengan un conocimiento básico de ella, especialmente aquellos que desarrollan o venden pruebas.

La psicometría NO se limita a tipos muy específicos de evaluación. Algunas personas usan el término indistintamente con conceptos como pruebas de CI, evaluación de la personalidad o pruebas previas al empleo. ¡Estas son solo pequeñas partes del campo! Además, no es la administración de una prueba.

 

¿Por qué necesitamos la psicometría?

El objetivo de las pruebas es proporcionar información útil sobre las personas, como por ejemplo si conviene contratarlas, certificarlas en una profesión o determinar qué enseñarles a continuación en la escuela. Unas mejores pruebas implican mejores decisiones. ¿Por qué? La evidencia científica es abrumadora de que las pruebas proporcionan mejor información a los que toman decisiones que muchos otros tipos de información, como entrevistas, currículums o logros educativos. Por lo tanto, las pruebas cumplen una función extremadamente útil en nuestra sociedad.

El objetivo de la psicometría es proporcionar validez, es decir, evidencia que respalde que las interpretaciones de los resultados de las pruebas son las que pretendíamos. Si se supone que una prueba de certificación significa que alguien que la aprueba cumple con el estándar mínimo para trabajar en un determinado puesto, necesitamos mucha evidencia al respecto, especialmente porque la prueba es de gran importancia en ese caso. El metaanálisis, una herramienta clave en psicometría, agrega los hallazgos de investigación de diferentes estudios para proporcionar evidencia sólida sobre la confiabilidad y validez de las pruebas. Al sintetizar datos de múltiples estudios, el metanálisis fortalece las afirmaciones de validez de las pruebas, lo que es especialmente crucial en los exámenes de certificación de alto riesgo donde la precisión y la imparcialidad son primordiales.

 

¿Qué hace la psicometría?

test development cycle job task analysis psychometrics

Crear y mantener una prueba de alta calidad no es fácil. Pueden surgir muchos problemas importantes. Gran parte del campo gira en torno a resolver preguntas importantes sobre las pruebas: qué deberían cubrir, qué es una buena pregunta, cómo establecemos un buen puntaje de corte, cómo nos aseguramos de que la prueba prediga el desempeño laboral o el éxito de los estudiantes, etc. Muchas de estas preguntas se alinean con el ciclo de desarrollo de la prueba; hablaremos más sobre eso más adelante.

¿Cómo definimos lo que debe cubrir la prueba? (Diseño de la prueba)

Antes de escribir cualquier elemento, debe definir muy específicamente lo que incluirá la prueba. Si la prueba es para acreditación o preempleo, los psicometristas generalmente realizan un estudio de análisis del trabajo para formar una base científica cuantitativa para los planos de la prueba. Un análisis del trabajo es necesario para que un programa de certificación obtenga la acreditación. En educación, la cobertura de la prueba a menudo se define por el plan de estudios.

¿Cómo nos aseguramos de que las preguntas sean de buena calidad? (Redacción de ítems)

Existe una gran cantidad de literatura científica sobre cómo desarrollar ítems de prueba que midan con precisión lo que se intenta medir. Un excelente resumen es el libro de Haladyna. Esto no se limita solo a los ítems de opción múltiple, aunque ese enfoque sigue siendo popular. Los psicometristas aprovechan su conocimiento de las mejores prácticas para guiar el proceso de creación y revisión de ítems de una manera que dé como resultado un contenido de prueba altamente defendible. El software de banco de ítems profesional proporciona la forma más eficiente de desarrollar contenido de alta calidad y publicar múltiples formularios de prueba, así como almacenar información histórica importante, como las estadísticas de los ítems.

¿Cómo establecemos un puntaje de corte defendible? (Establecimiento de estándares)

Los puntajes de las pruebas se utilizan a menudo para clasificar a los candidatos en grupos como aprobado/reprobado (Certificación/Licencia), contratado/no contratado (Pre-empleo) y por debajo del básico/básico/competente/avanzado (Educación). Los psicometristas realizan estudios para determinar los puntajes de corte, utilizando metodologías como Angoff, Beuk, Grupos contrastantes y Límite.

¿Cómo analizamos los resultados para mejorar el examen? (Análisis psicométrico)

Los psicometristas son esenciales para este paso, ya que los análisis estadísticos pueden ser bastante complejos. Las organizaciones de pruebas más pequeñas suelen utilizar la teoría clásica de las pruebas, que se basa en matemáticas simples como proporciones y correlaciones. Las organizaciones grandes y de alto perfil suelen utilizar la teoría de respuesta al ítem (TRI), que se basa en un tipo de análisis de regresión no lineal. Los psicometristas evalúan la confiabilidad general de la prueba, la dificultad y la discriminación de los ítems, el análisis de distractores, el sesgo potencial, la multidimensionalidad, la vinculación de múltiples formularios/años de prueba y mucho más. También hay software disponible como  Iteman  y  Xcalibre  para organizaciones con suficiente experiencia para ejecutar análisis estadísticos internamente. Desplácese hacia abajo para ver ejemplos.

¿Cómo comparamos las puntuaciones entre grupos o años? (Equivalencia)

Esto se conoce como vincular y equiparar. Hay algunos psicometristas que dedican toda su carrera a este tema. Si estás trabajando en un examen de certificación, por ejemplo, quieres asegurarte de que el estándar de aprobación sea el mismo este año que el año pasado. Si aprobaste el 76 % el año pasado y este año aprobaste el 25 %, no solo los candidatos se enojarán, sino que habrá mucha menos confianza en el significado de la credencial.

¿Cómo sabemos que la prueba está midiendo lo que debería? (Validez)

La validez es la evidencia proporcionada para respaldar las interpretaciones de las puntuaciones. Por ejemplo, podríamos interpretar las puntuaciones en una prueba para reflejar el conocimiento del inglés, y necesitamos proporcionar documentación e investigación que respalde esto. Hay varias formas de proporcionar esta evidencia. Un enfoque sencillo es establecer evidencia relacionada con el contenido, que incluye la definición de la prueba, los planos y la creación/revisión de los ítems. En algunas situaciones, la evidencia relacionada con criterios es importante, ya que correlaciona directamente los puntajes de las pruebas con otra variable de interés. Presentar las pruebas de manera segura también es esencial para la validez.

 

¿Dónde se utiliza la psicometría?

Certificación/licencia/credencialización

En las pruebas de certificación, los psicometristas desarrollan la prueba a través de una cadena documentada de evidencia siguiendo una secuencia de investigación delineada por los organismos de acreditación, generalmente: análisis del trabajo, planos de prueba, redacción y revisión de ítems, estudio de puntajes de corte y análisis estadístico. El software de banco de ítems basado en la web como  FastTest  suele ser útil porque el comité de examen a menudo está compuesto por expertos ubicados en todo el país o incluso en todo el mundo; luego pueden iniciar sesión fácilmente desde cualquier lugar y colaborar.

Pruebas previas al empleo

En las pruebas previas al empleo, la evidencia de validez se basa principalmente en establecer el contenido apropiado (una prueba sobre programación PHP para un trabajo de programación PHP) y la correlación de las puntuaciones de las pruebas con un criterio importante como las calificaciones de desempeño laboral (muestra que la prueba predice un buen desempeño laboral). Las pruebas adaptativas se están volviendo mucho más comunes en las pruebas previas al empleo porque brindan varios beneficios, el más importante de los cuales es reducir el tiempo de prueba en un 50%, un gran logro para las grandes corporaciones que evalúan a un millón de solicitantes cada año. Las pruebas adaptativas se basan en la teoría de respuesta a los ítems y requieren un psicometrista especializado, así como un software especialmente diseñado como  FastTest.

Educación K-12

La mayoría de las evaluaciones en educación caen en una de dos categorías: evaluación formativa de menor riesgo en las aulas y evaluaciones sumativas de mayor riesgo, como los exámenes de fin de año. La psicometría es esencial para establecer la confiabilidad y validez de los exámenes de mayor riesgo y para equiparar los puntajes en diferentes años. También son importantes para las evaluaciones formativas, que están avanzando hacia formatos adaptativos debido a la reducción del 50% en el tiempo de prueba, lo que significa que los estudiantes pasan menos tiempo evaluando y más tiempo aprendiendo.

Universidades

Las universidades no suelen pensar mucho en la psicometría, a pesar de que se realiza una cantidad significativa de pruebas en la educación superior, especialmente con la transición al aprendizaje en línea y los MOOC. Dado que muchos de los exámenes son de alto riesgo (¡considere un examen de certificación después de completar un programa de posgrado de un año!), se deben utilizar psicometristas para establecer puntajes de corte legalmente defendibles y análisis estadísticos para garantizar pruebas confiables, y sistemas de evaluación diseñados profesionalmente para desarrollar y entregar pruebas, especialmente con mayor seguridad.

Medicina/Psicología

¿Alguna vez ha realizado una encuesta en el consultorio de su médico o antes o después de una cirugía? ¿Quizás un inventario de depresión o ansiedad en un psicoterapeuta? Los psicometristas han trabajado en estos temas.

 

El ciclo de desarrollo de pruebas

La psicometría es el núcleo del ciclo de desarrollo de pruebas, que es el proceso de desarrollar un examen sólido. A veces se le conoce con nombres similares, como ciclo de vida de la evaluación.

Reconocerás algunos de los términos de la introducción anterior. Lo que estamos tratando de demostrar aquí es que esas preguntas no son temas independientes, o algo que haces una vez y simplemente presentas un informe. Un examen suele ser algo vivo. Las organizaciones suelen volver a publicar una nueva versión cada año o cada 6 meses, lo que significa que gran parte del ciclo se repite en esa línea de tiempo. No todo lo es; por ejemplo, muchas organizaciones solo realizan un análisis de trabajo y un establecimiento de estándares cada 5 años.

Considere un examen de certificación en atención médica. La profesión no cambia rápidamente porque cosas como la anatomía nunca cambian y los procedimientos médicos rara vez cambian (por ejemplo, cómo medir la presión arterial). Entonces, cada 5 años realiza un análisis de trabajo de sus certificados para ver qué están haciendo y qué es importante. Esto luego se convierte en planos de prueba. Los ítems se vuelven a asignar si es necesario, pero lo más probable es que no lo necesiten porque probablemente solo haya cambios menores en los planos. Luego, se establece un nuevo puntaje de corte con el método Angoff modificado y la prueba se entrega este año. Se entrega nuevamente el próximo año, pero se equipara a este año en lugar de comenzar de nuevo. Sin embargo, las estadísticas de los elementos aún se analizan, lo que conduce a un nuevo ciclo de revisión de elementos y publicación de un nuevo formulario para el próximo año.

 

Ejemplo de psicometría en acción

A continuación se muestra un resultado de nuestro software Iteman. Se trata de un análisis profundo de una sola pregunta de vocabulario en inglés para ver si el estudiante conoce la palabra ‘aliviar’. Alrededor del 70% de los estudiantes respondieron correctamente, con un biserial de puntos muy fuerte. Los valores P de distractores fueron todos minoritarios y los biserial de puntos de distractores fueron negativos, lo que agrega evidencia a la validez. El gráfico muestra que la línea para la respuesta correcta sube mientras que las demás bajan, lo cual es algo bueno. Si está familiarizado con la teoría de respuesta al ítem, notará cómo la línea azul es similar a una función de respuesta al ítem. Eso no es una coincidencia.

FastTest Itememan Psychometrics Analysis

 

Ahora, veamos otra pregunta más interesante. Aquí hay una pregunta de vocabulario sobre la palabra ‘confectioner’ (pastelero). Observa que solo el 37 % de los estudiantes la responde correctamente… ¡aunque hay un 25 % de posibilidades de que solo adivinen! Sin embargo, la discriminación biserial puntual sigue siendo muy fuerte, con un 0,49. Eso significa que es un ítem realmente bueno. Es simplemente difícil, lo que significa que hace un gran trabajo al diferenciar entre los mejores estudiantes.

 

Confectioner confetti

¡La psicometría suena divertida! ¿Cómo puedo unirme a la banda?

Necesitarás un título de posgrado. Te recomiendo que consultes el sitio web de NCME (ncme.org) para obtener recursos para estudiantes. ¡Buena suerte!

¿Ya tienes un título y estás buscando trabajo? Estos son los dos sitios que recomiendo:

  • NCME: también tiene una página de anuncios de empleo que es realmente buena (ncme.org)
  • Horizon Search: búsqueda de talentos para psicometristas y psicólogos de I/O
Equation editor item type

Los ítems mejorados tecnología son ítems de evaluación (preguntas) que utilizan tecnología para mejorar la interacción de una pregunta de prueba en una evaluación digital, más allá de lo que es posible con el papel. Los elementos mejorados con tecnología pueden mejorar la participación del examinado (importante en la evaluación K12), evaluar conceptos complejos con mayor fidelidad, mejorar la precisión/confiabilidad y mejorar la validez aparente/capacidad de venta.

Hasta cierto punto, la última palabra es la clave; los ítems mejorados con tecnología simplemente se ven más atractivos y, por lo tanto, hacen que una plataforma de evaluación sea más fácil de vender, incluso si en realidad no mejoran la evaluación. Yo diría que también hay ítems habilitados con tecnología, que son distintos, como se analiza a continuación.

¿Cuál es el objetivo de los ítems mejorados con tecnología?

El objetivo es mejorar la evaluación, aumentando aspectos como la confiabilidad/precisión, la validez y la fidelidad. Sin embargo, hay una serie de ítems mejorados con tecnología que en realidad están diseñados más con fines de ventas que con fines psicométricos. Entonces, ¿cómo saber si los ítems mejoran la evaluación? Por supuesto, esa es una pregunta empírica que se responde mejor con un experimento. Pero permítanme sugerir una métrica para abordar esta pregunta: ¿hasta qué punto el ítem va más allá de simplemente reformular un formato de ítem tradicional para usar la tecnología de interfaz de usuario actual? Definiría la reformulación del formato tradicional como un ítem falso, mientras que ir más allá definiría un ítem verdadero.

Una nomenclatura alternativa podría ser llamar a las reformulaciones ítems mejorados con tecnología y al uso real de la tecnología ítems habilitados por la tecnología (Almond et al, 2010; Bryant, 2017), ya que no serían posibles sin la tecnología.

Un gran ejemplo de esto es la relación entre un ítem de respuesta múltiple tradicional y ciertos tipos de ítems de arrastrar y soltar. Hay varias formas diferentes de crear elementos de arrastrar y soltar, pero por ahora, usemos el ejemplo de un formato que le pide al examinado que arrastre declaraciones de texto a un cuadro.

Un ejemplo de esto son los elementos de evaluación K12 de PARCC que le piden al estudiante leer un pasaje y luego hacer preguntas al respecto.

 

drag drop sequence

 

El ítem se califica con números enteros de 0 a K, donde K es el número de afirmaciones correctas; los números enteros se utilizan a menudo para implementar el modelo de crédito parcial generalizado para la puntuación final. Esto sería cierto independientemente de si el ítem se presentó como respuesta múltiple o arrastrar y soltar. El ítem de respuesta múltiple, por supuesto, podría entregarse fácilmente con papel y lápiz. Convertirlo en arrastrar y soltar mejora el ítem con la tecnología, pero la interacción del estudiante con el ítem, psicométricamente, sigue siendo la misma.

Algunos ítems mejorados tecnología (IMT) verdaderos

Por supuesto, en la última década aproximadamente hemos presenciado una mayor innovación en los formatos de los ítems. Las evaluaciones gamificadas cambian la forma en que se aborda la interacción entre la persona y el ítem, aunque esto posiblemente no sea tan relevante para la evaluación de alto riesgo debido a las preocupaciones sobre la validez. También hay ítems de simulación. Por ejemplo, una prueba para un operador de grúa de construcción podría proporcionar una interfaz con controles de grúa y pedirle al examinado que complete una tarea. Incluso en el nivel K-12 puede haber ítems de este tipo, como la simulación de un experimento científico donde se le dan al estudiante varios tubos de ensayo u otros instrumentos en la pantalla.

Ambos enfoques son extremadamente poderosos pero tienen una desventaja importante: el costo. Por lo general, están diseñados a medida. En el caso del examen de operador de grúa o incluso del experimento científico, necesitaría contratar desarrolladores de software para crear esta simulación. Ahora existen algunos ecosistemas de desarrollo de simulación que hacen que este proceso sea más eficiente, pero los ítems aún implican creación personalizada y algoritmos de puntuación personalizados.

Para abordar esta deficiencia, existe una nueva generación de tipos de ítems de autoría propia que son verdaderos IMT. Por “autoría propia” me refiero a que un profesor de ciencias podría crear estos ítems por sí mismo, tal como lo haría con un ítem de opción múltiple. La cantidad de tecnología utilizada se encuentra en algún punto entre un ítem de opción múltiple y una simulación diseñada a medida, lo que ofrece un compromiso de menor costo pero que aún aumenta la participación del examinado. Una ventaja importante de este enfoque es que los ítems no necesitan algoritmos de puntuación personalizados y, en cambio, se califican normalmente mediante números enteros de puntos, lo que permite el uso de la teoría de respuesta a ítems politómicos.

¿Al menos estamos avanzando? ¡No siempre!

Siempre hay resistencia contra la tecnología, y en este tema el contraejemplo es el tipo de ítem en cuadrícula. En realidad, va en sentido inverso a la innovación, porque no toma un formato tradicional y lo reformula para la interfaz de usuario (IU) actual. En realidad, ignora las capacidades de la IU actual (en realidad, la interfaz de usuario de los últimos 20+ años) y, por lo tanto, es un paso atrás. Con ese tipo de ítem, se presenta a los estudiantes una hoja de burbujas de un examen en papel al estilo de los años 60, en una pantalla de computadora, y se les pide que completen las burbujas haciendo clic en ellas en lugar de usar un lápiz sobre papel.

Otro ejemplo es el tipo de ítem EBSR del artista anteriormente conocido como PARCC. Era un nuevo tipo de ítem que tenía como objetivo evaluar una comprensión más profunda, pero no utilizó ninguna mejora o habilitación tecnológica, sino que hizo dos preguntas tradicionales de manera vinculada. Como cualquier psicometrista puede decirle, este enfoque ignoró los supuestos básicos de la psicometría, por lo que puede adivinar la calidad de la medición que produjo.

¿Cómo puedo implementar IMT?

Se necesita muy poca experiencia en desarrollo de software para desarrollar una plataforma que admita preguntas de opción múltiple. Sin embargo, una pregunta como la que se muestra en el gráfico anterior requiere una inversión sustancial. Por lo tanto, hay relativamente pocas plataformas que puedan admitirlas, especialmente con las mejores prácticas como la revisión de preguntas en el flujo de trabajo o la teoría de respuesta a las preguntas.

test response functions

La teoría de respuesta al ítem (TRI) es una familia de modelos de aprendizaje automático en el campo de la psicometría, que se utilizan para diseñar, analizar, validar y puntuar evaluaciones. Se trata de un paradigma psicométrico muy potente que permite a los investigadores construir evaluaciones más sólidas, tanto si trabajan en Educación, Psicología, Recursos Humanos u otros campos. También resuelve problemas de medición críticos como la equiparación entre años, el diseño de pruebas adaptativas o la creación de escalas verticales.

¿Quiere saber más sobre la TRI, cómo funciona y por qué es tan importante para la evaluación? Siga leyendo.

¿Qué es la Teoría de Respuesta al Ítem?

La TRI es una familia de modelos que intentan describir cómo responden los examinandos a los ítems de un test, de ahí su nombre. Estos modelos pueden utilizarse para evaluar el rendimiento de los ítems, ya que las descripciones son bastante útiles en sí mismas. Sin embargo, la teoría de respuesta al ítem acabó haciendo mucho más.Example Item response theory function

La TRI se basa en modelos, en el sentido de que hay una ecuación matemática específica que se asume, y ajustamos los modelos basándonos en datos brutos, de forma similar a la regresión lineal. Hay diferentes parámetros(a, b, c) que ajustan esta ecuación a diferentes necesidades. Eso es lo que define los diferentes modelos de TRI. Esto se tratará en profundidad más adelante.

Los modelos sitúan a las personas y a los ítems en una escala latente, que suele denominarse θ(theta). Esto representa lo que se está midiendo, ya sea el coeficiente intelectual, la ansiedad o el conocimiento de las leyes de contabilidad en Croacia. La TRI nos ayuda a comprender la naturaleza de la escala, cómo responde una persona a cada pregunta, la distribución de la dificultad de los ítems y mucho más. La TRI solía conocerse como teoría del rasgo latente y teoría de la curva característica del ítem.

La TRI requiere un software especialmente diseñado. Haga clic en el siguiente enlace para descargar nuestro software Xcalibre, que proporciona una plataforma visual y fácil de usar para aplicar la TRI.

IRT analysis with Xcalibre

¿Por qué necesitamos la Teoría de la Respuesta al Ítem?

La TRI representa una importante innovación en el campo de la psicometría. Aunque ya tiene más de 50 años -suponiendo que el “nacimiento” sea el texto clásico de Lord y Novick (1969)-, todavía está infrautilizada y sigue siendo un misterio para muchos profesionales.

La teoría de la respuesta al ítem es algo más que una forma de analizar los datos de los exámenes, es un paradigma para dirigir todo el ciclo de vida del diseño, la construcción, la entrega, la calificación y el análisis de las evaluaciones.

La TRI requiere muestras de mayor tamaño y es mucho más compleja que su predecesora, la teoría clásica de los tests, pero también es mucho más potente. La TRI requiere mucha experiencia, normalmente un doctorado. Por eso no se utiliza para evaluaciones pequeñas, como un examen final en las universidades, pero sí para casi todas las evaluaciones importantes del mundo.

El conductor: Problemas con la teoría clásica de los tests

La Teoría Clásica de los Test (TCT) tiene aproximadamente 100 años de antigüedad, y sigue siendo de uso común porque es adecuada para determinadas situaciones, y es lo suficientemente sencilla como para que pueda ser utilizada por muchas personas sin formación formal en psicometría. La mayoría de los estadísticos se limitan a medias, proporciones y correlaciones. Sin embargo, su simplicidad significa que carece de la sofisticación necesaria para tratar una serie de problemas de medición muy importantes. Más adelante se presenta una lista de ellos.

Obtenga más información sobre las diferencias entre la TCT y la TRI aquí.

Parámetros de la Teoría de Respuesta al Ítem

La base de la TRI es un modelo matemático definido por los parámetros del ítem. Un parámetro es un aspecto de un modelo matemático que puede cambiar su forma u otros aspectos. Para los ítems dicotómicos (los que se puntúan correcto/incorrecto), cada ítem tiene tres parámetros:

a: el parámetro de discriminación, un índice de lo bien que el ítem diferencia a los examinados con puntuaciones bajas de los examinados con puntuaciones altas; suele oscilar entre 0 y 2, donde más alto es mejor, aunque no hay muchos ítems por encima de 1,0.

b: el parámetro de dificultad, un índice del nivel de los examinandos para el que el ítem es apropiado; suele oscilar entre -3 y +3, siendo 0 un nivel medio de examinando.

c: el parámetro de pseudoadivinanza, que es una asíntota inferior; normalmente se centra en 1/k, donde k es el número de opciones.

Estos parámetros se utilizan en la fórmula siguiente, pero también se muestran gráficamente.

3PL irt equation

Item response function

Estos parámetros se utilizan para representar gráficamente una función de respuesta al ítem (IRF), que modela la probabilidad de una respuesta correcta en función de la capacidad. En el ejemplo de IRF, el parámetro a es aproximadamente 1,0, lo que indica un ítem de test bastante discriminante. El parámetro b es aproximadamente 0,0 (el punto del eje x donde se encuentra el punto medio de la curva), lo que indica un ítem de dificultad media; los examinandos con una capacidad media tendrían un 60% de probabilidades de responder correctamente. El parámetro c es aproximadamente 0,20, como un ítem de opción múltiple de 5 opciones. Considere que el eje x son las puntuaciones z en una escala normal estándar.

En algunos casos, no hay que adivinar y sólo utilizamos a y b. Esto se denomina modelo de dos parámetros. Si sólo utilizamos b, se trata del modelo de un parámetro o modelo de Rasch. He aquí cómo se calcula.

One-parameter-logistic-model-IRT

Los parámetros del ítem, que son cruciales en el marco de la TRI, pueden cambiar con el tiempo o en múltiples ocasiones de prueba, un fenómeno conocido como deriva del parámetro del ítem.

Ejemplo de cálculos de la Teoría de Respuesta al Ítem

Los examinados con mayor capacidad tienen muchas más probabilidades de responder correctamente. Observe el gráfico anterior. Alguien con +2,0 (percentil 97) tiene un 94% de probabilidades de acertar el ítem. Mientras tanto, alguien con un -2,0 sólo tiene un 25% de probabilidades, apenas por encima de la tasa de aciertos de 1 de cada 5, que es del 20%. Una persona media (0,0) tiene un 60% de posibilidades. ¿Por qué 60? Porque tenemos en cuenta las suposiciones. Si la curva fuera del 0% al 100% de probabilidad, entonces sí, el cambio en el medio sería del 50%. Pero aquí, asumimos un 20% como base debido a las suposiciones, así que la mitad es el 60%.

five item response functions

Por supuesto, los parámetros pueden y deben diferir de un ítem a otro, reflejando las diferencias en el rendimiento del ítem. El siguiente gráfico muestra cinco IRF con el modelo de tres parámetros. La línea azul oscuro es el ítem más fácil, con una b de -2,00. El ítem azul claro es el más difícil, con una b de -2,00. El ítem azul claro es el más difícil, con una b de +1,80. El morado tiene un c=0,00 mientras que el azul claro tiene c=0,25, lo que indica que es más susceptible de ser adivinado.

Estos IRF no son sólo un gráfico bonito o una forma de describir el rendimiento de un elemento. Son el elemento básico para alcanzar los importantes objetivos mencionados anteriormente. Eso viene a continuación…

Aplicaciones de la teoría de la respuesta al ítem para mejorar la evaluación

La teoría de respuesta al ítem utiliza el IRF para varios propósitos. He aquí algunos de ellos.

test information function from item response theory

  1. Interpretar y mejorar el rendimiento de los ítems
  2. Calificación de examinados con métodos de máxima verosimilitud o bayesianos
  3. Ensamblaje de formularios, incluida la prueba lineal sobre la marcha (LOFT) y la preigualación
  4. Cálculo de la precisión de las puntuaciones de los examinandos
  5. Desarrollo de pruebas adaptativas informatizadas (CAT)
  6. Posecuación
  7. Funcionamiento diferencial de los ítems (detección de sesgos)
  8. Análisis forense de datos para detectar tramposos u otros problemas

Además de utilizarse para evaluar cada ítem individualmente, los IRF se combinan de varias formas para evaluar el test o formulario en su conjunto. Los dos enfoques más importantes son el error estándar condicional de medida (CSEM) y la función de información del test (TIF). La función de información del test es más alta cuando el test proporciona más información de medida sobre los examinandos; si es relativamente baja en un determinado rango de capacidad de los examinandos, éstos no están siendo medidos con precisión. La CSEM es la inversa de la TIF, y tiene la ventaja interpretable de poder utilizarse para intervalos de confianza; la puntuación de una persona más o menos 1,96 veces la SEM es un intervalo de confianza del 95% para su puntuación. El gráfico de la derecha muestra parte del proceso de montaje de formularios en nuestra plataforma FastTest.

Supuestos de la Teoría de Respuesta al Ítem

La teoría de respuesta al ítem presupone algunas cosas sobre los datos.

  1. El rasgo latente que está midiendo es unidimensional. Si es multidimensional, existe una teoría de respuesta al ítem multidimensional, o puede tratar las dimensiones como rasgos separados.
  2. Los ítems tienen independencia local, lo que significa que el acto de responder a uno no se ve afectado por otros. Esto afecta al uso de testlets e ítems enemigos.
  3. La probabilidad de responder correctamente a un ítem (o en una determinada respuesta, en el caso de los politómicos como Likert), es una función del nivel de habilidad/rasgo del examinando y de los parámetros del modelo, siguiendo el cálculo de la función de respuesta al ítem, con cierta tolerancia al error aleatorio. Como corolario, estamos suponiendo que la capacidad/rasgo tiene una cierta distribución, con algunas personas que tienen niveles más altos o más bajos (por ejemplo, la inteligencia) y que estamos tratando de encontrar esas diferencias.

Muchos textos sólo postulan los dos primeros supuestos, porque el tercero se asume implícitamente.

Ventajas y beneficios de la teoría de respuesta al ítem

¿Por qué es importante? Volvamos a los problemas de la teoría clásica de los tests. ¿Por qué es mejor la TRI?

  • Independencia de la muestra de la escala: Las estadísticas clásicas dependen de la muestra y no se pueden utilizar en una muestra diferente; los resultados de la TRI son independientes de la muestra. dentro de una transformación lineal. Dos muestras de diferentes niveles de capacidad pueden convertirse fácilmente en la misma escala.
  • Estadística de pruebas: Las estadísticas clásicas están vinculadas a una forma de prueba específica.
  • Las matrices dispersas son adecuadas: Los estadísticos clásicos no funcionan con matrices dispersas introducidas por formas múltiples, pruebas lineales sobre la marcha o pruebas adaptativas.
  • Vinculación/igualación: La teoría de respuesta al ítem tiene una equiparación mucho más fuerte, por lo que si su examen tiene múltiples formas, o si realiza dos entregas al año con una nueva forma, puede tener una validez mucho mayor en la comparabilidad de las puntuaciones.
  • Medición del rango de estudiantes: Los exámenes clásicos se construyen para el estudiante medio, y no miden muy bien a los estudiantes altos o bajos; a la inversa, las estadísticas de los ítems muy difíciles o fáciles son sospechosas.
  • Escala vertical: La TRI puede escalar verticalmente, pero la TCT no.
  • Contabilización de las suposiciones: La TCT no tiene en cuenta las suposiciones en los exámenes de elección múltiple.
  • Puntuación: La puntuación en la teoría clásica de los tests no tiene en cuenta la dificultad de los ítems. Con la TRI, puede puntuar a un alumno en cualquier conjunto de ítems y estar seguro de que se encuentra en la misma escala latente.
  • Pruebas adaptativas: La TCT no admite pruebas adaptativas en la mayoría de los casos. Las pruebas adaptativas tienen su propia lista de ventajas.
  • Caracterización del error: La TCT asume que cada examinando tiene la misma cantidad de error en su puntuación (SEM); la TRI reconoce que si la prueba consiste en todos los ítems de dificultad media, entonces los estudiantes bajos o altos tendrán puntuaciones inexactas.
  • Construcción de formularios más sólida: La TRI dispone de funciones para construir formas que sean más fuertemente equivalentes y cumplan los objetivos del examen.
  • Función no lineal: La TRI no asume una función lineal de la relación alumno-elemento cuando es imposible. La TCT asume una función lineal (punto-biserial) cuando es descaradamente imposible.

Modelos de la Teoría de Respuesta al Ítem: Una gran familia feliz

Recuerde: la TRI es en realidad una familia de modelos, que hace un uso flexible de los parámetros. En algunos casos, sólo se utilizan dos(a,b) o un parámetro(b), dependiendo del tipo de evaluación y del ajuste de los datos. Si hay ítems multipunto, como las escalas de valoración Likert o los ítems de crédito parcial, los modelos se amplían para incluir parámetros adicionales. Obtenga más información sobre la situación del crédito parcial aquí.

He aquí un rápido desglose del árbol genealógico, con los modelos más comunes.

¿Cómo analizo mi test con la Teoría de Respuesta al Ítem?

OK item fit

Primero: necesitas conseguir un software especial. Hay algunos paquetes comerciales como Xcalibre, o puedes usar paquetes dentro de plataformas como R y Python.

El software analizará los datos en ciclos o bucles para intentar encontrar el mejor modelo. Esto se debe a que, como siempre, los datos no siempre se alinean perfectamente. Es posible que veas gráficos como el siguiente si comparas las proporciones reales (en rojo) con las predichas a partir de la función de respuesta al ítem (en negro). No pasa nada. La TRI es bastante robusta. Y hay análisis incorporados para ayudarle a evaluar el ajuste del modelo.

Más información sobre la imagen anterior:

  • Este fue el ítem #39 de la prueba
  • Utilizamos el modelo logístico de tres parámetros (3PL), ya que se trataba de un ítem de elección múltiple con 4 opciones.
  • 3422 examinados respondieron al ítem
  • 76,9 de ellos acertaron
  • La discriminación clásica del ítem (correlación ítem-total biserial puntual) fue de 0,253, que está bien pero no es muy alta
  • El parámetro a fue de 0,432, lo que está bien pero no es muy alto.
  • El parámetro b fue de -1,195, lo que significa que el ítem era bastante fácil.
  • El parámetro c fue de 0,248, lo que cabría esperar si hubiera un 25% de posibilidades de acertar.
  • El estadístico de ajuste Chi-cuadrado rechazó la nulidad, lo que indica un mal ajuste, pero este estadístico depende del tamaño de la muestra.
  • El estadístico de ajuste z-Resid es un poco más robusto y no indicó que el ítem tuviera un mal ajuste.

Xcalibre-poly-output
La imagen muestra la salida de Xcalibre del modelo de crédito parcial generalizado, que es un modelo politómico utilizado a menudo para ítems puntuados con crédito parcial. Por ejemplo, si una pregunta enumera 6 animales y pide a los alumnos que hagan clic en los que son reptiles, de los que hay 3. Las puntuaciones posibles son entonces 0, 1, 2, 3.

Aquí, el gráfico los etiqueta como 1-2-3-4, pero el significado es el mismo. Así es como se puede interpretar.

  • Es probable que alguien obtenga 0 puntos si su theta es inferior a -2,0 (el 3% inferior de los estudiantes, más o menos).
  • Algunos alumnos con capacidades bajas podrían obtener 1 punto (verde)
  • Los estudiantes de capacidad media-baja probablemente obtengan 2 correctos (azul)
  • Los que estén por encima de la media (0,0) probablemente acierten los 3 puntos.

Los puntos límite son aquellos en los que un nivel es más probable que otro, es decir, donde se cruzan las curvas. Por ejemplo, puede ver que las líneas azul y negra se cruzan en el límite -0,339.

¿Dónde puedo obtener más información?

Para más información, recomendamos el libro de texto Item Response Theory for Psychologists de Embretson & Riese (2000) para aquellos interesados en un tratamiento menos matemático, o de Ayala (2009) para un tratamiento más matemático. Si realmente desea profundizar en el tema, puede consultar el libro de 3 volúmenes Handbook of Item Response Theory editado por van der Linden, que contiene un capítulo en el que se analiza el software de análisis de la TRI de ASC, Xcalibre.

¿Quiere hablar con uno de nuestros expertos sobre cómo aplicar la TRI? Póngase en contacto con nosotros.

Contáctenos

Contáctenos

computerized adaptive testing

Las pruebas adaptativas informatizadas son un método de evaluación basado en la inteligencia artificial en el que la prueba se personaliza en función de tu rendimiento a medida que la realizas, lo que hace que la prueba sea más corta, más precisa, más segura, más atractiva y más justa. Si lo haces bien, los ítems se vuelven más difíciles, y si lo haces mal, los ítems se vuelven más fáciles. Si se alcanza una puntuación exacta, el test se detiene antes. Al adaptar la dificultad de las preguntas al rendimiento de cada examinando, el CAT garantiza un proceso de evaluación eficaz y seguro.

Los algoritmos de IA se basan casi siempre en la Teoría de Respuesta al Ítem ( TRI), una aplicación del aprendizaje automático a la evaluación, pero también pueden basarse en otros modelos.

 

¿Prefiere aprender haciendo? Solicite una cuenta gratuita en FastTest, nuestra potente plataforma de pruebas adaptativas.

Free FastTest Account

¿Qué son las pruebas adaptativas informatizadas?

El test adaptativo informatizado (CAT), a veces llamado test adaptativo informatizado, evaluación adaptativa o test adaptativo, es un algoritmo que personaliza la forma en que se entrega una evaluación a cada examinando. Se codifica en una plataforma de software y utiliza el enfoque de aprendizaje automático de la TRI para seleccionar los ítems y puntuar a los examinandos. El algoritmo funciona en bucle hasta que se completa el examen. Esto hace que la prueba sea más inteligente, más corta, más justa y más precisa.

computerized Adaptive testing options

Los pasos del diagrama anterior son una adaptación de Kingsbury y Weiss (1984). basado en estos componentes.

Componentes de un CAT

  1. Banco de ítems calibrado con TRI
  2. Punto de partida (nivel theta antes de que alguien responda a un ítem)
  3. Algoritmo de selección de ítems (normalmente información máxima de Fisher)
  4. Método de puntuación (por ejemplo, máxima verosimilitud)
  5. Criterio de finalización (¿parar la prueba a los 50 ítems o cuando el error estándar es inferior a 0,30? ¿Ambos?)

Funcionamiento de los componentes

Para empezar, necesitas un banco de ítems que haya sido calibrado con un modelo psicométrico o de aprendizaje automático relevante. Es decir, no basta con escribir unos cuantos ítems y clasificarlos subjetivamente como de dificultad Fácil, Media o Difícil. Esa es una forma fácil de ser demandado. En su lugar, tiene que escribir un gran número de ítems (la regla general es 3 veces la longitud prevista de la prueba) y luego probarlos en una muestra representativa de examinados. La muestra debe ser lo suficientemente grande como para respaldar el modelo psicométrico que elijas, y puede oscilar entre 100 y 1000. A continuación, hay que llevar a cabo una investigación de simulación, de la que hablaremos más adelante.

computerized adaptive testing

Una vez que tenga listo un banco de ítems, he aquí cómo funciona el algoritmo de las pruebas adaptativas informatizadas para un alumno que se sienta a realizar la prueba, con opciones sobre cómo hacerlo.

  1. Punto de partida: hay tres opciones para seleccionar la puntuación inicial, que los psicometristas denominan theta
    • Todos obtienen el mismo valor, como 0,0 (media, en el caso de los modelos que no son de Rasch)
    • Aleatorizado dentro de un rango, para ayudar a la seguridad de la prueba y la exposición al ítem
    • Valor previsto, tal vez a partir de datos externos o de un examen anterior
  2. Seleccionar ítem
    • Busque el elemento del banco que tenga el mayor valor informativo.
    • A menudo, es necesario equilibrar esto con limitaciones prácticas como la exposición de elementos o el equilibrio de contenidos.
  3. Puntúa al examinado
    • Normalmente IRT, máxima verosimilitud o Bayes modal
  4. Evaluar el criterio de terminación: utilizando una regla predefinida apoyada en su investigación de simulación
    • ¿Se alcanza un determinado nivel de precisión, como un error estándar de medida <0,30?
    • ¿No quedan artículos buenos en el banco?
    • ¿Se ha alcanzado un límite de tiempo?
    • ¿Se ha alcanzado un límite máximo de artículos?

El algoritmo funciona realizando un bucle a través de 2-3-4 hasta que se cumple el criterio de terminación.

¿Cómo se adapta la prueba? ¿Por dificultad o por cantidad?

Los CAT funcionan adaptando tanto la dificultad como la cantidad de ítems que ve cada examinando.

Dificultad
La mayoría de las caracterizaciones de los tests adaptativos informatizados se centran en cómo se ajusta la dificultad de los ítems a la capacidad del examinado. Los examinandos de alta capacidad reciben ítems más difíciles, mientras que los de baja capacidad reciben ítems más fáciles, lo que tiene importantes beneficios para el estudiante y la organización. Un test adaptativo suele comenzar con un ítem de dificultad media; si aciertas, obtienes un ítem más difícil, y si no aciertas, obtienes un ítem más fácil. Este patrón continúa.

Cantidad: Longitud fija frente a longitud variable
Una faceta menos conocida de la adaptación es el número de ítems. Los tests adaptativos pueden diseñarse para que se detengan cuando se alcanzan determinados criterios psicométricos, como un nivel específico de precisión en la puntuación. Algunos examinandos terminan muy rápidamente con pocos ítems, de modo que los tests adaptativos suelen tener la mitad de preguntas que un test normal, con al menos la misma precisión. Dado que algunos examinandos tienen pruebas más largas, estas pruebas adaptativas se denominan de longitud variable. Obviamente, esto supone un enorme beneficio: reducir el tiempo de examen a la mitad, por término medio, puede disminuir sustancialmente los costes de los exámenes.

Algunos tests adaptativos tienen una longitud fija y sólo adaptan la dificultad de los ítems. Esto se hace simplemente por cuestiones de relaciones públicas, es decir, por la incomodidad de tratar con examinados que se sienten injustamente tratados por el CAT, aunque pueda decirse que es más justo y válido que los tests convencionales. En general, la mejor práctica consiste en fusionar las dos: permitir que la duración de los exámenes sea más corta o más larga, pero poner topes en ambos extremos que impidan que los exámenes sean demasiado cortos o que lleguen potencialmente a los 400 ítems. Por ejemplo, el examen NCLEX tiene una longitud mínima de 75 preguntas y una máxima de 145 preguntas.

 

Ejemplo de algoritmo de pruebas adaptativas informatizadas

Veamos un ejemplo simplificado. Tenemos un banco de ítems con 5 preguntas. Empezaremos con un ítem de dificultad media y responderemos como lo haría un alumno de dificultad inferior a la media.

A continuación se muestran las funciones de información del ítem para cinco ítems de un banco. Supongamos que el theta inicial es 0.0.

item information functions

 

  1. Encontramos el primer ítem a entregar. ¿Qué artículo tiene la información más alta a 0,0? Es el ítem 4.
  2. Supongamos que el alumno responde incorrectamente.
  3. Ejecutamos el algoritmo de puntuación de la TRI y supongamos que la puntuación es -2,0.
  4. Compruebe el criterio de terminación; ciertamente no hemos terminado todavía, después de 1 ítem.
  5. Busque el siguiente ítem. ¿Cuál tiene la información más alta en -2.0? Ítem 2.
  6. Supongamos que el alumno responde correctamente.
  7. Ejecutamos el algoritmo de puntuación de la TRI, y supongamos que la puntuación es -0,8.
  8. Evalúe el criterio de terminación; aún no está hecho.
  9. Busque el siguiente ítem. El ítem 2 es el más alto con -0,8, pero ya lo hemos utilizado. El ítem 4 es el siguiente mejor, pero ya lo hemos utilizado. Así que el siguiente mejor es el ítem 1.
  10. El ítem 1 es muy fácil, así que el alumno lo acierta.
  11. La nueva puntuación es -0,2.
  12. El mejor ítem restante con -0,2 es el ítem 3.
  13. Supongamos que el alumno lo hace mal.
  14. La nueva puntuación es quizás -0,4.
  15. Evalúe el criterio de terminación. Supongamos que el test tiene un máximo de 3 ítems, un criterio extremadamente simple. Lo hemos cumplido. La prueba está terminada y enviada automáticamente.

 

Ventajas de las pruebas adaptativas informatizadas

Al hacer que el test sea más inteligente, las pruebas adaptativas proporcionan una amplia gama de ventajas. A continuación se enumeran algunas de las ventajas más conocidas de las pruebas adaptativas, reconocidas por la investigación psicométrica académica.
 

Pruebas más cortas

Las investigaciones han demostrado que los tests adaptativos reducen la longitud de las pruebas entre un 50% y un 90%. Esto no es ninguna sorpresa. Supongamos que se dispone de un conjunto de 100 ítems. Un alumno aventajado tiene prácticamente garantizado que acertará los 70 más fáciles; sólo los 30 más difíciles le harán pensar. Y viceversa para un alumno bajo. Los alumnos con capacidades medias no necesitan ni los ítems superdifíciles ni los superfáciles.

¿Por qué es importante esto? En primer lugar, puede reducir mucho los costes. Supongamos que realiza 100.000 exámenes al año en centros de evaluación y que paga 30 dólares por hora. Si puede reducir su examen de 2 horas a 1 hora, acaba de ahorrar 3.000.000 de dólares. Sí, habrá un aumento de los costes por el uso de la evaluación adaptativa, pero es probable que al final se ahorre dinero.

En el caso de la evaluación de K12, no se está pagando por el tiempo de asiento, pero existe el coste de oportunidad del tiempo de instrucción perdido. Si los alumnos realizan evaluaciones formativas 3 veces al año para comprobar su progreso y puede reducir cada una en 20 minutos, eso supone 1 hora; si hay 500.000 alumnos en su Estado, entonces acaba de ahorrar 500.000 horas de aprendizaje.

Puntuaciones más precisas

El CAT hará que los exámenes sean más precisos, en general. Para ello, diseña los algoritmos específicamente en torno a cómo obtener puntuaciones más precisas sin hacer perder tiempo a los examinandos.

Mayor control de la precisión de las puntuaciones

El CAT garantiza que todos los alumnos tendrán la misma precisión, lo que hace que el examen sea mucho más justo. Los exámenes tradicionales miden bien a los alumnos del medio, pero no a los de arriba ni a los de abajo. ¿Es mejor que A) los alumnos vean los mismos ítems pero puedan tener una precisión de las puntuaciones drásticamente diferente, o que B) tengan una precisión de las puntuaciones equivalente, pero vean ítems diferentes?

Mayor seguridad en las pruebas

Dado que todos los estudiantes reciben una evaluación adaptada a ellos, la seguridad de la prueba es mayor que si todos vieran los mismos 100 ítems. La exposición a los ítems se reduce considerablemente; sin embargo, hay que tener en cuenta que esto introduce sus propios retos y que los algoritmos de evaluación adaptativa tienen en cuenta su propia exposición a los ítems.

Una mejor experiencia para los examinandos, con menor fatiga

Las evaluaciones adaptativas tenderán a ser menos frustrantes para los examinandos en todos los rangos de capacidad. Además, mediante la aplicación de reglas de parada de longitud variable (por ejemplo, una vez que sabemos que es un estudiante de alto nivel, no le damos los 70 ítems fáciles), se reduce la fatiga.

Mayor motivación de los examinandos

Dado que los examinandos sólo ven ítems relevantes para ellos, esto les proporciona un reto adecuado. Los examinandos con capacidades bajas se sentirán más cómodos y acertarán muchos más ítems que con un test lineal. Los alumnos con altas capacidades acertarán los ítems difíciles que les hagan pensar.

Es posible repetir las pruebas con frecuencia

Toda la idea de la “forma única” se aplica al mismo alumno que se presenta dos veces al mismo examen. Supongamos que haces el examen en septiembre, al principio del curso escolar, y vuelves a hacer el mismo en noviembre para comprobar tu aprendizaje. Es probable que hayas aprendido bastante y estés más arriba en el rango de capacidad; te tocarán ítems más difíciles y, por tanto, un nuevo examen. Si fuera una prueba lineal, podrías ver exactamente la misma prueba.

Esta es una de las principales razones por las que la evaluación adaptativa desempeña un papel formativo en la educación primaria y secundaria, ya que se aplica varias veces al año a millones de estudiantes sólo en Estados Unidos.

Ritmo individual de los exámenes

Los examinandos pueden avanzar a su propio ritmo. Algunos pueden avanzar rápidamente y terminar en sólo 30 preguntas. Otros pueden vacilar, ver también 30 temas pero tardar más tiempo. Otros pueden ver 60 preguntas. Los algoritmos pueden diseñarse para maximizar el proceso.

Ventajas de las pruebas informatizadas en general

Por supuesto, las ventajas de utilizar un ordenador para realizar una prueba también son relevantes. He aquí algunas
  • Informe inmediato de las puntuaciones
  • Las pruebas a demanda pueden reducir la impresión, la programación y otros problemas relacionados con el papel.
  • El almacenamiento inmediato de los resultados en una base de datos facilita la gestión de los datos.
  • Las pruebas informatizadas facilitan el uso de multimedia en los ítems
  • Se pueden ejecutar inmediatamente informes psicométricos
  • Los plazos se reducen con un sistema integrado de banco de ítems

 

Cómo desarrollar una evaluación adaptativa que sea válida y defendible

Las CAT son el futuro de la evaluación. Funcionan adaptando la dificultad y el número de ítems a cada examinando. El desarrollo de un test adaptativo no es tarea fácil y requiere cinco pasos en los que se integran los conocimientos de los desarrolladores del contenido del test, los ingenieros de software y los psicometristas.

El desarrollo de un test adaptativo de calidad es complejo y requiere psicometristas experimentados tanto en la calibración de la teoría de respuesta al ítem (TRI) como en la investigación de simulación CAT. FastTest puede proporcionarle el psicometrista y el software; si usted proporciona los ítems del test y los datos piloto, podemos ayudarle a publicar rápidamente una versión adaptativa de su test.

Paso 1: Estudios de viabilidad, aplicabilidad y planificación. En primer lugar, debe realizarse una investigación exhaus tiva de simulación monte carlo, y los resultados deben formularse como casos empresariales, para evaluar si las pruebas adaptativas son viables, aplicables o incluso posibles.

Paso 2: Desarrollar un banco de ítems. Debe crearse un banco de ítems que cumpla las especificaciones recomendadas en la etapa 1.

Paso 3: Pruebas preliminares y calibración del banco de ítems. Los ítems deben someterse a pruebas piloto con 200-1.000 examinados (dependiendo del modelo de TRI) y ser analizados por un psicometrista doctorado.

Paso 4: Determinar las especificaciones para el CAT final. Se analizan los datos del Paso 3 para evaluar las especificaciones del CAT y determinar los algoritmos más eficientes utilizando software de simulación de CAT como CATSim.

Paso 5: Publicación del CAT en vivo. El test adaptativo se publica en un motor de pruebas capaz de realizar tests totalmente adaptativos basados en la TRI. No hay muchos en el mercado. Regístrese para obtener una cuenta gratuita en nuestra plataforma FastTest y pruébelo usted mismo.

¿Quiere saber más sobre nuestro modelo único? Haga clic aquí para leer el artículo seminal de nuestros dos cofundadores. Aquí encontrará más estudios sobre pruebas adaptativas.

Requisitos mínimos para las pruebas adaptativas informatizadas

Estos son algunos de los requisitos mínimos que debe evaluar si está pensando en adoptar el método de las pruebas adaptativas informatizadas.

  • Un gran banco de ítems probado para que cada ítem tenga al menos 100 respuestas válidas (modelo Rasch) o 500 (modelo 3PL).
  • 500 examinandos por año
  • Calibración IRT especializada y software de simulación CAT como Xcalibre y CATsim.
  • Personal con un doctorado en psicometría o un nivel equivalente de experiencia. O aproveche nuestra experiencia reconocida internacionalmente en este campo.
  • Ítems (preguntas) que pueden puntuarse objetivamente como correctos/incorrectos en tiempo real.
  • Un sistema de bancos de ítems y una plataforma de entrega de CAT
  • Recursos financieros: Debido a su complejidad, el desarrollo de un CAT costará al menos 10.000 dólares, pero si va a realizar pruebas a un gran número de examinandos, la inversión será significativamente positiva. Si pagas 20 $/hora por los puestos de supervisor y reduces un examen de 2 horas a 1 hora para sólo 1.000 examinandos… eso supone un ahorro de 20.000 $. ¿Y si hace 200.000 exámenes? Eso supone un ahorro de 4.000.000 de dólares en tiempo de examen.

 

Pruebas adaptativas: Recursos para leer más

Visite los siguientes enlaces para obtener más información sobre la evaluación adaptativa.

  • En primer lugar, le recomendamos que lea este artículo de referencia de nuestros cofundadores.
  • Lea este artículo del profesor David J. Weiss sobre cómo realizar mejores mediciones con CAT.
  • Asociación Internacional de Pruebas Adaptativas Informatizadas: www.iacat.org
  • Aquí está el enlace al seminario web sobre la historia de las CAT, impartido por el padrino de las CAT, el profesor David J. Weiss.

 

Ejemplos de TAO

computerized Adaptive testing options

Muchas evaluaciones a gran escala utilizan tecnología adaptativa. El GRE (Graduate Record Examinations) es un buen ejemplo de prueba adaptativa. También lo son el NCLEX (examen de enfermería en EE.UU.), el GMAT (admisión en escuelas de negocios) y muchas evaluaciones formativas como el NWEA MAP. El SAT ha pasado recientemente a un formato adaptativo multietapa.

Cómo implantar el CAT

Nuestra revolucionaria plataforma, FastTest, facilita la publicación de un CAT. Una vez que haya cargado los textos de sus ítems y los parámetros de la TRI, puede elegir las opciones que desee para los pasos 2-3-4 del algoritmo, simplemente haciendo clic en los elementos de nuestra interfaz fácil de usar.

 

Póngase en contacto con nosotros para obtener una cuenta gratuita en nuestra plataforma CAT líder del sector o para hablar con uno de nuestros psicometristas doctorados.