La teoría de respuesta al ítem (TRÍ) es una familia de modelos de aprendizaje automático en el campo de la psicometría, que se utilizan para diseñar, analizar, validar y puntuar evaluaciones. Se trata de un paradigma psicométrico muy potente que permite a los investigadores construir evaluaciones más sólidas, tanto si trabajan en Educación, Psicología, Recursos Humanos u otros campos. También resuelve problemas de medición críticos como la equiparación entre años, el diseño de pruebas adaptativas o la creación de escalas verticales.
¿Quiere saber más sobre la TRÍ, cómo funciona y por qué es tan importante para la evaluación? Siga leyendo.
¿Qué es la Teoría de Respuesta al Ítem?
La TRÍ es una familia de modelos que intentan describir cómo responden los examinandos a los ítems de un test, de ahí su nombre. Estos modelos pueden utilizarse para evaluar el rendimiento de los ítems, ya que las descripciones son bastante útiles en sí mismas. Sin embargo, la teoría de respuesta al ítem acabó haciendo mucho más.
La TRÍ se basa en modelos, en el sentido de que hay una ecuación matemática específica que se asume, y ajustamos los modelos basándonos en datos brutos, de forma similar a la regresión lineal. Hay diferentes parámetros(a, b, c) que ajustan esta ecuación a diferentes necesidades. Eso es lo que define los diferentes modelos de TRÍ. Esto se tratará en profundidad más adelante.
Los modelos sitúan a las personas y a los ítems en una escala latente, que suele denominarse θ(theta). Esto representa lo que se está midiendo, ya sea el coeficiente intelectual, la ansiedad o el conocimiento de las leyes de contabilidad en Croacia. La TRÍ nos ayuda a comprender la naturaleza de la escala, cómo responde una persona a cada pregunta, la distribución de la dificultad de los ítems y mucho más. La TRÍ solía conocerse como teoría del rasgo latente y teoría de la curva característica del ítem.
La TRÍ requiere un software especialmente diseñado. Haga clic en el siguiente enlace para descargar nuestro software Xcalibre, que proporciona una plataforma visual y fácil de usar para aplicar la TRÍ.
¿Por qué necesitamos la Teoría de la Respuesta al Ítem?
La TRÍ representa una importante innovación en el campo de la psicometría. Aunque ya tiene más de 50 años -suponiendo que el “nacimiento” sea el texto clásico de Lord y Novick (1969)-, todavía está infrautilizada y sigue siendo un misterio para muchos profesionales.
La teoría de la respuesta al ítem es algo más que una forma de analizar los datos de los exámenes, es un paradigma para dirigir todo el ciclo de vida del diseño, la construcción, la entrega, la calificación y el análisis de las evaluaciones.
La TRÍ requiere muestras de mayor tamaño y es mucho más compleja que su predecesora, la teoría clásica de los tests, pero también es mucho más potente. La TRÍ requiere mucha experiencia, normalmente un doctorado. Por eso no se utiliza para evaluaciones pequeñas, como un examen final en las universidades, pero sí para casi todas las evaluaciones importantes del mundo.
El conductor: Problemas con la teoría clásica de los tests
La Teoría Clásica de los Test (TCT) tiene aproximadamente 100 años de antigüedad, y sigue siendo de uso común porque es adecuada para determinadas situaciones, y es lo suficientemente sencilla como para que pueda ser utilizada por muchas personas sin formación formal en psicometría. La mayoría de los estadísticos se limitan a medias, proporciones y correlaciones. Sin embargo, su simplicidad significa que carece de la sofisticación necesaria para tratar una serie de problemas de medición muy importantes. Más adelante se presenta una lista de ellos.
Obtenga más información sobre las diferencias entre la TCT y la TRÍ aquí.
Parámetros de la Teoría de Respuesta al Ítem
La base de la TRÍ es un modelo matemático definido por los parámetros del ítem. Un parámetro es un aspecto de un modelo matemático que puede cambiar su forma u otros aspectos. Para los ítems dicotómicos (los que se puntúan correcto/incorrecto), cada ítem tiene tres parámetros:
a: el parámetro de discriminación, un índice de lo bien que el ítem diferencia a los examinados con puntuaciones bajas de los examinados con puntuaciones altas; suele oscilar entre 0 y 2, donde más alto es mejor, aunque no hay muchos ítems por encima de 1,0.
b: el parámetro de dificultad, un índice del nivel de los examinandos para el que el ítem es apropiado; suele oscilar entre -3 y +3, siendo 0 un nivel medio de examinando.
c: el parámetro de pseudoadivinanza, que es una asíntota inferior; normalmente se centra en 1/k, donde k es el número de opciones.
Estos parámetros se utilizan en la fórmula siguiente, pero también se muestran gráficamente.
Estos parámetros se utilizan para representar gráficamente una función de respuesta al ítem (FRÍ), que modela la probabilidad de una respuesta correcta en función de la capacidad. En el ejemplo de IRF, el parámetro a es aproximadamente 1,0, lo que indica un ítem de test bastante discriminante. El parámetro b es aproximadamente 0,0 (el punto del eje x donde se encuentra el punto medio de la curva), lo que indica un ítem de dificultad media; los examinandos con una capacidad media tendrían un 60% de probabilidades de responder correctamente. El parámetro c es aproximadamente 0,20, como un ítem de opción múltiple de 5 opciones. Considere que el eje x son las puntuaciones z en una escala normal estándar.
En algunos casos, no hay que adivinar y sólo utilizamos a y b. Esto se denomina modelo de dos parámetros. Si sólo utilizamos b, se trata del modelo de un parámetro o modelo de Rasch. He aquí cómo se calcula.
Los parámetros del ítem, que son cruciales en el marco de la TRÍ, pueden cambiar con el tiempo o en múltiples ocasiones de prueba, un fenómeno conocido como deriva del parámetro del ítem.
Ejemplo de cálculos de la Teoría de Respuesta al Ítem
Los examinados con mayor capacidad tienen muchas más probabilidades de responder correctamente. Observe el gráfico anterior. Alguien con +2,0 (percentil 97) tiene un 94% de probabilidades de acertar el ítem. Mientras tanto, alguien con un -2,0 sólo tiene un 25% de probabilidades, apenas por encima de la tasa de aciertos de 1 de cada 5, que es del 20%. Una persona media (0,0) tiene un 60% de posibilidades. ¿Por qué 60? Porque tenemos en cuenta las suposiciones. Si la curva fuera del 0% al 100% de probabilidad, entonces sí, el cambio en el medio sería del 50%. Pero aquí, asumimos un 20% como base debido a las suposiciones, así que la mitad es el 60%.
Por supuesto, los parámetros pueden y deben diferir de un ítem a otro, reflejando las diferencias en el rendimiento del ítem. El siguiente gráfico muestra cinco IRF con el modelo de tres parámetros. La línea azul oscuro es el ítem más fácil, con una b de -2,00. El ítem azul claro es el más difícil, con una b de -2,00. El ítem azul claro es el más difícil, con una b de +1,80. El morado tiene un c=0,00 mientras que el azul claro tiene c=0,25, lo que indica que es más susceptible de ser adivinado.
Estos IRF no son sólo un gráfico bonito o una forma de describir el rendimiento de un elemento. Son el elemento básico para alcanzar los importantes objetivos mencionados anteriormente. Eso viene a continuación…
Aplicaciones de la teoría de la respuesta al ítem para mejorar la evaluación
La teoría de respuesta al ítem utiliza el IRF para varios propósitos. He aquí algunos de ellos.
- Interpretar y mejorar el rendimiento de los ítems
- Calificación de examinados con métodos de máxima verosimilitud o bayesianos
- Ensamblaje de formularios, incluida la prueba lineal sobre la marcha (LOFT) y la preigualación
- Cálculo de la precisión de las puntuaciones de los examinandos
- Desarrollo de prueba adaptativa computarizada (CAT)
- Posecuación
- Funcionamiento diferencial de los ítems (detección de sesgos)
- Análisis forense de datos para detectar tramposos u otros problemas
Además de utilizarse para evaluar cada ítem individualmente, los IRF se combinan de varias formas para evaluar el test o formulario en su conjunto. Los dos enfoques más importantes son el error estándar condicional de medida (CSEM) y la función de información del test (TIF). La función de información del test es más alta cuando el test proporciona más información de medida sobre los examinandos; si es relativamente baja en un determinado rango de capacidad de los examinandos, éstos no están siendo medidos con precisión. La CSEM es la inversa de la TIF, y tiene la ventaja interpretable de poder utilizarse para intervalos de confianza; la puntuación de una persona más o menos 1,96 veces la SEM es un intervalo de confianza del 95% para su puntuación. El gráfico de la derecha muestra parte del proceso de montaje de formularios en nuestra plataforma FastTest.
Supuestos de la Teoría de Respuesta al Ítem
La teoría de respuesta al ítem presupone algunas cosas sobre los datos.
- El rasgo latente que está midiendo es unidimensional. Si es multidimensional, existe una teoría de respuesta al ítem multidimensional, o puede tratar las dimensiones como rasgos separados.
- Los ítems tienen independencia local, lo que significa que el acto de responder a uno no se ve afectado por otros. Esto afecta al uso de testlets e ítems enemigos.
- La probabilidad de responder correctamente a un ítem (o en una determinada respuesta, en el caso de los politómicos como Likert), es una función del nivel de habilidad/rasgo del examinando y de los parámetros del modelo, siguiendo el cálculo de la función de respuesta al ítem, con cierta tolerancia al error aleatorio. Como corolario, estamos suponiendo que la capacidad/rasgo tiene una cierta distribución, con algunas personas que tienen niveles más altos o más bajos (por ejemplo, la inteligencia) y que estamos tratando de encontrar esas diferencias.
Muchos textos sólo postulan los dos primeros supuestos, porque el tercero se asume implícitamente.
Ventajas y beneficios de la teoría de respuesta al ítem
¿Por qué es importante? Volvamos a los problemas de la teoría clásica de los tests. ¿Por qué es mejor la TRÍ?
- Independencia de la muestra de la escala: Las estadísticas clásicas dependen de la muestra y no se pueden utilizar en una muestra diferente; los resultados de la TRI son independientes de la muestra. dentro de una transformación lineal. Dos muestras de diferentes niveles de capacidad pueden convertirse fácilmente en la misma escala.
- Estadística de pruebas: Las estadísticas clásicas están vinculadas a una forma de prueba específica.
- Las matrices dispersas son adecuadas: Los estadísticos clásicos no funcionan con matrices dispersas introducidas por formas múltiples, pruebas lineales sobre la marcha o pruebas adaptativas.
- Vinculación/igualación: La teoría de respuesta al ítem tiene una equiparación mucho más fuerte, por lo que si su examen tiene múltiples formas, o si realiza dos entregas al año con una nueva forma, puede tener una validez mucho mayor en la comparabilidad de las puntuaciones.
- Medición del rango de estudiantes: Los exámenes clásicos se construyen para el estudiante medio, y no miden muy bien a los estudiantes altos o bajos; a la inversa, las estadísticas de los ítems muy difíciles o fáciles son sospechosas.
- Escala vertical: La TRÍ puede escalar verticalmente, pero la TCT no.
- Contabilización de las suposiciones: La TCT no tiene en cuenta las suposiciones en los exámenes de elección múltiple.
- Puntuación: La puntuación en la teoría clásica de los tests no tiene en cuenta la dificultad de los ítems. Con la TRÍ, puede puntuar a un alumno en cualquier conjunto de ítems y estar seguro de que se encuentra en la misma escala latente.
- Pruebas adaptativas: La TCT no admite pruebas adaptativas en la mayoría de los casos. Las pruebas adaptativas tienen su propia lista de ventajas.
- Caracterización del error: La TCT asume que cada examinando tiene la misma cantidad de error en su puntuación (SEM); la TRI reconoce que si la prueba consiste en todos los ítems de dificultad media, entonces los estudiantes bajos o altos tendrán puntuaciones inexactas.
- Construcción de formularios más sólida: La TRÍ dispone de funciones para construir formas que sean más fuertemente equivalentes y cumplan los objetivos del examen.
- Función no lineal: La TRÍ no asume una función lineal de la relación alumno-elemento cuando es imposible. La TCT asume una función lineal (punto-biserial) cuando es descaradamente imposible.
Modelos de la Teoría de Respuesta al Ítem: Una gran familia feliz
Recuerde: la TRÍ es en realidad una familia de modelos, que hace un uso flexible de los parámetros. En algunos casos, sólo se utilizan dos(a,b) o un parámetro(b), dependiendo del tipo de evaluación y del ajuste de los datos. Si hay ítems multipunto, como las escalas de valoración Likert o los ítems de crédito parcial, los modelos se amplían para incluir parámetros adicionales. Obtenga más información sobre la situación del crédito parcial aquí.
He aquí un rápido desglose del árbol genealógico, con los modelos más comunes.
¿Cómo analizo mi test con la Teoría de Respuesta al Ítem?
Primero: necesitas conseguir un software especial. Hay algunos paquetes comerciales como Xcalibre, o puedes usar paquetes dentro de plataformas como R y Python.
El software analizará los datos en ciclos o bucles para intentar encontrar el mejor modelo. Esto se debe a que, como siempre, los datos no siempre se alinean perfectamente. Es posible que veas gráficos como el siguiente si comparas las proporciones reales (en rojo) con las predichas a partir de la función de respuesta al ítem (en negro). No pasa nada. La TRÍ es bastante robusta. Y hay análisis incorporados para ayudarle a evaluar el ajuste del modelo.
Más información sobre la imagen anterior:
- Este fue el ítem #39 de la prueba
- Utilizamos el modelo logístico de tres parámetros (3PL), ya que se trataba de un ítem de elección múltiple con 4 opciones.
- 3422 examinados respondieron al ítem
- 76,9 de ellos acertaron
- La discriminación clásica del ítem (correlación ítem-total biserial puntual) fue de 0,253, que está bien pero no es muy alta
- El parámetro a fue de 0,432, lo que está bien pero no es muy alto.
- El parámetro b fue de -1,195, lo que significa que el ítem era bastante fácil.
- El parámetro c fue de 0,248, lo que cabría esperar si hubiera un 25% de posibilidades de acertar.
- El estadístico de ajuste Chi-cuadrado rechazó la nulidad, lo que indica un mal ajuste, pero este estadístico depende del tamaño de la muestra.
- El estadístico de ajuste z-Resid es un poco más robusto y no indicó que el ítem tuviera un mal ajuste.
La imagen muestra la salida de Xcalibre del modelo de crédito parcial generalizado, que es un modelo politómico utilizado a menudo para ítems puntuados con crédito parcial. Por ejemplo, si una pregunta enumera 6 animales y pide a los alumnos que hagan clic en los que son reptiles, de los que hay 3. Las puntuaciones posibles son entonces 0, 1, 2, 3.
Aquí, el gráfico los etiqueta como 1-2-3-4, pero el significado es el mismo. Así es como se puede interpretar.
- Es probable que alguien obtenga 0 puntos si su theta es inferior a -2,0 (el 3% inferior de los estudiantes, más o menos).
- Algunos alumnos con capacidades bajas podrían obtener 1 punto (verde)
- Los estudiantes de capacidad media-baja probablemente obtengan 2 correctos (azul)
- Los que estén por encima de la media (0,0) probablemente acierten los 3 puntos.
Los puntos límite son aquellos en los que un nivel es más probable que otro, es decir, donde se cruzan las curvas. Por ejemplo, puede ver que las líneas azul y negra se cruzan en el límite -0,339.
¿Dónde puedo obtener más información?
Para más información, recomendamos el libro de texto Item Response Theory for Psychologists de Embretson & Riese (2000) para aquellos interesados en un tratamiento menos matemático, o de Ayala (2009) para un tratamiento más matemático. Si realmente desea profundizar en el tema, puede consultar el libro de 3 volúmenes Handbook of Item Response Theory editado por van der Linden, que contiene un capítulo en el que se analiza el software de análisis de la TRÍ de ASC, Xcalibre.
¿Quiere hablar con uno de nuestros expertos sobre cómo aplicar la TRÍ? Póngase en contacto con nosotros.
Contáctenos