El escalamiento vertical es el proceso de colocar las puntuaciones de las evaluaciones educativas que miden el mismo dominio de conocimiento pero en diferentes niveles de habilidad en una escala común (Tong y Kolen, 2008). El ejemplo más común es colocar las evaluaciones de Matemáticas o Lenguaje para K-12 en una sola escala para todos los grados. Por ejemplo, puede tener un currículo de matemáticas de grado 4, grado 5, grado 6… en lugar de tratarlos a todos como islas, consideramos todo el recorrido y vinculamos los grados en un solo banco de ítems. Si bien se puede encontrar información general sobre el escalamiento en ¿Qué es el escalamiento de pruebas?, este artículo se centrará específicamente en el escalamiento vertical.

¿Por qué escalamiento vertical?

Una escala vertical es increíblemente importante, ya que permite inferencias sobre el progreso del estudiante de un momento a otro, por ejemplo, de los grados de primaria a secundaria, y puede considerarse como un continuo de desarrollo de los logros académicos del estudiante. En otras palabras, los estudiantes avanzan a lo largo de ese continuo a medida que desarrollan nuevas habilidades, y su puntaje en la escala se altera como resultado (Briggs, 2010).

Esto no solo es importante para los estudiantes individuales, porque podemos hacer un seguimiento del aprendizaje y asignar intervenciones o enriquecimientos apropiados, sino también en un sentido agregado. ¿Qué escuelas están creciendo más que otras? ¿Son mejores ciertos maestros? ¿Quizás haya una diferencia notable entre los métodos de instrucción o los planes de estudio? Aquí, estamos llegando al propósito fundamental de la evaluación; al igual que es necesario tener una báscula de baño para controlar el peso en un régimen de ejercicios, si un gobierno implementa un nuevo método de instrucción de matemáticas, ¿cómo sabe que los estudiantes están aprendiendo de manera más efectiva?

El uso de una escala vertical puede crear un marco interpretativo común para los resultados de las pruebas en todos los grados y, por lo tanto, proporcionar datos importantes que sirvan de base para la enseñanza individual y en el aula. Para que sean válidos y fiables, estos datos deben recopilarse en base a escalas verticales construidas adecuadamente.

Las escalas verticales se pueden comparar con las reglas que miden el crecimiento de los estudiantes en algunas áreas temáticas de un momento de prueba a otro. De manera similar a la altura o el peso, se supone que las capacidades de los estudiantes aumentan con el tiempo. Sin embargo, si tiene una regla de solo 1 metro de largo y está tratando de medir el crecimiento de niños de 3 a 10 años, deberá unir dos reglas.

Construcción de escalas verticales

La construcción de una escala vertical es un proceso complicado que implica tomar decisiones sobre el diseño de la prueba, el diseño de la escala, la metodología de la escala y la configuración de la escala. La interpretación del progreso en una escala vertical depende de la combinación resultante de dichas decisiones de escala (Harris, 2007; Briggs y Weeks, 2009). Una vez que se establece una escala vertical, es necesario mantenerla en diferentes formas y en el tiempo. Según Hoskens et al. (2003), el método elegido para mantener las escalas verticales afecta a la escala resultante y, por lo tanto, es muy importante.

Un modelo de medición que se utiliza para colocar las habilidades de los estudiantes en una escala vertical está representado por la teoría de respuesta al ítem (IRT; Lord, 2012; De Ayala, 2009) o el modelo de Rasch (Rasch, 1960). Este enfoque permite comparaciones directas de los resultados de la evaluación basados ​​en diferentes conjuntos de ítems (Berger et al., 2019). Por lo tanto, se supone que cada estudiante debe trabajar con un grupo seleccionado de ítems que no son similares a los ítems tomados por otros estudiantes, pero aún así sus resultados serán comparables con los de ellos, así como con los suyos propios de otros momentos de evaluación.

La imagen a continuación muestra cómo los resultados de los estudiantes de diferentes grados pueden conceptualizarse mediante una escala vertical común. Suponga que fuera a calibrar los datos de cada grado por separado, pero tiene ítems de anclaje entre los tres grupos. Un análisis de enlace podría sugerir que el Grado 4 está 0,5 logits por encima del Grado 3, y el Grado 5 está 0,7 logits por encima del Grado 4. Puede pensar en las curvas de campana superpuestas como se ve a continuación. Un theta de 0,0 en la escala de Grado 5 es equivalente a 0,7 en la escala de Grado 4, y 1,3 en la escala de Grado 3. Si tiene un enlace fuerte, puede poner los ítems/estudiantes de Grado 3 y Grado 4 en la escala de Grado 5… así como todos los demás grados utilizando el mismo enfoque.

Vertical-scaling

Diseño de pruebas

Kolen y Brennan (2014) nombran tres tipos de diseños de pruebas que apuntan a recopilar datos de respuesta de los estudiantes que deben calibrarse:

  • Diseño de grupo equivalente. A los grupos de estudiantes con distribuciones de habilidades presumiblemente comparables dentro de un grado se les asigna aleatoriamente la tarea de responder preguntas relacionadas con su propio grado o con un grado adyacente;
  • Diseño de elementos comunes. Utilizar elementos idénticos para estudiantes de grados adyacentes (sin requerir grupos equivalentes) para establecer un vínculo entre dos grados y alinear bloques de elementos superpuestos dentro de un grado, como poner algunos elementos de Grado 5 en la prueba de Grado 6, algunos elementos de Grado 6 en la prueba de Grado 7, etc.;
  • Diseño de pruebas de escalamiento. Este tipo es muy similar al diseño de ítems comunes pero, en este caso, los ítems comunes se comparten no solo entre grados adyacentes; hay un bloque de ítems administrado a todos los grados involucrados además de los ítems relacionados con el grado específico.

Desde una perspectiva teórica, el diseño más coherente con una definición de dominio del crecimiento es el diseño de pruebas de escalamiento. El diseño de ítems comunes es el más fácil de implementar en la práctica, pero solo si la administración de los mismos ítems a grados adyacentes es razonable desde una perspectiva de contenido. El diseño de grupos equivalentes requiere procedimientos de administración más complicados dentro de un grado escolar para garantizar muestras con distribuciones de capacidad equivalentes.

Diseño de escala

El procedimiento de escalamiento puede utilizar puntuaciones observadas o puede basarse en IRT. Los procedimientos de diseño de escala más utilizados en configuraciones de escala vertical son los de escala Hieronymus, Thurstone e IRT (Yen, 1986; Yen y Burket, 1997; Tong y Harris, 2004). En todas estas tres metodologías se elige una escala provisional (von Davier et al., 2006).

  • Escala de Hieronymus. Este método utiliza una puntuación total de respuestas correctas para las pruebas con puntuación dicotómica o una puntuación total de puntos para los ítems con puntuación politómica (Petersen et al., 1989). La prueba de escala se construye de manera que represente el contenido en un orden creciente en términos del nivel de la prueba, y se administra a una muestra representativa de cada nivel o grado de la prueba. La variabilidad y el crecimiento dentro y entre niveles se establecen en una prueba de escala externa, que es el conjunto especial de ítems comunes.
  • Escala de Thurstone. Según Thurstone (1925, 1938), este método crea primero una escala de puntuación provisional y luego normaliza las distribuciones de las variables en cada nivel o grado. Supone que las puntuaciones en una escala subyacente se distribuyen normalmente dentro de cada grupo de interés y, por lo tanto, utiliza un número total de puntuaciones correctas para pruebas con puntuación dicotómica o un número total de puntos de ítems con puntuación politómica para realizar el escalamiento. Por lo tanto, el escalamiento de Thurstone normaliza e iguala linealmente las puntuaciones brutas y, por lo general, se realiza dentro de grupos equivalentes.
  • Escala de IRT. Este método de escalamiento considera las interacciones persona-ítem. Teóricamente, el escalamiento IRT se aplica a todos los modelos IRT existentes, incluidos los modelos IRT multidimensionales o los modelos de diagnóstico. En la práctica, solo se utilizan modelos unidimensionales, como los modelos de Rasch y/o de crédito parcial (PCM) o los modelos 3PL (von Davier et al., 2006).

Calibración de datos

Cuando se han tomado todas las decisiones, incluido el diseño de la prueba y el diseño de la escala, y se administran las pruebas a los estudiantes, los ítems deben calibrarse con un software como  Xcalibre  para establecer una escala de medición vertical. Según Eggen y Verhelst (2011), la calibración de ítems dentro del contexto del modelo de Rasch implica el proceso de establecer el ajuste del modelo y estimar el parámetro de dificultad de un ítem basado en los datos de respuesta por medio de procedimientos de estimación de máxima verosimilitud.

Se emplean dos procedimientos, la calibración concurrente y la calibración grado por grado, para vincular los parámetros de dificultad de los ítems basados ​​en la IRT a una escala vertical común en varios grados (Briggs y Weeks, 2009; Kolen y Brennan, 2014). En la calibración concurrente, todos los parámetros de los ítems se estiman en una sola ejecución mediante la vinculación de ítems compartidos por varios grados adyacentes (Wingersky y Lord, 1983). Por el contrario, en la calibración grado por grado, los parámetros de los ítems se estiman por separado para cada grado y luego se transforman en una escala común a través de métodos lineales. El método más preciso para determinar las constantes de enlace minimizando las diferencias entre las curvas características de los elementos de enlace entre las calificaciones es el método de Stocking y Lord (Stocking y Lord, 1983). Esto se logra con software como  IRTEQ.

Resumen del escalamiento vertical

El escalamiento vertical es un tema extremadamente importante en el mundo de la evaluación educativa, especialmente en la educación primaria y secundaria. Como se mencionó anteriormente, esto no solo se debe a que facilita la instrucción para estudiantes individuales, sino que es la base para la información sobre la educación a nivel agregado.

Existen varios enfoques para implementar el escalamiento vertical, pero el enfoque basado en IRT es muy convincente. Una escala IRT vertical permite la representación de la capacidad de los estudiantes en múltiples grados escolares y también la dificultad de los ítems en una amplia gama de dificultades. Además, los ítems y las personas se encuentran en la misma escala latente. Gracias a esta característica, el enfoque IRT admite la selección intencionada de ítems y, por lo tanto, algoritmos para pruebas adaptativas computarizadas (CAT). Estos últimos utilizan estimaciones preliminares de la capacidad para elegir los ítems más apropiados e informativos para cada estudiante individual (Wainer, 2000; van der Linden y Glas, 2010). Por lo tanto, incluso si el conjunto de ítems es de 1000 preguntas que abarcan desde el jardín de infantes hasta el grado 12, puede realizar una sola prueba a cualquier estudiante en el rango y se adaptará a ellos. Mejor aún, puede realizar la misma prueba varias veces al año y, como los estudiantes están aprendiendo, recibirán un conjunto diferente de ítems. Como tal, la CAT con una escala vertical es un enfoque increíblemente adecuado para la evaluación formativa de K-12.

Lectura adicional

Reckase (2010) afirma que la literatura sobre escalamiento vertical es escasa desde la década de 1920 y recomienda algunos estudios de investigación contemporáneos orientados a la práctica:

Paek y Young (2005). Este estudio de investigación abordó los efectos de los valores a priori bayesianos en la estimación de las ubicaciones de los estudiantes en el continuo cuando se utiliza un método de vinculación de parámetros de ítems fijos. Primero, se realizó una calibración dentro del grupo para un nivel de grado; luego, se fijaron los parámetros de los ítems comunes en esa calibración para calibrar el siguiente nivel de grado. Este enfoque obliga a que las estimaciones de los parámetros sean las mismas para los ítems comunes en los niveles de grado adyacentes. Los resultados del estudio mostraron que las distribuciones a priori podrían afectar los resultados y que se deben realizar controles cuidadosos para minimizar los efectos.

Rekase y Li (2007). Este capítulo del libro describe un estudio de simulación de los impactos de la dimensionalidad en el escalamiento vertical. Se emplearon modelos IRT tanto multidimensionales como unidimensionales para simular datos para observar el crecimiento en tres constructos de rendimiento. Los resultados mostraron que el modelo multidimensional recuperó las ganancias mejor que los modelos unidimensionales, pero esas ganancias se subestimaron principalmente debido a la selección de ítems comunes. Esto enfatiza la importancia de usar ítems comunes que cubran todo el contenido evaluado en los niveles de grado adyacentes.

Li (2007). El objetivo de esta tesis doctoral fue identificar si los métodos de IRT multidimensionales podrían usarse para el escalamiento vertical y qué factores podrían afectar los resultados. Este estudio se basó en una simulación diseñada para hacer coincidir los datos de evaluación estatal en Matemáticas. Los resultados mostraron que el uso de enfoques multidimensionales era factible, pero era importante que los ítems comunes incluyeran todas las dimensiones evaluadas en los niveles de grado adyacentes.

Ito, Sykes y Yao (2008). Este estudio comparó la calibración de grupos de grado concurrentes y separados mientras se desarrollaba una escala vertical para nueve grados consecutivos que rastreaban las competencias de los estudiantes en Lectura y Matemáticas. El estudio de investigación utilizó el software BMIRT implementando la estimación de Monte Carlo de cadena de Markov. Los resultados mostraron que las calibraciones simultáneas y por separado de los grupos de grado habían proporcionado resultados diferentes para Matemáticas que para Lectura. Esto, a su vez, confirma que la implementación de la escala vertical es muy difícil y que las combinaciones de decisiones sobre su construcción pueden tener efectos notables en los resultados.

Briggs y Weeks (2009). Este estudio de investigación se basó en datos reales utilizando respuestas a los ítems del Programa de Evaluación de Estudiantes de Colorado. El estudio comparó las escalas verticales basadas en el modelo 3PL con las del modelo Rasch. En general, el modelo 3PL proporcionó escalas verticales con mayores aumentos en el desempeño de un año a otro, pero también mayores aumentos dentro de la variabilidad de grado que la escala basada en el modelo Rasch. Todos los métodos dieron como resultado curvas de crecimiento con menor ganancia junto con un aumento en el nivel de grado, mientras que las desviaciones estándar no fueron muy diferentes en tamaño en diferentes niveles de grado.

Referencias

Berger, S., Verschoor, A. J., Eggen, T. J., & Moser, U. (2019, October). Development and validation of a vertical scale for formative assessment in mathematics. In Frontiers in Education (Vol. 4, p. 103). https://doi.org/10.3389/feduc.2019.00103

Briggs, D. C., & Weeks, J. P. (2009). The impact of vertical scaling decisions on growth interpretations. Educational Measurement: Issues and Practice, 28(4), 3–14.

Briggs, D. C. (2010). Do Vertical Scales Lead to Sensible Growth Interpretations? Evidence from the Field. Online Submissionhttps://files.eric.ed.gov/fulltext/ED509922.pdf

De Ayala, R. J. (2009). The Theory and Practice of Item Response Theory. New York: Guilford Publications Incorporated.

Eggen, T. J. H. M., & Verhelst, N. D. (2011). Item calibration in incomplete testing designs. Psicológica 32, 107–132.

Harris, D. J. (2007). Practical issues in vertical scaling. In Linking and aligning scores and scales (pp. 233–251). Springer, New York, NY.

Hoskens, M., Lewis, D. M., & Patz, R. J. (2003). Maintaining vertical scales using a common item design. In annual meeting of the National Council on Measurement in Education, Chicago, IL.

Ito, K., Sykes, R. C., & Yao, L. (2008). Concurrent and separate grade-groups linking procedures for vertical scaling. Applied Measurement in Education, 21(3), 187–206.

Kolen, M. J., & Brennan, R. L. (2014). Item response theory methods. In Test Equating, Scaling, and Linking (pp. 171–245). Springer, New York, NY.

Li, T. (2007). The effect of dimensionality on vertical scaling (Doctoral dissertation, Michigan State University. Department of Counseling, Educational Psychology and Special Education).

Lord, F. M. (2012). Applications of item response theory to practical testing problems. Routledge.

Paek, I., & Young, M. J. (2005). Investigation of student growth recovery in a fixed-item linking procedure with a fixed-person prior distribution for mixed-format test data. Applied Measurement in Education, 18(2), 199–215.

Petersen, N. S., Kolen, M. J., & Hoover, H. D. (1989). Scaling, norming, and equating. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 221–262). New York: Macmillan.

Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen: Danmarks Paedagogiske Institut.

Reckase, M. D., & Li, T. (2007). Estimating gain in achievement when content specifications change: a multidimensional item response theory approach. Assessing and modeling cognitive development in school. JAM Press, Maple Grove, MN.

Reckase, M. (2010). Study of best practices for vertical scaling and standard setting with recommendations for FCAT 2.0. Unpublished manuscript. https://www.fldoe.org/core/fileparse.php/5663/urlt/0086369-studybestpracticesverticalscalingstandardsetting.pdf

Stocking, M. L., & Lord, F. M. (1983). Developing a common metric in item response theory. Applied psychological measurement, 7(2), 201–210. doi:10.1177/014662168300700208

Thurstone, L. L. (1925). A method of scaling psychological and educational tests. Journal of educational psychology, 16(7), 433–451.

Thurstone, L. L. (1938). Primary mental abilities (Psychometric monographs No. 1). Chicago: University of Chicago Press.

Tong, Y., & Harris, D. J. (2004, April). The impact of choice of linking and scales on vertical scaling. Paper presented at the annual meeting of the National Council on Measurement in Education, San Diego, CA.

Tong, Y., & Kolen, M. J. (2008). Maintenance of vertical scales. In annual meeting of the National Council on Measurement in Education, New York City.

van der Linden, W. J., & Glas, C. A. W. (eds.). (2010). Elements of Adaptive Testing. New York, NY: Springer.

von Davier, A. A., Carstensen, C. H., & von Davier, M. (2006). Linking competencies in educational settings and measuring growth. ETS Research Report Series, 2006(1), i–36. https://files.eric.ed.gov/fulltext/EJ1111406.pdf

Wainer, H. (Ed.). (2000). Computerized adaptive testing: A Primer, 2nd Edn. Mahwah, NJ: Lawrence Erlbaum Associates.

Wingersky, M. S., & Lord, F. M. (1983). An Investigation of Methods for Reducing Sampling Error in Certain IRT Procedures (ETS Research Reports Series No. RR-83-28-ONR). Princeton, NJ: Educational Testing Service.

Yen, W. M. (1986). The choice of scale for educational measurement: An IRT perspective. Journal of Educational Measurement, 23(4), 299–325.

Yen, W. M., & Burket, G. R. (1997). Comparison of item response theory and Thurstone methods of vertical scaling. Journal of Educational Measurement, 34(4), 293–313.

automated item generation AI

Los estudios de simulación son un paso esencial en el desarrollo de una prueba adaptativa computarizada (CAT, por sus siglas en inglés) que sea defendible y satisfaga las necesidades de su organización u otras partes interesadas. Hay tres tipos de simulaciones: Monte Carlo, Datos Reales (post hoc) e Híbridas.

La simulación de Monte Carlo es el enfoque de propósito más general y el que se usa con más frecuencia al principio del proceso de desarrollo de una CAT. Esto se debe a que no requiere datos reales, ni sobre los elementos de la prueba ni sobre los examinados, aunque los datos reales son bienvenidos si están disponibles, lo que la hace extremadamente útil para evaluar si la CAT es factible para su organización antes de invertir dinero en seguir adelante.

Comencemos con una descripción general de cómo funciona la simulación de Monte Carlo antes de volver a ese punto.

Cómo funciona una simulación de Monte Carlo: una descripción general

En primer lugar, ¿qué queremos decir con simulación CAT? Bueno, una CAT es una prueba que se administra a los estudiantes a través de un algoritmo. Podemos usar ese mismo algoritmo en examinados imaginarios o en examinados reales del pasado y simular qué tan bien se desempeña una CAT en ellos.

Lo mejor de todo es que podemos cambiar las especificaciones del algoritmo para ver cómo afecta a los examinados y al desempeño de la CAT.

Cada enfoque de simulación requiere tres cosas:

  1. Parámetros de los ítems de la teoría de respuesta al ítem (TRI), aunque ahora se están desarrollando nuevos métodos CAT, como los modelos de diagnóstico.
  2. Puntuaciones del examinado (theta) de la TRI.
  3. Una forma de determinar cómo responde un examinado a un ítem si el algoritmo CAT dice que se le debe entregar.

El enfoque de simulación de Monte Carlo se define por la forma en que aborda el tercer requisito: genera una respuesta utilizando algún tipo de modelo matemático, mientras que los otros dos enfoques de simulación buscan respuestas reales de examinados anteriores (enfoque de datos reales) o una combinación de los dos (híbrido).

El enfoque de simulación de Monte Carlo solo utiliza el proceso de generación de respuestas. Los parámetros de los ítems pueden provenir de un banco de ítems reales o generarse.

Asimismo, los thetas de los examinados pueden provenir de una base de datos de datos anteriores o generarse.

¿Cómo funciona el proceso de generación de respuestas?

Bueno, difiere según el modelo que se use como base para el algoritmo CAT. Aquí, supongamos que estamos usando el modelo logístico de tres parámetros. Empecemos por suponer que tenemos un examinado falso con un theta verdadero de 0,0. El algoritmo CAT busca en el banco y dice que debemos administrar el ítem #17 como el primer ítem, que tiene los siguientes parámetros de ítem: a = 1,0, b = 0,0 y c = 0,20.

Bueno, simplemente podemos introducir esos números en la ecuación para el modelo de tres parámetros y obtener la probabilidad de que esta persona responda correctamente este ítem.

Item response function - IRF 1.0 0.0 0.2

La probabilidad, en este caso, es 0,6. El siguiente paso es generar un número aleatorio del conjunto de todos los números reales entre 0,0 y 1,0. Si ese número es menor que la probabilidad de respuesta correcta, el examinado “obtiene” el ítem correcto. Si es mayor, el examinado obtiene el ítem incorrecto. De cualquier manera, el examinado es calificado y el algoritmo CAT continúa.

Para cada ítem que se presente para ser utilizado, utilizamos este mismo proceso. Por supuesto, el theta verdadero no cambia, pero los parámetros del ítem son diferentes para cada ítem. Cada vez, generamos un nuevo número aleatorio y lo comparamos con la probabilidad para determinar una respuesta correcta o incorrecta.

El algoritmo CAT procede como si un examinado real estuviera al otro lado de la pantalla de la computadora, respondiendo realmente a las preguntas, y se detiene cuando se satisface el criterio de terminación. Sin embargo, el mismo proceso se puede utilizar para “entregar” exámenes lineales a los examinados; En lugar de que el algoritmo CAT seleccione el siguiente elemento, simplemente lo procesamos secuencialmente a través de la prueba.

Un camino hacia la investigación

Para un solo examinado, este proceso no es mucho más que una curiosidad. Donde se vuelve útil es a un nivel agregado de gran escala. Imagine el proceso anterior como parte de un ciclo mucho más grande. Primero, establecemos un grupo de 200 elementos extraídos de elementos utilizados en el pasado por su programa. A continuación, generamos un conjunto de 1000 examinados extrayendo números de una distribución aleatoria.

Finalmente, recorremos cada examinado y administramos una CAT utilizando el algoritmo CAT y generando respuestas con el proceso de simulación de Monte Carlo. Luego, tenemos datos extensos sobre cómo se desempeñó el algoritmo CAT, que se pueden usar para evaluar el algoritmo y el banco de elementos. Los dos más importantes son la longitud de la CAT y su precisión, que son una compensación en la mayoría de los casos.

Entonces, ¿cómo es esto útil para evaluar la viabilidad de la CAT?

Bueno, puede evaluar el rendimiento del algoritmo CAT configurando un experimento para comparar diferentes condiciones. Supongamos que no tiene elementos anteriores y ni siquiera está seguro de cuántos elementos necesita. Bueno, puede crear varios bancos de elementos falsos diferentes y administrar una CAT al mismo conjunto de examinados falsos.

O puede saber qué banco de elementos se utilizará, pero necesita establecer que una CAT superará las pruebas lineales que utiliza actualmente. Hay una amplia gama de preguntas de investigación que puede hacer y, dado que se están generando todos los datos, puede diseñar un estudio para responder a muchas de ellas. De hecho, uno de los mayores problemas a los que puede enfrentarse es que puede dejarse llevar y comenzar a crear demasiadas condiciones.

¿Cómo hago realmente un estudio de simulación de Monte Carlo?

Afortunadamente, existe un software que hace todo el trabajo por usted. La mejor opción es CATSim, que proporciona todas las opciones que necesita en una interfaz de usuario sencilla (tenga cuidado, esto hace que sea aún más fácil dejarse llevar). La ventaja de CATSim es que recopila los resultados por usted y presenta la mayoría de las estadísticas de resumen que necesita sin que tenga que calcularlas. Por ejemplo, calcula la duración promedio de la prueba (número de elementos utilizados por un CAT de duración variable) y la correlación de thetas del CAT con thetas reales. Existe otro software que es útil para generar conjuntos de datos utilizando la simulación de Monte Carlo (consulte SimulCAT), pero no incluye esta importante característica.

adaptive testing simulation

split-half-reliability-analysis

La psicometría es la ciencia de la evaluación educativa y psicológica, que utiliza datos para garantizar que las pruebas sean justas y precisas. ¿Alguna vez has sentido que hiciste una prueba que era injusta, demasiado difícil, que no cubría los temas correctos o que estaba llena de preguntas que eran simplemente confusas o estaban mal escritas? Los psicometristas son las personas que ayudan a las organizaciones a solucionar estos problemas utilizando la ciencia de datos, así como temas más avanzados como cómo diseñar un algoritmo de IA que se adapte a cada examinado.

La psicometría es un aspecto fundamental de muchos campos. Tener información precisa sobre las personas es esencial para la educación, los recursos humanos, el desarrollo de la fuerza laboral, la capacitación corporativa, las certificaciones/licencias profesionales, la medicina y más. Estudia científicamente cómo se diseñan, desarrollan, entregan, validan y califican las pruebas.

Puntos clave sobre la psicometría

  • La psicometría es el estudio de cómo medir y evaluar los constructos mentales, como la inteligencia, la personalidad o el conocimiento de las leyes contables.
  • La psicometría NO es solo una prueba de selección laboral.
  • La psicometría se dedica a hacer que las pruebas sean más precisas y justas.
  • La psicometría se basa en gran medida en el análisis de datos y el aprendizaje automático, como la teoría de respuesta a los ítems.

 

¿Qué es la psicometría?

Psychometrician Qualities

La psicometría es el estudio de la evaluación en sí, independientemente del tipo de prueba que se esté considerando. De hecho, muchos psicometristas ni siquiera trabajan en una prueba en particular, solo trabajan en la psicometría en sí, como nuevos métodos de análisis de datos. A la mayoría de los profesionales no les importa lo que mide la prueba y, a menudo, cambian de trabajo y se dedican a temas completamente ajenos, como pasar de una empresa de pruebas K-12 a una empresa de medición psicológica o a un examen de certificación de contabilidad. A menudo nos referimos a lo que estamos midiendo simplemente como “theta”, un término de la teoría de respuesta a los ítems.

La psicometría aborda cuestiones fundamentales en torno a la evaluación, como la forma de determinar si una prueba es fiable o si un ítem es de buena calidad, así como cuestiones mucho más complejas, como la forma de garantizar que la puntuación de un examen de acceso a la universidad hoy sea la misma que hace 10 años. También examina fenómenos como la variedad positiva, en la que las diferentes capacidades cognitivas tienden a estar correlacionadas positivamente, lo que respalda la coherencia y la generalización de las puntuaciones de las pruebas a lo largo del tiempo.

La psicometría es una rama de la ciencia de datos. De hecho, existe desde mucho antes de que ese término se convirtiera en una palabra de moda. ¿No me cree? Eche un vistazo a este curso de Coursera sobre ciencia de datos y el primer ejemplo que ofrecen como uno de los proyectos seminales de referencia en la ciencia de datos es… ¡la psicometría! (una investigación temprana sobre el análisis factorial de la inteligencia).

Aunque la evaluación está en todas partes y la psicometría es un aspecto esencial de la evaluación, para la mayoría de las personas sigue siendo una caja negra y a los profesionales se les llama en broma “psicomagos“. Sin embargo, es importante que todos los que trabajan en la industria de las pruebas tengan un conocimiento básico de ella, especialmente aquellos que desarrollan o venden pruebas.

La psicometría NO se limita a tipos muy específicos de evaluación. Algunas personas usan el término indistintamente con conceptos como pruebas de CI, evaluación de la personalidad o pruebas previas al empleo. ¡Estas son solo pequeñas partes del campo! Además, no es la administración de una prueba.

 

¿Por qué necesitamos la psicometría?

El objetivo de las pruebas es proporcionar información útil sobre las personas, como por ejemplo si conviene contratarlas, certificarlas en una profesión o determinar qué enseñarles a continuación en la escuela. Unas mejores pruebas implican mejores decisiones. ¿Por qué? La evidencia científica es abrumadora de que las pruebas proporcionan mejor información a los que toman decisiones que muchos otros tipos de información, como entrevistas, currículums o logros educativos. Por lo tanto, las pruebas cumplen una función extremadamente útil en nuestra sociedad.

El objetivo de la psicometría es proporcionar validez, es decir, evidencia que respalde que las interpretaciones de los resultados de las pruebas son las que pretendíamos. Si se supone que una prueba de certificación significa que alguien que la aprueba cumple con el estándar mínimo para trabajar en un determinado puesto, necesitamos mucha evidencia al respecto, especialmente porque la prueba es de gran importancia en ese caso. El metaanálisis, una herramienta clave en psicometría, agrega los hallazgos de investigación de diferentes estudios para proporcionar evidencia sólida sobre la confiabilidad y validez de las pruebas. Al sintetizar datos de múltiples estudios, el metanálisis fortalece las afirmaciones de validez de las pruebas, lo que es especialmente crucial en los exámenes de certificación de alto riesgo donde la precisión y la imparcialidad son primordiales.

 

¿Qué hace la psicometría?

test development cycle job task analysis psychometrics

Crear y mantener una prueba de alta calidad no es fácil. Pueden surgir muchos problemas importantes. Gran parte del campo gira en torno a resolver preguntas importantes sobre las pruebas: qué deberían cubrir, qué es una buena pregunta, cómo establecemos un buen puntaje de corte, cómo nos aseguramos de que la prueba prediga el desempeño laboral o el éxito de los estudiantes, etc. Muchas de estas preguntas se alinean con el ciclo de desarrollo de la prueba; hablaremos más sobre eso más adelante.

¿Cómo definimos lo que debe cubrir la prueba? (Diseño de la prueba)

Antes de escribir cualquier elemento, debe definir muy específicamente lo que incluirá la prueba. Si la prueba es para acreditación o preempleo, los psicometristas generalmente realizan un estudio de análisis del trabajo para formar una base científica cuantitativa para los planos de la prueba. Un análisis del trabajo es necesario para que un programa de certificación obtenga la acreditación. En educación, la cobertura de la prueba a menudo se define por el plan de estudios.

¿Cómo nos aseguramos de que las preguntas sean de buena calidad? (Redacción de ítems)

Existe una gran cantidad de literatura científica sobre cómo desarrollar ítems de prueba que midan con precisión lo que se intenta medir. Un excelente resumen es el libro de Haladyna. Esto no se limita solo a los ítems de opción múltiple, aunque ese enfoque sigue siendo popular. Los psicometristas aprovechan su conocimiento de las mejores prácticas para guiar el proceso de creación y revisión de ítems de una manera que dé como resultado un contenido de prueba altamente defendible. El software de banco de ítems profesional proporciona la forma más eficiente de desarrollar contenido de alta calidad y publicar múltiples formularios de prueba, así como almacenar información histórica importante, como las estadísticas de los ítems.

¿Cómo establecemos un puntaje de corte defendible? (Establecimiento de estándares)

Los puntajes de las pruebas se utilizan a menudo para clasificar a los candidatos en grupos como aprobado/reprobado (Certificación/Licencia), contratado/no contratado (Pre-empleo) y por debajo del básico/básico/competente/avanzado (Educación). Los psicometristas realizan estudios para determinar los puntajes de corte, utilizando metodologías como Angoff, Beuk, Grupos contrastantes y Límite.

¿Cómo analizamos los resultados para mejorar el examen? (Análisis psicométrico)

Los psicometristas son esenciales para este paso, ya que los análisis estadísticos pueden ser bastante complejos. Las organizaciones de pruebas más pequeñas suelen utilizar la teoría clásica de las pruebas, que se basa en matemáticas simples como proporciones y correlaciones. Las organizaciones grandes y de alto perfil suelen utilizar la teoría de respuesta al ítem (TRI), que se basa en un tipo de análisis de regresión no lineal. Los psicometristas evalúan la confiabilidad general de la prueba, la dificultad y la discriminación de los ítems, el análisis de distractores, el sesgo potencial, la multidimensionalidad, la vinculación de múltiples formularios/años de prueba y mucho más. También hay software disponible como  Iteman  y  Xcalibre  para organizaciones con suficiente experiencia para ejecutar análisis estadísticos internamente. Desplácese hacia abajo para ver ejemplos.

¿Cómo comparamos las puntuaciones entre grupos o años? (Equivalencia)

Esto se conoce como vincular y equiparar. Hay algunos psicometristas que dedican toda su carrera a este tema. Si estás trabajando en un examen de certificación, por ejemplo, quieres asegurarte de que el estándar de aprobación sea el mismo este año que el año pasado. Si aprobaste el 76 % el año pasado y este año aprobaste el 25 %, no solo los candidatos se enojarán, sino que habrá mucha menos confianza en el significado de la credencial.

¿Cómo sabemos que la prueba está midiendo lo que debería? (Validez)

La validez es la evidencia proporcionada para respaldar las interpretaciones de las puntuaciones. Por ejemplo, podríamos interpretar las puntuaciones en una prueba para reflejar el conocimiento del inglés, y necesitamos proporcionar documentación e investigación que respalde esto. Hay varias formas de proporcionar esta evidencia. Un enfoque sencillo es establecer evidencia relacionada con el contenido, que incluye la definición de la prueba, los planos y la creación/revisión de los ítems. En algunas situaciones, la evidencia relacionada con criterios es importante, ya que correlaciona directamente los puntajes de las pruebas con otra variable de interés. Presentar las pruebas de manera segura también es esencial para la validez.

 

¿Dónde se utiliza la psicometría?

Certificación/licencia/credencialización

En las pruebas de certificación, los psicometristas desarrollan la prueba a través de una cadena documentada de evidencia siguiendo una secuencia de investigación delineada por los organismos de acreditación, generalmente: análisis del trabajo, planos de prueba, redacción y revisión de ítems, estudio de puntajes de corte y análisis estadístico. El software de banco de ítems basado en la web como  FastTest  suele ser útil porque el comité de examen a menudo está compuesto por expertos ubicados en todo el país o incluso en todo el mundo; luego pueden iniciar sesión fácilmente desde cualquier lugar y colaborar.

Pruebas previas al empleo

En las pruebas previas al empleo, la evidencia de validez se basa principalmente en establecer el contenido apropiado (una prueba sobre programación PHP para un trabajo de programación PHP) y la correlación de las puntuaciones de las pruebas con un criterio importante como las calificaciones de desempeño laboral (muestra que la prueba predice un buen desempeño laboral). Las pruebas adaptativas se están volviendo mucho más comunes en las pruebas previas al empleo porque brindan varios beneficios, el más importante de los cuales es reducir el tiempo de prueba en un 50%, un gran logro para las grandes corporaciones que evalúan a un millón de solicitantes cada año. Las pruebas adaptativas se basan en la teoría de respuesta a los ítems y requieren un psicometrista especializado, así como un software especialmente diseñado como  FastTest.

Educación K-12

La mayoría de las evaluaciones en educación caen en una de dos categorías: evaluación formativa de menor riesgo en las aulas y evaluaciones sumativas de mayor riesgo, como los exámenes de fin de año. La psicometría es esencial para establecer la confiabilidad y validez de los exámenes de mayor riesgo y para equiparar los puntajes en diferentes años. También son importantes para las evaluaciones formativas, que están avanzando hacia formatos adaptativos debido a la reducción del 50% en el tiempo de prueba, lo que significa que los estudiantes pasan menos tiempo evaluando y más tiempo aprendiendo.

Universidades

Las universidades no suelen pensar mucho en la psicometría, a pesar de que se realiza una cantidad significativa de pruebas en la educación superior, especialmente con la transición al aprendizaje en línea y los MOOC. Dado que muchos de los exámenes son de alto riesgo (¡considere un examen de certificación después de completar un programa de posgrado de un año!), se deben utilizar psicometristas para establecer puntajes de corte legalmente defendibles y análisis estadísticos para garantizar pruebas confiables, y sistemas de evaluación diseñados profesionalmente para desarrollar y entregar pruebas, especialmente con mayor seguridad.

Medicina/Psicología

¿Alguna vez ha realizado una encuesta en el consultorio de su médico o antes o después de una cirugía? ¿Quizás un inventario de depresión o ansiedad en un psicoterapeuta? Los psicometristas han trabajado en estos temas.

 

El ciclo de desarrollo de pruebas

La psicometría es el núcleo del ciclo de desarrollo de pruebas, que es el proceso de desarrollar un examen sólido. A veces se le conoce con nombres similares, como ciclo de vida de la evaluación.

Reconocerás algunos de los términos de la introducción anterior. Lo que estamos tratando de demostrar aquí es que esas preguntas no son temas independientes, o algo que haces una vez y simplemente presentas un informe. Un examen suele ser algo vivo. Las organizaciones suelen volver a publicar una nueva versión cada año o cada 6 meses, lo que significa que gran parte del ciclo se repite en esa línea de tiempo. No todo lo es; por ejemplo, muchas organizaciones solo realizan un análisis de trabajo y un establecimiento de estándares cada 5 años.

Considere un examen de certificación en atención médica. La profesión no cambia rápidamente porque cosas como la anatomía nunca cambian y los procedimientos médicos rara vez cambian (por ejemplo, cómo medir la presión arterial). Entonces, cada 5 años realiza un análisis de trabajo de sus certificados para ver qué están haciendo y qué es importante. Esto luego se convierte en planos de prueba. Los ítems se vuelven a asignar si es necesario, pero lo más probable es que no lo necesiten porque probablemente solo haya cambios menores en los planos. Luego, se establece un nuevo puntaje de corte con el método Angoff modificado y la prueba se entrega este año. Se entrega nuevamente el próximo año, pero se equipara a este año en lugar de comenzar de nuevo. Sin embargo, las estadísticas de los elementos aún se analizan, lo que conduce a un nuevo ciclo de revisión de elementos y publicación de un nuevo formulario para el próximo año.

 

Ejemplo de psicometría en acción

A continuación se muestra un resultado de nuestro software Iteman. Se trata de un análisis profundo de una sola pregunta de vocabulario en inglés para ver si el estudiante conoce la palabra ‘aliviar’. Alrededor del 70% de los estudiantes respondieron correctamente, con un biserial de puntos muy fuerte. Los valores P de distractores fueron todos minoritarios y los biserial de puntos de distractores fueron negativos, lo que agrega evidencia a la validez. El gráfico muestra que la línea para la respuesta correcta sube mientras que las demás bajan, lo cual es algo bueno. Si está familiarizado con la teoría de respuesta al ítem, notará cómo la línea azul es similar a una función de respuesta al ítem. Eso no es una coincidencia.

FastTest Itememan Psychometrics Analysis

 

Ahora, veamos otra pregunta más interesante. Aquí hay una pregunta de vocabulario sobre la palabra ‘confectioner’ (pastelero). Observa que solo el 37 % de los estudiantes la responde correctamente… ¡aunque hay un 25 % de posibilidades de que solo adivinen! Sin embargo, la discriminación biserial puntual sigue siendo muy fuerte, con un 0,49. Eso significa que es un ítem realmente bueno. Es simplemente difícil, lo que significa que hace un gran trabajo al diferenciar entre los mejores estudiantes.

 

Confectioner confetti

¡La psicometría suena divertida! ¿Cómo puedo unirme a la banda?

Necesitarás un título de posgrado. Te recomiendo que consultes el sitio web de NCME (ncme.org) para obtener recursos para estudiantes. ¡Buena suerte!

¿Ya tienes un título y estás buscando trabajo? Estos son los dos sitios que recomiendo:

  • NCME: también tiene una página de anuncios de empleo que es realmente buena (ncme.org)
  • Horizon Search: búsqueda de talentos para psicometristas y psicólogos de I/O
Equation editor item type

Los ítems mejorados tecnología son ítems de evaluación (preguntas) que utilizan tecnología para mejorar la interacción de una pregunta de prueba en una evaluación digital, más allá de lo que es posible con el papel. Los elementos mejorados con tecnología pueden mejorar la participación del examinado (importante en la evaluación K12), evaluar conceptos complejos con mayor fidelidad, mejorar la precisión/confiabilidad y mejorar la validez aparente/capacidad de venta.

Hasta cierto punto, la última palabra es la clave; los ítems mejorados con tecnología simplemente se ven más atractivos y, por lo tanto, hacen que una plataforma de evaluación sea más fácil de vender, incluso si en realidad no mejoran la evaluación. Yo diría que también hay ítems habilitados con tecnología, que son distintos, como se analiza a continuación.

¿Cuál es el objetivo de los ítems mejorados con tecnología?

El objetivo es mejorar la evaluación, aumentando aspectos como la confiabilidad/precisión, la validez y la fidelidad. Sin embargo, hay una serie de ítems mejorados con tecnología que en realidad están diseñados más con fines de ventas que con fines psicométricos. Entonces, ¿cómo saber si los ítems mejoran la evaluación? Por supuesto, esa es una pregunta empírica que se responde mejor con un experimento. Pero permítanme sugerir una métrica para abordar esta pregunta: ¿hasta qué punto el ítem va más allá de simplemente reformular un formato de ítem tradicional para usar la tecnología de interfaz de usuario actual? Definiría la reformulación del formato tradicional como un ítem falso, mientras que ir más allá definiría un ítem verdadero.

Una nomenclatura alternativa podría ser llamar a las reformulaciones ítems mejorados con tecnología y al uso real de la tecnología ítems habilitados por la tecnología (Almond et al, 2010; Bryant, 2017), ya que no serían posibles sin la tecnología.

Un gran ejemplo de esto es la relación entre un ítem de respuesta múltiple tradicional y ciertos tipos de ítems de arrastrar y soltar. Hay varias formas diferentes de crear elementos de arrastrar y soltar, pero por ahora, usemos el ejemplo de un formato que le pide al examinado que arrastre declaraciones de texto a un cuadro.

Un ejemplo de esto son los elementos de evaluación K12 de PARCC que le piden al estudiante leer un pasaje y luego hacer preguntas al respecto.

 

drag drop sequence

 

El ítem se califica con números enteros de 0 a K, donde K es el número de afirmaciones correctas; los números enteros se utilizan a menudo para implementar el modelo de crédito parcial generalizado para la puntuación final. Esto sería cierto independientemente de si el ítem se presentó como respuesta múltiple o arrastrar y soltar. El ítem de respuesta múltiple, por supuesto, podría entregarse fácilmente con papel y lápiz. Convertirlo en arrastrar y soltar mejora el ítem con la tecnología, pero la interacción del estudiante con el ítem, psicométricamente, sigue siendo la misma.

Algunos ítems mejorados tecnología (IMT) verdaderos

Por supuesto, en la última década aproximadamente hemos presenciado una mayor innovación en los formatos de los ítems. Las evaluaciones gamificadas cambian la forma en que se aborda la interacción entre la persona y el ítem, aunque esto posiblemente no sea tan relevante para la evaluación de alto riesgo debido a las preocupaciones sobre la validez. También hay ítems de simulación. Por ejemplo, una prueba para un operador de grúa de construcción podría proporcionar una interfaz con controles de grúa y pedirle al examinado que complete una tarea. Incluso en el nivel K-12 puede haber ítems de este tipo, como la simulación de un experimento científico donde se le dan al estudiante varios tubos de ensayo u otros instrumentos en la pantalla.

Ambos enfoques son extremadamente poderosos pero tienen una desventaja importante: el costo. Por lo general, están diseñados a medida. En el caso del examen de operador de grúa o incluso del experimento científico, necesitaría contratar desarrolladores de software para crear esta simulación. Ahora existen algunos ecosistemas de desarrollo de simulación que hacen que este proceso sea más eficiente, pero los ítems aún implican creación personalizada y algoritmos de puntuación personalizados.

Para abordar esta deficiencia, existe una nueva generación de tipos de ítems de autoría propia que son verdaderos IMT. Por “autoría propia” me refiero a que un profesor de ciencias podría crear estos ítems por sí mismo, tal como lo haría con un ítem de opción múltiple. La cantidad de tecnología utilizada se encuentra en algún punto entre un ítem de opción múltiple y una simulación diseñada a medida, lo que ofrece un compromiso de menor costo pero que aún aumenta la participación del examinado. Una ventaja importante de este enfoque es que los ítems no necesitan algoritmos de puntuación personalizados y, en cambio, se califican normalmente mediante números enteros de puntos, lo que permite el uso de la teoría de respuesta a ítems politómicos.

¿Al menos estamos avanzando? ¡No siempre!

Siempre hay resistencia contra la tecnología, y en este tema el contraejemplo es el tipo de ítem en cuadrícula. En realidad, va en sentido inverso a la innovación, porque no toma un formato tradicional y lo reformula para la interfaz de usuario (IU) actual. En realidad, ignora las capacidades de la IU actual (en realidad, la interfaz de usuario de los últimos 20+ años) y, por lo tanto, es un paso atrás. Con ese tipo de ítem, se presenta a los estudiantes una hoja de burbujas de un examen en papel al estilo de los años 60, en una pantalla de computadora, y se les pide que completen las burbujas haciendo clic en ellas en lugar de usar un lápiz sobre papel.

Otro ejemplo es el tipo de ítem EBSR del artista anteriormente conocido como PARCC. Era un nuevo tipo de ítem que tenía como objetivo evaluar una comprensión más profunda, pero no utilizó ninguna mejora o habilitación tecnológica, sino que hizo dos preguntas tradicionales de manera vinculada. Como cualquier psicometrista puede decirle, este enfoque ignoró los supuestos básicos de la psicometría, por lo que puede adivinar la calidad de la medición que produjo.

¿Cómo puedo implementar IMT?

Se necesita muy poca experiencia en desarrollo de software para desarrollar una plataforma que admita preguntas de opción múltiple. Sin embargo, una pregunta como la que se muestra en el gráfico anterior requiere una inversión sustancial. Por lo tanto, hay relativamente pocas plataformas que puedan admitirlas, especialmente con las mejores prácticas como la revisión de preguntas en el flujo de trabajo o la teoría de respuesta a las preguntas.