automated test assembly

Los límites de tiempo son un parámetro esencial en prácticamente todos los tipos de evaluación. Un límite de tiempo es la duración asignada a los individuos para completar su evaluación o una parte definida de ella. Gestionar el tiempo de los exámenes de manera efectiva garantiza equidad, precisión y una experiencia agradable para todos los examinados. Por lo tanto, es un componente clave de la validez de la prueba, lo que significa que debemos investigar y establecer los límites de tiempo de manera reflexiva.

En este artículo, exploraremos el concepto de cronometraje en los exámenes, cómo se determinan los límites de tiempo y cómo se brindan ajustes para quienes necesitan tiempo adicional.

 

Evaluaciones de Potencia vs. Velocidad vs. Tiempo Controlado

Cuando hablamos del papel del tiempo en las evaluaciones, existen tres tipos principales. Este artículo se centra en los exámenes cronometrados, pero puedes leer más sobre pruebas de velocidad y potencia en este artículo.

Potencia (Power Tests)

Este tipo de prueba no tiene límite de tiempo, lo que permite que el examinado tenga todo el tiempo que necesite para demostrar cuánto puede hacer y hasta dónde puede llegar. El objetivo es medir el máximo nivel de rendimiento del examinado.

Ejemplo: Un examen de matemáticas con ejercicios avanzados que podrían estar más allá del nivel de aprendizaje del estudiante, pero que podrían ser resueltos si se les da suficiente tiempo.

Velocidad (Speeded Tests)

En estas pruebas, el límite de tiempo es lo suficientemente ajustado como para afectar el rendimiento. El objetivo es evaluar la rapidez del examinado.

Ejemplo: Proporcionar una lista de 100 problemas matemáticos simples y medir cuántos puede resolver en 30 segundos. O dar una lista de 100 palabras para corregir en el mismo tiempo.

En estos casos, la puntuación sigue dependiendo de las respuestas correctas, pero está condicionada por el tiempo disponible. En algunas evaluaciones, el tiempo en sí es la calificación, como cuando se mide el tiempo que una persona tarda en correr una milla.

Tiempo Controlado (Timed Tests)

Son pruebas con límite de tiempo, pero diseñado de manera que no afecte a la mayoría de los examinados. La mayoría de las evaluaciones entran en esta categoría.

Ejemplo: Un examen de 100 preguntas con un límite de 2 horas, donde la mayoría de los examinados terminan en 1.5 horas. El límite existe para evitar que una persona pase todo el día en la prueba, pero en general, no afecta su rendimiento.

Factores Claves al Determinar los Límites de Tiempo

Varios factores se consideran al decidir los límites de tiempo de una evaluación:

  1. Complejidad del Contenido 
  2. Carga de Tiempo de las Preguntas 
    • Si el examen incluye pasajes de lectura, videos, imágenes complejas como radiografías, o cualquier otro material que deba analizarse antes de responder, el tiempo debe ajustarse en consecuencia.
  3. Propósito de la Evaluación 
    • En exámenes de alta importancia, como certificaciones o licencias, se busca medir un conocimiento profundo y se necesita alta fiabilidad y validez.
    • Para pruebas rápidas, como un test de matemáticas de 4º grado o una evaluación previa al empleo, un límite de tiempo más corto es suficiente y acorde con el objetivo de la prueba.
  4. Seguridad del Examen 
    • Algunas personas intentan robar contenido del examen. Un tiempo extra prolongado puede permitir que memoricen preguntas para filtrarlas en sitios ilegales.

Cómo Determinar los Límites de Tiempo en Pruebas Lineales 

Los desarrolladores de exámenes utilizan datos históricos y modelos estadísticos para estimar el tiempo óptimo para los examinados. Basándose en evidencia empírica, pueden predecir cuánto tiempo necesita un examinado promedio y ajustar el límite en consecuencia.

Ejemplo: Si un examen tiene 100 preguntas y cada una toma 1 minuto en promedio, entonces un límite de 120 minutos (2 horas) es razonable.

test time limits metadata

Cómo Determinar los Límites de Tiempo en Pruebas Adaptativas

A diferencia de los exámenes tradicionales, donde todos responden las mismas preguntas, los exámenes adaptativos ajustan la dificultad en tiempo real según el desempeño del examinado.

Ejemplo: El examen de licencia de enfermería NCLEX tiene entre 85 y 150 preguntas, por lo que los tiempos varían según el número de preguntas presentadas.

El ASVAB (prueba de aptitud para las Fuerzas Armadas de EE.UU.) es otro examen adaptativo que utiliza un enfoque lineal para determinar el tiempo, garantizando que el 98% de los examinados finalicen sin que el tiempo sea una limitación.

 

Extensiones de Tiempo: Ajustes para los Examinados

Las pruebas deben considerar a personas con necesidades especiales, como aquellas con dislexia, TDAH o discapacidades visuales. Estas personas pueden requerir tiempo adicional o herramientas de apoyo, como lectores de pantalla.

Las extensiones de tiempo se otorgan basadas en documentación médica o educativa, asegurando que los ajustes sean justos y no brinden ventajas indebidas.

test time accomodations

 

Tipos de Límites de Tiempo en los Exámenes

Los límites de tiempo pueden aplicarse en varios niveles:

  • Por Pregunta: Ejemplo: Un test de memoria de trabajo con un límite de 30 segundos por pregunta.
  • Por Sección: Ejemplo: Un examen dividido en secciones con pausas intermedias.
  • Por Examen Completo: El formato más común, con un límite de tiempo global.
  • Por Sesión: En baterías de pruebas, puede haber un límite total para todo el proceso.

Las funciones de tiempo también deben integrarse con las medidas de seguridad, como el control de reingreso. Por ejemplo, nuestra plataforma Assess.ai tiene una opción donde el temporizador sigue corriendo incluso si el examinado se ausenta.

 

Session Security time limits

Conclusión: La Importancia de Establecer Límites de Tiempo Efectivos

Determinar el tiempo adecuado para una evaluación no es solo una cuestión técnica, sino un factor clave para garantizar equidad, precisión y validez. Un límite de tiempo bien diseñado equilibra la necesidad de evaluar el conocimiento sin imponer restricciones innecesarias a los examinados.

Ya sea en pruebas de potencia, velocidad o cronometradas, es esencial considerar la complejidad del contenido, la seguridad del examen y las necesidades de los examinados con ajustes especiales. Además, en pruebas adaptativas, la flexibilidad en los límites de tiempo puede mejorar la precisión de la evaluación.

En última instancia, establecer límites de tiempo efectivos es un paso fundamental para diseñar evaluaciones justas y confiables. Al implementar buenas prácticas y basarnos en evidencia empírica, podemos garantizar que cada examinado tenga la oportunidad de demostrar su verdadero nivel de conocimiento sin que el tiempo sea una barrera.

job-task-analysis

¿Qué es un KSAO?

Los KSAOs (Conocimientos, Habilidades, Capacidades y Otras Características) son una forma de definir los atributos humanos necesarios para tener éxito en un trabajo. Son esenciales en Recursos Humanos y Desarrollo Organizacional, influyendo en procesos críticos como el reclutamiento, la selección y la compensación.

Este artículo introduce los KSAOs y explica su impacto en las evaluaciones laborales, como pruebas de preselección o exámenes de certificación/licencia.

 ¿Necesitas ayuda para desarrollar una evaluación basada en principios psicométricos sólidos como el análisis de puesto y KSAOs? O tal vez solo una plataforma de software que facilite el proceso. ¡Contáctanos!

¿Qué es un KSAO? Conocimientos, Habilidades, Capacidades y Otras Características

KSAO es un acrónimo que representa cuatro componentes esenciales:

Conocimientos – Comprensión de conceptos, hechos e información necesarias para un puesto. Ejemplo: Un desarrollador de software necesita conocimientos de lenguajes como Python o Java.

hr-interview-pre-employment

 Habilidades – Competencias adquiridas para realizar tareas específicas. Ejemplo: Un contador necesita habilidades en análisis financiero y manejo de hojas de cálculo.

Capacidades – Rasgos naturales o desarrollados que determinan el desempeño en ciertas tareas. Ejemplo: Un cirujano necesita capacidad de mantener la calma bajo presión y precisión manual.

Otras características – Rasgos personales que pueden influir en el desempeño laboral. Ejemplo: Un representante de servicio al cliente debe tener una actitud positiva y excelentes habilidades de comunicación.

Ejemplos de KSAOs en diferentes roles

Enfermero/a registrado/a

  • Conocimientos: Terminología médica, protocolos de atención, farmacología.
  • Habilidades: Administración de inyecciones, manejo de equipos médicos, registro de datos.
  • Capacidades: Resistencia emocional, pensamiento crítico, resistencia física.
    Otras características: Compasión, trabajo en equipo, atención al detalle.

Gerente de marketing

  • Conocimientos: Investigación de mercado, tendencias de marketing digital, comportamiento del consumidor.
  • Habilidades: Análisis de datos, creación de contenido, gestión de campañas.
  • Capacidades: Pensamiento estratégico, multitarea, resolución creativa de problemas.
  • Otras características: Liderazgo, adaptabilidad, habilidades de comunicación.

Ingeniero/a de software

  • Conocimientos: Lenguajes de programación, metodologías de desarrollo de software.
  • Habilidades: Depuración de código, diseño de algoritmos, pruebas de software.
  • Capacidades: Razonamiento lógico, atención al detalle, gestión del tiempo.
  • Otras características: Innovación, trabajo en equipo, enfoque en la resolución de problemas.

¿Por qué los KSAOs son importantes en Recursos Humanos, Reclutamiento y Selección?

 Impulsan el reclutamiento – Proporcionan un marco claro para emparejar candidatos con puestos.
Definen expectativas laborales – Reducen la confusión y alinean a empleados y empleadores.
Mejoran la toma de decisiones de contratación – Permiten evaluar candidatos con base en criterios objetivos.
Optimización del entrenamiento y desarrollo – Ayudan a identificar brechas de habilidades y mejorar la capacitación.
Cumplimiento legal y equidad – Reducen el riesgo de decisiones de contratación sesgadas o discriminatorias.
Estructuración de compensaciones – Justifican los niveles salariales con base en requisitos laborales específicos.

¿Cómo se relacionan los KSAOs con la evaluación?

Las evaluaciones de certificación y selección deben basarse en evidencia y documentación de validez.

Ejemplo: Si desarrollas un examen de certificación para fabricantes de widgets, no puedes simplemente escribir 100 preguntas al azar. Primero necesitas un análisis de puesto

El análisis de puesto identifica las tareas y habilidades esenciales mediante grupos focales o encuestas a expertos en el área.

 Los resultados permiten definir los KSAOs clave, asegurando que las evaluaciones reflejen las competencias necesarias y cumplan con estándares internacionales.

Sin KSAOs bien definidos, los exámenes y procesos de selección carecen de validez y pueden ser impugnados.

Conclusión: El valor de los KSAOs

Integrar los KSAOs en la contratación, desarrollo y evaluación de empleados aporta validez, precisión y eficiencia, beneficiando a la empresa y su talento.

Si eres un profesional de RRHH o evaluación de talento, comprender los KSAOs te ayudará a tomar mejores decisiones.

¿Quieres asesoría para desarrollar exámenes que cumplan con estándares psicométricos internacionales? ¡Contáctanos!

El escalamiento vertical es el proceso de colocar las puntuaciones de las evaluaciones educativas que miden el mismo dominio de conocimiento pero en diferentes niveles de habilidad en una escala común (Tong y Kolen, 2008). El ejemplo más común es colocar las evaluaciones de Matemáticas o Lenguaje para K-12 en una sola escala para todos los grados. Por ejemplo, puede tener un currículo de matemáticas de grado 4, grado 5, grado 6… en lugar de tratarlos a todos como islas, consideramos todo el recorrido y vinculamos los grados en un solo banco de ítems. Si bien se puede encontrar información general sobre el escalamiento en ¿Qué es el escalamiento de pruebas?, este artículo se centrará específicamente en el escalamiento vertical.

¿Por qué escalamiento vertical?

Una escala vertical es increíblemente importante, ya que permite inferencias sobre el progreso del estudiante de un momento a otro, por ejemplo, de los grados de primaria a secundaria, y puede considerarse como un continuo de desarrollo de los logros académicos del estudiante. En otras palabras, los estudiantes avanzan a lo largo de ese continuo a medida que desarrollan nuevas habilidades, y su puntaje en la escala se altera como resultado (Briggs, 2010).

Esto no solo es importante para los estudiantes individuales, porque podemos hacer un seguimiento del aprendizaje y asignar intervenciones o enriquecimientos apropiados, sino también en un sentido agregado. ¿Qué escuelas están creciendo más que otras? ¿Son mejores ciertos maestros? ¿Quizás haya una diferencia notable entre los métodos de instrucción o los planes de estudio? Aquí, estamos llegando al propósito fundamental de la evaluación; al igual que es necesario tener una báscula de baño para controlar el peso en un régimen de ejercicios, si un gobierno implementa un nuevo método de instrucción de matemáticas, ¿cómo sabe que los estudiantes están aprendiendo de manera más efectiva?

El uso de una escala vertical puede crear un marco interpretativo común para los resultados de las pruebas en todos los grados y, por lo tanto, proporcionar datos importantes que sirvan de base para la enseñanza individual y en el aula. Para que sean válidos y fiables, estos datos deben recopilarse en base a escalas verticales construidas adecuadamente.

Las escalas verticales se pueden comparar con las reglas que miden el crecimiento de los estudiantes en algunas áreas temáticas de un momento de prueba a otro. De manera similar a la altura o el peso, se supone que las capacidades de los estudiantes aumentan con el tiempo. Sin embargo, si tiene una regla de solo 1 metro de largo y está tratando de medir el crecimiento de niños de 3 a 10 años, deberá unir dos reglas.

Construcción de escalas verticales

La construcción de una escala vertical es un proceso complicado que implica tomar decisiones sobre el diseño de la prueba, el diseño de la escala, la metodología de la escala y la configuración de la escala. La interpretación del progreso en una escala vertical depende de la combinación resultante de dichas decisiones de escala (Harris, 2007; Briggs y Weeks, 2009). Una vez que se establece una escala vertical, es necesario mantenerla en diferentes formas y en el tiempo. Según Hoskens et al. (2003), el método elegido para mantener las escalas verticales afecta a la escala resultante y, por lo tanto, es muy importante.

Un modelo de medición que se utiliza para colocar las habilidades de los estudiantes en una escala vertical está representado por la teoría de respuesta al ítem (IRT; Lord, 2012; De Ayala, 2009) o el modelo de Rasch (Rasch, 1960). Este enfoque permite comparaciones directas de los resultados de la evaluación basados ​​en diferentes conjuntos de ítems (Berger et al., 2019). Por lo tanto, se supone que cada estudiante debe trabajar con un grupo seleccionado de ítems que no son similares a los ítems tomados por otros estudiantes, pero aún así sus resultados serán comparables con los de ellos, así como con los suyos propios de otros momentos de evaluación.

La imagen a continuación muestra cómo los resultados de los estudiantes de diferentes grados pueden conceptualizarse mediante una escala vertical común. Suponga que fuera a calibrar los datos de cada grado por separado, pero tiene ítems de anclaje entre los tres grupos. Un análisis de enlace podría sugerir que el Grado 4 está 0,5 logits por encima del Grado 3, y el Grado 5 está 0,7 logits por encima del Grado 4. Puede pensar en las curvas de campana superpuestas como se ve a continuación. Un theta de 0,0 en la escala de Grado 5 es equivalente a 0,7 en la escala de Grado 4, y 1,3 en la escala de Grado 3. Si tiene un enlace fuerte, puede poner los ítems/estudiantes de Grado 3 y Grado 4 en la escala de Grado 5… así como todos los demás grados utilizando el mismo enfoque.

Vertical-scaling

Diseño de pruebas

Kolen y Brennan (2014) nombran tres tipos de diseños de pruebas que apuntan a recopilar datos de respuesta de los estudiantes que deben calibrarse:

  • Diseño de grupo equivalente. A los grupos de estudiantes con distribuciones de habilidades presumiblemente comparables dentro de un grado se les asigna aleatoriamente la tarea de responder preguntas relacionadas con su propio grado o con un grado adyacente;
  • Diseño de elementos comunes. Utilizar elementos idénticos para estudiantes de grados adyacentes (sin requerir grupos equivalentes) para establecer un vínculo entre dos grados y alinear bloques de elementos superpuestos dentro de un grado, como poner algunos elementos de Grado 5 en la prueba de Grado 6, algunos elementos de Grado 6 en la prueba de Grado 7, etc.;
  • Diseño de pruebas de escalamiento. Este tipo es muy similar al diseño de ítems comunes pero, en este caso, los ítems comunes se comparten no solo entre grados adyacentes; hay un bloque de ítems administrado a todos los grados involucrados además de los ítems relacionados con el grado específico.

Desde una perspectiva teórica, el diseño más coherente con una definición de dominio del crecimiento es el diseño de pruebas de escalamiento. El diseño de ítems comunes es el más fácil de implementar en la práctica, pero solo si la administración de los mismos ítems a grados adyacentes es razonable desde una perspectiva de contenido. El diseño de grupos equivalentes requiere procedimientos de administración más complicados dentro de un grado escolar para garantizar muestras con distribuciones de capacidad equivalentes.

Diseño de escala

El procedimiento de escalamiento puede utilizar puntuaciones observadas o puede basarse en IRT. Los procedimientos de diseño de escala más utilizados en configuraciones de escala vertical son los de escala Hieronymus, Thurstone e IRT (Yen, 1986; Yen y Burket, 1997; Tong y Harris, 2004). En todas estas tres metodologías se elige una escala provisional (von Davier et al., 2006).

  • Escala de Hieronymus. Este método utiliza una puntuación total de respuestas correctas para las pruebas con puntuación dicotómica o una puntuación total de puntos para los ítems con puntuación politómica (Petersen et al., 1989). La prueba de escala se construye de manera que represente el contenido en un orden creciente en términos del nivel de la prueba, y se administra a una muestra representativa de cada nivel o grado de la prueba. La variabilidad y el crecimiento dentro y entre niveles se establecen en una prueba de escala externa, que es el conjunto especial de ítems comunes.
  • Escala de Thurstone. Según Thurstone (1925, 1938), este método crea primero una escala de puntuación provisional y luego normaliza las distribuciones de las variables en cada nivel o grado. Supone que las puntuaciones en una escala subyacente se distribuyen normalmente dentro de cada grupo de interés y, por lo tanto, utiliza un número total de puntuaciones correctas para pruebas con puntuación dicotómica o un número total de puntos de ítems con puntuación politómica para realizar el escalamiento. Por lo tanto, el escalamiento de Thurstone normaliza e iguala linealmente las puntuaciones brutas y, por lo general, se realiza dentro de grupos equivalentes.
  • Escala de IRT. Este método de escalamiento considera las interacciones persona-ítem. Teóricamente, el escalamiento IRT se aplica a todos los modelos IRT existentes, incluidos los modelos IRT multidimensionales o los modelos de diagnóstico. En la práctica, solo se utilizan modelos unidimensionales, como los modelos de Rasch y/o de crédito parcial (PCM) o los modelos 3PL (von Davier et al., 2006).

Calibración de datos

Cuando se han tomado todas las decisiones, incluido el diseño de la prueba y el diseño de la escala, y se administran las pruebas a los estudiantes, los ítems deben calibrarse con un software como  Xcalibre  para establecer una escala de medición vertical. Según Eggen y Verhelst (2011), la calibración de ítems dentro del contexto del modelo de Rasch implica el proceso de establecer el ajuste del modelo y estimar el parámetro de dificultad de un ítem basado en los datos de respuesta por medio de procedimientos de estimación de máxima verosimilitud.

Se emplean dos procedimientos, la calibración concurrente y la calibración grado por grado, para vincular los parámetros de dificultad de los ítems basados ​​en la IRT a una escala vertical común en varios grados (Briggs y Weeks, 2009; Kolen y Brennan, 2014). En la calibración concurrente, todos los parámetros de los ítems se estiman en una sola ejecución mediante la vinculación de ítems compartidos por varios grados adyacentes (Wingersky y Lord, 1983). Por el contrario, en la calibración grado por grado, los parámetros de los ítems se estiman por separado para cada grado y luego se transforman en una escala común a través de métodos lineales. El método más preciso para determinar las constantes de enlace minimizando las diferencias entre las curvas características de los elementos de enlace entre las calificaciones es el método de Stocking y Lord (Stocking y Lord, 1983). Esto se logra con software como  IRTEQ.

Resumen del escalamiento vertical

El escalamiento vertical es un tema extremadamente importante en el mundo de la evaluación educativa, especialmente en la educación primaria y secundaria. Como se mencionó anteriormente, esto no solo se debe a que facilita la instrucción para estudiantes individuales, sino que es la base para la información sobre la educación a nivel agregado.

Existen varios enfoques para implementar el escalamiento vertical, pero el enfoque basado en IRT es muy convincente. Una escala IRT vertical permite la representación de la capacidad de los estudiantes en múltiples grados escolares y también la dificultad de los ítems en una amplia gama de dificultades. Además, los ítems y las personas se encuentran en la misma escala latente. Gracias a esta característica, el enfoque IRT admite la selección intencionada de ítems y, por lo tanto, algoritmos para pruebas adaptativas computarizadas (CAT). Estos últimos utilizan estimaciones preliminares de la capacidad para elegir los ítems más apropiados e informativos para cada estudiante individual (Wainer, 2000; van der Linden y Glas, 2010). Por lo tanto, incluso si el conjunto de ítems es de 1000 preguntas que abarcan desde el jardín de infantes hasta el grado 12, puede realizar una sola prueba a cualquier estudiante en el rango y se adaptará a ellos. Mejor aún, puede realizar la misma prueba varias veces al año y, como los estudiantes están aprendiendo, recibirán un conjunto diferente de ítems. Como tal, la CAT con una escala vertical es un enfoque increíblemente adecuado para la evaluación formativa de K-12.

Lectura adicional

Reckase (2010) afirma que la literatura sobre escalamiento vertical es escasa desde la década de 1920 y recomienda algunos estudios de investigación contemporáneos orientados a la práctica:

Paek y Young (2005). Este estudio de investigación abordó los efectos de los valores a priori bayesianos en la estimación de las ubicaciones de los estudiantes en el continuo cuando se utiliza un método de vinculación de parámetros de ítems fijos. Primero, se realizó una calibración dentro del grupo para un nivel de grado; luego, se fijaron los parámetros de los ítems comunes en esa calibración para calibrar el siguiente nivel de grado. Este enfoque obliga a que las estimaciones de los parámetros sean las mismas para los ítems comunes en los niveles de grado adyacentes. Los resultados del estudio mostraron que las distribuciones a priori podrían afectar los resultados y que se deben realizar controles cuidadosos para minimizar los efectos.

Rekase y Li (2007). Este capítulo del libro describe un estudio de simulación de los impactos de la dimensionalidad en el escalamiento vertical. Se emplearon modelos IRT tanto multidimensionales como unidimensionales para simular datos para observar el crecimiento en tres constructos de rendimiento. Los resultados mostraron que el modelo multidimensional recuperó las ganancias mejor que los modelos unidimensionales, pero esas ganancias se subestimaron principalmente debido a la selección de ítems comunes. Esto enfatiza la importancia de usar ítems comunes que cubran todo el contenido evaluado en los niveles de grado adyacentes.

Li (2007). El objetivo de esta tesis doctoral fue identificar si los métodos de IRT multidimensionales podrían usarse para el escalamiento vertical y qué factores podrían afectar los resultados. Este estudio se basó en una simulación diseñada para hacer coincidir los datos de evaluación estatal en Matemáticas. Los resultados mostraron que el uso de enfoques multidimensionales era factible, pero era importante que los ítems comunes incluyeran todas las dimensiones evaluadas en los niveles de grado adyacentes.

Ito, Sykes y Yao (2008). Este estudio comparó la calibración de grupos de grado concurrentes y separados mientras se desarrollaba una escala vertical para nueve grados consecutivos que rastreaban las competencias de los estudiantes en Lectura y Matemáticas. El estudio de investigación utilizó el software BMIRT implementando la estimación de Monte Carlo de cadena de Markov. Los resultados mostraron que las calibraciones simultáneas y por separado de los grupos de grado habían proporcionado resultados diferentes para Matemáticas que para Lectura. Esto, a su vez, confirma que la implementación de la escala vertical es muy difícil y que las combinaciones de decisiones sobre su construcción pueden tener efectos notables en los resultados.

Briggs y Weeks (2009). Este estudio de investigación se basó en datos reales utilizando respuestas a los ítems del Programa de Evaluación de Estudiantes de Colorado. El estudio comparó las escalas verticales basadas en el modelo 3PL con las del modelo Rasch. En general, el modelo 3PL proporcionó escalas verticales con mayores aumentos en el desempeño de un año a otro, pero también mayores aumentos dentro de la variabilidad de grado que la escala basada en el modelo Rasch. Todos los métodos dieron como resultado curvas de crecimiento con menor ganancia junto con un aumento en el nivel de grado, mientras que las desviaciones estándar no fueron muy diferentes en tamaño en diferentes niveles de grado.

Referencias

Berger, S., Verschoor, A. J., Eggen, T. J., & Moser, U. (2019, October). Development and validation of a vertical scale for formative assessment in mathematics. In Frontiers in Education (Vol. 4, p. 103). https://www.frontiersin.org/journals/education/articles/10.3389/feduc.2019.00103/full

Briggs, D. C., & Weeks, J. P. (2009). The impact of vertical scaling decisions on growth interpretations. Educational Measurement: Issues and Practice, 28(4), 3–14.

Briggs, D. C. (2010). Do Vertical Scales Lead to Sensible Growth Interpretations? Evidence from the Field. Online Submissionhttps://files.eric.ed.gov/fulltext/ED509922.pdf

De Ayala, R. J. (2009). The Theory and Practice of Item Response Theory. New York: Guilford Publications Incorporated.

Eggen, T. J. H. M., & Verhelst, N. D. (2011). Item calibration in incomplete testing designs. Psicológica 32, 107–132.

Harris, D. J. (2007). Practical issues in vertical scaling. In Linking and aligning scores and scales (pp. 233–251). Springer, New York, NY.

Hoskens, M., Lewis, D. M., & Patz, R. J. (2003). Maintaining vertical scales using a common item design. In annual meeting of the National Council on Measurement in Education, Chicago, IL.

Ito, K., Sykes, R. C., & Yao, L. (2008). Concurrent and separate grade-groups linking procedures for vertical scaling. Applied Measurement in Education, 21(3), 187–206.

Kolen, M. J., & Brennan, R. L. (2014). Item response theory methods. In Test Equating, Scaling, and Linking (pp. 171–245). Springer, New York, NY.

Li, T. (2007). The effect of dimensionality on vertical scaling (Doctoral dissertation, Michigan State University. Department of Counseling, Educational Psychology and Special Education).

Lord, F. M. (2012). Applications of item response theory to practical testing problems. Routledge.

Paek, I., & Young, M. J. (2005). Investigation of student growth recovery in a fixed-item linking procedure with a fixed-person prior distribution for mixed-format test data. Applied Measurement in Education, 18(2), 199–215.

Petersen, N. S., Kolen, M. J., & Hoover, H. D. (1989). Scaling, norming, and equating. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 221–262). New York: Macmillan.

Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen: Danmarks Paedagogiske Institut.

Reckase, M. D., & Li, T. (2007). Estimating gain in achievement when content specifications change: a multidimensional item response theory approach. Assessing and modeling cognitive development in school. JAM Press, Maple Grove, MN.

Reckase, M. (2010). Study of best practices for vertical scaling and standard setting with recommendations for FCAT 2.0. Unpublished manuscript. https://www.fldoe.org/core/fileparse.php/5663/urlt/0086369-studybestpracticesverticalscalingstandardsetting.pdf

Stocking, M. L., & Lord, F. M. (1983). Developing a common metric in item response theory. Applied psychological measurement, 7(2), 201–210. doi:10.1177/014662168300700208

Thurstone, L. L. (1925). A method of scaling psychological and educational tests. Journal of educational psychology, 16(7), 433–451.

Thurstone, L. L. (1938). Primary mental abilities (Psychometric monographs No. 1). Chicago: University of Chicago Press.

Tong, Y., & Harris, D. J. (2004, April). The impact of choice of linking and scales on vertical scaling. Paper presented at the annual meeting of the National Council on Measurement in Education, San Diego, CA.

Tong, Y., & Kolen, M. J. (2008). Maintenance of vertical scales. In annual meeting of the National Council on Measurement in Education, New York City.

van der Linden, W. J., & Glas, C. A. W. (eds.). (2010). Elements of Adaptive Testing. New York, NY: Springer.

von Davier, A. A., Carstensen, C. H., & von Davier, M. (2006). Linking competencies in educational settings and measuring growth. ETS Research Report Series, 2006(1), i–36. https://files.eric.ed.gov/fulltext/EJ1111406.pdf

Wainer, H. (Ed.). (2000). Computerized adaptive testing: A Primer, 2nd Edn. Mahwah, NJ: Lawrence Erlbaum Associates.

Wingersky, M. S., & Lord, F. M. (1983). An Investigation of Methods for Reducing Sampling Error in Certain IRT Procedures (ETS Research Reports Series No. RR-83-28-ONR). Princeton, NJ: Educational Testing Service.

Yen, W. M. (1986). The choice of scale for educational measurement: An IRT perspective. Journal of Educational Measurement, 23(4), 299–325.

Yen, W. M., & Burket, G. R. (1997). Comparison of item response theory and Thurstone methods of vertical scaling. Journal of Educational Measurement, 34(4), 293–313.

Multistage testing algorithm

Las pruebas multietapa (PME) son un tipo las pruebas adaptativas computarizadas (PAC). Esto significa que es un examen que se realiza en computadoras que lo personalizan dinámicamente para cada examinado o estudiante. Por lo general, esto se hace con respecto a la dificultad de las preguntas, al hacer que el examen sea más fácil para los estudiantes de menor capacidad y más difícil para los estudiantes de mayor capacidad. Hacer esto hace que la prueba sea más corta y más precisa, al mismo tiempo que brinda beneficios adicionales. Esta publicación brindará más información sobre las pruebas multietapa para que pueda evaluar si son una buena opción para su organización.

¿Ya está interesado en PME y desea implementarlo? Contáctenos para hablar con uno de nuestros expertos y obtener acceso a nuestra poderosa plataforma de evaluación en línea, donde puede crear sus propios exámenes PME y PAC en cuestión de horas.

 

¿Qué son las pruebas multietapa?Multistage testing algorithm

Al igual que la PAC, la prueba multietapa adapta la dificultad de los ítems presentados al estudiante. Pero mientras que la prueba adaptativa funciona adaptando cada ítem uno por uno usando la teoría de respuesta al ítem (TRI), la multietapa funciona en bloques de ítems. Es decir, la PAC entregará un ítem, lo calificará, elegirá un nuevo ítem, lo calificará, elegirá un nuevo ítem, etc. La prueba multietapa entregará un bloque de ítems, como 10, los calificará y luego entregará otro bloque de 10.

El diseño de una prueba de varias etapas a menudo se denomina paneles. Por lo general, hay una sola prueba de enrutamiento o etapa de enrutamiento que inicia el examen y luego los estudiantes son dirigidos a diferentes niveles de paneles para las etapas posteriores. A veces se utiliza el número de niveles para describir el diseño; el ejemplo de la derecha es un diseño 1-3-3. A diferencia de PAC, solo hay unos pocos caminos potenciales, a menos que cada etapa tenga un grupo de testlets disponibles.

Al igual que con la prueba PAC ítem por ítem, las pruebas multietapa casi siempre se realizan utilizando la TRI como paradigma psicométrico, algoritmo de selección y método de puntuación. Esto se debe a que la TRI puede calificar a los examinados en una escala común independientemente de los ítems que vean, lo que no es posible utilizando la teoría clásica de pruebas.

Para aprender más sobre las PME, recomiendo este libro.

 

¿Por qué las pruebas multietapa?

La PAC ítem por ítem no es la mejor opción para todas las evaluaciones, especialmente aquellas que naturalmente tienden a utilizar pequeños cuestionarios, como las evaluaciones de idioma donde hay un pasaje de lectura con 3 a 5 preguntas asociadas.

Las pruebas multietapa le permiten obtener algunos de los beneficios conocidos de las pruebas adaptativas (ver a continuación), con un mayor control sobre el contenido y la exposición. Además de controlar el contenido a nivel de examinado, también puede facilitar la gestión del uso del banco de ítems para la organización.

 

¿Cómo implemento pruebas multietapa?

1. Desarrolle sus bancos de ítems utilizando ítems calibrados con la teoría de respuesta a ítems

2. Ensamble una prueba con múltiples etapas, definiendo grupos de ítems en cada etapa como testlets

3. Evalúe las funciones de información de la prueba para cada testlet

4. Ejecute estudios de simulación para validar el algoritmo de entrega con sus testlets predefinidos

5. Publique para entrega en línea

Nuestra plataforma de evaluación líder en la industria administra gran parte de este proceso por usted. La imagen a la derecha muestra nuestra pantalla de ensamblaje de pruebas donde puede evaluar las funciones de información de la prueba para cada testlet.

Multistage testing

 

Beneficios de las pruebas en varias etapas

Este enfoque tiene una serie de beneficios, que en su mayoría son compartidos con CAT.

  • Exámenes más cortos: debido a que la dificultad está dirigida, se pierde menos tiempo
  • Mayor seguridad: hay muchas configuraciones posibles, a diferencia de un examen lineal donde todos ven el mismo conjunto de elementos
  • Mayor participación: los estudiantes con menor capacidad no se desaniman y los estudiantes con mayor capacidad no se aburren
  • Control de contenido: PAC tiene algunos algoritmos de control de contenido, pero a veces no son suficientes
  • Admite testlets: PAC no admite pruebas que tengan testlets, como un pasaje de lectura con 5 preguntas
  • Permite la revisión: PAC no suele permitir la revisión (los estudiantes pueden volver atrás en una pregunta para cambiar una respuesta), mientras que PME sí lo permite

 

Ejemplos de pruebas multietapa

La PME se utiliza a menudo en la evaluación de idiomas, lo que significa que se utiliza a menudo en la evaluación educativa, como los exámenes de referencia K-12, las admisiones universitarias o la colocación/certificación de idiomas. Uno de los ejemplos más famosos es la Prueba de Aptitud Académica de The College Board; se está moviendo hacia un enfoque PME en 2023.

Debido a la complejidad de la teoría de respuesta a los ítems, la mayoría de las organizaciones que implementan la PME tienen un psicometrista a tiempo completo en el personal. Si su organización no lo tiene, nos encantaría discutir cómo podemos trabajar juntos.