computerized adaptive testing

Las pruebas adaptativas informatizadas son un método de evaluación basado en la inteligencia artificial en el que la prueba se personaliza en función de tu rendimiento a medida que la realizas, lo que hace que la prueba sea más corta, más precisa, más segura, más atractiva y más justa. Si lo haces bien, los ítems se vuelven más difíciles, y si lo haces mal, los ítems se vuelven más fáciles. Si se alcanza una puntuación exacta, el test se detiene antes. Al adaptar la dificultad de las preguntas al rendimiento de cada examinando, el CAT garantiza un proceso de evaluación eficaz y seguro.

Los algoritmos de IA se basan casi siempre en la Teoría de Respuesta al Ítem ( TRI), una aplicación del aprendizaje automático a la evaluación, pero también pueden basarse en otros modelos.

 

¿Prefiere aprender haciendo? Solicite una cuenta gratuita en FastTest, nuestra potente plataforma de pruebas adaptativas.

Free FastTest Account

¿Qué son las pruebas adaptativas informatizadas?

El test adaptativo informatizado (CAT), a veces llamado test adaptativo informatizado, evaluación adaptativa o test adaptativo, es un algoritmo que personaliza la forma en que se entrega una evaluación a cada examinando. Se codifica en una plataforma de software y utiliza el enfoque de aprendizaje automático de la TRI para seleccionar los ítems y puntuar a los examinandos. El algoritmo funciona en bucle hasta que se completa el examen. Esto hace que la prueba sea más inteligente, más corta, más justa y más precisa.

computerized Adaptive testing options

Los pasos del diagrama anterior son una adaptación de Kingsbury y Weiss (1984). basado en estos componentes.

Componentes de un CAT

  1. Banco de ítems calibrado con TRI
  2. Punto de partida (nivel theta antes de que alguien responda a un ítem)
  3. Algoritmo de selección de ítems (normalmente información máxima de Fisher)
  4. Método de puntuación (por ejemplo, máxima verosimilitud)
  5. Criterio de finalización (¿parar la prueba a los 50 ítems o cuando el error estándar es inferior a 0,30? ¿Ambos?)

Funcionamiento de los componentes

Para empezar, necesitas un banco de ítems que haya sido calibrado con un modelo psicométrico o de aprendizaje automático relevante. Es decir, no basta con escribir unos cuantos ítems y clasificarlos subjetivamente como de dificultad Fácil, Media o Difícil. Esa es una forma fácil de ser demandado. En su lugar, tiene que escribir un gran número de ítems (la regla general es 3 veces la longitud prevista de la prueba) y luego probarlos en una muestra representativa de examinados. La muestra debe ser lo suficientemente grande como para respaldar el modelo psicométrico que elijas, y puede oscilar entre 100 y 1000. A continuación, hay que llevar a cabo una investigación de simulación, de la que hablaremos más adelante.

computerized adaptive testing

Una vez que tenga listo un banco de ítems, he aquí cómo funciona el algoritmo de las pruebas adaptativas informatizadas para un alumno que se sienta a realizar la prueba, con opciones sobre cómo hacerlo.

  1. Punto de partida: hay tres opciones para seleccionar la puntuación inicial, que los psicometristas denominan theta
    • Todos obtienen el mismo valor, como 0,0 (media, en el caso de los modelos que no son de Rasch)
    • Aleatorizado dentro de un rango, para ayudar a la seguridad de la prueba y la exposición al ítem
    • Valor previsto, tal vez a partir de datos externos o de un examen anterior
  2. Seleccionar ítem
    • Busque el elemento del banco que tenga el mayor valor informativo.
    • A menudo, es necesario equilibrar esto con limitaciones prácticas como la exposición de elementos o el equilibrio de contenidos.
  3. Puntúa al examinado
    • Normalmente IRT, máxima verosimilitud o Bayes modal
  4. Evaluar el criterio de terminación: utilizando una regla predefinida apoyada en su investigación de simulación
    • ¿Se alcanza un determinado nivel de precisión, como un error estándar de medida <0,30?
    • ¿No quedan artículos buenos en el banco?
    • ¿Se ha alcanzado un límite de tiempo?
    • ¿Se ha alcanzado un límite máximo de artículos?

El algoritmo funciona realizando un bucle a través de 2-3-4 hasta que se cumple el criterio de terminación.

¿Cómo se adapta la prueba? ¿Por dificultad o por cantidad?

Los CAT funcionan adaptando tanto la dificultad como la cantidad de ítems que ve cada examinando.

Dificultad
La mayoría de las caracterizaciones de los tests adaptativos informatizados se centran en cómo se ajusta la dificultad de los ítems a la capacidad del examinado. Los examinandos de alta capacidad reciben ítems más difíciles, mientras que los de baja capacidad reciben ítems más fáciles, lo que tiene importantes beneficios para el estudiante y la organización. Un test adaptativo suele comenzar con un ítem de dificultad media; si aciertas, obtienes un ítem más difícil, y si no aciertas, obtienes un ítem más fácil. Este patrón continúa.

Cantidad: Longitud fija frente a longitud variable
Una faceta menos conocida de la adaptación es el número de ítems. Los tests adaptativos pueden diseñarse para que se detengan cuando se alcanzan determinados criterios psicométricos, como un nivel específico de precisión en la puntuación. Algunos examinandos terminan muy rápidamente con pocos ítems, de modo que los tests adaptativos suelen tener la mitad de preguntas que un test normal, con al menos la misma precisión. Dado que algunos examinandos tienen pruebas más largas, estas pruebas adaptativas se denominan de longitud variable. Obviamente, esto supone un enorme beneficio: reducir el tiempo de examen a la mitad, por término medio, puede disminuir sustancialmente los costes de los exámenes.

Algunos tests adaptativos tienen una longitud fija y sólo adaptan la dificultad de los ítems. Esto se hace simplemente por cuestiones de relaciones públicas, es decir, por la incomodidad de tratar con examinados que se sienten injustamente tratados por el CAT, aunque pueda decirse que es más justo y válido que los tests convencionales. En general, la mejor práctica consiste en fusionar las dos: permitir que la duración de los exámenes sea más corta o más larga, pero poner topes en ambos extremos que impidan que los exámenes sean demasiado cortos o que lleguen potencialmente a los 400 ítems. Por ejemplo, el examen NCLEX tiene una longitud mínima de 75 preguntas y una máxima de 145 preguntas.

 

Ejemplo de algoritmo de pruebas adaptativas informatizadas

Veamos un ejemplo simplificado. Tenemos un banco de ítems con 5 preguntas. Empezaremos con un ítem de dificultad media y responderemos como lo haría un alumno de dificultad inferior a la media.

A continuación se muestran las funciones de información del ítem para cinco ítems de un banco. Supongamos que el theta inicial es 0.0.

item information functions

 

  1. Encontramos el primer ítem a entregar. ¿Qué artículo tiene la información más alta a 0,0? Es el ítem 4.
  2. Supongamos que el alumno responde incorrectamente.
  3. Ejecutamos el algoritmo de puntuación de la TRI y supongamos que la puntuación es -2,0.
  4. Compruebe el criterio de terminación; ciertamente no hemos terminado todavía, después de 1 ítem.
  5. Busque el siguiente ítem. ¿Cuál tiene la información más alta en -2.0? Ítem 2.
  6. Supongamos que el alumno responde correctamente.
  7. Ejecutamos el algoritmo de puntuación de la TRI, y supongamos que la puntuación es -0,8.
  8. Evalúe el criterio de terminación; aún no está hecho.
  9. Busque el siguiente ítem. El ítem 2 es el más alto con -0,8, pero ya lo hemos utilizado. El ítem 4 es el siguiente mejor, pero ya lo hemos utilizado. Así que el siguiente mejor es el ítem 1.
  10. El ítem 1 es muy fácil, así que el alumno lo acierta.
  11. La nueva puntuación es -0,2.
  12. El mejor ítem restante con -0,2 es el ítem 3.
  13. Supongamos que el alumno lo hace mal.
  14. La nueva puntuación es quizás -0,4.
  15. Evalúe el criterio de terminación. Supongamos que el test tiene un máximo de 3 ítems, un criterio extremadamente simple. Lo hemos cumplido. La prueba está terminada y enviada automáticamente.

 

Ventajas de las pruebas adaptativas informatizadas

Al hacer que el test sea más inteligente, las pruebas adaptativas proporcionan una amplia gama de ventajas. A continuación se enumeran algunas de las ventajas más conocidas de las pruebas adaptativas, reconocidas por la investigación psicométrica académica.
 

Pruebas más cortas

Las investigaciones han demostrado que los tests adaptativos reducen la longitud de las pruebas entre un 50% y un 90%. Esto no es ninguna sorpresa. Supongamos que se dispone de un conjunto de 100 ítems. Un alumno aventajado tiene prácticamente garantizado que acertará los 70 más fáciles; sólo los 30 más difíciles le harán pensar. Y viceversa para un alumno bajo. Los alumnos con capacidades medias no necesitan ni los ítems superdifíciles ni los superfáciles.

¿Por qué es importante esto? En primer lugar, puede reducir mucho los costes. Supongamos que realiza 100.000 exámenes al año en centros de evaluación y que paga 30 dólares por hora. Si puede reducir su examen de 2 horas a 1 hora, acaba de ahorrar 3.000.000 de dólares. Sí, habrá un aumento de los costes por el uso de la evaluación adaptativa, pero es probable que al final se ahorre dinero.

En el caso de la evaluación de K12, no se está pagando por el tiempo de asiento, pero existe el coste de oportunidad del tiempo de instrucción perdido. Si los alumnos realizan evaluaciones formativas 3 veces al año para comprobar su progreso y puede reducir cada una en 20 minutos, eso supone 1 hora; si hay 500.000 alumnos en su Estado, entonces acaba de ahorrar 500.000 horas de aprendizaje.

Puntuaciones más precisas

El CAT hará que los exámenes sean más precisos, en general. Para ello, diseña los algoritmos específicamente en torno a cómo obtener puntuaciones más precisas sin hacer perder tiempo a los examinandos.

Mayor control de la precisión de las puntuaciones

El CAT garantiza que todos los alumnos tendrán la misma precisión, lo que hace que el examen sea mucho más justo. Los exámenes tradicionales miden bien a los alumnos del medio, pero no a los de arriba ni a los de abajo. ¿Es mejor que A) los alumnos vean los mismos ítems pero puedan tener una precisión de las puntuaciones drásticamente diferente, o que B) tengan una precisión de las puntuaciones equivalente, pero vean ítems diferentes?

Mayor seguridad en las pruebas

Dado que todos los estudiantes reciben una evaluación adaptada a ellos, la seguridad de la prueba es mayor que si todos vieran los mismos 100 ítems. La exposición a los ítems se reduce considerablemente; sin embargo, hay que tener en cuenta que esto introduce sus propios retos y que los algoritmos de evaluación adaptativa tienen en cuenta su propia exposición a los ítems.

Una mejor experiencia para los examinandos, con menor fatiga

Las evaluaciones adaptativas tenderán a ser menos frustrantes para los examinandos en todos los rangos de capacidad. Además, mediante la aplicación de reglas de parada de longitud variable (por ejemplo, una vez que sabemos que es un estudiante de alto nivel, no le damos los 70 ítems fáciles), se reduce la fatiga.

Mayor motivación de los examinandos

Dado que los examinandos sólo ven ítems relevantes para ellos, esto les proporciona un reto adecuado. Los examinandos con capacidades bajas se sentirán más cómodos y acertarán muchos más ítems que con un test lineal. Los alumnos con altas capacidades acertarán los ítems difíciles que les hagan pensar.

Es posible repetir las pruebas con frecuencia

Toda la idea de la “forma única” se aplica al mismo alumno que se presenta dos veces al mismo examen. Supongamos que haces el examen en septiembre, al principio del curso escolar, y vuelves a hacer el mismo en noviembre para comprobar tu aprendizaje. Es probable que hayas aprendido bastante y estés más arriba en el rango de capacidad; te tocarán ítems más difíciles y, por tanto, un nuevo examen. Si fuera una prueba lineal, podrías ver exactamente la misma prueba.

Esta es una de las principales razones por las que la evaluación adaptativa desempeña un papel formativo en la educación primaria y secundaria, ya que se aplica varias veces al año a millones de estudiantes sólo en Estados Unidos.

Ritmo individual de los exámenes

Los examinandos pueden avanzar a su propio ritmo. Algunos pueden avanzar rápidamente y terminar en sólo 30 preguntas. Otros pueden vacilar, ver también 30 temas pero tardar más tiempo. Otros pueden ver 60 preguntas. Los algoritmos pueden diseñarse para maximizar el proceso.

Ventajas de las pruebas informatizadas en general

Por supuesto, las ventajas de utilizar un ordenador para realizar una prueba también son relevantes. He aquí algunas
  • Informe inmediato de las puntuaciones
  • Las pruebas a demanda pueden reducir la impresión, la programación y otros problemas relacionados con el papel.
  • El almacenamiento inmediato de los resultados en una base de datos facilita la gestión de los datos.
  • Las pruebas informatizadas facilitan el uso de multimedia en los ítems
  • Se pueden ejecutar inmediatamente informes psicométricos
  • Los plazos se reducen con un sistema integrado de banco de ítems

 

Cómo desarrollar una evaluación adaptativa que sea válida y defendible

Las CAT son el futuro de la evaluación. Funcionan adaptando la dificultad y el número de ítems a cada examinando. El desarrollo de un test adaptativo no es tarea fácil y requiere cinco pasos en los que se integran los conocimientos de los desarrolladores del contenido del test, los ingenieros de software y los psicometristas.

El desarrollo de un test adaptativo de calidad es complejo y requiere psicometristas experimentados tanto en la calibración de la teoría de respuesta al ítem (TRI) como en la investigación de simulación CAT. FastTest puede proporcionarle el psicometrista y el software; si usted proporciona los ítems del test y los datos piloto, podemos ayudarle a publicar rápidamente una versión adaptativa de su test.

Paso 1: Estudios de viabilidad, aplicabilidad y planificación. En primer lugar, debe realizarse una investigación exhaus tiva de simulación monte carlo, y los resultados deben formularse como casos empresariales, para evaluar si las pruebas adaptativas son viables, aplicables o incluso posibles.

Paso 2: Desarrollar un banco de ítems. Debe crearse un banco de ítems que cumpla las especificaciones recomendadas en la etapa 1.

Paso 3: Pruebas preliminares y calibración del banco de ítems. Los ítems deben someterse a pruebas piloto con 200-1.000 examinados (dependiendo del modelo de TRI) y ser analizados por un psicometrista doctorado.

Paso 4: Determinar las especificaciones para el CAT final. Se analizan los datos del Paso 3 para evaluar las especificaciones del CAT y determinar los algoritmos más eficientes utilizando software de simulación de CAT como CATSim.

Paso 5: Publicación del CAT en vivo. El test adaptativo se publica en un motor de pruebas capaz de realizar tests totalmente adaptativos basados en la TRI. No hay muchos en el mercado. Regístrese para obtener una cuenta gratuita en nuestra plataforma FastTest y pruébelo usted mismo.

¿Quiere saber más sobre nuestro modelo único? Haga clic aquí para leer el artículo seminal de nuestros dos cofundadores. Aquí encontrará más estudios sobre pruebas adaptativas.

Requisitos mínimos para las pruebas adaptativas informatizadas

Estos son algunos de los requisitos mínimos que debe evaluar si está pensando en adoptar el método de las pruebas adaptativas informatizadas.

  • Un gran banco de ítems probado para que cada ítem tenga al menos 100 respuestas válidas (modelo Rasch) o 500 (modelo 3PL).
  • 500 examinandos por año
  • Calibración IRT especializada y software de simulación CAT como Xcalibre y CATsim.
  • Personal con un doctorado en psicometría o un nivel equivalente de experiencia. O aproveche nuestra experiencia reconocida internacionalmente en este campo.
  • Ítems (preguntas) que pueden puntuarse objetivamente como correctos/incorrectos en tiempo real.
  • Un sistema de bancos de ítems y una plataforma de entrega de CAT
  • Recursos financieros: Debido a su complejidad, el desarrollo de un CAT costará al menos 10.000 dólares, pero si va a realizar pruebas a un gran número de examinandos, la inversión será significativamente positiva. Si pagas 20 $/hora por los puestos de supervisor y reduces un examen de 2 horas a 1 hora para sólo 1.000 examinandos… eso supone un ahorro de 20.000 $. ¿Y si hace 200.000 exámenes? Eso supone un ahorro de 4.000.000 de dólares en tiempo de examen.

 

Pruebas adaptativas: Recursos para leer más

Visite los siguientes enlaces para obtener más información sobre la evaluación adaptativa.

  • En primer lugar, le recomendamos que lea este artículo de referencia de nuestros cofundadores.
  • Lea este artículo del profesor David J. Weiss sobre cómo realizar mejores mediciones con CAT.
  • Asociación Internacional de Pruebas Adaptativas Informatizadas: www.iacat.org
  • Aquí está el enlace al seminario web sobre la historia de las CAT, impartido por el padrino de las CAT, el profesor David J. Weiss.

 

Ejemplos de TAO

computerized Adaptive testing options

Muchas evaluaciones a gran escala utilizan tecnología adaptativa. El GRE (Graduate Record Examinations) es un buen ejemplo de prueba adaptativa. También lo son el NCLEX (examen de enfermería en EE.UU.), el GMAT (admisión en escuelas de negocios) y muchas evaluaciones formativas como el NWEA MAP. El SAT ha pasado recientemente a un formato adaptativo multietapa.

Cómo implantar el CAT

Nuestra revolucionaria plataforma, FastTest, facilita la publicación de un CAT. Una vez que haya cargado los textos de sus ítems y los parámetros de la TRI, puede elegir las opciones que desee para los pasos 2-3-4 del algoritmo, simplemente haciendo clic en los elementos de nuestra interfaz fácil de usar.

 

Póngase en contacto con nosotros para obtener una cuenta gratuita en nuestra plataforma CAT líder del sector o para hablar con uno de nuestros psicometristas doctorados.