classroom students exam

Si está entregando pruebas de alto riesgo en formas lineales, o está pilotando un banco para prueba adaptativa computarizada/prueba lineal sobre la marcha, se enfrenta al problema de cómo equiparar las formas entre sí. Es decir, ¿cómo podemos traducir de manera defendible una puntuación en el Forma A a una puntuación en el Forma B? Si bien el concepto es simple, la metodología puede ser compleja y existe un área completa de investigación psicométrica dedicada a este tema. Hay varias formas de abordar esta cuestión, y la equiparación teoría de respuesta al ítem (TRÍ) es la más sólida.

¿Por qué necesitamos la equiparación?

La necesidad es obvia: ajustar las diferencias en dificultad para garantizar que todos los examinados reciban una puntuación justa en una escala estable. Supongamos que usted toma el Forma A y obtiene una puntuación de 72/100, mientras que su amigo toma el Forma B y obtiene una puntuación de 74/100. ¿Su amigo es más inteligente que usted, o su formulario tenía preguntas más fáciles? Bueno, si los diseñadores de la prueba incorporaron cierta superposición, podemos responder a esta pregunta empíricamente.

Supongamos que los dos formularios se superponen en 50 ítems, llamados ítems de anclaje o ítems de ecuador. Ambos formularios se entregan a una muestra grande y representativa. Estos son los resultados.

Forma Puntuación media en 50 Ítems superpuestos Puntuación media en 100 ítems en total
A 30 72
B 30 74

Because the mean score on the anchor items was higher, we then think that the Form B group was a little smarter, which led to a higher total score.

Now suppose these are the results:

FormA Puntuación media en 50 Ítems superpuestos Puntuación media en 100 ítems en total
A 32 72
B 32 74

Ahora, tenemos evidencia de que los grupos tienen la misma capacidad. La puntuación total más alta en el Forma B debe deberse entonces a que los ítems únicos en ese forma son un poco más fáciles.

¿Cómo calculo una equiparación?

Puede equiparar las formas con la teoría clásica de los test (TCT) o la teoría de respuesta al ítem (TRÍ). Sin embargo, una de las razones por las que se inventó la TRÍ fue que la equiparación con TCT era muy débil. Los métodos TCT incluyen Tucker, Levine y equipercentil. Sin embargo, ahora nos centraremos en la TRÍ.

La equiparación de TRÍ

Existen tres enfoques generales para la equiparación de TRÍ. Todos ellos se pueden lograr con nuestro software líder en la industria  Xcalibre, aunque la igualación de conversión requiere un software adicional llamado IRTEQ.

  1. Conversión
  2. Calibración concurrente
  3. Calibración de anclaje fijo

Conversión

Con este enfoque, debe calibrar cada forma de su prueba usando TRÍ, completamente por separado. Luego evaluamos la relación entre los parámetros TRÍ en cada forma y usamos eso para estimar la relación para convertir las puntuaciones del examinado. En teoría, lo que hace es alinear los parámetros TRÍ de los elementos comunes y realizar una regresión lineal, para luego poder aplicar esa conversión lineal a las puntuaciones.

Pero NO haga simplemente una regresión lineal regular. Hay métodos específicos que debe utilizar, incluidos media/media, media/sigma, Stocking & Lord y Haebara. Afortunadamente, no tiene que realizar todos los cálculos usted mismo, ya que hay software gratuito disponible para hacerlo por usted:  IRTEQ.

Calibración concurrentecommon item linking irt equating

El segundo enfoque consiste en combinar los conjuntos de datos en lo que se conoce como una matriz dispersa. Luego, se ejecuta este único conjunto de datos a través de la calibración TRÍ, y se colocarán todos los ítems y los examinados en una escala común. El concepto de una matriz dispersa se representa típicamente en la figura a continuación, que representa el enfoque de diseño de la prueba de anclaje no equivalente (NEAT).

El software de calibración TRÍ equiparará automáticamente los dos formas y usted podrá utilizar los puntajes resultantes.

Calibración de anclaje fijo

El tercer enfoque es una combinación de los dos anteriores; utiliza el concepto de calibración independiente, pero sigue utilizando el proceso de calibración TRÍ para realizar la equiparación en lugar de un software independiente.

Con este enfoque, primero calibraría sus datos para el Forma A. Luego, buscaría todos los parámetros de los ítems TRÍ para los elementos comunes y los ingresaría en su software de calibración TRÍ cuando calibre el Forma B.

Puede indicarle al software que “arregle” los parámetros de los ítems para que esos en particular (de los elementos comunes) no cambien. Luego, todos los parámetros de los ítems para los ítems únicos se fuerzan en la escala de los ítems comunes, que, por supuesto, es la escala subyacente del Forma A. Esto también fuerza las puntuaciones de los estudiantes del Forma B en la escala del Forma A.

¿Cómo se comparan estos enfoques de equiparación de TRÍ entre sí?
concurrent calibration irt equating linking

La calibración concurrente es posiblemente la más fácil, pero tiene el inconveniente de que fusiona las escalas de cada formulario en una nueva escala en algún lugar intermedio. Si necesita informar las puntuaciones de cualquiera de los formas en la escala original, debe utilizar los métodos de conversión o de anclaje fijo. Esta situación ocurre comúnmente si está haciendo comparaciones entre períodos de tiempo.

Suponga que entregó el Forma A el año pasado y ahora está tratando de hacer comparaciones con el Forma B. No puede simplemente crear una nueva escala y, por lo tanto, anular todas las puntuaciones que informó el año pasado. Debe mapear el Forma B en el Forma A para que las puntuaciones de este año se informen en la escala del año pasado y las puntuaciones de todos sean consistentes.

¿A dónde voy desde aquí?

Si desea realizar la equiparación TRÍ, necesita un software de calibración TRÍ. Los tres enfoques lo utilizan. Recomiendo encarecidamente  Xcalibre, ya que es fácil de usar y crea automáticamente informes en Word para usted. Si desea obtener más información sobre el tema de la equiparación, la referencia clásica es el libro de Kolen y Brennan (2004; 2014). Hay otros recursos más disponibles en Internet, como este manual gratuito de CCSSO. Si desea obtener más información sobre TRÍ, recomiendo los libros de de Ayala (2008) y Embretson & Reise (2000). Hay una introducción disponible en nuestra publicación de blog.

El 14 de junio de 2022, ASC organizó un seminario web como parte de su serie AI In Assessment (IA en Evaluación). Esta edición es una entrevista con el padre de las pruebas adaptativas computarizadas (CAT, por sus siglas en inglés), el profesor David J. Weiss.

Obtenga más información sobre su trayectoria en el mundo de la psicología, la educación y la evaluación, desde su interés inicial en medir las diferencias individuales hasta la exposición temprana a las computadoras, pasando por las aplicaciones iniciales de la teoría de respuesta al ítem en el desarrollo del enfoque CAT como parte de un equipo de investigación en la Universidad de Minnesota. También analiza su investigación reciente y sus expectativas para el futuro de la IA en Evaluación.

 

 

Prof. David J. Weiss

El Dr. David J. Weiss es ampliamente reconocido como el padre de la CAT y fue uno de los primeros en aplicar computadoras para la administración de evaluaciones. Su impacto en el campo de la psicometría y la evaluación ha sido inmenso:

Profesor en la Universidad de Minnesota y director de larga trayectoria del programa de Métodos Psicométricos, donde supervisó 37 doctorados.

– Fundador de la revista Applied Psychological Measurement.

– Fundador de la revista Journal of Computerized Adaptive Testing (JCAT).

– Co-fundador de Assessment Systems Corporation (assess.com).

– Co-fundador de Insurance Testing Corporation.

– Co-fundador de la International Association for Computerized Adaptive Testing (iacat.org).

– Autor de cientos de artículos científicos, informes y presentaciones en conferencias.

automated item generation AI

Los estudios de simulación son un paso esencial en el desarrollo de una prueba adaptativa computarizada (CAT, por sus siglas en inglés) que sea defendible y satisfaga las necesidades de su organización u otras partes interesadas. Hay tres tipos de simulaciones: Monte Carlo, Datos Reales (post hoc) e Híbridas.

La simulación de Monte Carlo es el enfoque de propósito más general y el que se usa con más frecuencia al principio del proceso de desarrollo de una CAT. Esto se debe a que no requiere datos reales, ni sobre los elementos de la prueba ni sobre los examinados, aunque los datos reales son bienvenidos si están disponibles, lo que la hace extremadamente útil para evaluar si la CAT es factible para su organización antes de invertir dinero en seguir adelante.

Comencemos con una descripción general de cómo funciona la simulación de Monte Carlo antes de volver a ese punto.

Cómo funciona una simulación de Monte Carlo: una descripción general

En primer lugar, ¿qué queremos decir con simulación CAT? Bueno, una CAT es una prueba que se administra a los estudiantes a través de un algoritmo. Podemos usar ese mismo algoritmo en examinados imaginarios o en examinados reales del pasado y simular qué tan bien se desempeña una CAT en ellos.

Lo mejor de todo es que podemos cambiar las especificaciones del algoritmo para ver cómo afecta a los examinados y al desempeño de la CAT.

Cada enfoque de simulación requiere tres cosas:

  1. Parámetros de los ítems de la teoría de respuesta al ítem (TRI), aunque ahora se están desarrollando nuevos métodos CAT, como los modelos de diagnóstico.
  2. Puntuaciones del examinado (theta) de la TRI.
  3. Una forma de determinar cómo responde un examinado a un ítem si el algoritmo CAT dice que se le debe entregar.

El enfoque de simulación de Monte Carlo se define por la forma en que aborda el tercer requisito: genera una respuesta utilizando algún tipo de modelo matemático, mientras que los otros dos enfoques de simulación buscan respuestas reales de examinados anteriores (enfoque de datos reales) o una combinación de los dos (híbrido).

El enfoque de simulación de Monte Carlo solo utiliza el proceso de generación de respuestas. Los parámetros de los ítems pueden provenir de un banco de ítems reales o generarse.

Asimismo, los thetas de los examinados pueden provenir de una base de datos de datos anteriores o generarse.

¿Cómo funciona el proceso de generación de respuestas?

Bueno, difiere según el modelo que se use como base para el algoritmo CAT. Aquí, supongamos que estamos usando el modelo logístico de tres parámetros. Empecemos por suponer que tenemos un examinado falso con un theta verdadero de 0,0. El algoritmo CAT busca en el banco y dice que debemos administrar el ítem #17 como el primer ítem, que tiene los siguientes parámetros de ítem: a = 1,0, b = 0,0 y c = 0,20.

Bueno, simplemente podemos introducir esos números en la ecuación para el modelo de tres parámetros y obtener la probabilidad de que esta persona responda correctamente este ítem.

Item response function - IRF 1.0 0.0 0.2

La probabilidad, en este caso, es 0,6. El siguiente paso es generar un número aleatorio del conjunto de todos los números reales entre 0,0 y 1,0. Si ese número es menor que la probabilidad de respuesta correcta, el examinado “obtiene” el ítem correcto. Si es mayor, el examinado obtiene el ítem incorrecto. De cualquier manera, el examinado es calificado y el algoritmo CAT continúa.

Para cada ítem que se presente para ser utilizado, utilizamos este mismo proceso. Por supuesto, el theta verdadero no cambia, pero los parámetros del ítem son diferentes para cada ítem. Cada vez, generamos un nuevo número aleatorio y lo comparamos con la probabilidad para determinar una respuesta correcta o incorrecta.

El algoritmo CAT procede como si un examinado real estuviera al otro lado de la pantalla de la computadora, respondiendo realmente a las preguntas, y se detiene cuando se satisface el criterio de terminación. Sin embargo, el mismo proceso se puede utilizar para “entregar” exámenes lineales a los examinados; En lugar de que el algoritmo CAT seleccione el siguiente elemento, simplemente lo procesamos secuencialmente a través de la prueba.

Un camino hacia la investigación

Para un solo examinado, este proceso no es mucho más que una curiosidad. Donde se vuelve útil es a un nivel agregado de gran escala. Imagine el proceso anterior como parte de un ciclo mucho más grande. Primero, establecemos un grupo de 200 elementos extraídos de elementos utilizados en el pasado por su programa. A continuación, generamos un conjunto de 1000 examinados extrayendo números de una distribución aleatoria.

Finalmente, recorremos cada examinado y administramos una CAT utilizando el algoritmo CAT y generando respuestas con el proceso de simulación de Monte Carlo. Luego, tenemos datos extensos sobre cómo se desempeñó el algoritmo CAT, que se pueden usar para evaluar el algoritmo y el banco de elementos. Los dos más importantes son la longitud de la CAT y su precisión, que son una compensación en la mayoría de los casos.

Entonces, ¿cómo es esto útil para evaluar la viabilidad de la CAT?

Bueno, puede evaluar el rendimiento del algoritmo CAT configurando un experimento para comparar diferentes condiciones. Supongamos que no tiene elementos anteriores y ni siquiera está seguro de cuántos elementos necesita. Bueno, puede crear varios bancos de elementos falsos diferentes y administrar una CAT al mismo conjunto de examinados falsos.

O puede saber qué banco de elementos se utilizará, pero necesita establecer que una CAT superará las pruebas lineales que utiliza actualmente. Hay una amplia gama de preguntas de investigación que puede hacer y, dado que se están generando todos los datos, puede diseñar un estudio para responder a muchas de ellas. De hecho, uno de los mayores problemas a los que puede enfrentarse es que puede dejarse llevar y comenzar a crear demasiadas condiciones.

¿Cómo hago realmente un estudio de simulación de Monte Carlo?

Afortunadamente, existe un software que hace todo el trabajo por usted. La mejor opción es CATSim, que proporciona todas las opciones que necesita en una interfaz de usuario sencilla (tenga cuidado, esto hace que sea aún más fácil dejarse llevar). La ventaja de CATSim es que recopila los resultados por usted y presenta la mayoría de las estadísticas de resumen que necesita sin que tenga que calcularlas. Por ejemplo, calcula la duración promedio de la prueba (número de elementos utilizados por un CAT de duración variable) y la correlación de thetas del CAT con thetas reales. Existe otro software que es útil para generar conjuntos de datos utilizando la simulación de Monte Carlo (consulte SimulCAT), pero no incluye esta importante característica.

adaptive testing simulation

Confectioner-confetti

El análisis de ítems es la evaluación estadística de las preguntas de la prueba para garantizar que sean de buena calidad y corregirlas si no lo son. Este es un paso clave en el ciclo de desarrollo de la prueba; después de que los ítems se han entregado a los examinados (ya sea como piloto o en uso completo), analizamos las estadísticas para determinar si hay problemas que afecten la validez y confiabilidad, como ser demasiado difíciles o sesgados. Esta publicación describirá los conceptos básicos de este proceso. Si desea más detalles e instrucciones sobre el uso del software, también puede consultar nuestros videos tutoriales en nuestro canal de YouTube y descargar nuestro software psicométrico gratuito.


Descargue una copia gratuita de Iteman: software para análisis de ítems

¿Qué es el análisis de ítems?

El análisis de ítems se refiere al proceso de analizar estadísticamente los datos de evaluación para evaluar la calidad y el desempeño de los ítems de la prueba. Este es un paso importante en el ciclo de desarrollo de la prueba, no solo porque ayuda a mejorar la calidad de la prueba, sino porque proporciona documentación para la validez: evidencia de que la prueba funciona bien y que las interpretaciones de las puntuaciones significan lo que usted pretende. Es una de las aplicaciones más comunes de la psicometría, mediante el uso de estadísticas de ítems para marcar, diagnosticar y corregir los ítems de bajo rendimiento en una prueba. Cada ítem que tiene un bajo rendimiento está perjudicando potencialmente a los examinados.Iteman Statistics Screenshot

El análisis de ítems se reduce a dos objetivos:

  1. Encontrar los ítems que no funcionan bien (dificultad y discriminación, por lo general)
  2. Descubrir POR QUÉ esos elementos no funcionan bien, para que podamos determinar si los revisamos o los retiramos

Existen diferentes formas de evaluar el desempeño, como por ejemplo si el ítem es demasiado difícil/fácil, demasiado confuso (no discriminatorio), mal codificado o tal vez incluso sesgado hacia un grupo minoritario.

Además, existen dos paradigmas completamente diferentes para este análisis: la teoría clásica de los pruebas (TCP) y la teoría de respuesta al ítem (TRI). Además de eso, los análisis pueden diferir en función de si el ítem es dicotómico (correcto/incorrecto) o politómico (2 o más puntos).

Debido a las posibles variaciones, el análisis de ítems es un tema complejo. Pero eso ni siquiera entra en la evaluación del desempeño en las pruebas. En esta publicación, cubriremos algunos de los conceptos básicos de cada teoría, a nivel de ítem.

 

Cómo hacer un análisis de ítems

1. Prepare sus datos para el análisis de ítems

La mayoría del software psicométrico utiliza una matriz de persona x elemento. Es decir, un archivo de datos donde los examinados son filas y los elementos son columnas. A veces, es una matriz dispersa donde faltan muchos datos, como en las pruebas lineales sobre la marcha. También deberá proporcionar metadatos al software, como los identificadores de los elementos, las respuestas correctas, los tipos de elementos, etc. El formato para esto variará según el software.

2. Ejecutar datos a través de un software de análisis de ítems

Para implementar el análisis de ítems, debe utilizar un software dedicado diseñado para este propósito. Si utiliza una plataforma de evaluación en línea, le proporcionará resultados para el análisis de ítems, como valores P de distractores y biseriales puntuales (si no, no es una plataforma de evaluación real). En algunos casos, puede utilizar software independiente. CITAS proporciona un enfoque simple basado en hojas de cálculo para ayudarlo a aprender los conceptos básicos, completamente gratis. Aquí se encuentra una captura de pantalla de los resultados de CITAS. Sin embargo, los profesionales necesitarán un nivel superior a este. Iteman  y  Xcalibre  son dos programas de software especialmente diseñados por ASC para este propósito, uno para TCP y otro para TRI.

CITAS output with histogram

3. Interpretar los resultados del análisis de ítems

El software de análisis de ítems generará tablas de números. A veces, serán tablas feas de estilo ASCII de la década de 1980. A veces, serán hermosos documentos de Word con gráficos y explicaciones. De cualquier manera, debe interpretar las estadísticas para determinar qué ítems tienen problemas y cómo solucionarlos. El resto de este artículo profundizará en eso.

 

Análisis de ítems con la teoría clásica de pruebas

La teoría clásica de tests ofrece un enfoque simple e intuitivo para el análisis de ítems. No utiliza nada más complicado que proporciones, promedios, recuentos y correlaciones. Por este motivo, es útil para exámenes a pequeña escala o para su uso con grupos que no tienen experiencia psicométrica.

Dificultad del ítem: dicotómica

La TCP cuantifica la dificultad del ítem para ítems dicotómicos como la proporción (valor P) de examinados que lo responden correctamente.

Varía de 0,0 a 1,0. Un valor alto significa que el ítem es fácil y un valor bajo significa que el ítem es difícil. No hay reglas estrictas porque la interpretación puede variar ampliamente para diferentes situaciones. Por ejemplo, se esperaría que una prueba realizada al comienzo del año escolar tuviera estadísticas bajas ya que a los estudiantes aún no se les ha enseñado el material. Por otro lado, un examen de certificación profesional, al que alguien ni siquiera puede presentarse a menos que tenga 3 años de experiencia y un título relevante, ¡puede hacer que todos los ítems parezcan fáciles a pesar de que son temas bastante avanzados! A continuación se ofrecen algunas pautas generales:

    0.95-1.0 = Demasiado fácil (no sirve de mucho para diferenciar a los examinados, que es realmente el propósito de la evaluación)

    0.60-0.95 = Típico

    0.40-0.60 = Duro

    <0.40 = Demasiado difícil (considere que una pregunta de opción múltiple de 4 opciones tiene un 25 % de probabilidad de acertar)

Con Iteman, puede establecer límites para marcar automáticamente los ítems. El límite del valor P mínimo representa lo que considera el punto de corte para que un ítem sea demasiado difícil. Para una prueba relativamente fácil, puede especificar 0,50 como mínimo, lo que significa que el 50 % de los examinados han respondido correctamente al ítem.

Para una prueba en la que esperamos que los examinados tengan un desempeño deficiente, el mínimo puede reducirse a 0,4 o incluso a 0,3. El mínimo debe tener en cuenta la posibilidad de adivinar; si el ítem es de opción múltiple con cuatro opciones, existe una probabilidad del 25 % de adivinar la respuesta al azar, por lo que el mínimo probablemente no debería ser 0,20. El valor P máximo representa el punto de corte para lo que considera un ítem demasiado fácil. La consideración principal aquí es que si un ítem es tan fácil que casi todos lo responden correctamente, no está brindando mucha información sobre los examinados. De hecho, los ítems con un P de 0,95 o más suelen tener correlaciones biseriales puntuales muy deficientes.

Tenga en cuenta que debido a que la escala está invertida (un valor más bajo significa una mayor dificultad), esto a veces se conoce como facilidad del ítem.

La media del ítem (politómica)

Se refiere a un ítem que se califica con 2 o más niveles de puntos, como un ensayo calificado con una rúbrica de 0 a 4 puntos o un ítem tipo Likert que se califica en una escala de 1 a 5.

  • 1 = Totalmente en desacuerdo
  • 2 = En desacuerdo
  • 3 = Neutral
  • 4 = De acuerdo
  • 5 = Totalmente de acuerdo

La media de los ítems es el promedio de las respuestas de los ítems convertidas a valores numéricos de todos los examinados. El rango de la media de los ítems depende de la cantidad de categorías y de si las respuestas de los ítems comienzan en 0. La interpretación de la media de los ítems depende del tipo de ítem (escala de calificación o crédito parcial). Un buen ítem de escala de calificación tendrá una media de ítem cercana a la mitad del máximo, ya que esto significa que, en promedio, los examinados no respaldan categorías cercanas a los extremos del continuo.

Deberá realizar los ajustes necesarios para su propia situación, pero aquí se incluye un ejemplo para el ítem de estilo Likert de 5 puntos.

    1-2 es muy bajo; la gente está bastante en desacuerdo en promedio

    2-3 es bajo a neutral; la gente tiende a estar en desacuerdo en promedio

    3-4 es neutral a alto; la gente tiende a estar de acuerdo en promedio

    4-5 es muy alto; la gente está bastante de acuerdo en promedio

Iteman también proporciona límites de señalización para esta estadística. El límite de la media mínima del ítem representa lo que usted considera el punto de corte para que la media del ítem sea demasiado baja. El límite de la media máxima del ítem representa lo que usted considera el punto de corte para que la media del ítem sea demasiado alta.

Se debe tener en cuenta la cantidad de categorías para los ítems al establecer los límites de los valores mínimos/máximos. Esto es importante ya que todos los ítems de un tipo determinado (por ejemplo, 3 categorías) pueden estar marcados.

Discriminación de ítems: dicotómica

En psicometría, la discriminación es ALGO BUENO, aunque la palabra suele tener una connotación negativa en general. El objetivo de un examen es discriminar entre los examinados; los estudiantes inteligentes deberían obtener una puntuación alta y los no tan inteligentes, una puntuación baja. Si todos obtienen la misma puntuación, no hay discriminación y el examen no tiene sentido. La discriminación de ítems evalúa este concepto.

TCP utiliza la correlación biserial puntual entre ítem y total (Rpbis) como su estadística principal para esto.

La correlación biserial puntual de Pearson (r-pbis) es una medida de la discriminación o fuerza diferenciadora del ítem. Varía de −1,0 a 1,0 y es una correlación de las puntuaciones del ítem y las puntuaciones totales brutas. Si considera una matriz de datos puntuada (ítems de opción múltiple convertidos a datos 0/1), esta sería la correlación entre la columna del ítem y una columna que es la suma de todas las columnas del ítem para cada fila (la puntuación de una persona).

Un buen ítem es capaz de diferenciar entre los examinados de alta y baja capacidad, pero tiene un biserial de puntos más alto, pero rara vez por encima de 0,50. Un biserial de puntos negativo es indicativo de un ítem muy malo porque significa que los examinados de alta capacidad están respondiendo incorrectamente, mientras que los examinados de baja capacidad lo están respondiendo correctamente, lo que por supuesto sería extraño y, por lo tanto, generalmente indica que la respuesta correcta especificada es en realidad incorrecta. Un biserial de puntos de 0,0 no proporciona ninguna diferenciación entre los examinados de baja puntuación y los de alta puntuación, esencialmente “ruido” aleatorio. A continuación se presentan algunas pautas generales sobre la interpretación. Tenga en cuenta que estas suponen un tamaño de muestra decente; si solo tiene una pequeña cantidad de examinados, ¡se marcarán muchas estadísticas de ítems!

    0,20+ = Buen ítem; los examinados más inteligentes tienden a responder el ítem correctamente

    0,10-0,20 = Ítem aceptable; pero probablemente lo revise

    0.0-0.10 = Calidad marginal del ítem; probablemente debería revisarse o reemplazarse

    <0.0 = Ítem terrible; reemplácelo

***Una señal de alerta importante es si la respuesta correcta tiene un Rpbis negativo y un distractor tiene un Rpbis positivo

El límite mínimo de correlación ítem-total representa la discriminación más baja que está dispuesto a aceptar. Este suele ser un número positivo pequeño, como 0,10 o 0,20. Si el tamaño de su muestra es pequeño, es posible que se pueda reducir. El límite máximo de correlación ítem-total es casi siempre 1,0, porque normalmente se desea que el Rpbis sea lo más alto posible.

La correlación biserial también es una medida de la discriminación o fuerza diferenciadora del ítem. Varía de −1,0 a 1,0. La correlación biserial se calcula entre el ítem y la puntuación total como si el ítem fuera una medida continua del rasgo. Dado que la correlación biserial es una estimación de la r de Pearson, será mayor en magnitud absoluta que la correlación biserial puntual correspondiente.

La correlación biserial supone de manera más estricta que la distribución de la puntuación es normal. La correlación biserial no se recomienda para rasgos en los que se sabe que la distribución de puntuaciones no es normal (por ejemplo, patología).

Discriminación de ítems: politómica

La correlación r de Pearson es la correlación producto-momento entre las respuestas de los ítems (como valores numéricos) y la puntuación total. Varía de −1,0 a 1,0. La correlación r indexa la relación lineal entre la puntuación de los ítems y la puntuación total y supone que las respuestas de los ítems forman una variable continua. La correlación r y el Rpbis son equivalentes para un ítem de 2 categorías, por lo que las pautas para la interpretación permanecen inalteradas.

El límite mínimo de correlación ítem-total representa la discriminación más baja que está dispuesto a aceptar. Dado que la correlación r típica (0,5) será mayor que la correlación Rpbis típica (0,3), es posible que desee establecer el límite inferior más alto para una prueba con ítems politómicos (0,2 a 0,3). Si el tamaño de su muestra es pequeño, es posible que se pueda reducir. El límite máximo de correlación ítem-total es casi siempre 1,0, porque normalmente se desea que el Rpbis sea lo más alto posible.

El coeficiente eta es un índice adicional de discriminación calculado mediante un análisis de varianza con la respuesta al ítem como variable independiente y la puntuación total como variable dependiente. El coeficiente eta es la relación entre la suma de cuadrados entre grupos y la suma total de cuadrados y tiene un rango de 0 a 1. El coeficiente eta no supone que las respuestas al ítem sean continuas y tampoco supone una relación lineal entre la respuesta al ítem y la puntuación total.

Como resultado, el coeficiente eta siempre será igual o mayor que la r de Pearson. Tenga en cuenta que se informará la correlación biserial si el ítem tiene solo 2 categorías.

Análisis de claves y distractores

En el caso de muchos tipos de ítems, conviene evaluar las respuestas. Un distractor es una opción incorrecta. Queremos asegurarnos de que no haya más examinados seleccionando un distractor que la clave (valor P) y también de que ningún distractor tenga una mayor discriminación. Esto último significaría que los estudiantes inteligentes están seleccionando la respuesta incorrecta y los no tan inteligentes están seleccionando lo que se supone que es correcto. En algunos casos, el ítem es simplemente malo. En otros, la respuesta simplemente está registrada incorrectamente, tal vez por un error tipográfico. A esto lo llamamos un clave incorrecta del ítem. En ambos casos, queremos marcar el ítem y luego analizar las estadísticas de distractores para averiguar qué está mal.

Iteman Psychometric Item Analysis

Ejemplo

A continuación, se muestra un ejemplo de salida para un elemento de nuestro software  Iteman, que puede descargar de forma gratuita. También puede interesarle este video. Se trata de un elemento con un rendimiento muy bueno. A continuación, se muestran algunas conclusiones clave.

  • Este es un ítem de opción múltiple de 4 opciones
  • Estaba en una subpuntuación llamada “Subpuntuación de ejemplo”
  • Este ítem fue visto por 736 examinados
  • El 70 % de los estudiantes lo respondió correctamente, por lo que fue bastante fácil, pero no demasiado fácil
  • El Rpbis fue de 0,53, que es extremadamente alto; el ítem es de buena calidad
  • La línea para la respuesta correcta en el gráfico de cuantiles tiene una pendiente positiva clara, que refleja la alta calidad de discriminación
  • La proporción de examinados que seleccionaron las respuestas incorrectas estuvo bien distribuida, no fue demasiado alta y tuvo valores Rpbis negativos. Esto significa que los distractores son suficientemente incorrectos y no confunden.

 

Análisis de ítems con teoría de respuesta al ítem

La teoría de respuesta al ítem (TRI) es un paradigma muy sofisticado de análisis de ítems y aborda numerosas tareas psicométricas, desde el análisis de ítems hasta la equiparación y las pruebas adaptativas. Requiere tamaños de muestra mucho más grandes que la TCP (100-1000 respuestas por ítem) y una amplia experiencia (normalmente un psicometría con doctorado). La estimación de máxima verosimilitud (MLE) es un concepto clave en la TRI que se utiliza para estimar los parámetros del modelo para una mayor precisión en las evaluaciones.

La TRI no es adecuada para exámenes a pequeña escala, como los cuestionarios en el aula. Sin embargo, se utiliza prácticamente en todos los exámenes “reales” que realizarás en tu vida, desde los exámenes de referencia de K-12 hasta las admisiones universitarias y las certificaciones profesionales.

Si no has utilizado la TRI, te recomiendo que consultes primero esta publicación del blog.

Dificultad de los ítems

La TRI evalúa la dificultad de los ítems dicotómicos como un parámetro b, que es algo así como una puntuación z para el ítem en la curva de campana: 0,0 es promedio, 2,0 es difícil y -2,0 es fácil. (Esto puede diferir un poco con el enfoque de Rasch, que reescala todo). En el caso de los ítems politómicos, hay un parámetro b para cada umbral o paso entre puntos.

Discriminación de ítems

La TRI evalúa la discriminación de ítems por la pendiente de su función de respuesta al ítem, que se denomina parámetro a. A menudo, los valores superiores a 0,80 son buenos y los inferiores a 0,80 son menos efectivos.

Análisis de claves y distractores

Xcalibre-poly-output

En el caso de preguntas politómicas, los múltiples parámetros b proporcionan una evaluación de las diferentes respuestas. En el caso de preguntas dicotómicas, el modelo TRI no distingue entre las respuestas correctas. Por lo tanto, utilizamos el enfoque TCP para el análisis de distractores. Esto sigue siendo extremadamente importante para diagnosticar problemas en preguntas de opción múltiple.

Ejemplo

A continuación se muestra un ejemplo de cómo se ve el resultado de un programa de análisis TRI (Xcalibre). También te puede interesar este video.

  • Aquí tenemos un ítem politómico, como un ensayo calificado de 0 a 3 puntos
  • Está calibrado con el modelo de crédito parcial generalizado
  • Tiene una fuerte discriminación clásica (0,62)
  • Tiene una mala discriminación TRI (0,466)
  • La puntuación bruta promedio fue 2,314 de 3,0, por lo que es bastante fácil
  • Hubo una distribución suficiente de las respuestas en los cuatro niveles de puntos
  • Los parámetros límite no están en secuencia; este ítem debe revisarse

 

Resumen

Este artículo es una descripción general muy amplia y no hace justicia a la complejidad de la psicometría y el arte de diagnosticar/revisar ítems. Te recomiendo que descargues algún software de análisis de ítems y comiences a explorar tus propios datos.

Para lecturas adicionales, recomiendo algunos de los libros de texto comunes. Para obtener más información sobre cómo escribir/revisar ítems, consulta Haladyna (2004) y trabajos posteriores. Para la teoría de respuesta a los ítems, recomiendo enfáticamente Embretson & Riese (2000).

 

El análisis de tareas laborales (ATL) es un paso esencial en el diseño de una prueba que se utilizará en la fuerza laboral, como la prueba previa al empleo o la certificación/licencia, mediante el análisis de datos sobre lo que realmente se está haciendo en el trabajo. También conocido como análisis del trabajo o delimitación de funciones, el análisis de tareas laborales es importante para diseñar una prueba que sea legalmente defendible y elegible para la acreditación. Por lo general, implica un panel de expertos en la materia para desarrollar una encuesta, que luego se entrega a los profesionales de su campo para obtener datos cuantitativos sobre lo que se hace con más frecuencia en el trabajo y lo que es más crítico/importante. Estos datos luego se pueden utilizar para varios propósitos importantes.

¿Necesita ayuda? Nuestros expertos pueden ayudarlo a producir de manera eficiente un estudio de análisis de tareas laborales para su certificación, guiar el proceso de redacción de ítems y establecimiento de estándares, luego publicar y entregar el examen en nuestra plataforma segura.

 

Razones para realizar un análisis de tareas laborales

El análisis de tareas laborales es extremadamente importante en el campo de la psicología industrial/organizacional, de ahí el meme de @iopsychmemes. No se limita solo a las credenciales.

Job analysis I/O Psychology

Diseño del examen

La razón más común es obtener datos cuantitativos que le ayudarán a diseñar un examen. Al saber qué conocimientos, habilidades o capacidades (CHC) se utilizan con más frecuencia, sabrá cuáles merecen más preguntas en la prueba. También puede ayudarle con aspectos de diseño más complejos, como definir un examen práctico con pacientes en vivo.

Plan de estudios de formación

De la misma manera, esa información cuantitativa puede ayudar a diseñar un plan de estudios y otros materiales de formación. Tendrás datos sobre lo que es más importante o frecuente.

Análisis de compensación

Con la encuesta ATL, tiene una audiencia cautiva. ¡Pregúnteles otras cosas que quiera saber! Este es un momento excelente para recopilar información sobre compensación. Trabajé en una encuesta ATL en el pasado que preguntaba sobre el lugar de trabajo: clínica, hospital, consultorio privado o proveedor/corporación.

Descripciones de puestos

Un buen análisis de puestos te ayudará a redactar una descripción de puestos para las ofertas de empleo. Te indicará las responsabilidades del puesto (tareas comunes), las cualificaciones (habilidades, capacidades y educación requeridas) y otros aspectos importantes. Si recopilas datos de compensación en la encuesta, estos se pueden utilizar para definir el rango salarial del puesto vacante.

Planificación de la fuerza laboral

Al analizar los datos, pueden resultar evidentes tendencias importantes. ¿Hay menos personas que ingresan a su profesión, tal vez en una región o grupo demográfico en particular? ¿Ingresan sin ciertas habilidades? ¿Hay ciertas universidades o programas de capacitación que no están funcionando bien? Un ATL puede ayudarlo a descubrir dichos problemas y luego trabajar con las partes interesadas para abordarlos. Estos son problemas potenciales importantes para la profesión.

ES OBLIGATORIO

Si tiene un examen de certificación profesional y desea que lo acredite una junta como NCCA o ANSI/ANAB/ISO, entonces se le OBLIGA a realizar algún tipo de análisis de tareas laborales.

 

¿Por qué es tan importante un JTA para la certificación y la licencia? Validez.

El objetivo fundamental de la psicometría es la validez, que es la evidencia de que las interpretaciones que hacemos de las puntuaciones son realmente verdaderas. En el caso de los exámenes de certificación y licencia, estamos interpretando que alguien que pasa la prueba está calificado para trabajar en ese puesto de trabajo. Por lo tanto, lo primero que debemos hacer es definir exactamente cuál es el puesto de trabajo y hacerlo de una manera cuantitativa y científica. No se puede simplemente hacer que alguien se siente en su sótano y escriba 17 puntos como plan de examen. Eso es una demanda a punto de suceder.

Hay otros aspectos que también son esenciales, como la capacitación de los redactores de ítems y los estudios de establecimiento de estándares.

 

La metodología: inventario de tareas laborales

No es fácil desarrollar un examen de certificación defendible, pero el proceso de ATL no requiere un doctorado en psicometría para comprenderlo. A continuación, se ofrece una descripción general de lo que se puede esperar.

  1. Convoque a un panel de expertos en la materia (EM) y proporcione una capacitación sobre el proceso de ATL.
  2. Luego, los EM analizan el papel de la certificación en la profesión y establecen temas de alto nivel (dominios) que debe cubrir la prueba de certificación. Por lo general, hay entre 5 y 20. A veces, hay subdominios y, ocasionalmente, subsubdominios.
  3. El panel de EM genera una lista de tareas laborales que se asignan a los dominios; la lista se revisa para detectar duplicados y otros problemas potenciales. Estas tareas tienen un verbo de acción, un sujeto y, a veces, un calificador. Ejemplos: “Calibrar el lensómetro”, “Sacar la basura”, “Realizar un estudio de equivalencia”. Hay un enfoque específico para ayudar con la generación, llamado la técnica del incidente crítico. Con esto, se les pide a los expertos en la materia que describan un incidente crítico que sucedió en el trabajo y qué habilidades o conocimientos llevaron al éxito del profesional. Si bien esto puede no generar ideas para tareas frecuentes pero simples, puede ayudar a generar ideas para tareas que son más raras pero muy importantes.
  4. La lista final se utiliza para generar una encuesta, que se envía a una muestra representativa de profesionales que realmente trabajan en el puesto. Los encuestados realizan la encuesta, mediante la cual califican cada tarea, generalmente en su importancia y tiempo empleado (a veces llamado criticidad y frecuencia). También se recopilan datos demográficos, que incluyen rango de edad, región geográfica, lugar de trabajo (por ejemplo, clínica vs hospital si es médico), años de experiencia, nivel educativo y certificaciones adicionales.
  5. Un psicometrista analiza los resultados y crea un informe formal, que es esencial para la documentación de validez. Este informe a veces se considera confidencial, a veces se publica en el sitio web de la organización para el beneficio de la profesión y, a veces, se publica en forma abreviada. Depende de usted. Por ejemplo, este sitio presenta los resultados finales, pero luego le pide que envíe su dirección de correo electrónico para recibir el informe completo.

 

Usar los resultados de ATL para crear planos de prueba

Muchas corporaciones realizan un análisis de trabajo únicamente para fines internos, como descripciones de trabajo y compensación. Esto se vuelve importante para las grandes corporaciones donde puede haber miles de personas en el mismo trabajo; debe estar bien definido, con buena capacitación y compensación adecuada.

Si trabaja para una organización de acreditación (normalmente una organización sin fines de lucro, pero a veces la división de capacitación de una corporación… por ejemplo, Amazon Web Services tiene una división dedicada a los exámenes de certificación, deberá analizar los resultados del ATL para desarrollar planos de examen. Analizaremos este proceso con más detalle en otra publicación del blog. Pero a continuación se muestra un ejemplo de cómo se verá esto, y aquí hay una hoja de cálculo gratuita para realizar los cálculos: Análisis de tareas laborales para planos de prueba.

 

Ejemplo de análisis de tareas laborales

Supongamos que usted es un experto en la fabricación de widgets a cargo del examen de certificación de fabricante de widgets. Contrata a un psicometrista para que guíe a la organización a través del proceso de desarrollo de pruebas. El psicometrista comenzaría por realizar un seminario web o una reunión en persona para un panel de expertos en la materia para definir el rol y generar una lista de tareas. El grupo elabora una lista de 20 tareas, ordenadas en 4 dominios de contenido. Estas se enumeran en una encuesta a los fabricantes de widgets actuales, quienes las califican según su importancia y frecuencia. El psicometrista analiza los datos y presenta una tabla como la que se ve a continuación.

Podemos ver aquí que la Tarea 14 es la más frecuente, mientras que la Tarea 2 es la menos frecuente. La Tarea 7 es la más importante, mientras que la Tarea 17 es la menos frecuente. Cuando combina Importancia y Frecuencia, ya sea sumando o multiplicando, obtiene los pesos en las columnas de la derecha. Si sumamos estos y dividimos por el total, obtenemos los planos sugeridos en las celdas verdes.

Job task analysis to test blueprints

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ANSI ISO 17024 Accreditation

La acreditación ANSI ISO/IEC 17024 es una norma reconocida internacionalmente para la acreditación de organismos de certificación de personal. Es decir, es un sello de aprobación de una auditoría independiente que dice que su certificación es de buena calidad. ANSI significa Instituto Nacional Estadounidense de Estándares, mientras que ISO se refiere a la Organización Internacional de Normalización. La parte de ANSI que lleva a cabo el proceso de acreditación es la Junta Nacional de Acreditación ANSI (ANAB).

¿Qué cubre la norma ANSI ISO/IEC 17024?

ANSI ISO/IEC 17024 especifica los requisitos para los organismos que operan programas de certificación para personas, garantizando que los procesos de certificación sean justos, válidos y confiables. La norma describe los principios y requisitos generales para la certificación de personal en diversos campos, incluidos, entre otros, la atención médica, la tecnología de la información, la ingeniería y la seguridad.

La norma cubre una amplia gama de aspectos relacionados con los organismos de certificación, incluidos:

certification accreditation

  1. Imparcialidad e independencia: Los organismos de certificación deben demostrar imparcialidad y evitar cualquier conflicto de intereses.
  2. Desarrollo de programas de certificación: La norma establece criterios para desarrollar programas de certificación, incluida la definición de competencias, el establecimiento de requisitos de elegibilidad y el desarrollo de procesos de examen.
  3. Procesos de examen: describe pautas para el diseño, desarrollo y administración de exámenes para evaluar los conocimientos, habilidades y competencias de los individuos.
  4. Proceso de certificación: La norma aborda el proceso de solicitud, la evaluación de candidatos, la toma de decisiones sobre la certificación y el mantenimiento continuo de la certificación.
  5. Requisitos del sistema de gestión: ANSI ISO/IEC 17024 incluye requisitos para el sistema de gestión del organismo de certificación, incluidos el control de documentos, el mantenimiento de registros y los procesos de mejora continua.

 

¿Qué significa la norma ANSI ISO/IEC 17024?

La acreditación según la ANSI ISO/IEC 17024 ofrece a las partes interesadas la garantía de que los programas y procesos de certificación se llevan a cabo de manera coherente, competente y confiable. Mejora la credibilidad y la aceptación de las certificaciones emitidas por organismos de certificación acreditados, lo que ayuda a las personas a demostrar su competencia y experiencia profesional en sus respectivos campos.

 

Beneficios de estar acreditado bajo la ANSI ISO/IEC 17024

Esa es una pregunta de negocios para usted. En algunos casos, es obligatorio; en algunas profesiones, puede haber una ley que establezca que los candidatos no reciben fondos federales o no tienen certificaciones reconocidas si su certificación no está acreditada. Sin embargo, para muchas profesiones, la acreditación es opcional. En esos casos, si hay dos organismos de certificación, es una ventaja competitiva que uno de ellos se acredite. Pero para los organismos de certificación pequeños sin competidores, la acreditación a menudo no vale la pena el gran gasto.

A continuación, se presentan algunas razones para considerar la posibilidad de obtener la acreditación.

  1. Reconocimiento global: La acreditación ISO 17024 otorga reconocimiento y credibilidad global a un programa de certificación. Demuestra el cumplimiento de estándares reconocidos internacionalmente, lo que puede mejorar la reputación de la certificación y aumentar su aceptación en todo el mundo.
  2. Garantía de calidad: la acreditación ISO 17024 garantiza que el programa de certificación sigue procesos y estándares rigurosos para el desarrollo, la administración y la evaluación de las evaluaciones. Esto ayuda a mantener la calidad y la confiabilidad de la certificación, lo que brinda a las partes interesadas confianza en su validez y equidad.
  3. Ventaja competitiva: La acreditación según la norma ISO 17024 puede servir como un diferenciador competitivo para el programa de certificación. Distingue la certificación de otras en el mercado al indicar un compromiso con altos estándares de profesionalismo, competencia e integridad.
  4. Confianza de las partes interesadas: la acreditación ofrece garantías a las partes interesadas, incluidos empleadores, profesionales y organismos reguladores, de que la certificación cumple con los criterios reconocidos para la evaluación de competencias. Esto genera confianza en la certificación, lo que conduce a una mayor participación y reconocimiento dentro de la industria.
  5. Mejora continua: la acreditación ISO 17024 fomenta una cultura de mejora continua dentro del programa de certificación. Mediante evaluaciones y auditorías periódicas, las organizaciones pueden identificar áreas de mejora e implementar las mejores prácticas para mejorar la eficacia y la relevancia de la certificación a lo largo del tiempo.

Tenga en cuenta que la ANSI ISO/IEC 17024 no es la única. La Comisión Nacional de Agencias de Certificación también acredita certificaciones, aunque las define por programa de certificación, no por organismo de certificación.

 

¿Tengo que hacer todo este trabajo yo mismo?

¡No! Gran parte del trabajo sí lo tienes que hacer tú, porque nadie más tiene el conocimiento específico de tu profesión y área de contenido. Pero sin duda podemos ayudarte con algunas partes, especialmente el desarrollo del examen y la psicometría. También podemos proporcionar la plataforma de entrega de exámenes y banco de ítems para administrar de forma segura tus exámenes e informar los resultados.

math educational assessment

Uno de los conceptos centrales en psicometría es la dificultad del ítem. Esto se refiere a la probabilidad de que los examinados respondan correctamente el ítem en evaluaciones educativas/cognitivas o respondan en la dirección indicada en evaluaciones psicológicas/de encuesta (más sobre esto más adelante). La dificultad es importante para evaluar las características de un ítem y si debe seguir siendo parte de la evaluación; en muchos casos, los ítems se eliminan si son demasiado fáciles o demasiado difíciles. También nos permite comprender mejor cómo los ítems y la prueba en su conjunto funcionan como un instrumento de medición y qué pueden decirnos sobre los examinados.

He oído hablar de la “facilidad del objeto”. ¿Es algo similar?

La dificultad del objeto también se denomina facilidad del objeto, que en realidad es un nombre más apropiado. ¿Por qué? El valor P es un concepto inverso: un valor bajo indica una dificultad alta y viceversa. Si pensamos en el concepto como facilidad o facilidad, entonces el valor P se alinea con el concepto; un valor alto significa una facilidad alta. Por supuesto, es difícil romper con la tradición, y casi todo el mundo todavía lo llama dificultad. Pero podría ayudarte pensar en ello como “facilidad”.

¿Cómo calculamos la dificultad clásica de los ítems?

Hay dos paradigmas predominantes en psicometría: la teoría clásica de los pruebas (TCP) y la teoría de respuesta al ítem (TRÍ). Aquí, me centraré en el enfoque más simple, la TCP.

Para calcular la dificultad clásica de los ítems con ítems dicotómicos, simplemente cuente el número de examinados que respondieron correctamente (o en la dirección clave) y divídalo por el número de encuestados. Esto le da una proporción, que es como un porcentaje pero está en la escala de 0 a 1 en lugar de 0 a 100. Por lo tanto, el rango posible que verá informado es de 0 a 1. Considere este conjunto de datos.

Persona Ítem1 Ítem2 Ítem3 Ítem4 Ítem5 Ítem6 Puntaje
1 0 0 0 0 0 1 1
2 0 0 0 0 1 1 2
3 0 0 0 1 1 1 3
4 0 0 1 1 1 1 4
5 0 1 1 1 1 1 5
Dificultad: 0.00 0.20 0.40 0.60 0.80 1.00

El ítem 6 tiene un alto índice de dificultad, lo que significa que es muy fácil. El ítem 4 y el ítem 5 son ítems típicos, donde la mayoría de los ítems responden correctamente. El ítem 1 es extremadamente difícil; ¡nadie lo respondió correctamente!

Para ítems politómicos (ítems con más de un punto), la dificultad clásica del ítem es el valor de respuesta promedio. Es decir, si tenemos un ítem Likert de 5 puntos, y dos personas responden 4 y dos responden 5, entonces el promedio es 4.5. Esto, por supuesto, es matemáticamente equivalente al valor P si los puntos son 0 y 1 para un ítem no/sí. Un ejemplo de esta situación es este conjunto de datos:

Persona Ítem1 Ítem2 Ítem3 Ítem4 Ítem5 Ítem6 Puntaje
1 1 1 2 3 4 5 1
2 1 2 2 4 4 5 2
3 1 2 3 4 4 5 3
4 1 2 3 4 4 5 4
5 1 2 3 5 4 5 5
Dificultad: 1.00 1.80 2.60 4.00 4.00 5.00

Tenga en cuenta que este enfoque para calcular la dificultad depende de la muestra. Si tuviéramos una muestra diferente de personas, las estadísticas podrían ser bastante diferentes. Este es uno de los principales inconvenientes de la teoría clásica de los pruebas. La TRÍ aborda ese problema con un paradigma diferente. También tiene un índice con la “dirección” correcta: los valores altos significan una gran dificultad con la TRÍ.

Si está trabajando con ítems de opción múltiple, recuerde que, si bien puede tener 4 o 5 respuestas, aún está calificando los ítems como correctos/incorrectos. Por lo tanto, los datos terminan siendo dicotómicos 0/1.

Nota final muy importante: este valor P NO debe confundirse con el valor p del mundo de las pruebas de hipótesis. Tienen el mismo nombre, pero por lo demás no están relacionados en absoluto. Por esta razón, algunos psicometristas lo llaman P+ (se pronuncia “P-plus”), pero eso no se ha popularizado.

¿Cómo interpreto la dificultad clásica de los ítems?

Para las evaluaciones educativas/cognitivas, la dificultad se refiere a la probabilidad de que los examinados respondan correctamente el ítem. Si más examinados responden correctamente el ítem, tiene baja dificultad. Para los datos de tipo psicológico/encuesta, la dificultad se refiere a la probabilidad de responder en la dirección clave. Es decir, si está evaluando la extraversión y el ítem es “Me gusta ir a fiestas”, entonces está evaluando cuántos examinados estuvieron de acuerdo con la afirmación.

Lo que es único con los datos de tipo encuesta es que a menudo incluyen una clave inversa; la misma evaluación también puede tener un ítem que sea “Prefiero pasar tiempo con libros en lugar de personas” y un examinado que no esté de acuerdo con esa afirmación cuenta como un punto para la puntuación total.

Para la evaluación educativa/de conocimiento estereotipada, con ítems de opción múltiple de 4 o 5 opciones, utilizamos pautas generales como esta para la interpretación.

Rango Interpretación Notas
0.0-0.3 Extremadamente difícil Los examinados están en el nivel de probabilidad o incluso por debajo, por lo que su artículo podría estar mal escrito o tener otros problemas.
0.3-0.5 Muy difícil Los elementos de este rango desafiarán incluso a los mejores examinados y, por lo tanto, podrían generar quejas, pero por lo general son muy fuertes.
0.5-0.7 Moderadamente difícil Estos elementos son bastante comunes y un poco más resistentes.
0.7-0.90 Moderadamente fácil Estos son los rangos de elementos más comunes en la mayoría de las pruebas construidas de manera clásica; lo suficientemente fáciles como para que los examinados rara vez se quejen.
0.90-1.0 Muy fácil La mayoría de los examinados dominan estos ítems, pero en realidad son demasiado fáciles de proporcionar para los examinados y pueden ser perjudiciales para la confiabilidad.

No. Hay mucho software que puede hacerlo por ti. Si eres nuevo en psicometría, te recomiendo CITAS, que está diseñado para que puedas empezar a trabajar rápidamente, pero es demasiado simple para situaciones avanzadas. Si tienes muestras grandes o estás involucrado en trabajo a nivel de producción, necesitas Iteman. Regístrate para obtener una cuenta gratuita con el botón de abajo. Si ese es tu caso, también te recomiendo que consideres aprender TRÍ si aún no lo has hecho.

Dogleg example

La puntuación escalada es un proceso utilizado en evaluación y psicometría para transformar las puntuaciones de los exámenes a otra escala (conjunto de números), normalmente para hacer que las puntuaciones sean más fáciles de interpretar pero también para ocultar información sensible como las puntuaciones brutas y las diferencias en la dificultad de la forma (equiparación). Por ejemplo, la prueba ACT produce puntuaciones en una escala de 0 a 36; obviamente, hay más de 36 preguntas en la prueba, por lo que esta no es su puntuación numérica correcta, sino más bien un reempaquetado. Entonces, ¿cómo ocurre este reempaquetado y por qué lo estamos haciendo en primer lugar?

Un ejemplo de escalas: temperatura

Primero, hablemos de la definición de una escala. Una escala es un rango de números a los que se les pueden asignar valores e interpretaciones. Las puntuaciones en un ensayo de un estudiante pueden ser de 0 a 5 puntos, por ejemplo, donde 0 es horrible y 5 es maravilloso. Las puntuaciones brutas en un examen, como la puntuación de los números correctos, también son una escala, pero hay razones para ocultar esto, que analizaremos a continuación.

Un ejemplo de escala con el que todos estamos familiarizados es la temperatura. Hay tres escalas de las que probablemente hayas oído hablar: Fahrenheit, Celsius y Kelvin. Por supuesto, el concepto de temperatura no cambia, solo cambiamos el conjunto de números que se utilizan para informarlo. El agua se congela a 32 grados Fahrenheit y hierve a 212, mientras que estos números son 0 y 100 con Celsius. Lo mismo ocurre con la evaluación: el concepto de lo que estamos midiendo no cambia en un examen determinado (por ejemplo, el conocimiento del currículo de matemáticas de quinto grado en los EE. UU., el dominio de Microsoft Excel, las habilidades clínicas como neurólogo), pero podemos cambiar los números.

¿Qué es la puntuación escalada?

En evaluación y psicometría, podemos cambiar el rango de números (escala) que se utiliza para informar las puntuaciones, al igual que podemos cambiar el rango de números para la temperatura. Si una prueba tiene 100 ítems pero no queremos informar la puntuación real a los estudiantes, podemos cambiar la escala a algo como 40 a 90. O 0 a 5. O 824.524 a 965.844. No importa desde una perspectiva matemática. Pero como uno de los objetivos es hacer que sea más fácil de interpretar para los estudiantes, los dos primeros son mucho mejores que el tercero.

Por lo tanto, si una organización informa puntuaciones escaladas, significa que ha elegido una nueva escala arbitraria y está convirtiendo todas las puntuaciones a esa escala. A continuación, se muestran algunos ejemplos…

Ejemplos reales

Muchas evaluaciones se normalizan en una curva de campana normal estándar. Aquellas que utilizan la teoría de respuesta a los ítems lo hacen de manera implícita, porque las puntuaciones se calculan directamente en la escala de puntuación z (hay algunas diferencias semánticas, pero es la idea básica). Bueno, cualquier puntuación en la curva de campana de puntuación z se puede convertir a otras escalas con bastante facilidad, y viceversa. A continuación, se muestran algunas de las escalas comunes utilizadas en el mundo de la evaluación.

puntuación z puntuación T CI (IQ) Percentil ACT SAT
-3 20 55 0.02 0 200
-2 30 70 2.3 6 300
-1 40 85 15.9 12 400
0 50 100 50 18 500
1 60 115 84.1 24 600
2 70 130 97.7 30 700
3 80 145 99.8 36 800

¡Observe cómo la traducción de los enfoques basados ​​en curvas normales al percentil es muy no lineal! Los enfoques basados ​​en curvas estiran los extremos. Así es como se ven estos números gráficamente.

T scores

¿Por qué utilizar la puntuación escalada?

Hay algunas buenas razones:

  1. Diferencias en la dificultad de los formularios (equiparación): muchos exámenes utilizan varios formularios, especialmente entre años. ¿Qué sucede si el formulario de este año tiene algunas preguntas más fáciles y necesitamos reducir la puntuación de aprobación en 1 punto en la métrica de puntuación bruta? Bueno, si está utilizando puntuaciones escaladas como 200 a 400 con una puntuación de corte de 350, entonces simplemente ajuste la escala cada año para que la puntuación de corte informada sea siempre 350.
  2. Ocultar la puntuación bruta: en muchos casos, incluso si solo hay un formulario de 100 elementos, no desea que los estudiantes sepan su puntuación real.
  3. Ocultar la escala z (TRI): la TRI califica a las personas en la escala de puntuación z. Nadie quiere que le digan que tiene una puntuación de -2. Eso hace que parezca que tiene una inteligencia negativa o algo así. Pero si lo conviertes a una escala grande como el SAT mencionado anteriormente, esa persona obtiene una puntuación de 300, que es un número grande, por lo que no se siente tan mal. Sin embargo, esto no cambia el hecho de que solo están en el segundo percentil. En realidad, son solo relaciones públicas y marketing.

 

¿Quién utiliza la puntuación escalada?

Casi todos los exámenes “reales” del mundo la utilizan. Por supuesto, la mayoría utiliza la TRI, lo que hace que sea aún más importante utilizar la puntuación escalada.

Métodos de puntuación escalada

Existen 4 tipos de puntuación escalada. En el resto de esta publicación se abordarán algunos detalles psicométricos sobre ellos, para lectores avanzados.

  1. Normal/estandarizado
  2. Lineal
  3. Lineal dogleg
  4. Equipercentil

1. Normal/estandarizado

Este es un método de puntuación escalada con el que muchos de nosotros estamos familiarizados debido a algunas aplicaciones famosas, como la puntuación T, el coeficiente intelectual y las evaluaciones a gran escala como el SAT. Comienza encontrando la media y la desviación estándar de las puntuaciones brutas de una prueba, y luego convierte lo que sea que sea en otra media y desviación estándar. Si esto parece bastante arbitrario y no cambia el significado… ¡tienes toda la razón!

Empecemos por suponer que tenemos una prueba de 50 ítems y que nuestros datos tienen una media de puntuación bruta de 35 puntos con una desviación estándar de 5. La transformación de la puntuación T (que existe desde hace tanto tiempo que una búsqueda rápida en Google no me permite encontrar la cita real) dice que hay que convertir esto en una media de 50 con una desviación estándar de 10. Por lo tanto, 35 puntos brutos se convierten en una puntuación escalada de 50. Una puntuación bruta de 45 (2 desviaciones estándar por encima de la media) se convierte en una T de 70. También podríamos colocar esto en la escala de CI (media = 100, desviación estándar = 15) o en la escala SAT clásica (media = 500, desviación estándar = 100).

Un comentario aparte sobre los límites de estas escalas: una de las primeras cosas que se aprende en cualquier clase de estadística es que más/menos 3 desviaciones estándar contiene el 99 % de la población, por lo que muchas puntuaciones escaladas adoptan estos y otros límites convenientes. Por eso la escala clásica del SAT pasó de 200 a 800, con la leyenda urbana de que “obtienes 200 puntos por poner tu nombre en el papel”. De manera similar, el ACT va de 0 a 36 porque nominalmente tenía una media de 18 y una desviación estándar de 6.

El enfoque normal/estandarizado se puede utilizar con la puntuación clásica de números correctos, pero tiene más sentido si se utiliza la teoría de respuesta a los ítems, porque todas las puntuaciones se basan por defecto en una métrica estandarizada.

2. Lineal

El enfoque lineal es bastante simple. Emplea la ecuación y=mx+b que todos aprendimos en la escuela. Con el ejemplo anterior de una prueba de 50 ítems, podríamos decir que la intersección=200 y la pendiente=4. Esto significa que los puntajes varían de 200 a 400 en la prueba.

Sí, lo sé… la conversión normal anterior también es técnicamente lineal, pero merece su propia definición.

3. Lineal dogleg

El método Dogleg lineal es un caso especial del anterior, en el que es necesario estirar la escala para alcanzar dos puntos finales. Supongamos que publicamos una nueva forma de la prueba y un método de igualación clásico como el de Tucker o Levine dice que es 2 puntos más fácil y que la pendiente de la Forma A a la Forma B es 3,8 en lugar de 4. Esto altera nuestra conversión limpia de la escala de 200 a 400. Por lo tanto, supongamos que utilizamos la ecuación SCALED = 200 + 3,8*RAW pero solo hasta la puntuación de 30. A partir de 31, utilizamos SCALED = 185 + 4,3*RAW. Observe que la puntuación bruta de 50 sigue siendo escalada a 400, por lo que todavía pasamos de 200 a 800, pero ahora hay una ligera curva en la línea. Esto se llama “dogleg”, similar al hoyo de golf del mismo nombre.

 

Dogleg example

4. Equipercentil

Por último, está el Equipercentil, que se utiliza principalmente para igualar formas, pero que también se puede utilizar para escalar. En esta conversión, igualamos el percentil de cada una, incluso si se trata de una transformación muy no lineal. Por ejemplo, supongamos que nuestra Forma A tenía un percentil 90 de 46, que se convirtió en una escala de 384. Descubrimos que la Forma B tiene un percentil 90 de 44 puntos, por lo que lo llamamos una puntuación escalada de 384 y calculamos una conversión similar para todos los demás puntos.

¿Por qué estamos haciendo esto de nuevo?

Bueno, se puede ver en el ejemplo de tener dos formularios con una diferencia de dificultad. En el ejemplo del percentil equiparable, supongamos que hay un puntaje de corte para estar en el 10% superior para ganar una beca. Si obtiene 45 en el Formulario A, perderá, pero si obtiene 45 en el Formulario B, ganará. Los patrocinadores de la prueba no quieren tener esta conversación con los examinados enojados, por lo que convierten todas las puntuaciones a una escala arbitraria. El percentil 90 siempre es 384, sin importar cuán difícil sea la prueba. (Sí, ese ejemplo simple supone que las poblaciones son las mismas… hay una parte completa de la investigación psicométrica dedicada a realizar equiparaciones más fuertes).

¿Cómo implementamos la puntuación escalada?

Algunas transformaciones se pueden realizar fácilmente en una hoja de cálculo, pero cualquier buena plataforma de evaluación en línea debería encargarse de este tema por usted. Aquí hay una captura de pantalla de ejemplo de nuestro software.

Scaled scores in FastTest

linear-on-the-fly-test

La Prueba Lineal Sobre la Marcha (PLSM) es un método de evaluación que aumenta la seguridad de la prueba al limitar la exposición de los ítems. Intenta equilibrar las ventajas de las pruebas lineales (por ejemplo, todos ven la misma cantidad de ítems, lo que resulta más justo) con las ventajas de los exámenes algorítmicos (por ejemplo, crear una prueba única para todos).

En general, hay dos familias de entrega de pruebas. Los enfoques estáticos entregan el mismo formulario o formularios de prueba a todos; este es el método de prueba “lineal” tradicional y omnipresente. Los enfoques algorítmicos entregan la prueba a cada examinado basándose en un algoritmo informático; esto incluye PLSM, pruebas adaptativas computarizadas (PAC) y pruebas multietapa (PME).

¿Qué es la prueba lineal sobre la marcha?

El objetivo de la prueba lineal sobre la marcha es proporcionar a cada examinado una prueba lineal creada exclusivamente para él, pero cada una de ellas se crea para que sea psicométricamente equivalente a todas las demás para garantizar la imparcialidad. Por ejemplo, podríamos tener un grupo de 200 ítems y cada persona solo recibe 100, pero esos 100 están equilibrados para cada persona. Esto se puede hacer asegurando la equivalencia de contenido y/o estadística, así como metadatos auxiliares como los tipos de ítems o el nivel cognitivo.

Equivalencia de contenido

Esta parte es relativamente sencilla. Si el plan de prueba requiere 20 ítems en cada uno de los 5 dominios, para un total de 100 ítems, entonces cada formulario administrado a los examinados debe seguir este plan. A veces, el plan de contenido puede tener 2 o incluso 3 niveles de profundidad.

Equivalencia estadística

Por supuesto, existen dos paradigmas psicométricos predominantes: la teoría clásica de las pruebas (TCP) y la teoría de respuesta al ítem (TRI). Con la TCP, es fácil crear formularios que tengan un valor P equivalente y, por lo tanto, una puntuación media esperada. Si se dispone de estadísticas biseriales puntuales para cada ítem, también se puede diseñar el algoritmo para diseñar formularios que tengan la misma desviación estándar y confiabilidad.

Con la teoría de respuesta al ítem, el enfoque típico es diseñar formularios que tengan la misma función de información de la prueba o, a la inversa, la función de error estándar condicional de la medición. Para obtener más información sobre cómo se implementan, lea esta publicación del blog sobre la TRI o descargue nuestra herramienta de ensamblaje de formularios clásicos.

Implementación de la prueba lineal sobre la marcha

PLSM se implementa generalmente mediante la publicación de un conjunto de elementos con un algoritmo para seleccionar subconjuntos que cumplan con los requisitos. Por lo tanto, necesita un motor de pruebas psicométricamente sofisticado que almacene las estadísticas y los metadatos de los elementos necesarios, le permita definir un conjunto de elementos, especificar las opciones relevantes, como las estadísticas de destino y los planos, y entregar la prueba de manera segura. Muy pocas plataformas de prueba pueden implementar una evaluación PLSM de calidad. La plataforma de ASC lo hace; haga clic aquí para solicitar una demostración.

Beneficios de usar PLSM en las pruebas

Sin duda, no es fácil crear un banco de elementos sólido, diseñar grupos de PLSM y desarrollar un algoritmo complejo que satisfaga las necesidades de equilibrio estadístico y de contenido. Entonces, ¿por qué una organización utilizaría pruebas lineales sobre la marcha?

Bueno, es mucho más seguro que tener unos pocos formularios lineales. Dado que cada persona recibe un formulario único, es imposible que se diga cuáles son las primeras preguntas de la prueba. Y, por supuesto, simplemente podríamos realizar una selección aleatoria de 100 elementos de un grupo de 200, pero eso sería potencialmente injusto. El uso de PLSM garantizará que la prueba siga siendo justa y defendible.

 

Multistage testing algorithm

Las pruebas multietapa (PME) son un tipo las pruebas adaptativas computarizadas (PAC). Esto significa que es un examen que se realiza en computadoras que lo personalizan dinámicamente para cada examinado o estudiante. Por lo general, esto se hace con respecto a la dificultad de las preguntas, al hacer que el examen sea más fácil para los estudiantes de menor capacidad y más difícil para los estudiantes de mayor capacidad. Hacer esto hace que la prueba sea más corta y más precisa, al mismo tiempo que brinda beneficios adicionales. Esta publicación brindará más información sobre las pruebas multietapa para que pueda evaluar si son una buena opción para su organización.

¿Ya está interesado en PME y desea implementarlo? Contáctenos para hablar con uno de nuestros expertos y obtener acceso a nuestra poderosa plataforma de evaluación en línea, donde puede crear sus propios exámenes PME y PAC en cuestión de horas.

 

¿Qué son las pruebas multietapa?Multistage testing algorithm

Al igual que la PAC, la prueba multietapa adapta la dificultad de los ítems presentados al estudiante. Pero mientras que la prueba adaptativa funciona adaptando cada ítem uno por uno usando la teoría de respuesta al ítem (TRI), la multietapa funciona en bloques de ítems. Es decir, la PAC entregará un ítem, lo calificará, elegirá un nuevo ítem, lo calificará, elegirá un nuevo ítem, etc. La prueba multietapa entregará un bloque de ítems, como 10, los calificará y luego entregará otro bloque de 10.

El diseño de una prueba de varias etapas a menudo se denomina paneles. Por lo general, hay una sola prueba de enrutamiento o etapa de enrutamiento que inicia el examen y luego los estudiantes son dirigidos a diferentes niveles de paneles para las etapas posteriores. A veces se utiliza el número de niveles para describir el diseño; el ejemplo de la derecha es un diseño 1-3-3. A diferencia de PAC, solo hay unos pocos caminos potenciales, a menos que cada etapa tenga un grupo de testlets disponibles.

Al igual que con la prueba PAC ítem por ítem, las pruebas multietapa casi siempre se realizan utilizando la TRI como paradigma psicométrico, algoritmo de selección y método de puntuación. Esto se debe a que la TRI puede calificar a los examinados en una escala común independientemente de los ítems que vean, lo que no es posible utilizando la teoría clásica de pruebas.

Para aprender más sobre las PME, recomiendo este libro.

 

¿Por qué las pruebas multietapa?

La PAC ítem por ítem no es la mejor opción para todas las evaluaciones, especialmente aquellas que naturalmente tienden a utilizar pequeños cuestionarios, como las evaluaciones de idioma donde hay un pasaje de lectura con 3 a 5 preguntas asociadas.

Las pruebas multietapa le permiten obtener algunos de los beneficios conocidos de las pruebas adaptativas (ver a continuación), con un mayor control sobre el contenido y la exposición. Además de controlar el contenido a nivel de examinado, también puede facilitar la gestión del uso del banco de ítems para la organización.

 

¿Cómo implemento pruebas multietapa?

1. Desarrolle sus bancos de ítems utilizando ítems calibrados con la teoría de respuesta a ítems

2. Ensamble una prueba con múltiples etapas, definiendo grupos de ítems en cada etapa como testlets

3. Evalúe las funciones de información de la prueba para cada testlet

4. Ejecute estudios de simulación para validar el algoritmo de entrega con sus testlets predefinidos

5. Publique para entrega en línea

Nuestra plataforma de evaluación líder en la industria administra gran parte de este proceso por usted. La imagen a la derecha muestra nuestra pantalla de ensamblaje de pruebas donde puede evaluar las funciones de información de la prueba para cada testlet.

Multistage testing

 

Beneficios de las pruebas en varias etapas

Este enfoque tiene una serie de beneficios, que en su mayoría son compartidos con CAT.

  • Exámenes más cortos: debido a que la dificultad está dirigida, se pierde menos tiempo
  • Mayor seguridad: hay muchas configuraciones posibles, a diferencia de un examen lineal donde todos ven el mismo conjunto de elementos
  • Mayor participación: los estudiantes con menor capacidad no se desaniman y los estudiantes con mayor capacidad no se aburren
  • Control de contenido: PAC tiene algunos algoritmos de control de contenido, pero a veces no son suficientes
  • Admite testlets: PAC no admite pruebas que tengan testlets, como un pasaje de lectura con 5 preguntas
  • Permite la revisión: PAC no suele permitir la revisión (los estudiantes pueden volver atrás en una pregunta para cambiar una respuesta), mientras que PME sí lo permite

 

Ejemplos de pruebas multietapa

La PME se utiliza a menudo en la evaluación de idiomas, lo que significa que se utiliza a menudo en la evaluación educativa, como los exámenes de referencia K-12, las admisiones universitarias o la colocación/certificación de idiomas. Uno de los ejemplos más famosos es la Prueba de Aptitud Académica de The College Board; se está moviendo hacia un enfoque PME en 2023.

Debido a la complejidad de la teoría de respuesta a los ítems, la mayoría de las organizaciones que implementan la PME tienen un psicometrista a tiempo completo en el personal. Si su organización no lo tiene, nos encantaría discutir cómo podemos trabajar juntos.