El análisis de tareas laborales (ATL) es un paso esencial en el diseño de una prueba que se utilizará en la fuerza laboral, como la prueba previa al empleo o la certificación/licencia, mediante el análisis de datos sobre lo que realmente se está haciendo en el trabajo. También conocido como análisis del trabajo o delimitación de funciones, el análisis de tareas laborales es importante para diseñar una prueba que sea legalmente defendible y elegible para la acreditación. Por lo general, implica un panel de expertos en la materia para desarrollar una encuesta, que luego se entrega a los profesionales de su campo para obtener datos cuantitativos sobre lo que se hace con más frecuencia en el trabajo y lo que es más crítico/importante. Estos datos luego se pueden utilizar para varios propósitos importantes.

¿Necesita ayuda? Nuestros expertos pueden ayudarlo a producir de manera eficiente un estudio de análisis de tareas laborales para su certificación, guiar el proceso de redacción de ítems y establecimiento de estándares, luego publicar y entregar el examen en nuestra plataforma segura.

 

Razones para realizar un análisis de tareas laborales

El análisis de tareas laborales es extremadamente importante en el campo de la psicología industrial/organizacional, de ahí el meme de @iopsychmemes. No se limita solo a las credenciales.

Job analysis I/O Psychology

Diseño del examen

La razón más común es obtener datos cuantitativos que le ayudarán a diseñar un examen. Al saber qué conocimientos, habilidades o capacidades (CHC) se utilizan con más frecuencia, sabrá cuáles merecen más preguntas en la prueba. También puede ayudarle con aspectos de diseño más complejos, como definir un examen práctico con pacientes en vivo.

Plan de estudios de formación

De la misma manera, esa información cuantitativa puede ayudar a diseñar un plan de estudios y otros materiales de formación. Tendrás datos sobre lo que es más importante o frecuente.

Análisis de compensación

Con la encuesta ATL, tiene una audiencia cautiva. ¡Pregúnteles otras cosas que quiera saber! Este es un momento excelente para recopilar información sobre compensación. Trabajé en una encuesta ATL en el pasado que preguntaba sobre el lugar de trabajo: clínica, hospital, consultorio privado o proveedor/corporación.

Descripciones de puestos

Un buen análisis de puestos te ayudará a redactar una descripción de puestos para las ofertas de empleo. Te indicará las responsabilidades del puesto (tareas comunes), las cualificaciones (habilidades, capacidades y educación requeridas) y otros aspectos importantes. Si recopilas datos de compensación en la encuesta, estos se pueden utilizar para definir el rango salarial del puesto vacante.

Planificación de la fuerza laboral

Al analizar los datos, pueden resultar evidentes tendencias importantes. ¿Hay menos personas que ingresan a su profesión, tal vez en una región o grupo demográfico en particular? ¿Ingresan sin ciertas habilidades? ¿Hay ciertas universidades o programas de capacitación que no están funcionando bien? Un ATL puede ayudarlo a descubrir dichos problemas y luego trabajar con las partes interesadas para abordarlos. Estos son problemas potenciales importantes para la profesión.

ES OBLIGATORIO

Si tiene un examen de certificación profesional y desea que lo acredite una junta como NCCA o ANSI/ANAB/ISO, entonces se le OBLIGA a realizar algún tipo de análisis de tareas laborales.

 

¿Por qué es tan importante un JTA para la certificación y la licencia? Validez.

El objetivo fundamental de la psicometría es la validez, que es la evidencia de que las interpretaciones que hacemos de las puntuaciones son realmente verdaderas. En el caso de los exámenes de certificación y licencia, estamos interpretando que alguien que pasa la prueba está calificado para trabajar en ese puesto de trabajo. Por lo tanto, lo primero que debemos hacer es definir exactamente cuál es el puesto de trabajo y hacerlo de una manera cuantitativa y científica. No se puede simplemente hacer que alguien se siente en su sótano y escriba 17 puntos como plan de examen. Eso es una demanda a punto de suceder.

Hay otros aspectos que también son esenciales, como la capacitación de los redactores de ítems y los estudios de establecimiento de estándares.

 

La metodología: inventario de tareas laborales

No es fácil desarrollar un examen de certificación defendible, pero el proceso de ATL no requiere un doctorado en psicometría para comprenderlo. A continuación, se ofrece una descripción general de lo que se puede esperar.

  1. Convoque a un panel de expertos en la materia (EM) y proporcione una capacitación sobre el proceso de ATL.
  2. Luego, los EM analizan el papel de la certificación en la profesión y establecen temas de alto nivel (dominios) que debe cubrir la prueba de certificación. Por lo general, hay entre 5 y 20. A veces, hay subdominios y, ocasionalmente, subsubdominios.
  3. El panel de EM genera una lista de tareas laborales que se asignan a los dominios; la lista se revisa para detectar duplicados y otros problemas potenciales. Estas tareas tienen un verbo de acción, un sujeto y, a veces, un calificador. Ejemplos: “Calibrar el lensómetro”, “Sacar la basura”, “Realizar un estudio de equivalencia”. Hay un enfoque específico para ayudar con la generación, llamado la técnica del incidente crítico. Con esto, se les pide a los expertos en la materia que describan un incidente crítico que sucedió en el trabajo y qué habilidades o conocimientos llevaron al éxito del profesional. Si bien esto puede no generar ideas para tareas frecuentes pero simples, puede ayudar a generar ideas para tareas que son más raras pero muy importantes.
  4. La lista final se utiliza para generar una encuesta, que se envía a una muestra representativa de profesionales que realmente trabajan en el puesto. Los encuestados realizan la encuesta, mediante la cual califican cada tarea, generalmente en su importancia y tiempo empleado (a veces llamado criticidad y frecuencia). También se recopilan datos demográficos, que incluyen rango de edad, región geográfica, lugar de trabajo (por ejemplo, clínica vs hospital si es médico), años de experiencia, nivel educativo y certificaciones adicionales.
  5. Un psicometrista analiza los resultados y crea un informe formal, que es esencial para la documentación de validez. Este informe a veces se considera confidencial, a veces se publica en el sitio web de la organización para el beneficio de la profesión y, a veces, se publica en forma abreviada. Depende de usted. Por ejemplo, este sitio presenta los resultados finales, pero luego le pide que envíe su dirección de correo electrónico para recibir el informe completo.

 

Usar los resultados de ATL para crear planos de prueba

Muchas corporaciones realizan un análisis de trabajo únicamente para fines internos, como descripciones de trabajo y compensación. Esto se vuelve importante para las grandes corporaciones donde puede haber miles de personas en el mismo trabajo; debe estar bien definido, con buena capacitación y compensación adecuada.

Si trabaja para una organización de acreditación (normalmente una organización sin fines de lucro, pero a veces la división de capacitación de una corporación… por ejemplo, Amazon Web Services tiene una división dedicada a los exámenes de certificación, deberá analizar los resultados del ATL para desarrollar planos de examen. Analizaremos este proceso con más detalle en otra publicación del blog. Pero a continuación se muestra un ejemplo de cómo se verá esto, y aquí hay una hoja de cálculo gratuita para realizar los cálculos: Análisis de tareas laborales para planos de prueba.

 

Ejemplo de análisis de tareas laborales

Supongamos que usted es un experto en la fabricación de widgets a cargo del examen de certificación de fabricante de widgets. Contrata a un psicometrista para que guíe a la organización a través del proceso de desarrollo de pruebas. El psicometrista comenzaría por realizar un seminario web o una reunión en persona para un panel de expertos en la materia para definir el rol y generar una lista de tareas. El grupo elabora una lista de 20 tareas, ordenadas en 4 dominios de contenido. Estas se enumeran en una encuesta a los fabricantes de widgets actuales, quienes las califican según su importancia y frecuencia. El psicometrista analiza los datos y presenta una tabla como la que se ve a continuación.

Podemos ver aquí que la Tarea 14 es la más frecuente, mientras que la Tarea 2 es la menos frecuente. La Tarea 7 es la más importante, mientras que la Tarea 17 es la menos frecuente. Cuando combina Importancia y Frecuencia, ya sea sumando o multiplicando, obtiene los pesos en las columnas de la derecha. Si sumamos estos y dividimos por el total, obtenemos los planos sugeridos en las celdas verdes.

Job task analysis to test blueprints

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ANSI ISO 17024 Accreditation

La acreditación ANSI ISO/IEC 17024 es una norma reconocida internacionalmente para la acreditación de organismos de certificación de personal. Es decir, es un sello de aprobación de una auditoría independiente que dice que su certificación es de buena calidad. ANSI significa Instituto Nacional Estadounidense de Estándares, mientras que ISO se refiere a la Organización Internacional de Normalización. La parte de ANSI que lleva a cabo el proceso de acreditación es la Junta Nacional de Acreditación ANSI (ANAB).

¿Qué cubre la norma ANSI ISO/IEC 17024?

ANSI ISO/IEC 17024 especifica los requisitos para los organismos que operan programas de certificación para personas, garantizando que los procesos de certificación sean justos, válidos y confiables. La norma describe los principios y requisitos generales para la certificación de personal en diversos campos, incluidos, entre otros, la atención médica, la tecnología de la información, la ingeniería y la seguridad.

La norma cubre una amplia gama de aspectos relacionados con los organismos de certificación, incluidos:

certification accreditation

  1. Imparcialidad e independencia: Los organismos de certificación deben demostrar imparcialidad y evitar cualquier conflicto de intereses.
  2. Desarrollo de programas de certificación: La norma establece criterios para desarrollar programas de certificación, incluida la definición de competencias, el establecimiento de requisitos de elegibilidad y el desarrollo de procesos de examen.
  3. Procesos de examen: describe pautas para el diseño, desarrollo y administración de exámenes para evaluar los conocimientos, habilidades y competencias de los individuos.
  4. Proceso de certificación: La norma aborda el proceso de solicitud, la evaluación de candidatos, la toma de decisiones sobre la certificación y el mantenimiento continuo de la certificación.
  5. Requisitos del sistema de gestión: ANSI ISO/IEC 17024 incluye requisitos para el sistema de gestión del organismo de certificación, incluidos el control de documentos, el mantenimiento de registros y los procesos de mejora continua.

 

¿Qué significa la norma ANSI ISO/IEC 17024?

La acreditación según la ANSI ISO/IEC 17024 ofrece a las partes interesadas la garantía de que los programas y procesos de certificación se llevan a cabo de manera coherente, competente y confiable. Mejora la credibilidad y la aceptación de las certificaciones emitidas por organismos de certificación acreditados, lo que ayuda a las personas a demostrar su competencia y experiencia profesional en sus respectivos campos.

 

Beneficios de estar acreditado bajo la ANSI ISO/IEC 17024

Esa es una pregunta de negocios para usted. En algunos casos, es obligatorio; en algunas profesiones, puede haber una ley que establezca que los candidatos no reciben fondos federales o no tienen certificaciones reconocidas si su certificación no está acreditada. Sin embargo, para muchas profesiones, la acreditación es opcional. En esos casos, si hay dos organismos de certificación, es una ventaja competitiva que uno de ellos se acredite. Pero para los organismos de certificación pequeños sin competidores, la acreditación a menudo no vale la pena el gran gasto.

A continuación, se presentan algunas razones para considerar la posibilidad de obtener la acreditación.

  1. Reconocimiento global: La acreditación ISO 17024 otorga reconocimiento y credibilidad global a un programa de certificación. Demuestra el cumplimiento de estándares reconocidos internacionalmente, lo que puede mejorar la reputación de la certificación y aumentar su aceptación en todo el mundo.
  2. Garantía de calidad: la acreditación ISO 17024 garantiza que el programa de certificación sigue procesos y estándares rigurosos para el desarrollo, la administración y la evaluación de las evaluaciones. Esto ayuda a mantener la calidad y la confiabilidad de la certificación, lo que brinda a las partes interesadas confianza en su validez y equidad.
  3. Ventaja competitiva: La acreditación según la norma ISO 17024 puede servir como un diferenciador competitivo para el programa de certificación. Distingue la certificación de otras en el mercado al indicar un compromiso con altos estándares de profesionalismo, competencia e integridad.
  4. Confianza de las partes interesadas: la acreditación ofrece garantías a las partes interesadas, incluidos empleadores, profesionales y organismos reguladores, de que la certificación cumple con los criterios reconocidos para la evaluación de competencias. Esto genera confianza en la certificación, lo que conduce a una mayor participación y reconocimiento dentro de la industria.
  5. Mejora continua: la acreditación ISO 17024 fomenta una cultura de mejora continua dentro del programa de certificación. Mediante evaluaciones y auditorías periódicas, las organizaciones pueden identificar áreas de mejora e implementar las mejores prácticas para mejorar la eficacia y la relevancia de la certificación a lo largo del tiempo.

Tenga en cuenta que la ANSI ISO/IEC 17024 no es la única. La Comisión Nacional de Agencias de Certificación también acredita certificaciones, aunque las define por programa de certificación, no por organismo de certificación.

 

¿Tengo que hacer todo este trabajo yo mismo?

¡No! Gran parte del trabajo sí lo tienes que hacer tú, porque nadie más tiene el conocimiento específico de tu profesión y área de contenido. Pero sin duda podemos ayudarte con algunas partes, especialmente el desarrollo del examen y la psicometría. También podemos proporcionar la plataforma de entrega de exámenes y banco de ítems para administrar de forma segura tus exámenes e informar los resultados.

math educational assessment

Uno de los conceptos centrales en psicometría es la dificultad del ítem. Esto se refiere a la probabilidad de que los examinados respondan correctamente el ítem en evaluaciones educativas/cognitivas o respondan en la dirección indicada en evaluaciones psicológicas/de encuesta (más sobre esto más adelante). La dificultad es importante para evaluar las características de un ítem y si debe seguir siendo parte de la evaluación; en muchos casos, los ítems se eliminan si son demasiado fáciles o demasiado difíciles. También nos permite comprender mejor cómo los ítems y la prueba en su conjunto funcionan como un instrumento de medición y qué pueden decirnos sobre los examinados.

He oído hablar de la “facilidad del objeto”. ¿Es algo similar?

La dificultad del objeto también se denomina facilidad del objeto, que en realidad es un nombre más apropiado. ¿Por qué? El valor P es un concepto inverso: un valor bajo indica una dificultad alta y viceversa. Si pensamos en el concepto como facilidad o facilidad, entonces el valor P se alinea con el concepto; un valor alto significa una facilidad alta. Por supuesto, es difícil romper con la tradición, y casi todo el mundo todavía lo llama dificultad. Pero podría ayudarte pensar en ello como “facilidad”.

¿Cómo calculamos la dificultad clásica de los ítems?

Hay dos paradigmas predominantes en psicometría: la teoría clásica de los pruebas (TCP) y la teoría de respuesta al ítem (TRÍ). Aquí, me centraré en el enfoque más simple, la TCP.

Para calcular la dificultad clásica de los ítems con ítems dicotómicos, simplemente cuente el número de examinados que respondieron correctamente (o en la dirección clave) y divídalo por el número de encuestados. Esto le da una proporción, que es como un porcentaje pero está en la escala de 0 a 1 en lugar de 0 a 100. Por lo tanto, el rango posible que verá informado es de 0 a 1. Considere este conjunto de datos.

Persona Ítem1 Ítem2 Ítem3 Ítem4 Ítem5 Ítem6 Puntaje
1 0 0 0 0 0 1 1
2 0 0 0 0 1 1 2
3 0 0 0 1 1 1 3
4 0 0 1 1 1 1 4
5 0 1 1 1 1 1 5
Dificultad: 0.00 0.20 0.40 0.60 0.80 1.00

El ítem 6 tiene un alto índice de dificultad, lo que significa que es muy fácil. El ítem 4 y el ítem 5 son ítems típicos, donde la mayoría de los ítems responden correctamente. El ítem 1 es extremadamente difícil; ¡nadie lo respondió correctamente!

Para ítems politómicos (ítems con más de un punto), la dificultad clásica del ítem es el valor de respuesta promedio. Es decir, si tenemos un ítem Likert de 5 puntos, y dos personas responden 4 y dos responden 5, entonces el promedio es 4.5. Esto, por supuesto, es matemáticamente equivalente al valor P si los puntos son 0 y 1 para un ítem no/sí. Un ejemplo de esta situación es este conjunto de datos:

Persona Ítem1 Ítem2 Ítem3 Ítem4 Ítem5 Ítem6 Puntaje
1 1 1 2 3 4 5 1
2 1 2 2 4 4 5 2
3 1 2 3 4 4 5 3
4 1 2 3 4 4 5 4
5 1 2 3 5 4 5 5
Dificultad: 1.00 1.80 2.60 4.00 4.00 5.00

Tenga en cuenta que este enfoque para calcular la dificultad depende de la muestra. Si tuviéramos una muestra diferente de personas, las estadísticas podrían ser bastante diferentes. Este es uno de los principales inconvenientes de la teoría clásica de los pruebas. La TRÍ aborda ese problema con un paradigma diferente. También tiene un índice con la “dirección” correcta: los valores altos significan una gran dificultad con la TRÍ.

Si está trabajando con ítems de opción múltiple, recuerde que, si bien puede tener 4 o 5 respuestas, aún está calificando los ítems como correctos/incorrectos. Por lo tanto, los datos terminan siendo dicotómicos 0/1.

Nota final muy importante: este valor P NO debe confundirse con el valor p del mundo de las pruebas de hipótesis. Tienen el mismo nombre, pero por lo demás no están relacionados en absoluto. Por esta razón, algunos psicometristas lo llaman P+ (se pronuncia “P-plus”), pero eso no se ha popularizado.

¿Cómo interpreto la dificultad clásica de los ítems?

Para las evaluaciones educativas/cognitivas, la dificultad se refiere a la probabilidad de que los examinados respondan correctamente el ítem. Si más examinados responden correctamente el ítem, tiene baja dificultad. Para los datos de tipo psicológico/encuesta, la dificultad se refiere a la probabilidad de responder en la dirección clave. Es decir, si está evaluando la extraversión y el ítem es “Me gusta ir a fiestas”, entonces está evaluando cuántos examinados estuvieron de acuerdo con la afirmación.

Lo que es único con los datos de tipo encuesta es que a menudo incluyen una clave inversa; la misma evaluación también puede tener un ítem que sea “Prefiero pasar tiempo con libros en lugar de personas” y un examinado que no esté de acuerdo con esa afirmación cuenta como un punto para la puntuación total.

Para la evaluación educativa/de conocimiento estereotipada, con ítems de opción múltiple de 4 o 5 opciones, utilizamos pautas generales como esta para la interpretación.

Rango Interpretación Notas
0.0-0.3 Extremadamente difícil Los examinados están en el nivel de probabilidad o incluso por debajo, por lo que su artículo podría estar mal escrito o tener otros problemas.
0.3-0.5 Muy difícil Los elementos de este rango desafiarán incluso a los mejores examinados y, por lo tanto, podrían generar quejas, pero por lo general son muy fuertes.
0.5-0.7 Moderadamente difícil Estos elementos son bastante comunes y un poco más resistentes.
0.7-0.90 Moderadamente fácil Estos son los rangos de elementos más comunes en la mayoría de las pruebas construidas de manera clásica; lo suficientemente fáciles como para que los examinados rara vez se quejen.
0.90-1.0 Muy fácil La mayoría de los examinados dominan estos ítems, pero en realidad son demasiado fáciles de proporcionar para los examinados y pueden ser perjudiciales para la confiabilidad.

No. Hay mucho software que puede hacerlo por ti. Si eres nuevo en psicometría, te recomiendo CITAS, que está diseñado para que puedas empezar a trabajar rápidamente, pero es demasiado simple para situaciones avanzadas. Si tienes muestras grandes o estás involucrado en trabajo a nivel de producción, necesitas Iteman. Regístrate para obtener una cuenta gratuita con el botón de abajo. Si ese es tu caso, también te recomiendo que consideres aprender TRÍ si aún no lo has hecho.

Dogleg example

La puntuación escalada es un proceso utilizado en evaluación y psicometría para transformar las puntuaciones de los exámenes a otra escala (conjunto de números), normalmente para hacer que las puntuaciones sean más fáciles de interpretar pero también para ocultar información sensible como las puntuaciones brutas y las diferencias en la dificultad de la forma (equiparación). Por ejemplo, la prueba ACT produce puntuaciones en una escala de 0 a 36; obviamente, hay más de 36 preguntas en la prueba, por lo que esta no es su puntuación numérica correcta, sino más bien un reempaquetado. Entonces, ¿cómo ocurre este reempaquetado y por qué lo estamos haciendo en primer lugar?

Un ejemplo de escalas: temperatura

Primero, hablemos de la definición de una escala. Una escala es un rango de números a los que se les pueden asignar valores e interpretaciones. Las puntuaciones en un ensayo de un estudiante pueden ser de 0 a 5 puntos, por ejemplo, donde 0 es horrible y 5 es maravilloso. Las puntuaciones brutas en un examen, como la puntuación de los números correctos, también son una escala, pero hay razones para ocultar esto, que analizaremos a continuación.

Un ejemplo de escala con el que todos estamos familiarizados es la temperatura. Hay tres escalas de las que probablemente hayas oído hablar: Fahrenheit, Celsius y Kelvin. Por supuesto, el concepto de temperatura no cambia, solo cambiamos el conjunto de números que se utilizan para informarlo. El agua se congela a 32 grados Fahrenheit y hierve a 212, mientras que estos números son 0 y 100 con Celsius. Lo mismo ocurre con la evaluación: el concepto de lo que estamos midiendo no cambia en un examen determinado (por ejemplo, el conocimiento del currículo de matemáticas de quinto grado en los EE. UU., el dominio de Microsoft Excel, las habilidades clínicas como neurólogo), pero podemos cambiar los números.

¿Qué es la puntuación escalada?

En evaluación y psicometría, podemos cambiar el rango de números (escala) que se utiliza para informar las puntuaciones, al igual que podemos cambiar el rango de números para la temperatura. Si una prueba tiene 100 ítems pero no queremos informar la puntuación real a los estudiantes, podemos cambiar la escala a algo como 40 a 90. O 0 a 5. O 824.524 a 965.844. No importa desde una perspectiva matemática. Pero como uno de los objetivos es hacer que sea más fácil de interpretar para los estudiantes, los dos primeros son mucho mejores que el tercero.

Por lo tanto, si una organización informa puntuaciones escaladas, significa que ha elegido una nueva escala arbitraria y está convirtiendo todas las puntuaciones a esa escala. A continuación, se muestran algunos ejemplos…

Ejemplos reales

Muchas evaluaciones se normalizan en una curva de campana normal estándar. Aquellas que utilizan la teoría de respuesta a los ítems lo hacen de manera implícita, porque las puntuaciones se calculan directamente en la escala de puntuación z (hay algunas diferencias semánticas, pero es la idea básica). Bueno, cualquier puntuación en la curva de campana de puntuación z se puede convertir a otras escalas con bastante facilidad, y viceversa. A continuación, se muestran algunas de las escalas comunes utilizadas en el mundo de la evaluación.

puntuación z puntuación T CI (IQ) Percentil ACT SAT
-3 20 55 0.02 0 200
-2 30 70 2.3 6 300
-1 40 85 15.9 12 400
0 50 100 50 18 500
1 60 115 84.1 24 600
2 70 130 97.7 30 700
3 80 145 99.8 36 800

¡Observe cómo la traducción de los enfoques basados ​​en curvas normales al percentil es muy no lineal! Los enfoques basados ​​en curvas estiran los extremos. Así es como se ven estos números gráficamente.

T scores

¿Por qué utilizar la puntuación escalada?

Hay algunas buenas razones:

  1. Diferencias en la dificultad de los formularios (equiparación): muchos exámenes utilizan varios formularios, especialmente entre años. ¿Qué sucede si el formulario de este año tiene algunas preguntas más fáciles y necesitamos reducir la puntuación de aprobación en 1 punto en la métrica de puntuación bruta? Bueno, si está utilizando puntuaciones escaladas como 200 a 400 con una puntuación de corte de 350, entonces simplemente ajuste la escala cada año para que la puntuación de corte informada sea siempre 350.
  2. Ocultar la puntuación bruta: en muchos casos, incluso si solo hay un formulario de 100 elementos, no desea que los estudiantes sepan su puntuación real.
  3. Ocultar la escala z (TRI): la TRI califica a las personas en la escala de puntuación z. Nadie quiere que le digan que tiene una puntuación de -2. Eso hace que parezca que tiene una inteligencia negativa o algo así. Pero si lo conviertes a una escala grande como el SAT mencionado anteriormente, esa persona obtiene una puntuación de 300, que es un número grande, por lo que no se siente tan mal. Sin embargo, esto no cambia el hecho de que solo están en el segundo percentil. En realidad, son solo relaciones públicas y marketing.

 

¿Quién utiliza la puntuación escalada?

Casi todos los exámenes “reales” del mundo la utilizan. Por supuesto, la mayoría utiliza la TRI, lo que hace que sea aún más importante utilizar la puntuación escalada.

Métodos de puntuación escalada

Existen 4 tipos de puntuación escalada. En el resto de esta publicación se abordarán algunos detalles psicométricos sobre ellos, para lectores avanzados.

  1. Normal/estandarizado
  2. Lineal
  3. Lineal dogleg
  4. Equipercentil

1. Normal/estandarizado

Este es un método de puntuación escalada con el que muchos de nosotros estamos familiarizados debido a algunas aplicaciones famosas, como la puntuación T, el coeficiente intelectual y las evaluaciones a gran escala como el SAT. Comienza encontrando la media y la desviación estándar de las puntuaciones brutas de una prueba, y luego convierte lo que sea que sea en otra media y desviación estándar. Si esto parece bastante arbitrario y no cambia el significado… ¡tienes toda la razón!

Empecemos por suponer que tenemos una prueba de 50 ítems y que nuestros datos tienen una media de puntuación bruta de 35 puntos con una desviación estándar de 5. La transformación de la puntuación T (que existe desde hace tanto tiempo que una búsqueda rápida en Google no me permite encontrar la cita real) dice que hay que convertir esto en una media de 50 con una desviación estándar de 10. Por lo tanto, 35 puntos brutos se convierten en una puntuación escalada de 50. Una puntuación bruta de 45 (2 desviaciones estándar por encima de la media) se convierte en una T de 70. También podríamos colocar esto en la escala de CI (media = 100, desviación estándar = 15) o en la escala SAT clásica (media = 500, desviación estándar = 100).

Un comentario aparte sobre los límites de estas escalas: una de las primeras cosas que se aprende en cualquier clase de estadística es que más/menos 3 desviaciones estándar contiene el 99 % de la población, por lo que muchas puntuaciones escaladas adoptan estos y otros límites convenientes. Por eso la escala clásica del SAT pasó de 200 a 800, con la leyenda urbana de que “obtienes 200 puntos por poner tu nombre en el papel”. De manera similar, el ACT va de 0 a 36 porque nominalmente tenía una media de 18 y una desviación estándar de 6.

El enfoque normal/estandarizado se puede utilizar con la puntuación clásica de números correctos, pero tiene más sentido si se utiliza la teoría de respuesta a los ítems, porque todas las puntuaciones se basan por defecto en una métrica estandarizada.

2. Lineal

El enfoque lineal es bastante simple. Emplea la ecuación y=mx+b que todos aprendimos en la escuela. Con el ejemplo anterior de una prueba de 50 ítems, podríamos decir que la intersección=200 y la pendiente=4. Esto significa que los puntajes varían de 200 a 400 en la prueba.

Sí, lo sé… la conversión normal anterior también es técnicamente lineal, pero merece su propia definición.

3. Lineal dogleg

El método Dogleg lineal es un caso especial del anterior, en el que es necesario estirar la escala para alcanzar dos puntos finales. Supongamos que publicamos una nueva forma de la prueba y un método de igualación clásico como el de Tucker o Levine dice que es 2 puntos más fácil y que la pendiente de la Forma A a la Forma B es 3,8 en lugar de 4. Esto altera nuestra conversión limpia de la escala de 200 a 400. Por lo tanto, supongamos que utilizamos la ecuación SCALED = 200 + 3,8*RAW pero solo hasta la puntuación de 30. A partir de 31, utilizamos SCALED = 185 + 4,3*RAW. Observe que la puntuación bruta de 50 sigue siendo escalada a 400, por lo que todavía pasamos de 200 a 800, pero ahora hay una ligera curva en la línea. Esto se llama “dogleg”, similar al hoyo de golf del mismo nombre.

 

Dogleg example

4. Equipercentil

Por último, está el Equipercentil, que se utiliza principalmente para igualar formas, pero que también se puede utilizar para escalar. En esta conversión, igualamos el percentil de cada una, incluso si se trata de una transformación muy no lineal. Por ejemplo, supongamos que nuestra Forma A tenía un percentil 90 de 46, que se convirtió en una escala de 384. Descubrimos que la Forma B tiene un percentil 90 de 44 puntos, por lo que lo llamamos una puntuación escalada de 384 y calculamos una conversión similar para todos los demás puntos.

¿Por qué estamos haciendo esto de nuevo?

Bueno, se puede ver en el ejemplo de tener dos formularios con una diferencia de dificultad. En el ejemplo del percentil equiparable, supongamos que hay un puntaje de corte para estar en el 10% superior para ganar una beca. Si obtiene 45 en el Formulario A, perderá, pero si obtiene 45 en el Formulario B, ganará. Los patrocinadores de la prueba no quieren tener esta conversación con los examinados enojados, por lo que convierten todas las puntuaciones a una escala arbitraria. El percentil 90 siempre es 384, sin importar cuán difícil sea la prueba. (Sí, ese ejemplo simple supone que las poblaciones son las mismas… hay una parte completa de la investigación psicométrica dedicada a realizar equiparaciones más fuertes).

¿Cómo implementamos la puntuación escalada?

Algunas transformaciones se pueden realizar fácilmente en una hoja de cálculo, pero cualquier buena plataforma de evaluación en línea debería encargarse de este tema por usted. Aquí hay una captura de pantalla de ejemplo de nuestro software.

Scaled scores in FastTest

linear-on-the-fly-test

La Prueba Lineal Sobre la Marcha (PLSM) es un método de evaluación que aumenta la seguridad de la prueba al limitar la exposición de los ítems. Intenta equilibrar las ventajas de las pruebas lineales (por ejemplo, todos ven la misma cantidad de ítems, lo que resulta más justo) con las ventajas de los exámenes algorítmicos (por ejemplo, crear una prueba única para todos).

En general, hay dos familias de entrega de pruebas. Los enfoques estáticos entregan el mismo formulario o formularios de prueba a todos; este es el método de prueba “lineal” tradicional y omnipresente. Los enfoques algorítmicos entregan la prueba a cada examinado basándose en un algoritmo informático; esto incluye PLSM, pruebas adaptativas computarizadas (PAC) y pruebas multietapa (PME).

¿Qué es la prueba lineal sobre la marcha?

El objetivo de la prueba lineal sobre la marcha es proporcionar a cada examinado una prueba lineal creada exclusivamente para él, pero cada una de ellas se crea para que sea psicométricamente equivalente a todas las demás para garantizar la imparcialidad. Por ejemplo, podríamos tener un grupo de 200 ítems y cada persona solo recibe 100, pero esos 100 están equilibrados para cada persona. Esto se puede hacer asegurando la equivalencia de contenido y/o estadística, así como metadatos auxiliares como los tipos de ítems o el nivel cognitivo.

Equivalencia de contenido

Esta parte es relativamente sencilla. Si el plan de prueba requiere 20 ítems en cada uno de los 5 dominios, para un total de 100 ítems, entonces cada formulario administrado a los examinados debe seguir este plan. A veces, el plan de contenido puede tener 2 o incluso 3 niveles de profundidad.

Equivalencia estadística

Por supuesto, existen dos paradigmas psicométricos predominantes: la teoría clásica de las pruebas (TCP) y la teoría de respuesta al ítem (TRI). Con la TCP, es fácil crear formularios que tengan un valor P equivalente y, por lo tanto, una puntuación media esperada. Si se dispone de estadísticas biseriales puntuales para cada ítem, también se puede diseñar el algoritmo para diseñar formularios que tengan la misma desviación estándar y confiabilidad.

Con la teoría de respuesta al ítem, el enfoque típico es diseñar formularios que tengan la misma función de información de la prueba o, a la inversa, la función de error estándar condicional de la medición. Para obtener más información sobre cómo se implementan, lea esta publicación del blog sobre la TRI o descargue nuestra herramienta de ensamblaje de formularios clásicos.

Implementación de la prueba lineal sobre la marcha

PLSM se implementa generalmente mediante la publicación de un conjunto de elementos con un algoritmo para seleccionar subconjuntos que cumplan con los requisitos. Por lo tanto, necesita un motor de pruebas psicométricamente sofisticado que almacene las estadísticas y los metadatos de los elementos necesarios, le permita definir un conjunto de elementos, especificar las opciones relevantes, como las estadísticas de destino y los planos, y entregar la prueba de manera segura. Muy pocas plataformas de prueba pueden implementar una evaluación PLSM de calidad. La plataforma de ASC lo hace; haga clic aquí para solicitar una demostración.

Beneficios de usar PLSM en las pruebas

Sin duda, no es fácil crear un banco de elementos sólido, diseñar grupos de PLSM y desarrollar un algoritmo complejo que satisfaga las necesidades de equilibrio estadístico y de contenido. Entonces, ¿por qué una organización utilizaría pruebas lineales sobre la marcha?

Bueno, es mucho más seguro que tener unos pocos formularios lineales. Dado que cada persona recibe un formulario único, es imposible que se diga cuáles son las primeras preguntas de la prueba. Y, por supuesto, simplemente podríamos realizar una selección aleatoria de 100 elementos de un grupo de 200, pero eso sería potencialmente injusto. El uso de PLSM garantizará que la prueba siga siendo justa y defendible.

 

Multistage testing algorithm

Las pruebas multietapa (PME) son un tipo las pruebas adaptativas computarizadas (PAC). Esto significa que es un examen que se realiza en computadoras que lo personalizan dinámicamente para cada examinado o estudiante. Por lo general, esto se hace con respecto a la dificultad de las preguntas, al hacer que el examen sea más fácil para los estudiantes de menor capacidad y más difícil para los estudiantes de mayor capacidad. Hacer esto hace que la prueba sea más corta y más precisa, al mismo tiempo que brinda beneficios adicionales. Esta publicación brindará más información sobre las pruebas multietapa para que pueda evaluar si son una buena opción para su organización.

¿Ya está interesado en PME y desea implementarlo? Contáctenos para hablar con uno de nuestros expertos y obtener acceso a nuestra poderosa plataforma de evaluación en línea, donde puede crear sus propios exámenes PME y PAC en cuestión de horas.

 

¿Qué son las pruebas multietapa?Multistage testing algorithm

Al igual que la PAC, la prueba multietapa adapta la dificultad de los ítems presentados al estudiante. Pero mientras que la prueba adaptativa funciona adaptando cada ítem uno por uno usando la teoría de respuesta al ítem (TRI), la multietapa funciona en bloques de ítems. Es decir, la PAC entregará un ítem, lo calificará, elegirá un nuevo ítem, lo calificará, elegirá un nuevo ítem, etc. La prueba multietapa entregará un bloque de ítems, como 10, los calificará y luego entregará otro bloque de 10.

El diseño de una prueba de varias etapas a menudo se denomina paneles. Por lo general, hay una sola prueba de enrutamiento o etapa de enrutamiento que inicia el examen y luego los estudiantes son dirigidos a diferentes niveles de paneles para las etapas posteriores. A veces se utiliza el número de niveles para describir el diseño; el ejemplo de la derecha es un diseño 1-3-3. A diferencia de PAC, solo hay unos pocos caminos potenciales, a menos que cada etapa tenga un grupo de testlets disponibles.

Al igual que con la prueba PAC ítem por ítem, las pruebas multietapa casi siempre se realizan utilizando la TRI como paradigma psicométrico, algoritmo de selección y método de puntuación. Esto se debe a que la TRI puede calificar a los examinados en una escala común independientemente de los ítems que vean, lo que no es posible utilizando la teoría clásica de pruebas.

Para aprender más sobre las PME, recomiendo este libro.

 

¿Por qué las pruebas multietapa?

La PAC ítem por ítem no es la mejor opción para todas las evaluaciones, especialmente aquellas que naturalmente tienden a utilizar pequeños cuestionarios, como las evaluaciones de idioma donde hay un pasaje de lectura con 3 a 5 preguntas asociadas.

Las pruebas multietapa le permiten obtener algunos de los beneficios conocidos de las pruebas adaptativas (ver a continuación), con un mayor control sobre el contenido y la exposición. Además de controlar el contenido a nivel de examinado, también puede facilitar la gestión del uso del banco de ítems para la organización.

 

¿Cómo implemento pruebas multietapa?

1. Desarrolle sus bancos de ítems utilizando ítems calibrados con la teoría de respuesta a ítems

2. Ensamble una prueba con múltiples etapas, definiendo grupos de ítems en cada etapa como testlets

3. Evalúe las funciones de información de la prueba para cada testlet

4. Ejecute estudios de simulación para validar el algoritmo de entrega con sus testlets predefinidos

5. Publique para entrega en línea

Nuestra plataforma de evaluación líder en la industria administra gran parte de este proceso por usted. La imagen a la derecha muestra nuestra pantalla de ensamblaje de pruebas donde puede evaluar las funciones de información de la prueba para cada testlet.

Multistage testing

 

Beneficios de las pruebas en varias etapas

Este enfoque tiene una serie de beneficios, que en su mayoría son compartidos con CAT.

  • Exámenes más cortos: debido a que la dificultad está dirigida, se pierde menos tiempo
  • Mayor seguridad: hay muchas configuraciones posibles, a diferencia de un examen lineal donde todos ven el mismo conjunto de elementos
  • Mayor participación: los estudiantes con menor capacidad no se desaniman y los estudiantes con mayor capacidad no se aburren
  • Control de contenido: PAC tiene algunos algoritmos de control de contenido, pero a veces no son suficientes
  • Admite testlets: PAC no admite pruebas que tengan testlets, como un pasaje de lectura con 5 preguntas
  • Permite la revisión: PAC no suele permitir la revisión (los estudiantes pueden volver atrás en una pregunta para cambiar una respuesta), mientras que PME sí lo permite

 

Ejemplos de pruebas multietapa

La PME se utiliza a menudo en la evaluación de idiomas, lo que significa que se utiliza a menudo en la evaluación educativa, como los exámenes de referencia K-12, las admisiones universitarias o la colocación/certificación de idiomas. Uno de los ejemplos más famosos es la Prueba de Aptitud Académica de The College Board; se está moviendo hacia un enfoque PME en 2023.

Debido a la complejidad de la teoría de respuesta a los ítems, la mayoría de las organizaciones que implementan la PME tienen un psicometrista a tiempo completo en el personal. Si su organización no lo tiene, nos encantaría discutir cómo podemos trabajar juntos.

 

computerized adaptive testing

Las pruebas adaptativas computarizadas (PAC) son un enfoque de evaluación basado en IA donde la prueba se personaliza en función de su desempeño a medida que realiza la prueba, lo que hace que la prueba sea más corta, más precisa, más segura, más atractiva y más justa. Si le va bien, los elementos se vuelven más difíciles y, si le va mal, los elementos se vuelven más fáciles. Si se alcanza una puntuación precisa, la prueba se detiene antes. Al adaptar la dificultad de las preguntas al desempeño de cada examinado, PAC garantiza un proceso de prueba eficiente y seguro.

Los algoritmos de IA casi siempre se basan en la teoría de respuesta al ítem (TRI), una aplicación del aprendizaje automático a la evaluación, pero también pueden basarse en otros modelos.

 

¿Prefieres aprender haciendo? Solicite una cuenta gratuita en FastTest, nuestra poderosa plataforma de pruebas adaptativas.

Free FastTest Account

¿Qué son las pruebas adaptativas computarizadas?

computerized adaptive testing

Las pruebas adaptativas computarizadas (PAC), a veces llamadas pruebas adaptativas por computadora, evaluación adaptativa o pruebas adaptativas, son un algoritmo que personaliza cómo se entrega una evaluación a cada examinado. Está codificada en una plataforma de software, utilizando el enfoque de aprendizaje automático de TRI para seleccionar elementos y calificar a los examinados. El algoritmo procede en un bucle hasta que se completa la prueba. Esto hace que la prueba sea más inteligente, más corta, más justa y más precisa.

Los pasos del diagrama anterior están adaptados de Kingsbury y Weiss (1984) en función de estos componentes.

Componentes de una pruebas adaptativas computarizadas

  1. Banco de ítems calibrado con TRI
  2. Punto de inicio (nivel theta antes de que alguien responda un ítem)
  3. Algoritmo de selección de ítems (normalmente, máxima información de Fisher)
  4. Método de puntuación (p. ej., máxima verosimilitud)
  5. Criterio de finalización (¿detener la prueba en 50 ítems o cuando el error estándar sea inferior a 0,30? ¿Ambos?)

Cómo funcionan los componentes

computerized Adaptive testing options

Para empezar, necesitas un banco de ítems que haya sido calibrado con un modelo psicométrico o de aprendizaje automático relevante. Es decir, no puedes simplemente escribir unos pocos ítems y clasificarlos subjetivamente como de dificultad Fácil, Media o Difícil. Esa es una forma fácil de ser demandado. En cambio, necesitas escribir una gran cantidad de ítems (la regla general es 3 veces la duración prevista de la prueba) y luego probarlos en una muestra representativa de examinados. La muestra debe ser lo suficientemente grande para soportar el modelo psicométrico que elijas, y puede variar de 100 a 1000. Luego necesitas realizar una investigación de simulación (más sobre eso más adelante).

Una vez que tenga un banco de elementos listo, así es como funciona el algoritmo de prueba adaptativa computarizada para un estudiante que se sienta a tomar la prueba, con opciones sobre cómo hacerlo.

  1. Punto de partida: hay tres opciones para seleccionar la puntuación inicial, que los psicometristas llaman theta
    • Todos obtienen el mismo valor, como 0,0 (promedio, en el caso de modelos que no son Rasch)
    • Aleatorizado dentro de un rango, para ayudar a probar la seguridad y la exposición del artículo
    • Valor previsto, tal vez a partir de datos externos o de un examen anterior
  2. Seleccionar artículo
    • Encuentra el elemento en el banco que tenga el mayor valor informativo
    • A menudo, es necesario equilibrar esto con restricciones prácticas, como la exposición del artículo o el equilibrio del contenido.
  3. Calificar al examinado
    • Generalmente IRT, máxima verosimilitud o modal bayesiano
  4. Evaluar el criterio de terminación: utilizando una regla predefinida respaldada por su investigación de simulación
    • ¿Se alcanza un cierto nivel de precisión, como un error estándar de medición < 0,30?
    • ¿No quedan artículos buenos en el banco?
    • ¿Se alcanzó un límite de tiempo?
    • ¿Se ha alcanzado el límite máximo de artículos?

El algoritmo funciona repitiendo los pasos 2-3-4 hasta que se satisface el criterio de terminación.

¿Cómo se adapta la prueba? ¿Por dificultad o cantidad?

Las PAC funcionan adaptando tanto la dificultad como la cantidad de elementos que ve cada examinado.

Dificultad
La mayoría de las caracterizaciones de las pruebas adaptativas computarizadas se centran en cómo se combina la dificultad de los elementos con la capacidad del examinado. Los examinados de alta capacidad reciben elementos más difíciles, mientras que los de baja capacidad reciben elementos más fáciles, lo que tiene importantes beneficios para el estudiante y la organización. Una prueba adaptativa generalmente comienza entregando un elemento de dificultad media; si lo responde correctamente, recibe un elemento más difícil, y si lo responde incorrectamente, recibe un elemento más fácil. Este patrón continúa.

Cantidad: longitud fija frente a longitud variable
Una faceta menos publicitada de la adaptación es la cantidad de elementos. Las pruebas adaptativas pueden diseñarse para detenerse cuando se alcanzan ciertos criterios psicométricos, como un nivel específico de precisión de la puntuación. Algunos examinados terminan muy rápidamente con pocos elementos, por lo que las pruebas adaptativas suelen tener aproximadamente la mitad de preguntas que una prueba regular, con al menos la misma precisión. Dado que algunos examinados tienen exámenes más largos, estos exámenes adaptativos se denominan de duración variable. Obviamente, esto supone un beneficio enorme: reducir el tiempo de examen a la mitad, en promedio, puede reducir sustancialmente los costos de los exámenes.

Algunas pruebas adaptativas utilizan una duración fija y solo adaptan la dificultad de los ítems. Esto es simplemente por cuestiones de relaciones públicas, es decir, la incomodidad de tratar con examinados que sienten que fueron tratados injustamente por el PAC, a pesar de que se podría decir que es más justo y válido que las pruebas convencionales. En general, es una mejor práctica fusionar los dos: permitir que la duración de la prueba sea más corta o más larga, pero poner límites en cada extremo que eviten pruebas inadvertidamente demasiado cortas o pruebas que potencialmente podrían llegar a 400 ítems. Por ejemplo, el NCLEX tiene un examen de duración mínima de 75 ítems y el examen de duración máxima de 145 ítems.

Ejemplo de algoritmo de prueba adaptativa computarizada

item information functions

Veamos un ejemplo muy simplificado. Aquí tenemos un banco de preguntas con 5 preguntas. Comenzaremos con una pregunta de dificultad promedio y responderemos como lo haría un estudiante con una dificultad por debajo del promedio.

A continuación se muestran las funciones de información de las preguntas para cinco preguntas de un banco. Supongamos que la theta inicial es 0,0.

  1. Encontramos el primer elemento a entregar. ¿Qué elemento tiene la información más alta en 0.0? Es el elemento 4.
  2. Supongamos que el estudiante responde incorrectamente.
  3. Ejecutamos el algoritmo de puntuación IRT y suponemos que la puntuación es -2.0.
  4. Comprobamos el criterio de terminación; ciertamente no hemos terminado todavía, después de 1 elemento.
  5. Encontramos el siguiente elemento. ¿Cuál tiene la información más alta en -2.0? Elemento 2.
  6. Supongamos que el estudiante responde correctamente.
  7. Ejecutamos el algoritmo de puntuación IRT y suponemos que la puntuación es -0.8.
  8. Evaluamos el criterio de terminación; aún no hemos terminado.
  9. Encontramos el siguiente elemento. El elemento 2 es el más alto en -0.8 pero ya lo usamos. El elemento 4 es el siguiente mejor, pero ya lo usamos. Entonces, el siguiente mejor es el elemento 1.
  10. El elemento 1 es muy fácil, por lo que el estudiante lo responde correctamente.
  11. La nueva puntuación es -0.2.
  12. El mejor elemento restante con -0,2 es el elemento 3.
  13. Supongamos que el estudiante responde incorrectamente.
  14. La nueva puntuación es quizás -0,4.
  15. Evalúa el criterio de finalización. Supón que la prueba tiene un máximo de 3 elementos, un criterio extremadamente simple. Lo hemos cumplido. La prueba ya está hecha y se envió automáticamente.

 

Ventajas de las pruebas adaptativas informatizadas

Al hacer que la prueba sea más inteligente, las pruebas adaptativas brindan una amplia gama de beneficios. A continuación, se enumeran algunas de las ventajas conocidas de las pruebas adaptativas, reconocidas por la investigación psicométrica académica.

Pruebas más cortas

Las investigaciones han demostrado que las pruebas adaptativas producen una reducción de entre el 50% y el 90% en la duración de la prueba. Esto no es ninguna sorpresa. Supongamos que tienes un conjunto de 100 ítems. Un estudiante destacado tiene prácticamente garantizado que responderá correctamente las 70 preguntas más fáciles; solo las 30 más difíciles le harán pensar. Lo mismo ocurre con un estudiante de bajo nivel. Los estudiantes de nivel medio no necesitan las preguntas superdifíciles ni las superfáciles.

¿Por qué es importante esto? Principalmente, puede reducir en gran medida los costos. Supongamos que estás realizando 100.000 exámenes al año en centros de evaluación y pagas 30 dólares la hora. Si puedes reducir la duración de tu examen de 2 horas a 1 hora, acabas de ahorrar 3.000.000 de dólares. Sí, habrá mayores costos por el uso de la evaluación adaptativa, pero es probable que ahorres dinero al final.

Para la evaluación K12, no estás pagando por el tiempo de asiento, pero existe el costo de oportunidad del tiempo de instrucción perdido. Si los estudiantes toman evaluaciones formativas 3 veces al año para verificar el progreso, y puedes reducir cada una en 20 minutos, es decir 1 hora; si hay 500,000 estudiantes en tu estado, entonces acabas de ahorrar 500,000 horas de aprendizaje.

Puntuaciones más precisas

CAT hará que las pruebas sean más precisas, en general. Esto se logra diseñando los algoritmos específicamente en torno a cómo obtener puntuaciones más precisas sin perder el tiempo del examinado.

Más control de la precisión de la puntuación (exactitud)

CAT garantiza que todos los estudiantes tendrán la misma precisión, lo que hace que la prueba sea mucho más justa. Las pruebas tradicionales miden bien a los estudiantes intermedios, pero no a los mejores o peores. ¿Es mejor que A) los estudiantes ven los mismos elementos pero pueden tener una precisión de puntuación drásticamente diferente, o B) tener una precisión de puntuación equivalente, pero ver elementos diferentes?

Mayor seguridad de la prueba

Dado que todos los estudiantes reciben esencialmente una evaluación que está diseñada para ellos, hay una mayor seguridad de la prueba que si todos ven los mismos 100 elementos. La exposición a los elementos se reduce en gran medida; sin embargo, tenga en cuenta que esto presenta sus propios desafíos y los algoritmos de evaluación adaptativos tienen consideraciones de su propia exposición a los elementos.

Una mejor experiencia para los examinados, con menos fatiga

Las evaluaciones adaptativas tenderán a ser menos frustrantes para los examinados en todos los rangos de habilidad. Además, al implementar reglas de detención de longitud variable (por ejemplo, una vez que sabemos que eres un estudiante destacado, no te damos los 70 ítems fáciles), se reduce la fatiga.

Mayor motivación del examinado

Dado que los examinados solo ven los ítems que son relevantes para ellos, esto proporciona un desafío apropiado. Los examinados de baja habilidad se sentirán más cómodos y obtendrán muchos más ítems correctos que con una prueba lineal. Los estudiantes de alta habilidad obtendrán los ítems difíciles que los hagan pensar.

Es posible volver a realizar pruebas con frecuencia

La idea de la “forma única” se aplica al mismo estudiante que toma el mismo examen dos veces. Supongamos que tomas la prueba en septiembre, al comienzo de un año escolar, y tomas la misma nuevamente en noviembre para verificar tu aprendizaje. Es probable que hayas aprendido bastante y estés más arriba en el rango de habilidad; tendrás ítems más difíciles y, por lo tanto, una nueva prueba. Si fuera una prueba lineal, podría ver exactamente la misma prueba.

Esta es una de las principales razones por las que la evaluación adaptativa desempeña un papel formativo en la educación K-12, y se realiza varias veces al año a millones de estudiantes solo en los Estados Unidos.

Ritmo individual de las pruebas

Los examinados pueden avanzar a su propio ritmo. Algunos pueden avanzar rápidamente y terminar con solo 30 ítems. Otros pueden dudar, también ver 30 ítems pero tomar más tiempo. Aún así, otros pueden ver 60 ítems. Los algoritmos pueden diseñarse para maximizar el proceso.

Ventajas de las pruebas computarizadas en general

Por supuesto, las ventajas de usar una computadora para realizar una prueba también son relevantes. A continuación, se presentan algunas

  • Informe de puntaje inmediato
  • Las pruebas a pedido pueden reducir la impresión, la programación y otras preocupaciones basadas en papel
  • Almacenar los resultados en una base de datos de inmediato facilita la gestión de datos
  • Las pruebas computarizadas facilitan el uso de multimedia en los ítems
  • Puede ejecutar informes psicométricos de inmediato
  • Los plazos se reducen con un sistema de banco de ítems integrado

 

Cómo desarrollar una evaluación adaptativa que sea válida y defendible

Las PAC son el futuro de la evaluación. Funcionan adaptando tanto la dificultad como la cantidad de ítems a cada examinado individual. El desarrollo de una prueba adaptativa no es una tarea fácil y requiere cinco pasos que integren la experiencia de los desarrolladores de contenido de pruebas, ingenieros de software y psicometristas.

El desarrollo de una prueba adaptativa de calidad es complejo y requiere psicometristas experimentados tanto en calibración de la teoría de respuesta al ítem (TRI) como en investigación de simulación PAC. FastTest puede proporcionarle el psicometrista y el software; si proporciona ítems de prueba y datos piloto, podemos ayudarlo a publicar rápidamente una versión adaptativa de su prueba.

   Paso 1: Estudios de viabilidad, aplicabilidad y planificación. Primero, debe realizarse una investigación exhaustiva de simulación de Monte Carlo y los resultados deben formularse como casos de negocios para evaluar si las pruebas adaptativas son factibles, aplicables o incluso posibles.

   Paso 2: Desarrollar un banco de ítems. Se debe desarrollar un banco de ítems para cumplir con las especificaciones recomendadas en el Paso 1.

   Paso 3: Realizar pruebas previas y calibrar el banco de ítems. Los ítems deben probarse de manera piloto en 200 a 1000 examinados (dependiendo del modelo de TRI) y ser analizados por un psicometrista con doctorado.

   Paso 4: Determinar las especificaciones para la PAC final. Los datos del Paso 3 se analizan para evaluar las especificaciones de la PAC y determinar los algoritmos más eficientes utilizando software de simulación de PAC como CATSim.

   Paso 5: Publicar la PAC en vivo. La prueba adaptativa se publica en un motor de pruebas capaz de realizar pruebas totalmente adaptativas basadas en TRI. No hay muchos de ellos en el mercado. ¡Regístrese para obtener una cuenta gratuita en nuestra plataforma  FastTest  y pruébelo usted mismo!

¿Quiere obtener más información sobre nuestro modelo único? Haga clic aquí para leer el artículo fundamental de nuestros dos cofundadores. Hay más investigaciones sobre pruebas adaptativas disponibles aquí.

Requisitos mínimos para las pruebas adaptativas computarizadas

computerized Adaptive testing options

A continuación, se indican algunos requisitos mínimos que debe evaluar si está considerando adoptar el enfoque PAC.

  • Un gran banco de ítems probado de modo que cada ítem tenga al menos 100 respuestas válidas (modelo Rasch) o 500 (modelo 3PL)
  • 500 examinados por año
  • Software especializado de calibración TRI y simulación PAC como  Xcalibre  y  CATSim.
  • Personal con un doctorado en psicometría o un nivel equivalente de experiencia. O aproveche nuestra experiencia reconocida internacionalmente en el campo.
  • Ítems (preguntas) que se puedan calificar objetivamente como correctos/incorrectos en tiempo real
  • Un sistema de banco de ítems y una plataforma de entrega PAC
  • Recursos financieros: debido a que es tan complejo, el desarrollo de un PAC costará al menos $10,000 (USD), pero si está evaluando grandes volúmenes de examinados, será una inversión significativamente positiva. Si pagas $20/hora para supervisar los asientos y reduces la duración de un examen de 2 horas a 1 hora para solo 1000 examinados… eso es un ahorro de $20 000. ¿Y si estás haciendo 200 000 exámenes? Eso es un ahorro de $4 000 000 en tiempo de asiento.

 

Pruebas adaptativas: recursos para leer más

Visite los enlaces a continuación para obtener más información sobre la evaluación adaptativa.

  • Primero le recomendamos que lea este artículo fundamental de nuestros cofundadores.
  • Lea este artículo sobre cómo producir mejores mediciones con PAC del profesor David J. Weiss.
  • Asociación Internacional para Pruebas Adaptativas Computarizadas: www.iacat.org
  • A continuación, se incluye el enlace al seminario web sobre la historia de PAC, a cargo del padrino de PAC, el profesor David J. Weiss.

Ejemplos las pruebas adaptativas computarizadas

Muchas evaluaciones a gran escala utilizan tecnología adaptativa. El GRE (Graduate Record Examinations) es un excelente ejemplo de una prueba adaptativa. También lo es el NCLEX (examen de enfermería en los EE. UU.), el GMAT (admisión a escuelas de negocios) y muchas evaluaciones formativas como el NWEA MAP. El SAT ha pasado recientemente a un formato adaptativo de varias etapas.

Cómo implementar las pruebas adaptativas computarizadas

Nuestra revolucionaria plataforma,  FastTest, facilita la publicación de un CAT. Una vez que cargue los textos de sus artículos y los parámetros IRT, puede elegir las opciones que desee para los pasos 2, 3 y 4 del algoritmo, simplemente haciendo clic en los elementos en nuestra interfaz fácil de usar.

Contáctenos para registrarse para obtener una cuenta gratuita en nuestra plataforma PAC líder en la industria o para hablar con uno de nuestros psicometristas con doctorado.

 

modified-Angoff Beuk compromise

Un estudio con el método Angoff modificado es una de las formas más comunes de establecer una puntuación de corte defendible en un examen. Por lo tanto, significa que las decisiones de aprobado/reprobado tomadas por la prueba son más confiables que si eligiera un número redondo arbitrario como el 70%. Si su médico, abogado, contador u otro profesional ha aprobado un examen en el que la puntuación de corte se ha establecido con este método, puede confiar más en sus habilidades.

¿Qué es el método Angoff?

El método Angoff es una forma científica de establecer un puntaje de corte (punto de aprobación) en una prueba. Si tiene una interpretación basada en criterios, no es legalmente defendible simplemente elegir convenientemente un número redondo como 70%; necesita un proceso formal. Hay una serie de metodologías aceptables en la literatura psicométrica para estudios de establecimiento de estándares, también conocidos como puntajes de corte o puntos de aprobación. Algunos ejemplos incluyen Angoff, Angoff modificado, Bookmark, Grupos contrastantes y Borderline. El enfoque Angoff modificado es, por lejos, el enfoque popular. Se utiliza especialmente con frecuencia para exámenes de certificación, licencia, certificado y otras credenciales.

Originalmente fue sugerido como una mera nota a pie de página por el reconocido investigador William Angoff, del Educational Testing Service.

¿Cómo funciona el enfoque Angoff?

Primero, reúne a un grupo de expertos en la materia (EM), con un mínimo de 6, aunque se prefieren 8-10 para una mejor confiabilidad, y pídeles que definan lo que consideran un Candidato Mínimamente Competente (CMC). A continuación, pídeles que estimen el porcentaje de candidatos mínimamente competentes que responderán cada elemento correctamente. Luego, analiza los resultados en busca de valores atípicos o inconsistencias. Si los expertos no están de acuerdo, deberá evaluar la confiabilidad y el acuerdo entre evaluadores, y luego hacer que los expertos discutan y vuelvan a calificar los elementos para obtener un mejor consenso. La calificación final promedio es entonces el puntaje porcentual correcto esperado para un candidato mínimamente competente.

Ventajas del método Angoff

  1. Es defendible. Debido a que es el enfoque más comúnmente utilizado y se estudia ampliamente en la literatura científica, es bien aceptado.
  2. Puede implementarse antes de que se administre una prueba. Algunos otros métodos requieren que primero se administre la prueba a una muestra grande.
  3. Es conceptualmente simple, lo suficientemente fácil de explicar a los no psicometristas.
  4. Incorpora el juicio de un panel de expertos, no solo de una persona o un número redondo.
  5. Funciona para pruebas con teoría de pruebas clásica y teoría de respuesta al ítem.
  6. No lleva mucho tiempo implementarlo: si es una prueba corta, ¡se puede hacer en cuestión de horas!
  7. Se puede usar con diferentes tipos de ítems, incluidos ítems con puntaje politómico (multipuntos).

Desventajas del método Angoff

  1. No utiliza datos reales, a menos que implementes el método Beuk junto con él.
  2. Puede hacer que los expertos sobreestimen el desempeño de los candidatos principiantes, ya que olvidaron cómo era empezar hace 20 o 30 años. Esta es una razón para usar el método Beuk como una “verificación de la realidad” al mostrarles a los expertos que, si se quedan con el puntaje de corte que acaban de elegir, ¡la mayoría de los candidatos podrían fallar!

Ejemplo del método Angoff modificado

En primer lugar, no espere un proceso sencillo y directo que conduzca a una puntuación de corte incuestionablemente correcta. Todos los métodos de establecimiento de estándares implican cierto grado de subjetividad. El objetivo de los métodos es reducir esa subjetividad tanto como sea posible. Algunos métodos se centran en el contenido, otros en los datos de rendimiento del examinado, mientras que algunos intentan fusionar los dos.

Paso 1: Prepare a su equipo

El proceso Angoff modificado depende de una muestra representativa de EM, generalmente de 6 a 20. Cuando digo “representativa” me refiero a que deben representar a las distintas partes interesadas. Por ejemplo, una certificación para asistentes médicos podría incluir asistentes médicos, enfermeras y médicos experimentados de diferentes áreas del país. Debe capacitarlos sobre su función y cómo funciona el proceso, para que puedan comprender el objetivo final y avanzar hacia él.

Paso 2: Definir el Candidato Mínimamente Competente (CMC)

Este concepto es el núcleo del método Angoff modificado, aunque se lo conoce con una variedad de términos o acrónimos, incluidos candidatos mínimamente calificados (CMC) o apenas calificados (CAC). El razonamiento es que queremos que nuestro examen separe a los candidatos que están calificados de los que no lo están. Por lo tanto, les pedimos a los expertos en la materia que definan qué hace que alguien esté calificado (¡o no calificado!) desde una perspectiva de habilidades y conocimientos. Esto conduce a una definición conceptual de un CMC. Luego queremos estimar qué puntaje obtendría este candidato en el límite, que es el objetivo del resto del estudio. Este paso se puede realizar en persona o mediante un seminario web.

Paso 3: Calificaciones de la ronda 1

A continuación, pida a sus expertos en la materia que lean todos los ítems de su formulario de prueba y calculen el porcentaje de candidatos mínimamente competente que responderían cada uno correctamente. Una calificación de 100 significa que el ítem es una apuesta segura; es tan fácil que todos los candidato mínimamente competente lo responderían correctamente. Una calificación de 40 es muy difícil. La mayoría de las calificaciones están en el rango de 60 a 90 si los ítems están bien desarrollados. Las calificaciones deben recopilarse de forma independiente; si todos están en la misma sala, déjelos trabajar solos en silencio. Sin embargo, esto se puede realizar fácilmente de forma remota.

Paso 4: Discusión

Aquí es donde se pone divertido. Identifique los elementos en los que hay más desacuerdo (tal como se define por las distribuciones de frecuencia agrupadas o la desviación estándar) y haga que los expertos en la materia los discutan. Tal vez dos expertos en la materia pensaron que era muy fácil y le dieron un 95 y otros dos pensaron que era muy difícil y le dieron un 45. Intentarán convencer a la otra parte de su locura. Es probable que no falten opiniones y usted, como facilitador, descubrirá que su mayor desafío es mantener la reunión encaminada. Este paso se puede realizar en persona o mediante un seminario web.

Paso 5: Calificaciones de la ronda 2

Luego, los evaluadores vuelven a calificar los ítems en función de la discusión. El objetivo es que haya un mayor consenso. En el ejemplo anterior, no es probable que todos los evaluadores se conformen con un 70. Pero si todos los evaluadores terminan con una calificación entre 60 y 80, no hay problema. ¿Cómo se sabe que hay suficiente consenso? Recomendamos la confiabilidad entre evaluadores sugerida por Shrout y Fleiss (1979), así como también observar el acuerdo entre evaluadores y la dispersión de las calificaciones para cada ítem. Este uso de múltiples rondas se conoce como el enfoque Delphi; se aplica a todas las discusiones impulsadas por el consenso en cualquier campo, no solo a la psicometría.

Paso 6: Evaluar los resultados y la recomendación final

Evalúa los resultados de la Ronda 2 y de la Ronda 1. A continuación, se incluye un ejemplo de esto. ¿Cuál es la puntuación de corte recomendada, que es el promedio o la suma de las puntuaciones de Angoff según la escala que prefieras? ¿Mejoró la confiabilidad? Calcula la media y la desviación estándar de las puntuaciones de los examinados (hay varios métodos para esto). ¿Qué tipo de tasa de aprobación esperas? Mejor aún, utiliza el Compromiso de Beuk como una “verificación de la realidad” entre el enfoque de Angoff modificado y los datos de prueba reales. Debes tener en cuenta múltiples puntos de vista, y los expertos en la materia deben votar sobre una recomendación final. Por supuesto, ellos conocen el material y a los candidatos, por lo que tienen la última palabra. Esto significa que el establecimiento de estándares es un proceso político; nuevamente, reduce ese efecto tanto como puedas.

Algunas organizaciones no establecen el puntaje de corte en el punto recomendado, sino en un error estándar de juicio (ESJ) por debajo del punto recomendado. El ESJ se basa en la confiabilidad entre evaluadores; tenga en cuenta que NO es el error estándar de la media ni el error estándar de medición. Algunas organizaciones utilizan este último; el primero es simplemente incorrecto (aunque lo he visto utilizado por aficionados).

 

modified angoff

Paso 7: Redacta tu informe

La validez se refiere a la evidencia reunida para respaldar las interpretaciones de los puntajes de las pruebas. Bueno, tienes mucha evidencia relevante aquí. Documentala. Si tu prueba es cuestionada, tendrás todo esto en su lugar. Por otro lado, si simplemente elegiste 70% como tu puntaje de corte porque era un número redondo, podrías tener problemas.

Temas adicionales

En algunas situaciones, hay más cuestiones de las que preocuparse. ¿Múltiples formas? Deberá hacer alguna comparación. ¿Utiliza la teoría de respuesta al ítem? ​​Deberá convertir la puntuación de corte del método Angoff modificado a la métrica theta utilizando la función de respuesta a la prueba (FRP). ¿Tiene una nueva credencial y no dispone de datos? Ese es un verdadero problema del huevo y la gallina.

¿A dónde voy desde aquí?

¿Está listo para dar el siguiente paso y aplicar realmente el proceso Angoff modificado para mejorar sus exámenes? Regístrese para obtener una cuenta gratuita en nuestro banco de ítems FastTest. También puede descargar nuestra herramienta de análisis Angoff de forma gratuita.

Referencias

Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability. Psychological bulletin86(2), 420.

split-half-reliability-analysis

La psicometría es la ciencia de la evaluación educativa y psicológica, que utiliza datos para garantizar que las pruebas sean justas y precisas. ¿Alguna vez has sentido que hiciste una prueba que era injusta, demasiado difícil, que no cubría los temas correctos o que estaba llena de preguntas que eran simplemente confusas o estaban mal escritas? Los psicometristas son las personas que ayudan a las organizaciones a solucionar estos problemas utilizando la ciencia de datos, así como temas más avanzados como cómo diseñar un algoritmo de IA que se adapte a cada examinado.

La psicometría es un aspecto fundamental de muchos campos. Tener información precisa sobre las personas es esencial para la educación, los recursos humanos, el desarrollo de la fuerza laboral, la capacitación corporativa, las certificaciones/licencias profesionales, la medicina y más. Estudia científicamente cómo se diseñan, desarrollan, entregan, validan y califican las pruebas.

Puntos clave sobre la psicometría

  • La psicometría es el estudio de cómo medir y evaluar los constructos mentales, como la inteligencia, la personalidad o el conocimiento de las leyes contables.
  • La psicometría NO es solo una prueba de selección laboral.
  • La psicometría se dedica a hacer que las pruebas sean más precisas y justas.
  • La psicometría se basa en gran medida en el análisis de datos y el aprendizaje automático, como la teoría de respuesta a los ítems.

 

¿Qué es la psicometría?

Psychometrician Qualities

La psicometría es el estudio de la evaluación en sí, independientemente del tipo de prueba que se esté considerando. De hecho, muchos psicometristas ni siquiera trabajan en una prueba en particular, solo trabajan en la psicometría en sí, como nuevos métodos de análisis de datos. A la mayoría de los profesionales no les importa lo que mide la prueba y, a menudo, cambian de trabajo y se dedican a temas completamente ajenos, como pasar de una empresa de pruebas K-12 a una empresa de medición psicológica o a un examen de certificación de contabilidad. A menudo nos referimos a lo que estamos midiendo simplemente como “theta”, un término de la teoría de respuesta a los ítems.

La psicometría aborda cuestiones fundamentales en torno a la evaluación, como la forma de determinar si una prueba es fiable o si un ítem es de buena calidad, así como cuestiones mucho más complejas, como la forma de garantizar que la puntuación de un examen de acceso a la universidad hoy sea la misma que hace 10 años. También examina fenómenos como la variedad positiva, en la que las diferentes capacidades cognitivas tienden a estar correlacionadas positivamente, lo que respalda la coherencia y la generalización de las puntuaciones de las pruebas a lo largo del tiempo.

La psicometría es una rama de la ciencia de datos. De hecho, existe desde mucho antes de que ese término se convirtiera en una palabra de moda. ¿No me cree? Eche un vistazo a este curso de Coursera sobre ciencia de datos y el primer ejemplo que ofrecen como uno de los proyectos seminales de referencia en la ciencia de datos es… ¡la psicometría! (una investigación temprana sobre el análisis factorial de la inteligencia).

Aunque la evaluación está en todas partes y la psicometría es un aspecto esencial de la evaluación, para la mayoría de las personas sigue siendo una caja negra y a los profesionales se les llama en broma “psicomagos“. Sin embargo, es importante que todos los que trabajan en la industria de las pruebas tengan un conocimiento básico de ella, especialmente aquellos que desarrollan o venden pruebas.

La psicometría NO se limita a tipos muy específicos de evaluación. Algunas personas usan el término indistintamente con conceptos como pruebas de CI, evaluación de la personalidad o pruebas previas al empleo. ¡Estas son solo pequeñas partes del campo! Además, no es la administración de una prueba.

 

¿Por qué necesitamos la psicometría?

El objetivo de las pruebas es proporcionar información útil sobre las personas, como por ejemplo si conviene contratarlas, certificarlas en una profesión o determinar qué enseñarles a continuación en la escuela. Unas mejores pruebas implican mejores decisiones. ¿Por qué? La evidencia científica es abrumadora de que las pruebas proporcionan mejor información a los que toman decisiones que muchos otros tipos de información, como entrevistas, currículums o logros educativos. Por lo tanto, las pruebas cumplen una función extremadamente útil en nuestra sociedad.

El objetivo de la psicometría es proporcionar validez, es decir, evidencia que respalde que las interpretaciones de los resultados de las pruebas son las que pretendíamos. Si se supone que una prueba de certificación significa que alguien que la aprueba cumple con el estándar mínimo para trabajar en un determinado puesto, necesitamos mucha evidencia al respecto, especialmente porque la prueba es de gran importancia en ese caso. El metaanálisis, una herramienta clave en psicometría, agrega los hallazgos de investigación de diferentes estudios para proporcionar evidencia sólida sobre la confiabilidad y validez de las pruebas. Al sintetizar datos de múltiples estudios, el metanálisis fortalece las afirmaciones de validez de las pruebas, lo que es especialmente crucial en los exámenes de certificación de alto riesgo donde la precisión y la imparcialidad son primordiales.

 

¿Qué hace la psicometría?

test development cycle job task analysis psychometrics

Crear y mantener una prueba de alta calidad no es fácil. Pueden surgir muchos problemas importantes. Gran parte del campo gira en torno a resolver preguntas importantes sobre las pruebas: qué deberían cubrir, qué es una buena pregunta, cómo establecemos un buen puntaje de corte, cómo nos aseguramos de que la prueba prediga el desempeño laboral o el éxito de los estudiantes, etc. Muchas de estas preguntas se alinean con el ciclo de desarrollo de la prueba; hablaremos más sobre eso más adelante.

¿Cómo definimos lo que debe cubrir la prueba? (Diseño de la prueba)

Antes de escribir cualquier elemento, debe definir muy específicamente lo que incluirá la prueba. Si la prueba es para acreditación o preempleo, los psicometristas generalmente realizan un estudio de análisis del trabajo para formar una base científica cuantitativa para los planos de la prueba. Un análisis del trabajo es necesario para que un programa de certificación obtenga la acreditación. En educación, la cobertura de la prueba a menudo se define por el plan de estudios.

¿Cómo nos aseguramos de que las preguntas sean de buena calidad? (Redacción de ítems)

Existe una gran cantidad de literatura científica sobre cómo desarrollar ítems de prueba que midan con precisión lo que se intenta medir. Un excelente resumen es el libro de Haladyna. Esto no se limita solo a los ítems de opción múltiple, aunque ese enfoque sigue siendo popular. Los psicometristas aprovechan su conocimiento de las mejores prácticas para guiar el proceso de creación y revisión de ítems de una manera que dé como resultado un contenido de prueba altamente defendible. El software de banco de ítems profesional proporciona la forma más eficiente de desarrollar contenido de alta calidad y publicar múltiples formularios de prueba, así como almacenar información histórica importante, como las estadísticas de los ítems.

¿Cómo establecemos un puntaje de corte defendible? (Establecimiento de estándares)

Los puntajes de las pruebas se utilizan a menudo para clasificar a los candidatos en grupos como aprobado/reprobado (Certificación/Licencia), contratado/no contratado (Pre-empleo) y por debajo del básico/básico/competente/avanzado (Educación). Los psicometristas realizan estudios para determinar los puntajes de corte, utilizando metodologías como Angoff, Beuk, Grupos contrastantes y Límite.

¿Cómo analizamos los resultados para mejorar el examen? (Análisis psicométrico)

Los psicometristas son esenciales para este paso, ya que los análisis estadísticos pueden ser bastante complejos. Las organizaciones de pruebas más pequeñas suelen utilizar la teoría clásica de las pruebas, que se basa en matemáticas simples como proporciones y correlaciones. Las organizaciones grandes y de alto perfil suelen utilizar la teoría de respuesta al ítem (TRI), que se basa en un tipo de análisis de regresión no lineal. Los psicometristas evalúan la confiabilidad general de la prueba, la dificultad y la discriminación de los ítems, el análisis de distractores, el sesgo potencial, la multidimensionalidad, la vinculación de múltiples formularios/años de prueba y mucho más. También hay software disponible como  Iteman  y  Xcalibre  para organizaciones con suficiente experiencia para ejecutar análisis estadísticos internamente. Desplácese hacia abajo para ver ejemplos.

¿Cómo comparamos las puntuaciones entre grupos o años? (Equivalencia)

Esto se conoce como vincular y equiparar. Hay algunos psicometristas que dedican toda su carrera a este tema. Si estás trabajando en un examen de certificación, por ejemplo, quieres asegurarte de que el estándar de aprobación sea el mismo este año que el año pasado. Si aprobaste el 76 % el año pasado y este año aprobaste el 25 %, no solo los candidatos se enojarán, sino que habrá mucha menos confianza en el significado de la credencial.

¿Cómo sabemos que la prueba está midiendo lo que debería? (Validez)

La validez es la evidencia proporcionada para respaldar las interpretaciones de las puntuaciones. Por ejemplo, podríamos interpretar las puntuaciones en una prueba para reflejar el conocimiento del inglés, y necesitamos proporcionar documentación e investigación que respalde esto. Hay varias formas de proporcionar esta evidencia. Un enfoque sencillo es establecer evidencia relacionada con el contenido, que incluye la definición de la prueba, los planos y la creación/revisión de los ítems. En algunas situaciones, la evidencia relacionada con criterios es importante, ya que correlaciona directamente los puntajes de las pruebas con otra variable de interés. Presentar las pruebas de manera segura también es esencial para la validez.

 

¿Dónde se utiliza la psicometría?

Certificación/licencia/credencialización

En las pruebas de certificación, los psicometristas desarrollan la prueba a través de una cadena documentada de evidencia siguiendo una secuencia de investigación delineada por los organismos de acreditación, generalmente: análisis del trabajo, planos de prueba, redacción y revisión de ítems, estudio de puntajes de corte y análisis estadístico. El software de banco de ítems basado en la web como  FastTest  suele ser útil porque el comité de examen a menudo está compuesto por expertos ubicados en todo el país o incluso en todo el mundo; luego pueden iniciar sesión fácilmente desde cualquier lugar y colaborar.

Pruebas previas al empleo

En las pruebas previas al empleo, la evidencia de validez se basa principalmente en establecer el contenido apropiado (una prueba sobre programación PHP para un trabajo de programación PHP) y la correlación de las puntuaciones de las pruebas con un criterio importante como las calificaciones de desempeño laboral (muestra que la prueba predice un buen desempeño laboral). Las pruebas adaptativas se están volviendo mucho más comunes en las pruebas previas al empleo porque brindan varios beneficios, el más importante de los cuales es reducir el tiempo de prueba en un 50%, un gran logro para las grandes corporaciones que evalúan a un millón de solicitantes cada año. Las pruebas adaptativas se basan en la teoría de respuesta a los ítems y requieren un psicometrista especializado, así como un software especialmente diseñado como  FastTest.

Educación K-12

La mayoría de las evaluaciones en educación caen en una de dos categorías: evaluación formativa de menor riesgo en las aulas y evaluaciones sumativas de mayor riesgo, como los exámenes de fin de año. La psicometría es esencial para establecer la confiabilidad y validez de los exámenes de mayor riesgo y para equiparar los puntajes en diferentes años. También son importantes para las evaluaciones formativas, que están avanzando hacia formatos adaptativos debido a la reducción del 50% en el tiempo de prueba, lo que significa que los estudiantes pasan menos tiempo evaluando y más tiempo aprendiendo.

Universidades

Las universidades no suelen pensar mucho en la psicometría, a pesar de que se realiza una cantidad significativa de pruebas en la educación superior, especialmente con la transición al aprendizaje en línea y los MOOC. Dado que muchos de los exámenes son de alto riesgo (¡considere un examen de certificación después de completar un programa de posgrado de un año!), se deben utilizar psicometristas para establecer puntajes de corte legalmente defendibles y análisis estadísticos para garantizar pruebas confiables, y sistemas de evaluación diseñados profesionalmente para desarrollar y entregar pruebas, especialmente con mayor seguridad.

Medicina/Psicología

¿Alguna vez ha realizado una encuesta en el consultorio de su médico o antes o después de una cirugía? ¿Quizás un inventario de depresión o ansiedad en un psicoterapeuta? Los psicometristas han trabajado en estos temas.

 

El ciclo de desarrollo de pruebas

La psicometría es el núcleo del ciclo de desarrollo de pruebas, que es el proceso de desarrollar un examen sólido. A veces se le conoce con nombres similares, como ciclo de vida de la evaluación.

Reconocerás algunos de los términos de la introducción anterior. Lo que estamos tratando de demostrar aquí es que esas preguntas no son temas independientes, o algo que haces una vez y simplemente presentas un informe. Un examen suele ser algo vivo. Las organizaciones suelen volver a publicar una nueva versión cada año o cada 6 meses, lo que significa que gran parte del ciclo se repite en esa línea de tiempo. No todo lo es; por ejemplo, muchas organizaciones solo realizan un análisis de trabajo y un establecimiento de estándares cada 5 años.

Considere un examen de certificación en atención médica. La profesión no cambia rápidamente porque cosas como la anatomía nunca cambian y los procedimientos médicos rara vez cambian (por ejemplo, cómo medir la presión arterial). Entonces, cada 5 años realiza un análisis de trabajo de sus certificados para ver qué están haciendo y qué es importante. Esto luego se convierte en planos de prueba. Los ítems se vuelven a asignar si es necesario, pero lo más probable es que no lo necesiten porque probablemente solo haya cambios menores en los planos. Luego, se establece un nuevo puntaje de corte con el método Angoff modificado y la prueba se entrega este año. Se entrega nuevamente el próximo año, pero se equipara a este año en lugar de comenzar de nuevo. Sin embargo, las estadísticas de los elementos aún se analizan, lo que conduce a un nuevo ciclo de revisión de elementos y publicación de un nuevo formulario para el próximo año.

 

Ejemplo de psicometría en acción

A continuación se muestra un resultado de nuestro software Iteman. Se trata de un análisis profundo de una sola pregunta de vocabulario en inglés para ver si el estudiante conoce la palabra ‘aliviar’. Alrededor del 70% de los estudiantes respondieron correctamente, con un biserial de puntos muy fuerte. Los valores P de distractores fueron todos minoritarios y los biserial de puntos de distractores fueron negativos, lo que agrega evidencia a la validez. El gráfico muestra que la línea para la respuesta correcta sube mientras que las demás bajan, lo cual es algo bueno. Si está familiarizado con la teoría de respuesta al ítem, notará cómo la línea azul es similar a una función de respuesta al ítem. Eso no es una coincidencia.

FastTest Itememan Psychometrics Analysis

 

Ahora, veamos otra pregunta más interesante. Aquí hay una pregunta de vocabulario sobre la palabra ‘confectioner’ (pastelero). Observa que solo el 37 % de los estudiantes la responde correctamente… ¡aunque hay un 25 % de posibilidades de que solo adivinen! Sin embargo, la discriminación biserial puntual sigue siendo muy fuerte, con un 0,49. Eso significa que es un ítem realmente bueno. Es simplemente difícil, lo que significa que hace un gran trabajo al diferenciar entre los mejores estudiantes.

 

Confectioner confetti

¡La psicometría suena divertida! ¿Cómo puedo unirme a la banda?

Necesitarás un título de posgrado. Te recomiendo que consultes el sitio web de NCME (ncme.org) para obtener recursos para estudiantes. ¡Buena suerte!

¿Ya tienes un título y estás buscando trabajo? Estos son los dos sitios que recomiendo:

  • NCME: también tiene una página de anuncios de empleo que es realmente buena (ncme.org)
  • Horizon Search: búsqueda de talentos para psicometristas y psicólogos de I/O

La revisión de ítems es el proceso de garantizar que las preguntas de prueba recién escritas pasen por una rigurosa revisión por pares, para garantizar que sean de alta calidad y cumplan con los estándares de la industria.

¿Qué es un flujo de trabajo de revisión de ítems?

Desarrollar un banco de ítems de alta calidad es un proceso extremadamente complejo, y la creación de los ítems es solo el primer paso. Los ítems deben pasar por un flujo de trabajo definido, con varias personas que brindan revisión de ítems. Por ejemplo, puede requerir que todos los ítems sean revisados ​​por otro experto en contenido, un psicometrista, un editor y un revisor de sesgos. Cada uno debe brindar su aporte y pasar el ítem al siguiente en la fila. Debe registrar los resultados de la revisión para la posteridad, ya que parte del concepto de validez es que tenemos documentación para respaldar el desarrollo de una prueba.

¿Qué revisar?

Primero debe establecer qué desea revisar. Las organizaciones de evaluación a menudo formalizan las pautas como una Guía de redacción de ítems. Esta es la guía que Assessment Systems utiliza con nuestros clientes, pero también recomiendo consultar la Guía de redacción de ítems de NBME. Para un tratamiento aún más profundo, recomiendo el libro Developing and Validating Test Items de Haladyna y Rodríguez (2013).

A continuación, se presentan algunos aspectos a tener en cuenta para la revisión de ítems.

Contenido

Lo más importante es que otros expertos en contenido revisen el contenido del ítem. ¿La respuesta correcta es realmente correcta? ¿Son todos los distractores realmente correctos? ¿El enunciado proporciona toda la información necesaria? ¡Te sorprendería saber cuántas veces estos problemas se les escapan incluso a los mejores revisores!

Psicometría

Los psicometristas suelen revisar un ítem para confirmar que cumple con las mejores prácticas y que no hay pistas. Un error común es que la respuesta correcta suele ser más larga (más palabras) que los distractores. Algunas organizaciones evitan “todo lo anterior” y otros enfoques.

Formato

A veces se contrata a editores formales para que trabajen en el lenguaje y el formato del ítem. Un error común es terminar el enunciado con dos puntos, aunque eso no siga las reglas gramaticales básicas del inglés.

Sesgo/Sensibilidad

Para los exámenes de alto riesgo que se utilizan en poblaciones diversas, es importante agregar este paso. No quieres artículos que estén sesgados contra un subconjunto de estudiantes. Esto no es solo racial; puede incluir otras diferenciaciones de estudiantes. Hace años trabajé en artículos para el estado de Alaska, EE. UU., que tiene algunas regiones increíblemente rurales; ¡tuvimos que evitar conceptos que muchas personas dan por sentado, como carreteras o centros comerciales!

Cómo implementar un flujo de trabajo de revisión de ítems

 

Este es un ejemplo de cómo implementar el proceso en una plataforma de banco de artículos de nivel profesional. Ambas plataformas,  FastTest  y  Assess.ai, tienen una potente funcionalidad para gestionar este proceso. Los usuarios administradores pueden definir las etapas y la información requerida, y luego gestionar los miembros del equipo y el flujo de artículos. Assess.ai es único en la industria con su uso de tableros Kanban, reconocidos como la mejor interfaz de usuario para la gestión del flujo de trabajo, para la revisión de artículos.

item review kanban

Un paso adicional, a menudo al mismo tiempo, es la configuración estándar. Uno de los enfoques más comunes se llama método Angoff modificado, que requiere que obtenga una calificación de dificultad de un equipo de expertos para cada artículo. ¡Las interfaces de revisión de artículos también se destacan en la gestión de este proceso, lo que le ahorra todo el esfuerzo de administrar manualmente ese proceso!

Assess.ai item review submit options

CREAR FLUJO DE TRABAJO

Especifique sus etapas y cómo los elementos pueden moverse entre ellas

DEFINA SUS CAMPOS DE REVISIÓN
Estos son campos de metadatos de elementos especiales que requieren la entrada de varios usuarios

MOVER NUEVOS ÍTEMS AL FLUJO DE TRABAJO
Una vez que se escribe un ítem, está listo para su revisión

ASIGNAR ÍTEMS A LOS USUARIOS
Asignar el ítem en la interfaz de usuario, con la opción de enviar un correo electrónico

LOS USUARIOS REALIZAN REVISIONES
Pueden leer el ítem, interactuar como lo haría un estudiante y luego dejar comentarios y otros metadatos en los campos de revisión; luego, enviar el ítem a la siguiente etapa

LOS ADMINISTRADORES EVALÚAN/EXPORTAN LOS RESULTADOS
Los administradores pueden evaluar los resultados y decidir si un ítem necesita una revisión o si se puede considerar liberado.