student-profile-cognitive-diagnostic-models

¿Qué son los Modelos de Diagnóstico Cognitivo?

Los modelos de diagnóstico cognitivo (CDMs, por sus siglas en inglés) son un marco psicométrico diseñado para mejorar la estructura y la puntuación de los exámenes. En lugar de proporcionar solo un puntaje global, los CDMs generan un perfil detallado del dominio que un examinado tiene sobre habilidades específicas. Este enfoque ofrece información más profunda sobre fortalezas y debilidades individuales, lo que los hace particularmente útiles en evaluaciones educativas y psicológicas.

Los CDMs han experimentado un crecimiento significativo en investigación y aplicación durante la última década, aunque sus bases matemáticas se remontan a MacReady y Dayton (1977). Su creciente popularidad se debe a la necesidad de evaluaciones más precisas en contextos donde un único puntaje global es insuficiente. Por ejemplo, en evaluaciones educativas formativas, comprender las fortalezas y debilidades específicas de un estudiante es crucial para proporcionar retroalimentación significativa. En cambio, los exámenes de certificación profesional suelen basarse en un único puntaje de aprobación o reprobación derivado del rendimiento general.

Comprendiendo los Modelos de Diagnóstico Cognitivo: Un Enfoque Diferente

Desde la década de 1980, la Teoría de Respuesta al Ítem (IRT), también conocida como teoría de rasgos latentes, ha sido el paradigma psicométrico dominante. Sin embargo, los CDMs pertenecen a un marco distinto llamado teoría de clases latentes. En lugar de asumir una medición unidimensional, la teoría de clases latentes categoriza a los examinados según múltiples atributos o habilidades.

El objetivo final de los CDMs no es generar un único puntaje numérico, sino desarrollar un perfil integral que indique qué habilidades ha dominado un examinado y cuáles no. Estas habilidades, a menudo relacionadas con capacidades cognitivas, ayudan a identificar áreas de fortaleza y debilidad. Esta capacidad de diagnóstico hace que los CDMs sean especialmente valiosos para evaluaciones formativas, donde la retroalimentación dirigida puede impulsar mejoras.

Un Ejemplo Práctico: Fracciones en Matemáticas

Para ilustrar cómo funcionan los CDMs, consideremos una evaluación formativa diseñada para evaluar la comprensión de fracciones en los estudiantes. Imaginemos que el currículo se enfoca en las siguientes habilidades específicas:

  • Encontrar el mínimo común denominador
  • Sumar fracciones
  • Restar fracciones
  • Multiplicar fracciones
  • Dividir fracciones
  • Convertir números mixtos en fracciones impropias

Supongamos que una de las preguntas del examen es:
¿Cuánto es 2 ¾ + 1 ½?

Responder esta pregunta requiere dominar tres habilidades:

  • Encontrar el mínimo común denominador
  • Sumar fracciones
  • Convertir números mixtos en fracciones impropias

Los investigadores utilizan una herramienta llamada Matriz Q para mapear qué habilidades evalúa cada pregunta. Aquí hay un ejemplo simplificado:

Ítem Mínimo Común Denominador Sumar Fracciones Restar Fracciones Multiplicar Fracciones Dividir Fracciones Convertir Números Mixtos
Ítem 1 X X X
Ítem 2 X X
Ítem 3 X X
Ítem 4 X X

Esta matriz ayuda a identificar qué habilidades ha dominado un estudiante y resalta las áreas que necesitan más práctica.

¿Cómo se Determina el Perfil de Habilidades de un Examinado?

Aquí es donde brillan los modelos de diagnóstico cognitivo. Se les llama modelos en plural porque existen varios tipos de CDMs, al igual que hay diferentes modelos dentro de la IRT, como el modelo de Rasch, el modelo de dos parámetros y el modelo de crédito parcial generalizado. La elección del CDM depende de las características del examen y las necesidades específicas de la evaluación.

Uno de los modelos más simples es el modelo DINA, que utiliza dos parámetros para cada ítem:

  • Slippage (s): La probabilidad de que un estudiante que domina las habilidades necesarias responda incorrectamente.
  • Guessing (g): La probabilidad de que un estudiante sin las habilidades necesarias responda correctamente.

El proceso para determinar un perfil de habilidades implica cálculos matemáticos complejos basados en estimaciones de máxima verosimilitud. Los pasos incluyen:

  1. Listar todos los posibles perfiles de habilidades.
  2. Calcular la probabilidad de cada perfil utilizando los parámetros del ítem y las respuestas del examinado.
  3. Seleccionar el perfil con la mayor probabilidad.

La estimación de los parámetros del ítem es computacionalmente intensiva. Mientras que la estimación de parámetros en IRT puede realizarse con software como Xcalibre, los CDMs requieren herramientas más avanzadas como MPlus o R.

Más allá de identificar el perfil de habilidades más probable, los CDMs también pueden proporcionar la probabilidad de que un examinado haya dominado cada habilidad específica. Este nivel de detalle diagnóstico es invaluable en contextos como la evaluación formativa, donde la retroalimentación personalizada puede impulsar mejoras significativas.

¿Cómo Implementar Modelos de Diagnóstico Cognitivo?

Para implementar los CDMs de manera efectiva, es importante analizar los datos y evaluar qué tan bien se ajustan los modelos a los ítems de prueba. Como se mencionó anteriormente, software como MPlus o R puede ayudar con este análisis.

Publicar una evaluación completamente funcional que utilice CDMs para la puntuación es una tarea desafiante. La mayoría de las pruebas basadas en CDMs son propietarias y desarrolladas por grandes empresas educativas que emplean psicométricos para diseñar y refinar sus evaluaciones. Estas empresas suelen proporcionar bancos de evaluaciones formativas para escuelas, especialmente para estudiantes de los grados 3 a 12.

Si estás interesado en desarrollar tus propias evaluaciones basadas en CDMs, las opciones actualmente son limitadas. Sin embargo, plataformas como FastTest pueden apoyarte en el desarrollo, la entrega y el análisis de pruebas.

¿Listo para Aprender Más?

Si estás interesado en profundizar en los modelos de diagnóstico cognitivo, aquí tienes algunos recursos excelentes:

  • Alan Huebner ofrece un artículo fascinante sobre pruebas adaptativas utilizando el modelo DINA, con una introducción informativa a los CDMs.
  • Jonathan Templin, un experto destacado de la Universidad de Iowa, proporciona recursos fantásticos en su sitio web.
  • Un libro en PDF gratuito de Rupp, Templin y Hansen está disponible en Mindful Measurement.
  • Para una comprensión más completa, consulta este libro de texto altamente recomendado sobre CDMs.

Los CDMs ofrecen herramientas poderosas para evaluaciones más detalladas, permitiendo a educadores e investigadores obtener información precisa sobre las habilidades cognitivas de los examinados. Ya sea que seas nuevo en este enfoque o estés buscando implementarlo en tu sistema de evaluación, explorar los CDMs puede mejorar significativamente el valor de tus pruebas.

psychometrics-possibilities

El Objetivo: Evaluación de Calidad

El 31 de marzo de 2017, leí un artículo en The Industrial-Organizational Psychologist (la revista publicada por la Society for Industrial Organizational Psychology) que realmente resonó conmigo:

¿Ha Perdido el Rumbo la Psicología Industrial-Organizacional?
Por Deniz S. Ones, Robert B. Kaiser, Tomas Chamorro-Premuzic, Cicek Svensson

¿Por qué? Porque muchos de sus puntos se aplican a la psicometría y su estado actual de innovación. Resumen sus preocupaciones en seis puntos clave:

  • Énfasis excesivo en la teoría
  • Fijación en minucias metodológicas triviales
  • Supresión de la exploración y la innovación
  • Obsesión con la publicación, ignorando los problemas prácticos
  • Distracción por modas pasajeras
  • Pérdida de influencia en el mundo real frente a otros campos

¿Cuál Debería Ser el Propósito de la Psicometría?

Lo que más me ha molestado a lo largo de los años es el énfasis excesivo en la teoría y los detalles insignificantes en lugar de resolver problemas prácticos. Por esta razón, dejé de asistir a conferencias de NCME y, en su lugar, comencé a participar en eventos más prácticos como ATP.psychometrician in code

Mi objetivo es mejorar la calidad de la evaluación a nivel mundial. Desarrollar metodologías DIF esotéricas, nuevos modelos multidimensionales de IRT o sub-algoritmos de CAT que mejoren la eficiencia solo un 0.5% no tendrá un impacto significativo en la gran cantidad de evaluaciones deficientes que existen ni en las decisiones erróneas que generan. La investigación tiene su lugar, pero las mejoras prácticas están desatendidas.

Ejemplo: Acreditación

La acreditación es un ejemplo claro de la importancia de la calidad en la evaluación. Muchas pruebas de certificación y licenciamiento que se utilizan para tomar decisiones críticas están mal diseñadas. Algunas organizaciones simplemente no se preocupan, mientras que otras enfrentan limitaciones externas.

Una vez trabajé con un Departamento de Agricultura en un estado del oeste de EE.UU., donde la legislatura exigía pruebas de licenciamiento para profesiones con tan solo tres examinados al año.

¿Cómo podemos alentar a estos grupos a seguir mejores prácticas? Tradicionalmente, tendrían que contratar consultores costosos, algo inviable para organizaciones pequeñas. ¿Por qué gastar $5,000 en un estudio de Angoff para solo tres candidatos al año? No los culpo por evitarlo, pero el resultado son pruebas de baja calidad que certifican a profesionales no calificados.

Una Oportunidad para la Innovación

Todavía hay innovación en nuestro campo, pero a menudo está mal dirigida. Las grandes corporaciones contratan doctores en psicometría recién graduados y luego los asignan a tareas repetitivas, como ejecutar scripts de SAS o realizar estudios de Angoff una y otra vez. Lo viví en carne propia y, después de 18 meses, quería algo más.

Peor aún, gran parte de la innovación no está enfocada en una mejor medición. Vi a alguien promoviendo la gamificación en las evaluaciones, argumentando que la precisión de la medición no importaba. Esto, por supuesto, es absurdo. Una interfaz atractiva no tiene sentido si los resultados son simplemente números aleatorios.

Innovación en Psicometría en ASC

En ASC, gran parte de nuestra innovación está orientada a resolver estos problemas. Desarrollé Iteman 4 y Xcalibre 4 para permitir que las organizaciones generen informes psicométricos profesionales sin necesidad de contratar consultores costosos. A diferencia de otros programas que generan archivos de texto o hojas de cálculo de Excel, nuestras herramientas crean informes directamente en Microsoft Word, lo que facilita su uso.

Del mismo modo, nuestra plataforma FastTest fue diseñada para modernizar los procesos de evaluación. Realizar un estudio de Angoff con ítems proyectados y expertos anotando calificaciones en papel está desactualizado. FastTest permite hacer esto en línea, facilitando la participación remota de expertos y reduciendo costos. ¿Quieres publicar un examen adaptativo (CAT) sin programar? Lo hemos integrado directamente en la interfaz de publicación de pruebas.

Volviendo a la Pregunta Original

La pregunta era: ¿Qué debería estar haciendo la psicometría?
Mi respuesta: mejorar la evaluación. La investigación matemática avanzada es útil, pero solo para el 5% de las organizaciones más avanzadas. Como psicometristas, es nuestra responsabilidad encontrar formas de ayudar al otro 95%.

El Futuro: Automatización en la Psicometría

El futuro está en la automatización. Iteman 4, Xcalibre 4 y FastTesteran herramientas efectivas de machine learningantes de que el término se pusiera de moda. Otros campos, como Big Data, están ganando influencia aplicando conceptos que la psicometría ha utilizado durante décadas. La Teoría de Respuesta al Ítem (IRT), por ejemplo, es una forma de machine learning que ha existido durante 50 años.

Si buscas mejorar tus prácticas de evaluación, las herramientas de ASC pueden ayudarte. Contáctanos hoy mismo para descubrir cómo la automatización y la innovación pueden optimizar tus procesos psicométricos.

 

automated test assembly

Los límites de tiempo son un parámetro esencial en prácticamente todos los tipos de evaluación. Un límite de tiempo es la duración asignada a los individuos para completar su evaluación o una parte definida de ella. Gestionar el tiempo de los exámenes de manera efectiva garantiza equidad, precisión y una experiencia agradable para todos los examinados. Por lo tanto, es un componente clave de la validez de la prueba, lo que significa que debemos investigar y establecer los límites de tiempo de manera reflexiva.

En este artículo, exploraremos el concepto de cronometraje en los exámenes, cómo se determinan los límites de tiempo y cómo se brindan ajustes para quienes necesitan tiempo adicional.

 

Evaluaciones de Potencia vs. Velocidad vs. Tiempo Controlado

Cuando hablamos del papel del tiempo en las evaluaciones, existen tres tipos principales. Este artículo se centra en los exámenes cronometrados, pero puedes leer más sobre pruebas de velocidad y potencia en este artículo.

Potencia (Power Tests)

Este tipo de prueba no tiene límite de tiempo, lo que permite que el examinado tenga todo el tiempo que necesite para demostrar cuánto puede hacer y hasta dónde puede llegar. El objetivo es medir el máximo nivel de rendimiento del examinado.

Ejemplo: Un examen de matemáticas con ejercicios avanzados que podrían estar más allá del nivel de aprendizaje del estudiante, pero que podrían ser resueltos si se les da suficiente tiempo.

Velocidad (Speeded Tests)

En estas pruebas, el límite de tiempo es lo suficientemente ajustado como para afectar el rendimiento. El objetivo es evaluar la rapidez del examinado.

Ejemplo: Proporcionar una lista de 100 problemas matemáticos simples y medir cuántos puede resolver en 30 segundos. O dar una lista de 100 palabras para corregir en el mismo tiempo.

En estos casos, la puntuación sigue dependiendo de las respuestas correctas, pero está condicionada por el tiempo disponible. En algunas evaluaciones, el tiempo en sí es la calificación, como cuando se mide el tiempo que una persona tarda en correr una milla.

Tiempo Controlado (Timed Tests)

Son pruebas con límite de tiempo, pero diseñado de manera que no afecte a la mayoría de los examinados. La mayoría de las evaluaciones entran en esta categoría.

Ejemplo: Un examen de 100 preguntas con un límite de 2 horas, donde la mayoría de los examinados terminan en 1.5 horas. El límite existe para evitar que una persona pase todo el día en la prueba, pero en general, no afecta su rendimiento.

Factores Claves al Determinar los Límites de Tiempo

Varios factores se consideran al decidir los límites de tiempo de una evaluación:

  1. Complejidad del Contenido 
  2. Carga de Tiempo de las Preguntas 
    • Si el examen incluye pasajes de lectura, videos, imágenes complejas como radiografías, o cualquier otro material que deba analizarse antes de responder, el tiempo debe ajustarse en consecuencia.
  3. Propósito de la Evaluación 
    • En exámenes de alta importancia, como certificaciones o licencias, se busca medir un conocimiento profundo y se necesita alta fiabilidad y validez.
    • Para pruebas rápidas, como un test de matemáticas de 4º grado o una evaluación previa al empleo, un límite de tiempo más corto es suficiente y acorde con el objetivo de la prueba.
  4. Seguridad del Examen 
    • Algunas personas intentan robar contenido del examen. Un tiempo extra prolongado puede permitir que memoricen preguntas para filtrarlas en sitios ilegales.

Cómo Determinar los Límites de Tiempo en Pruebas Lineales 

Los desarrolladores de exámenes utilizan datos históricos y modelos estadísticos para estimar el tiempo óptimo para los examinados. Basándose en evidencia empírica, pueden predecir cuánto tiempo necesita un examinado promedio y ajustar el límite en consecuencia.

Ejemplo: Si un examen tiene 100 preguntas y cada una toma 1 minuto en promedio, entonces un límite de 120 minutos (2 horas) es razonable.

test time limits metadata

Cómo Determinar los Límites de Tiempo en Pruebas Adaptativas

A diferencia de los exámenes tradicionales, donde todos responden las mismas preguntas, los exámenes adaptativos ajustan la dificultad en tiempo real según el desempeño del examinado.

Ejemplo: El examen de licencia de enfermería NCLEX tiene entre 85 y 150 preguntas, por lo que los tiempos varían según el número de preguntas presentadas.

El ASVAB (prueba de aptitud para las Fuerzas Armadas de EE.UU.) es otro examen adaptativo que utiliza un enfoque lineal para determinar el tiempo, garantizando que el 98% de los examinados finalicen sin que el tiempo sea una limitación.

 

Extensiones de Tiempo: Ajustes para los Examinados

Las pruebas deben considerar a personas con necesidades especiales, como aquellas con dislexia, TDAH o discapacidades visuales. Estas personas pueden requerir tiempo adicional o herramientas de apoyo, como lectores de pantalla.

Las extensiones de tiempo se otorgan basadas en documentación médica o educativa, asegurando que los ajustes sean justos y no brinden ventajas indebidas.

test time accomodations

 

Tipos de Límites de Tiempo en los Exámenes

Los límites de tiempo pueden aplicarse en varios niveles:

  • Por Pregunta: Ejemplo: Un test de memoria de trabajo con un límite de 30 segundos por pregunta.
  • Por Sección: Ejemplo: Un examen dividido en secciones con pausas intermedias.
  • Por Examen Completo: El formato más común, con un límite de tiempo global.
  • Por Sesión: En baterías de pruebas, puede haber un límite total para todo el proceso.

Las funciones de tiempo también deben integrarse con las medidas de seguridad, como el control de reingreso. Por ejemplo, nuestra plataforma Assess.ai tiene una opción donde el temporizador sigue corriendo incluso si el examinado se ausenta.

 

Session Security time limits

Conclusión: La Importancia de Establecer Límites de Tiempo Efectivos

Determinar el tiempo adecuado para una evaluación no es solo una cuestión técnica, sino un factor clave para garantizar equidad, precisión y validez. Un límite de tiempo bien diseñado equilibra la necesidad de evaluar el conocimiento sin imponer restricciones innecesarias a los examinados.

Ya sea en pruebas de potencia, velocidad o cronometradas, es esencial considerar la complejidad del contenido, la seguridad del examen y las necesidades de los examinados con ajustes especiales. Además, en pruebas adaptativas, la flexibilidad en los límites de tiempo puede mejorar la precisión de la evaluación.

En última instancia, establecer límites de tiempo efectivos es un paso fundamental para diseñar evaluaciones justas y confiables. Al implementar buenas prácticas y basarnos en evidencia empírica, podemos garantizar que cada examinado tenga la oportunidad de demostrar su verdadero nivel de conocimiento sin que el tiempo sea una barrera.

job-task-analysis

¿Qué es un KSAO?

Los KSAOs (Conocimientos, Habilidades, Capacidades y Otras Características) son una forma de definir los atributos humanos necesarios para tener éxito en un trabajo. Son esenciales en Recursos Humanos y Desarrollo Organizacional, influyendo en procesos críticos como el reclutamiento, la selección y la compensación.

Este artículo introduce los KSAOs y explica su impacto en las evaluaciones laborales, como pruebas de preselección o exámenes de certificación/licencia.

 ¿Necesitas ayuda para desarrollar una evaluación basada en principios psicométricos sólidos como el análisis de puesto y KSAOs? O tal vez solo una plataforma de software que facilite el proceso. ¡Contáctanos!

¿Qué es un KSAO? Conocimientos, Habilidades, Capacidades y Otras Características

KSAO es un acrónimo que representa cuatro componentes esenciales:

Conocimientos – Comprensión de conceptos, hechos e información necesarias para un puesto. Ejemplo: Un desarrollador de software necesita conocimientos de lenguajes como Python o Java.

hr-interview-pre-employment

 Habilidades – Competencias adquiridas para realizar tareas específicas. Ejemplo: Un contador necesita habilidades en análisis financiero y manejo de hojas de cálculo.

Capacidades – Rasgos naturales o desarrollados que determinan el desempeño en ciertas tareas. Ejemplo: Un cirujano necesita capacidad de mantener la calma bajo presión y precisión manual.

Otras características – Rasgos personales que pueden influir en el desempeño laboral. Ejemplo: Un representante de servicio al cliente debe tener una actitud positiva y excelentes habilidades de comunicación.

Ejemplos de KSAOs en diferentes roles

Enfermero/a registrado/a

  • Conocimientos: Terminología médica, protocolos de atención, farmacología.
  • Habilidades: Administración de inyecciones, manejo de equipos médicos, registro de datos.
  • Capacidades: Resistencia emocional, pensamiento crítico, resistencia física.
    Otras características: Compasión, trabajo en equipo, atención al detalle.

Gerente de marketing

  • Conocimientos: Investigación de mercado, tendencias de marketing digital, comportamiento del consumidor.
  • Habilidades: Análisis de datos, creación de contenido, gestión de campañas.
  • Capacidades: Pensamiento estratégico, multitarea, resolución creativa de problemas.
  • Otras características: Liderazgo, adaptabilidad, habilidades de comunicación.

Ingeniero/a de software

  • Conocimientos: Lenguajes de programación, metodologías de desarrollo de software.
  • Habilidades: Depuración de código, diseño de algoritmos, pruebas de software.
  • Capacidades: Razonamiento lógico, atención al detalle, gestión del tiempo.
  • Otras características: Innovación, trabajo en equipo, enfoque en la resolución de problemas.

¿Por qué los KSAOs son importantes en Recursos Humanos, Reclutamiento y Selección?

 Impulsan el reclutamiento – Proporcionan un marco claro para emparejar candidatos con puestos.
Definen expectativas laborales – Reducen la confusión y alinean a empleados y empleadores.
Mejoran la toma de decisiones de contratación – Permiten evaluar candidatos con base en criterios objetivos.
Optimización del entrenamiento y desarrollo – Ayudan a identificar brechas de habilidades y mejorar la capacitación.
Cumplimiento legal y equidad – Reducen el riesgo de decisiones de contratación sesgadas o discriminatorias.
Estructuración de compensaciones – Justifican los niveles salariales con base en requisitos laborales específicos.

¿Cómo se relacionan los KSAOs con la evaluación?

Las evaluaciones de certificación y selección deben basarse en evidencia y documentación de validez.

Ejemplo: Si desarrollas un examen de certificación para fabricantes de widgets, no puedes simplemente escribir 100 preguntas al azar. Primero necesitas un análisis de puesto

El análisis de puesto identifica las tareas y habilidades esenciales mediante grupos focales o encuestas a expertos en el área.

 Los resultados permiten definir los KSAOs clave, asegurando que las evaluaciones reflejen las competencias necesarias y cumplan con estándares internacionales.

Sin KSAOs bien definidos, los exámenes y procesos de selección carecen de validez y pueden ser impugnados.

Conclusión: El valor de los KSAOs

Integrar los KSAOs en la contratación, desarrollo y evaluación de empleados aporta validez, precisión y eficiencia, beneficiando a la empresa y su talento.

Si eres un profesional de RRHH o evaluación de talento, comprender los KSAOs te ayudará a tomar mejores decisiones.

¿Quieres asesoría para desarrollar exámenes que cumplan con estándares psicométricos internacionales? ¡Contáctanos!

Generalized-partial-credit-model

¿Qué es una rúbrica?

Una rúbrica es un conjunto de reglas que convierte respuestas no estructuradas en evaluaciones (como ensayos) en datos estructurados que pueden ser analizados psicométricamente. Ayuda a los educadores a evaluar trabajos cualitativos de manera coherente y justa.

¿Por qué necesitamos rúbricas?

La medición es un esfuerzo cuantitativo. En psicometría, buscamos medir conocimientos, logros, aptitudes o habilidades. Las rúbricas ayudan a convertir datos cualitativos (como ensayos) en puntuaciones cuantitativas. Mientras que la retroalimentación cualitativa sigue siendo valiosa para el aprendizaje, los datos cuantitativos son esenciales para las evaluaciones.

Por ejemplo, un profesor puede calificar un ensayo con una rúbrica (0 a 4 puntos) y, al mismo tiempo, proporcionar comentarios personalizados para ayudar a mejorar al estudiante.

¿Cuántas rúbricas necesito?

La cantidad de rúbricas que necesitas depende de lo que estés evaluando:

  • Matemáticas: A menudo, una sola rúbrica es suficiente, ya que las respuestas son correctas o incorrectas.
  • Escritura: Es más complejo. Puedes evaluar múltiples habilidades, como gramática, estructura argumentativa y ortografía, cada una con su propia rúbrica.

Ejemplos de rúbricas

Rúbrica de ortografía para un ensayo

Puntos Descripción
0 El ensayo contiene 5 o más errores ortográficos
1 El ensayo contiene de 1 a 4 errores ortográficos
2 El ensayo no contiene errores ortográficos

Rúbrica de argumentación para un ensayo

Instrucción: “Tu escuela está considerando eliminar los deportes organizados. Escribe un ensayo para la junta escolar con tres razones para mantenerlos, respaldadas con explicaciones.”

Puntos Descripción
0 No se proporcionan razones claras con explicaciones
1 Una razón con una explicación clara
2 Dos razones con explicaciones claras
3 Tres razones con explicaciones claras

Rúbrica de respuestas en matemáticas

Puntos Descripción
0 No responde o no muestra comprensión del problema
1 Comprensión parcial o respuesta correcta sin trabajo de apoyo
2 Respuesta correcta con trabajo de apoyo explicando el proceso

¿Cómo califico pruebas con una rúbrica?

Tradicionalmente, las puntuaciones de rúbrica se suman al puntaje total. Este método se alinea con la teoría clásica de los tests, utilizando estadísticas como el coeficiente alfa (fiabilidad) y la correlación de Pearson (discriminación).

Sin embargo, la teoría de respuesta al ítem (IRT) ofrece un enfoque más avanzado. Técnicas como el modelo de crédito parcial generalizado permiten analizar profundamente los datos de rúbricas, mejorando la precisión de las puntuaciones (Muraki, 1992 aquí y aquí).

Ejemplo: En un ensayo calificado de 0 a 4 puntos:

  • Un estudiante promedio (Theta = 0) probablemente obtendría 2 puntos.
  • Un estudiante de mejor desempeño (Theta = 1) probablemente obtendría 3 puntos.

Un ejemplo de esto se muestra a continuación. Imagina que tienes un ensayo que se califica en una escala de 0 a 4 puntos. Este gráfico muestra la probabilidad de obtener cada nivel de puntuación en función del puntaje total (Theta).

Alguien con un desempeño promedio (Theta = 0.0) tiene más probabilidades de obtener 2 puntos (línea amarilla). Una persona con Theta = 1.0 probablemente obtendrá 3 puntos.

Observa que las curvas intermedias siempre tienen forma de campana, mientras que las de los extremos tienden a un asíntota superior de 1.0. Es decir, cuanto más hábil es el estudiante, mayor es la probabilidad de que obtenga 4 de 4 puntos, pero esa probabilidad nunca puede superar el 100%, obviamente.

¿Cómo puedo implementar una rúbrica de calificación de manera eficiente?

La eficiencia mejora con plataformas de evaluación en línea que admiten rúbricas. Busca plataformas con:
– Psicometría integrada
– Múltiples rúbricas por ítem
– Soporte para calificación por múltiples evaluadores
– Funciones de anonimato

Estas herramientas agilizan la calificación, mejoran la coherencia y ahorran tiempo.

¿Qué pasa con la calificación automatizada de ensayos?

La calificación automatizada de ensayos (AES) utiliza modelos de aprendizaje automático entrenados con datos evaluados por humanos. Aunque AES no es perfecta, puede reducir significativamente el tiempo de calificación cuando se combina con supervisión humana.

Por supuesto, también puedes usar modelos de lenguaje (LLMs) para calificar ensayos, pero esto carece de precisión y validez, ya que no tienes evidencia concreta, como si hubieras calificado 10,000 ensayos con evaluadores humanos y luego analizaras los datos.

Reflexiones finales

Las rúbricas son herramientas esenciales para los educadores, ya que ofrecen formas estructuradas, justas y coherentes de evaluar trabajos complejos de los estudiantes. Ya sea que estés calificando ensayos, problemas matemáticos o proyectos, implementar rúbricas claras mejora tanto la calidad de la evaluación como los resultados de aprendizaje de los estudiantes.

¿Listo para mejorar tus evaluaciones? Solicita una demostración de nuestra plataforma en línea con un módulo de calificación de ensayos integrado.

Introducción

El fraude en pruebas es un fenómeno extremadamente común. Todos hemos visto artículos sobre trampas en exámenes. Sin embargo, existen muy pocas herramientas defendibles para ayudar a detectarlo. Una vez vi un seminario web de un proveedor de pruebas en línea que promocionaba con orgullo sus informes sobre seguridad en pruebas… pero resultó que todo lo que ofrecían era una simple exportación de las respuestas de los estudiantes para que se pudieran leer de forma subjetiva y formular conjeturas.

El objetivo de SIFT es proporcionar una herramienta que implemente índices estadísticos reales basados en investigaciones científicas sobre la detección estadística de fraude en pruebas. Es lo suficientemente fácil de usar para alguien sin un doctorado en psicometría o experiencia en análisis forense de datos. SIFT ofrece más índices de colusión y análisis que cualquier otro software, convirtiéndose en el estándar de la industria desde el día de su lanzamiento. La ciencia detrás de SIFT también se implementa en nuestra plataforma de pruebas en línea de clase mundial, FastTest, que admite pruebas adaptativas por computadora conocidas por aumentar la seguridad en los exámenes.

¿Interesado? ¡Descarga una versión de prueba gratuita de SIFT!

¿Qué es el Fraude en Pruebas?

Desde que existen las pruebas, las personas han intentado hacer trampa. Siempre que haya un sistema con incentivos o consecuencias, la gente intentará manipularlo. El verdadero culpable es el sistema en sí, no la prueba. Culpar a la prueba es como dispararle al mensajero.

En la mayoría de los casos, el sistema cumple una función útil. Las evaluaciones de K-12 brindan información sobre el plan de estudios y los maestros, las pruebas de certificación identifican a profesionales calificados, y así sucesivamente. Para preservar la integridad del sistema, debemos minimizar el fraude en las pruebas.

Cuando se trata de fraude en pruebas, el viejo dicho es cierto: “más vale prevenir que curar”. Aunque recomiendo implementar medidas preventivas para disuadir el fraude, algunos casos siempre ocurrirán. SIFT está diseñado para ayudar a encontrar esos casos. Además, el simple hecho de saber que se realiza este tipo de análisis puede disuadir a algunos examinados.

¿Cómo Puede SIFT Ayudar en la Detección Estadística de Fraude en Pruebas?

Al igual que otros programas psicométricos, SIFT no interpreta los resultados por ti. Por ejemplo, software para análisis de ítems como Iteman y Xcalibre no te dicen qué ítems retirar o cómo revisarlos; proporcionan resultados para que los analistas los interpreten. SIFT ofrece una amplia gama de resultados para ayudar a identificar:

  • Copiado
  • Asistencia del supervisor (proctor)
  • Centros de pruebas sospechosos
  • Uso de bancos de respuestas (brain dumps)
  • Baja motivación del examinado

TÚ decides qué es importante para detectar fraude en pruebas y buscas la evidencia relevante. Se proporciona más información en el manual, pero aquí hay un adelanto.

Análisis Forense de Datos de Seguridad en Pruebas con SIFT

SIFT calcula varios índices para evaluar posibles fraudes:

  • Índices de Colusión: SIFT calcula estos índices para cada par de estudiantes, resumiendo la cantidad de señales de alerta.

  • Detección de Bancos de Respuestas (Brain Dumps): Compara las respuestas de los examinados con contenido conocido de bancos de respuestas, especialmente si ha sido sembrado intencionalmente por la organización.

  • Análisis de Examinados Adyacentes: Identifica estudiantes en la misma ubicación con respuestas sospechosamente similares.

  • Datos de Tiempos de Respuesta: Evalúa el tiempo dedicado a cada pregunta para detectar irregularidades.

Un ejemplo: un maestro podría tener calificaciones sospechosamente altas sin dedicar mucho tiempo por pregunta. ¿Es trampa? Posiblemente. Pero quizás el maestro tenía un grupo de estudiantes avanzados. Otro maestro podría mostrar calificaciones altas con tiempos de respuesta notablemente más cortos, lo que podría deberse a asistencia no autorizada.

Análisis a Nivel de Grupo

SIFT agrupa estadísticas a nivel de grupo. Esto ayuda a identificar patrones sospechosos en grupos de estudiantes, centros de pruebas o incluso profesores específicos.

La Historia de SIFT

Comencé a desarrollar SIFT en 2012. ASC vendía anteriormente un programa llamado Scrutiny!, pero dejamos de ofrecerlo debido a problemas de compatibilidad con las versiones más recientes de Windows. A pesar de eso, continuamos recibiendo solicitudes.

Decidido a crear una herramienta mejor, me propuse desarrollar SIFT. Quería incluir el análisis de Scrutiny! (el índice de Bellezza & Bellezza) y mucho más. Después de años de desafíos empresariales y horas incontables de trabajo, SIFT fue lanzado en julio de 2016.

La versión 1.0 de SIFT incluye:

  • 10 Índices de Colusión (5 probabilísticos, 5 descriptivos)
  • Análisis de Tiempos de Respuesta
  • Análisis a Nivel de Grupo
  • Herramientas adicionales para la detección de fraude en pruebas

Aunque no abarca todos los análisis existentes en la literatura, SIFT supera a otras opciones disponibles para los profesionales.

¿Sugerencias? ¡Nos encantaría saber de ti!

En el mundo laboral actual, la experiencia técnica por sí sola ya no garantiza el éxito profesional. Las habilidades blandas—como la inteligencia emocional, la comunicación efectiva y la capacidad de trabajar en equipo—son clave para fomentar la colaboración, la innovación y la adaptabilidad en entornos de trabajo dinámicos.

Las empresas están adoptando un enfoque más integral en la selección de talento, lo que ha convertido la evaluación de habilidades blandas en una herramienta esencial para medir y desarrollar estas competencias. Evaluarlas no solo es útil de manera individual, sino que también complementa y mejora la validez de las pruebas cognitivas.

En este artículo, exploraremos la importancia de las habilidades blandas, su impacto en el crecimiento profesional y estrategias para evaluarlas y desarrollarlas, basándonos en investigaciones recientes y la opinión de expertos. Si estás listo para implementar estas evaluaciones, puedes adquirir pruebas predefinidas de empresas como ioPredict o utilizar los servicios de desarrollo de pruebas y la plataforma de evaluación en línea de ASC para diseñar y aplicar tus propias pruebas.

¿Qué son las habilidades blandas?

Las habilidades blandas abarcan un conjunto amplio de competencias interpersonales e intrapersonales. A diferencia de las habilidades técnicas, que son medibles y específicas, las habilidades blandas incluyen aspectos como:Improving Employee Retention - Strategies for Success

  • Comunicación: Capacidad de expresar ideas de manera clara y escuchar activamente.
  • Trabajo en equipo: Colaboración efectiva con personas de distintos perfiles y antecedentes.
  • Adaptabilidad: Manejo positivo del cambio y la incertidumbre.
  • Inteligencia emocional: Reconocimiento y gestión de las propias emociones y comprensión de las emociones ajenas.
  • Resolución de problemas: Abordaje de desafíos con pensamiento crítico y creatividad.

Estas competencias ayudan a los profesionales a navegar entornos laborales complejos y adaptarse a las exigencias del mercado actual.

¿Por qué son fundamentales las habilidades blandas?

Mayor colaboración en el trabajo

Las empresas dependen cada vez más del trabajo en equipo, lo que hace imprescindible la comunicación efectiva y la cooperación. Un estudio de McKinsey & Company (2021) reveló que los equipos con sólidas habilidades colaborativas son un 25% más productivos.

Adaptabilidad en un mundo en constante cambio

Adaptabilidad en un mundo en constante cambio

En un entorno marcado por la disrupción tecnológica y el trabajo remoto, la capacidad de adaptación se ha convertido en un factor determinante para el éxito profesional. El Foro Económico Mundial (2020) identificó la adaptabilidad como una de las habilidades clave en la Cuarta Revolución Industrial.

Liderazgo e inteligencia emocional

Ser un buen líder va más allá del conocimiento técnico: implica inspirar y guiar equipos. La inteligencia emocional es un componente fundamental del liderazgo efectivo. Según Daniel Goleman, los líderes con alta inteligencia emocional generan mayor compromiso y retención de talento en sus equipos (Goleman, 1998).

Mejora en la relación con clientes

En roles de atención al cliente, habilidades como la empatía y la escucha activa son esenciales. Un estudio de Salesforce (2022) mostró que el 70% de los clientes son más leales a empresas donde se sienten comprendidos y valorados.

Enfoques para la Evaluación de Habilidades Blandas

La evaluación de habilidades blandas requiere herramientas y metodologías que simulen escenarios reales y analicen las respuestas conductuales de los candidatos o empleados. Algunas de las estrategias más utilizadas incluyen:FastTest - Situational Judgment Test SJT example

  • Pruebas de juicio situacional (SJT):Presentan escenarios laborales realistas y piden a los participantes que elijan la mejor respuesta, evaluando su toma de decisiones e inteligencia interpersonal.
  • Entrevistas por Competencias: Preguntas estructuradas que exploran experiencias pasadas y cómo los candidatos manejaron distintas situaciones.
  • Feedback 360°: Evaluaciones que recopilan opiniones de colegas, supervisores y subordinados sobre la efectividad interpersonal del evaluado.
  • Pruebas de personalidad e inteligencia emocional: Herramientas como el modelo de los Cinco Grandes evalúan rasgos que influyen en la comunicación y adaptabilidad.
  • Simulaciones laborales: Ejercicios de rol que reproducen desafíos cotidianos del puesto de trabajo.

Preguntas de ejemplo para evaluar habilidades blandas en entrevistas

  • Comunicación: “Cuéntame sobre una ocasión en la que tuviste que explicar una idea compleja a alguien sin conocimientos en el tema. ¿Cómo te aseguraste de que lo entendiera?”
  • Trabajo en equipo: “Describe una experiencia en la que trabajaste en equipo. ¿Cuál fue tu rol y cómo manejaste los desacuerdos?”
  • Adaptabilidad: “Cuéntame sobre un momento en el que enfrentaste un cambio importante en tu trabajo. ¿Cómo lo manejaste?”
  • Resolución de problemas: “Menciona un desafío complicado que hayas enfrentado en el trabajo. ¿Cómo identificaste la causa raíz y lo resolviste?”
  • Inteligencia emocional: “Dame un ejemplo de una situación en la que notaste que las emociones de alguien estaban afectando su desempeño. ¿Cómo lo abordaste?”

Desarrollo de habilidades blandas

Las habilidades blandas pueden desarrollarse con práctica deliberada, retroalimentación y formación específica. Algunas estrategias efectivas incluyen:

  • Aprendizaje continuo: Talleres, cursos en línea y seminarios sobre comunicación, inteligencia emocional y liderazgo. Plataformas como Coursera y LinkedIn Learning ofrecen recursos valiosos.
  • Feedback y autoevaluación: La retroalimentación de colegas y supervisores ayuda a identificar áreas de mejora.
  • Ejercicios de simulación: Los juegos de roles y pruebas de juicio situacional permiten practicar habilidades en contextos reales.
  • Programas de mentoría: Aprender de mentores experimentados facilita el desarrollo de habilidades interpersonales.
  • Mindfulness y regulación emocional: Técnicas como la meditación mejoran la autorregulación emocional, la empatía y el manejo del estrés (Harvard Medical School, 2018).

Cómo medir el impacto de las habilidades blandas

Aunque las habilidades blandas pueden parecer intangibles, su impacto se refleja en métricas clave:

  • Retención de empleados: Las empresas que invierten en capacitación en habilidades blandas reducen la rotación de personal (LinkedIn Workplace Learning Report, 2023).
  • Desempeño en equipo: Los equipos con comunicación y colaboración efectiva logran mayores tasas de éxito en proyectos (MIT Sloan Management, 2017).
  • Satisfacción del cliente: Una mejor interacción con los clientes mejora la lealtad y la reputación de la empresa.

Conclusión

Las habilidades blandas ya no son un complemento, sino un pilar del éxito profesional. Implementar estrategias de evaluación adecuadas permite a las empresas identificar y potenciar estas competencias, promoviendo la innovación y el crecimiento sostenible.

 

La evaluación de RH es una parte fundamental del ecosistema de RH, que se utiliza para seleccionar a los mejores candidatos con pruebas previas al empleo, evaluar la formación, certificar habilidades y más. Pero existe una gran variedad en cuanto a calidad, así como una amplia gama en el tipo de evaluación para la que está diseñada. Esta publicación desglosará los diferentes enfoques y lo ayudará a encontrar la mejor solución.

Las plataformas de evaluación de RH ayudan a las empresas a crear evaluaciones efectivas, ahorrando así recursos valiosos, mejorando la experiencia y la calidad de los candidatos, proporcionando información más precisa y procesable sobre el capital humano y reduciendo el sesgo de contratación. Pero encontrar soluciones de software que puedan ayudarlo a cosechar estos beneficios puede ser difícil, especialmente debido a la explosión de soluciones en el mercado. Si no sabe qué herramientas lo ayudarán a desarrollar y entregar sus propias evaluaciones de RH, esta guía es para usted.

¿Qué es la evaluación de RH?

La evaluación de RH es un proceso integral que utilizan los profesionales de recursos humanos para evaluar diversos aspectos de las capacidades, habilidades y desempeño de los empleados actuales y potenciales. Este proceso abarca una amplia gama de herramientas y metodologías diseñadas para brindar información sobre la idoneidad de una persona para un puesto, sus necesidades de desarrollo y su potencial de crecimiento futuro dentro de la organización.

hr assessment software presentation

El objetivo principal de la evaluación de RH es tomar decisiones informadas sobre la contratación, el desarrollo de los empleados y la planificación de la sucesión. Durante la fase de contratación, las evaluaciones de RH ayudan a identificar candidatos que poseen las competencias necesarias y se adaptan a la cultura de la organización.

Existen varios tipos de evaluaciones utilizadas en RH. Aquí hay cuatro áreas principales, aunque esta lista no es de ninguna manera exhaustiva.

  1. Pruebas previas al empleo para seleccionar candidatos
  2. Evaluaciones posteriores a la capacitación
  3. Exámenes de certificación o de certificación (pueden ser internos o externos)
  4. Evaluaciones de 360 ​​grados y otras evaluaciones de desempeño

 

Pruebas previas al empleo

Encontrar buenos empleados en un mercado saturado es una tarea abrumadora. De hecho, según Harvard Business Review, el 80 % de la rotación de personal se atribuye a malas decisiones de contratación. Las malas contrataciones no solo son caras, sino que también pueden afectar negativamente la dinámica cultural en la fuerza laboral. Esta es un área en la que el software de evaluación de RR.HH. demuestra su valor.

Existen diferentes tipos de evaluaciones previas al empleo. Cada una de ellas logra un objetivo diferente en el proceso de contratación. Los principales tipos de evaluaciones previas al empleo incluyen:

Pruebas de personalidad: A pesar de que rápidamente se han abierto camino en RH, este tipo de pruebas previas al empleo son ampliamente malinterpretadas. Las pruebas de personalidad responden a preguntas del espectro social. Uno de los principales objetivos de estas pruebas es cuantificar el éxito de ciertos candidatos en función de rasgos de comportamiento.

Pruebas de aptitud: A diferencia de las pruebas de personalidad o las pruebas de inteligencia emocional que tienden a ubicarse en el espectro social, las pruebas de aptitud miden la resolución de problemas, el pensamiento crítico y la agilidad. Este tipo de pruebas son populares porque pueden predecir el desempeño laboral más que cualquier otro tipo, ya que pueden aprovechar áreas que no se pueden encontrar en los currículums o las entrevistas de trabajo.

Pruebas de habilidades: los tipos de pruebas se pueden considerar una medida de la experiencia laboral; van desde habilidades de alto nivel hasta habilidades de bajo nivel, como mecanografía o Microsoft Excel. Las pruebas de habilidades pueden medir habilidades específicas, como la comunicación, o medir habilidades generalizadas, como la aritmética.

Pruebas de inteligencia emocional: este tipo de evaluaciones son un concepto nuevo, pero están adquiriendo importancia en la industria de RH. Dado que una inteligencia emocional (IE) sólida se asocia con beneficios como una mayor productividad en el lugar de trabajo y un buen liderazgo, muchas empresas están invirtiendo mucho en el desarrollo de este tipo de pruebas. A pesar de que se pueden administrar a cualquier candidato, se recomienda reservarlas para personas que buscan puestos de liderazgo o para quienes se espera que trabajen en contextos sociales.

Pruebas de riesgo: como sugiere el nombre, este tipo de pruebas ayudan a las empresas a reducir los riesgos. Las evaluaciones de riesgo ofrecen garantías a los empleadores de que sus trabajadores se comprometerán con la ética laboral establecida y no se involucrarán en ninguna actividad que pueda causarles daño a ellos mismos o a la organización. Existen diferentes tipos de pruebas de riesgo. Las pruebas de seguridad, que son populares en contextos como la construcción, miden la probabilidad de que los candidatos participen en actividades que puedan causarles daño. Otros tipos comunes de pruebas de riesgo incluyen pruebas de integridad.

 

Evaluaciones posteriores a la capacitación

Esto se refiere a las evaluaciones que se realizan después de la capacitación. Puede ser una prueba sencilla después de un módulo de aprendizaje electrónico, hasta un examen de certificación después de meses de capacitación (consulte la siguiente sección). A menudo, es algo intermedio. Por ejemplo, puede realizar un curso de capacitación por la tarde, después del cual realiza una prueba formal que se requiere para hacer algo en el trabajo. Cuando era estudiante de secundaria, trabajé en un depósito de madera e hice exactamente esto para convertirme en un conductor de montacargas aprobado por OSHA.

 

Exámenes de certificación o certificado

A veces, el proceso de examen puede ser de alto riesgo y formal. En ese caso, se trata de un certificado o certificación, o, a veces, de un examen de licencia. Más información sobre eso aquí. Esto puede ser interno a la organización o externo.

Certificación interna: la credencial la otorga la organización de capacitación y el examen está específicamente vinculado a un determinado producto o proceso que la organización ofrece en el mercado. Hay muchos ejemplos de este tipo en la industria del software. Puede obtener certificaciones en AWS, SalesForce, Microsoft, etc. Uno de nuestros clientes fabrica máquinas de resonancia magnética y otras máquinas de imágenes médicas; los candidatos están certificados sobre cómo calibrarlas o repararlas.

Certificación externa: la credencial la otorga una junta externa o una agencia gubernamental y el examen es para toda la industria. Un ejemplo de esto son los exámenes SIE que ofrece FINRA. Un candidato puede ir a trabajar a una compañía de seguros u otra compañía de servicios financieros, que lo capacita y lo patrocina para que tome el examen con la esperanza de que la compañía obtenga una ganancia si el candidato aprueba y luego vende sus pólizas de seguro como agente. Pero la compañía no patrocina el examen; FINRA lo hace.

 

Evaluaciones de 360 ​​grados y otras evaluaciones de desempeño

El desempeño laboral es uno de los conceptos más importantes en RH y también uno que a menudo es difícil de medir. John Campbell, uno de mis asesores de tesis, era conocido por desarrollar un modelo de desempeño de 8 factores. Algunos aspectos son subjetivos y otros se miden fácilmente con datos del mundo real, como la cantidad de dispositivos fabricados o la cantidad de automóviles vendidos por un vendedor de automóviles. Otros implican evaluaciones de estilo encuesta, como pedir a los clientes, socios comerciales, compañeros de trabajo, supervisores y subordinados que califiquen a una persona en una escala de Likert. Se necesitan plataformas de evaluación de RH para desarrollar, entregar y calificar dichas evaluaciones.

 

Los beneficios de utilizar un software de evaluación de nivel profesional

Ahora que ya comprende bien qué son las pruebas previas al empleo y otras pruebas de RH, analicemos los beneficios de integrar un software de evaluación previa al empleo en su proceso de contratación. Estos son algunos de los beneficios:

Ahorra recursos valiosos

Unlike the lengthy and costly traditional hiring processes, pre-employment assessment software helps companies increase their ROI by eliminating HR snugs such as face-to-face interactions or geographical restrictions. Pre-employment testing tools can also reduce the amount of time it takes to make good hires while reducing the risks of facing the financial consequences of a bad hire.

A diferencia de los largos y costosos procesos de contratación tradicionales, el software de evaluación previa al empleo ayuda a las empresas a aumentar su retorno de la inversión al eliminar inconvenientes de RH, como interacciones cara a cara o restricciones geográficas. Las herramientas de evaluación previa al empleo también pueden reducir la cantidad de tiempo que lleva realizar buenas contrataciones y, al mismo tiempo, reducir los riesgos de enfrentar las consecuencias financieras de una mala contratación.

Apoya las decisiones de contratación basadas en datos

Los datos gobiernan el mundo moderno, y la contratación no es diferente. Es mejor dejar que algoritmos complejos analicen los números y lo ayuden a decidir qué talento es el adecuado, en lugar de contratar basándose en una corazonada o métodos menos precisos como una entrevista no estructurada. El software de evaluación previa al empleo lo ayuda a analizar evaluaciones y generar informes/visualizaciones para ayudarlo a elegir a los candidatos adecuados de un gran grupo de talentos.

Mejora de la experiencia del candidato 

La experiencia del candidato es un aspecto importante del crecimiento de una empresa, especialmente si se considera el hecho de que el 69% de los candidatos admiten no postularse para un trabajo en una empresa después de tener una experiencia negativa. Una buena experiencia del candidato significa que tiene acceso al mejor talento del mundo.

Eliminación del sesgo humano

Los procesos de contratación tradicionales se basan en el instinto. No son efectivos porque es fácil que los candidatos brinden información falsa en sus currículums y cartas de presentación. Pero el uso de software de evaluación previa al empleo ha ayudado a eliminar este obstáculo. Las herramientas han nivelado el terreno de juego y solo los mejores candidatos son considerados para un puesto.

 

Qué tener en cuenta al elegir herramientas de evaluación de RH

Ahora que tiene una idea clara de qué son las pruebas previas al empleo y los beneficios de integrar el software de evaluación previa al empleo en su proceso de contratación, veamos cómo puede encontrar las herramientas adecuadas.

A continuación, se detallan los aspectos más importantes que debe tener en cuenta al elegir el software de evaluación previa al empleo adecuado para su organización.

Facilidad de uso

Los candidatos deben ser su principal prioridad cuando busque un software de evaluación previa al empleo. Esto se debe a que la facilidad de uso se relaciona directamente con una buena experiencia del candidato. Un buen software debe tener módulos de navegación simples y una fácil comprensión.

A continuación, se incluye una lista de verificación para ayudarlo a decidir si un software de evaluación previa al empleo es fácil de usar:

  • ¿Los resultados son fáciles de interpretar?
  • ¿Cómo es la interfaz de usuario y la experiencia de usuario?
  • ¿Qué métodos utiliza para automatizar tareas como la gestión de candidatos?
  • ¿Tiene buena documentación y una comunidad activa?

 

Entrega de pruebas y supervisión remota

Un buen software de evaluación en línea debe contar con buenas funcionalidades de supervisión en línea. Esto se debe a que la mayoría de los trabajos remotos aceptan solicitudes de todo el mundo. Por lo tanto, es recomendable elegir un software de pruebas previas al empleo que tenga capacidades de supervisión remota seguras. Estas son algunas de las cosas que debe buscar en la supervisión remota:

  • ¿La plataforma admite procesos de seguridad como autenticación basada en IP, bloqueo del navegador y señalización de IA?
  • ¿Qué tipos de supervisión en línea ofrece el software? ¿En tiempo real en vivo, revisión de IA o grabación y revisión?
  • ¿Le permite traer su propio supervisor?
  • ¿Ofrece análisis de pruebas?

 

Seguridad de pruebas y datos, y cumplimiento normativo

La capacidad de defensa es lo que define la seguridad de las pruebas. Existen varias capas de seguridad asociadas con la seguridad de las pruebas previas al empleo. Al evaluar este aspecto, debe considerar qué hace el software de pruebas previas al empleo para lograr el mayor nivel de seguridad. Esto se debe a que las violaciones de datos son extremadamente costosas.

La primera capa de seguridad es la prueba en sí. El software debe admitir tecnologías y marcos de seguridad como el bloqueo del navegador, el marcado de IP y la autenticación basada en IP.

La otra capa de seguridad está del lado del candidato. Como empleador, usted tendrá acceso a la información privada del candidato. ¿Cómo puede asegurarse de que los datos de su candidato estén seguros? Esa es razón suficiente para evaluar las pautas de cumplimiento y protección de datos del software.

Un buen software de pruebas previas al empleo debe cumplir con certificaciones como la GDPR. El software también debe ser flexible para adaptarse a las pautas de cumplimiento de diferentes partes del mundo.

Preguntas que debe plantearse:

  • ¿Qué mecanismos emplea el software para eliminar la infidelidad?
  • ¿Su función de supervisión remota es fiable y segura?
  • ¿Cumplen las directrices de cumplimiento de seguridad, como ISO, SSO o GDPR?
  • ¿Cómo protege el software los datos de los usuarios?

 

Psicometría

La psicometría es la ciencia de la evaluación, que ayuda a obtener puntuaciones precisas a partir de pruebas defendibles, además de hacerlas más eficientes, reducir el sesgo y ofrecer una serie de otros beneficios. Debe asegurarse de que su solución admita el nivel necesario de psicometría. Algunas sugerencias:

 

Experiencia de usuario

Una buena experiencia de usuario es un factor indispensable a la hora de buscar un software empresarial. Un software de pruebas previas al empleo de última generación debe crear mapas de experiencia de usuario teniendo en cuenta tanto a los candidatos como al empleador. Algunas formas de saber si un software ofrece una experiencia de usuario perfecta incluyen:

  • Interfaz fácil de usar
  • Sencillo y fácil de interactuar
  • Bancos de elementos fáciles de crear y gestionar
  • Panel de control claro con análisis y visualizaciones avanzados

Personalizar los mapas de experiencia de usuario para que se ajusten a las expectativas de los candidatos atrae talento de alta calidad.

 

Escalabilidad y automatización

Dado que una única publicación de empleo atrae a aproximadamente 250 candidatos, la escalabilidad no es algo que deba pasar por alto. Por lo tanto, un buen software de pruebas previas al empleo debe tener la capacidad de manejar cualquier tipo de carga de trabajo, sin sacrificar la calidad de la evaluación.

También es importante que verifique las capacidades de automatización del software. El proceso de contratación tiene muchas tareas repetitivas que se pueden automatizar con tecnologías como el aprendizaje automático, la inteligencia artificial (IA) y la automatización robótica de procesos (RPA).

Estas son algunas preguntas que debe considerar en relación con la escalabilidad y la automatización:

 

Informes y análisis

iteman item analysis

Un buen software de evaluación previa al empleo no lo dejará colgado después de ayudarlo a desarrollar y entregar las pruebas, sino que le permitirá obtener información importante de las evaluaciones.

Los informes analíticos se pueden utilizar para tomar decisiones basadas en datos sobre qué candidato es adecuado y cómo mejorar su experiencia. A continuación, se incluyen algunas consultas que se pueden realizar sobre informes y análisis.

  • ¿El software tiene un buen panel de control?
  • ¿En qué formato se generan los informes?
  • ¿Qué información clave pueden obtener los clientes potenciales del proceso de análisis?
  • ¿Qué tan buenas son las visualizaciones?

 

Atención al cliente y soporte técnico

El soporte técnico y al cliente no es algo que deba pasarse por alto. Un buen software de evaluación previa al empleo debe contar con un sistema de soporte omnicanal que esté disponible las 24 horas del día, los 7 días de la semana. Esto se debe principalmente a que algunas situaciones requieren una respuesta rápida. Estas son algunas de las preguntas que debe plantearse al evaluar el soporte técnico y al cliente:

  • ¿Qué canales de soporte ofrece el software? ¿Qué tan rápido es su soporte?
  • ¿Qué tan buena es su página de preguntas frecuentes/recursos?
  • ¿Ofrecen medios de soporte en varios idiomas?
  • ¿Tienen administradores dedicados para ayudarlo a aprovechar al máximo sus pruebas?

 

Conclusión

Encontrar el software de evaluación de RR.HH. adecuado es un proceso largo, pero rentable a largo plazo. Esperamos que el artículo arroje algo de luz sobre los aspectos importantes que se deben tener en cuenta al buscar dichas herramientas. Además, no olvide adoptar un enfoque pragmático al implementar dichas herramientas en su proceso de contratación.

¿No sabe cómo utilizar las herramientas de prueba previa al empleo para mejorar su proceso de contratación? No dude en ponerse en contáctenos y lo guiaremos en todo el proceso, desde el desarrollo del concepto hasta la implementación. Ya sea que necesite pruebas listas para usar o una plataforma integral para crear sus propios exámenes, podemos brindarle la orientación que necesita. También ofrecemos versiones gratuitas de nuestro software líder en la industria FastTest y Assess.ai. Visite nuestra página Contáctenos para comenzar.

Si está interesado en profundizar en las evaluaciones de liderazgo, es posible que desee consultar esta publicación de blog. Para obtener más información y un ejemplo de cómo las evaluaciones de RH pueden fallar, consulte nuestra publicación de blog llamada Prácticas de contratación y litigios de seguridad pública. La publicación de blog titulada Mejorar la retención de empleados con evaluaciones: estrategias para el éxito explora cómo el uso estratégico de las evaluaciones a lo largo del ciclo de vida del empleado puede mejorar la retención, crear equipos más fuertes e impulsar el éxito empresarial al alinear los objetivos organizacionales con el desarrollo y el compromiso de los empleados.

El escalamiento vertical es el proceso de colocar las puntuaciones de las evaluaciones educativas que miden el mismo dominio de conocimiento pero en diferentes niveles de habilidad en una escala común (Tong y Kolen, 2008). El ejemplo más común es colocar las evaluaciones de Matemáticas o Lenguaje para K-12 en una sola escala para todos los grados. Por ejemplo, puede tener un currículo de matemáticas de grado 4, grado 5, grado 6… en lugar de tratarlos a todos como islas, consideramos todo el recorrido y vinculamos los grados en un solo banco de ítems. Si bien se puede encontrar información general sobre el escalamiento en ¿Qué es el escalamiento de pruebas?, este artículo se centrará específicamente en el escalamiento vertical.

¿Por qué escalamiento vertical?

Una escala vertical es increíblemente importante, ya que permite inferencias sobre el progreso del estudiante de un momento a otro, por ejemplo, de los grados de primaria a secundaria, y puede considerarse como un continuo de desarrollo de los logros académicos del estudiante. En otras palabras, los estudiantes avanzan a lo largo de ese continuo a medida que desarrollan nuevas habilidades, y su puntaje en la escala se altera como resultado (Briggs, 2010).

Esto no solo es importante para los estudiantes individuales, porque podemos hacer un seguimiento del aprendizaje y asignar intervenciones o enriquecimientos apropiados, sino también en un sentido agregado. ¿Qué escuelas están creciendo más que otras? ¿Son mejores ciertos maestros? ¿Quizás haya una diferencia notable entre los métodos de instrucción o los planes de estudio? Aquí, estamos llegando al propósito fundamental de la evaluación; al igual que es necesario tener una báscula de baño para controlar el peso en un régimen de ejercicios, si un gobierno implementa un nuevo método de instrucción de matemáticas, ¿cómo sabe que los estudiantes están aprendiendo de manera más efectiva?

El uso de una escala vertical puede crear un marco interpretativo común para los resultados de las pruebas en todos los grados y, por lo tanto, proporcionar datos importantes que sirvan de base para la enseñanza individual y en el aula. Para que sean válidos y fiables, estos datos deben recopilarse en base a escalas verticales construidas adecuadamente.

Las escalas verticales se pueden comparar con las reglas que miden el crecimiento de los estudiantes en algunas áreas temáticas de un momento de prueba a otro. De manera similar a la altura o el peso, se supone que las capacidades de los estudiantes aumentan con el tiempo. Sin embargo, si tiene una regla de solo 1 metro de largo y está tratando de medir el crecimiento de niños de 3 a 10 años, deberá unir dos reglas.

Construcción de escalas verticales

La construcción de una escala vertical es un proceso complicado que implica tomar decisiones sobre el diseño de la prueba, el diseño de la escala, la metodología de la escala y la configuración de la escala. La interpretación del progreso en una escala vertical depende de la combinación resultante de dichas decisiones de escala (Harris, 2007; Briggs y Weeks, 2009). Una vez que se establece una escala vertical, es necesario mantenerla en diferentes formas y en el tiempo. Según Hoskens et al. (2003), el método elegido para mantener las escalas verticales afecta a la escala resultante y, por lo tanto, es muy importante.

Un modelo de medición que se utiliza para colocar las habilidades de los estudiantes en una escala vertical está representado por la teoría de respuesta al ítem (IRT; Lord, 2012; De Ayala, 2009) o el modelo de Rasch (Rasch, 1960). Este enfoque permite comparaciones directas de los resultados de la evaluación basados ​​en diferentes conjuntos de ítems (Berger et al., 2019). Por lo tanto, se supone que cada estudiante debe trabajar con un grupo seleccionado de ítems que no son similares a los ítems tomados por otros estudiantes, pero aún así sus resultados serán comparables con los de ellos, así como con los suyos propios de otros momentos de evaluación.

La imagen a continuación muestra cómo los resultados de los estudiantes de diferentes grados pueden conceptualizarse mediante una escala vertical común. Suponga que fuera a calibrar los datos de cada grado por separado, pero tiene ítems de anclaje entre los tres grupos. Un análisis de enlace podría sugerir que el Grado 4 está 0,5 logits por encima del Grado 3, y el Grado 5 está 0,7 logits por encima del Grado 4. Puede pensar en las curvas de campana superpuestas como se ve a continuación. Un theta de 0,0 en la escala de Grado 5 es equivalente a 0,7 en la escala de Grado 4, y 1,3 en la escala de Grado 3. Si tiene un enlace fuerte, puede poner los ítems/estudiantes de Grado 3 y Grado 4 en la escala de Grado 5… así como todos los demás grados utilizando el mismo enfoque.

Vertical-scaling

Diseño de pruebas

Kolen y Brennan (2014) nombran tres tipos de diseños de pruebas que apuntan a recopilar datos de respuesta de los estudiantes que deben calibrarse:

  • Diseño de grupo equivalente. A los grupos de estudiantes con distribuciones de habilidades presumiblemente comparables dentro de un grado se les asigna aleatoriamente la tarea de responder preguntas relacionadas con su propio grado o con un grado adyacente;
  • Diseño de elementos comunes. Utilizar elementos idénticos para estudiantes de grados adyacentes (sin requerir grupos equivalentes) para establecer un vínculo entre dos grados y alinear bloques de elementos superpuestos dentro de un grado, como poner algunos elementos de Grado 5 en la prueba de Grado 6, algunos elementos de Grado 6 en la prueba de Grado 7, etc.;
  • Diseño de pruebas de escalamiento. Este tipo es muy similar al diseño de ítems comunes pero, en este caso, los ítems comunes se comparten no solo entre grados adyacentes; hay un bloque de ítems administrado a todos los grados involucrados además de los ítems relacionados con el grado específico.

Desde una perspectiva teórica, el diseño más coherente con una definición de dominio del crecimiento es el diseño de pruebas de escalamiento. El diseño de ítems comunes es el más fácil de implementar en la práctica, pero solo si la administración de los mismos ítems a grados adyacentes es razonable desde una perspectiva de contenido. El diseño de grupos equivalentes requiere procedimientos de administración más complicados dentro de un grado escolar para garantizar muestras con distribuciones de capacidad equivalentes.

Diseño de escala

El procedimiento de escalamiento puede utilizar puntuaciones observadas o puede basarse en IRT. Los procedimientos de diseño de escala más utilizados en configuraciones de escala vertical son los de escala Hieronymus, Thurstone e IRT (Yen, 1986; Yen y Burket, 1997; Tong y Harris, 2004). En todas estas tres metodologías se elige una escala provisional (von Davier et al., 2006).

  • Escala de Hieronymus. Este método utiliza una puntuación total de respuestas correctas para las pruebas con puntuación dicotómica o una puntuación total de puntos para los ítems con puntuación politómica (Petersen et al., 1989). La prueba de escala se construye de manera que represente el contenido en un orden creciente en términos del nivel de la prueba, y se administra a una muestra representativa de cada nivel o grado de la prueba. La variabilidad y el crecimiento dentro y entre niveles se establecen en una prueba de escala externa, que es el conjunto especial de ítems comunes.
  • Escala de Thurstone. Según Thurstone (1925, 1938), este método crea primero una escala de puntuación provisional y luego normaliza las distribuciones de las variables en cada nivel o grado. Supone que las puntuaciones en una escala subyacente se distribuyen normalmente dentro de cada grupo de interés y, por lo tanto, utiliza un número total de puntuaciones correctas para pruebas con puntuación dicotómica o un número total de puntos de ítems con puntuación politómica para realizar el escalamiento. Por lo tanto, el escalamiento de Thurstone normaliza e iguala linealmente las puntuaciones brutas y, por lo general, se realiza dentro de grupos equivalentes.
  • Escala de IRT. Este método de escalamiento considera las interacciones persona-ítem. Teóricamente, el escalamiento IRT se aplica a todos los modelos IRT existentes, incluidos los modelos IRT multidimensionales o los modelos de diagnóstico. En la práctica, solo se utilizan modelos unidimensionales, como los modelos de Rasch y/o de crédito parcial (PCM) o los modelos 3PL (von Davier et al., 2006).

Calibración de datos

Cuando se han tomado todas las decisiones, incluido el diseño de la prueba y el diseño de la escala, y se administran las pruebas a los estudiantes, los ítems deben calibrarse con un software como  Xcalibre  para establecer una escala de medición vertical. Según Eggen y Verhelst (2011), la calibración de ítems dentro del contexto del modelo de Rasch implica el proceso de establecer el ajuste del modelo y estimar el parámetro de dificultad de un ítem basado en los datos de respuesta por medio de procedimientos de estimación de máxima verosimilitud.

Se emplean dos procedimientos, la calibración concurrente y la calibración grado por grado, para vincular los parámetros de dificultad de los ítems basados ​​en la IRT a una escala vertical común en varios grados (Briggs y Weeks, 2009; Kolen y Brennan, 2014). En la calibración concurrente, todos los parámetros de los ítems se estiman en una sola ejecución mediante la vinculación de ítems compartidos por varios grados adyacentes (Wingersky y Lord, 1983). Por el contrario, en la calibración grado por grado, los parámetros de los ítems se estiman por separado para cada grado y luego se transforman en una escala común a través de métodos lineales. El método más preciso para determinar las constantes de enlace minimizando las diferencias entre las curvas características de los elementos de enlace entre las calificaciones es el método de Stocking y Lord (Stocking y Lord, 1983). Esto se logra con software como  IRTEQ.

Resumen del escalamiento vertical

El escalamiento vertical es un tema extremadamente importante en el mundo de la evaluación educativa, especialmente en la educación primaria y secundaria. Como se mencionó anteriormente, esto no solo se debe a que facilita la instrucción para estudiantes individuales, sino que es la base para la información sobre la educación a nivel agregado.

Existen varios enfoques para implementar el escalamiento vertical, pero el enfoque basado en IRT es muy convincente. Una escala IRT vertical permite la representación de la capacidad de los estudiantes en múltiples grados escolares y también la dificultad de los ítems en una amplia gama de dificultades. Además, los ítems y las personas se encuentran en la misma escala latente. Gracias a esta característica, el enfoque IRT admite la selección intencionada de ítems y, por lo tanto, algoritmos para pruebas adaptativas computarizadas (CAT). Estos últimos utilizan estimaciones preliminares de la capacidad para elegir los ítems más apropiados e informativos para cada estudiante individual (Wainer, 2000; van der Linden y Glas, 2010). Por lo tanto, incluso si el conjunto de ítems es de 1000 preguntas que abarcan desde el jardín de infantes hasta el grado 12, puede realizar una sola prueba a cualquier estudiante en el rango y se adaptará a ellos. Mejor aún, puede realizar la misma prueba varias veces al año y, como los estudiantes están aprendiendo, recibirán un conjunto diferente de ítems. Como tal, la CAT con una escala vertical es un enfoque increíblemente adecuado para la evaluación formativa de K-12.

Lectura adicional

Reckase (2010) afirma que la literatura sobre escalamiento vertical es escasa desde la década de 1920 y recomienda algunos estudios de investigación contemporáneos orientados a la práctica:

Paek y Young (2005). Este estudio de investigación abordó los efectos de los valores a priori bayesianos en la estimación de las ubicaciones de los estudiantes en el continuo cuando se utiliza un método de vinculación de parámetros de ítems fijos. Primero, se realizó una calibración dentro del grupo para un nivel de grado; luego, se fijaron los parámetros de los ítems comunes en esa calibración para calibrar el siguiente nivel de grado. Este enfoque obliga a que las estimaciones de los parámetros sean las mismas para los ítems comunes en los niveles de grado adyacentes. Los resultados del estudio mostraron que las distribuciones a priori podrían afectar los resultados y que se deben realizar controles cuidadosos para minimizar los efectos.

Rekase y Li (2007). Este capítulo del libro describe un estudio de simulación de los impactos de la dimensionalidad en el escalamiento vertical. Se emplearon modelos IRT tanto multidimensionales como unidimensionales para simular datos para observar el crecimiento en tres constructos de rendimiento. Los resultados mostraron que el modelo multidimensional recuperó las ganancias mejor que los modelos unidimensionales, pero esas ganancias se subestimaron principalmente debido a la selección de ítems comunes. Esto enfatiza la importancia de usar ítems comunes que cubran todo el contenido evaluado en los niveles de grado adyacentes.

Li (2007). El objetivo de esta tesis doctoral fue identificar si los métodos de IRT multidimensionales podrían usarse para el escalamiento vertical y qué factores podrían afectar los resultados. Este estudio se basó en una simulación diseñada para hacer coincidir los datos de evaluación estatal en Matemáticas. Los resultados mostraron que el uso de enfoques multidimensionales era factible, pero era importante que los ítems comunes incluyeran todas las dimensiones evaluadas en los niveles de grado adyacentes.

Ito, Sykes y Yao (2008). Este estudio comparó la calibración de grupos de grado concurrentes y separados mientras se desarrollaba una escala vertical para nueve grados consecutivos que rastreaban las competencias de los estudiantes en Lectura y Matemáticas. El estudio de investigación utilizó el software BMIRT implementando la estimación de Monte Carlo de cadena de Markov. Los resultados mostraron que las calibraciones simultáneas y por separado de los grupos de grado habían proporcionado resultados diferentes para Matemáticas que para Lectura. Esto, a su vez, confirma que la implementación de la escala vertical es muy difícil y que las combinaciones de decisiones sobre su construcción pueden tener efectos notables en los resultados.

Briggs y Weeks (2009). Este estudio de investigación se basó en datos reales utilizando respuestas a los ítems del Programa de Evaluación de Estudiantes de Colorado. El estudio comparó las escalas verticales basadas en el modelo 3PL con las del modelo Rasch. En general, el modelo 3PL proporcionó escalas verticales con mayores aumentos en el desempeño de un año a otro, pero también mayores aumentos dentro de la variabilidad de grado que la escala basada en el modelo Rasch. Todos los métodos dieron como resultado curvas de crecimiento con menor ganancia junto con un aumento en el nivel de grado, mientras que las desviaciones estándar no fueron muy diferentes en tamaño en diferentes niveles de grado.

Referencias

Berger, S., Verschoor, A. J., Eggen, T. J., & Moser, U. (2019, October). Development and validation of a vertical scale for formative assessment in mathematics. In Frontiers in Education (Vol. 4, p. 103). https://www.frontiersin.org/journals/education/articles/10.3389/feduc.2019.00103/full

Briggs, D. C., & Weeks, J. P. (2009). The impact of vertical scaling decisions on growth interpretations. Educational Measurement: Issues and Practice, 28(4), 3–14.

Briggs, D. C. (2010). Do Vertical Scales Lead to Sensible Growth Interpretations? Evidence from the Field. Online Submissionhttps://files.eric.ed.gov/fulltext/ED509922.pdf

De Ayala, R. J. (2009). The Theory and Practice of Item Response Theory. New York: Guilford Publications Incorporated.

Eggen, T. J. H. M., & Verhelst, N. D. (2011). Item calibration in incomplete testing designs. Psicológica 32, 107–132.

Harris, D. J. (2007). Practical issues in vertical scaling. In Linking and aligning scores and scales (pp. 233–251). Springer, New York, NY.

Hoskens, M., Lewis, D. M., & Patz, R. J. (2003). Maintaining vertical scales using a common item design. In annual meeting of the National Council on Measurement in Education, Chicago, IL.

Ito, K., Sykes, R. C., & Yao, L. (2008). Concurrent and separate grade-groups linking procedures for vertical scaling. Applied Measurement in Education, 21(3), 187–206.

Kolen, M. J., & Brennan, R. L. (2014). Item response theory methods. In Test Equating, Scaling, and Linking (pp. 171–245). Springer, New York, NY.

Li, T. (2007). The effect of dimensionality on vertical scaling (Doctoral dissertation, Michigan State University. Department of Counseling, Educational Psychology and Special Education).

Lord, F. M. (2012). Applications of item response theory to practical testing problems. Routledge.

Paek, I., & Young, M. J. (2005). Investigation of student growth recovery in a fixed-item linking procedure with a fixed-person prior distribution for mixed-format test data. Applied Measurement in Education, 18(2), 199–215.

Petersen, N. S., Kolen, M. J., & Hoover, H. D. (1989). Scaling, norming, and equating. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 221–262). New York: Macmillan.

Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen: Danmarks Paedagogiske Institut.

Reckase, M. D., & Li, T. (2007). Estimating gain in achievement when content specifications change: a multidimensional item response theory approach. Assessing and modeling cognitive development in school. JAM Press, Maple Grove, MN.

Reckase, M. (2010). Study of best practices for vertical scaling and standard setting with recommendations for FCAT 2.0. Unpublished manuscript. https://www.fldoe.org/core/fileparse.php/5663/urlt/0086369-studybestpracticesverticalscalingstandardsetting.pdf

Stocking, M. L., & Lord, F. M. (1983). Developing a common metric in item response theory. Applied psychological measurement, 7(2), 201–210. doi:10.1177/014662168300700208

Thurstone, L. L. (1925). A method of scaling psychological and educational tests. Journal of educational psychology, 16(7), 433–451.

Thurstone, L. L. (1938). Primary mental abilities (Psychometric monographs No. 1). Chicago: University of Chicago Press.

Tong, Y., & Harris, D. J. (2004, April). The impact of choice of linking and scales on vertical scaling. Paper presented at the annual meeting of the National Council on Measurement in Education, San Diego, CA.

Tong, Y., & Kolen, M. J. (2008). Maintenance of vertical scales. In annual meeting of the National Council on Measurement in Education, New York City.

van der Linden, W. J., & Glas, C. A. W. (eds.). (2010). Elements of Adaptive Testing. New York, NY: Springer.

von Davier, A. A., Carstensen, C. H., & von Davier, M. (2006). Linking competencies in educational settings and measuring growth. ETS Research Report Series, 2006(1), i–36. https://files.eric.ed.gov/fulltext/EJ1111406.pdf

Wainer, H. (Ed.). (2000). Computerized adaptive testing: A Primer, 2nd Edn. Mahwah, NJ: Lawrence Erlbaum Associates.

Wingersky, M. S., & Lord, F. M. (1983). An Investigation of Methods for Reducing Sampling Error in Certain IRT Procedures (ETS Research Reports Series No. RR-83-28-ONR). Princeton, NJ: Educational Testing Service.

Yen, W. M. (1986). The choice of scale for educational measurement: An IRT perspective. Journal of Educational Measurement, 23(4), 299–325.

Yen, W. M., & Burket, G. R. (1997). Comparison of item response theory and Thurstone methods of vertical scaling. Journal of Educational Measurement, 34(4), 293–313.

classroom students exam

Si está entregando pruebas de alto riesgo en formas lineales, o está pilotando un banco para prueba adaptativa computarizada/prueba lineal sobre la marcha, se enfrenta al problema de cómo equiparar las formas entre sí. Es decir, ¿cómo podemos traducir de manera defendible una puntuación en el Forma A a una puntuación en el Forma B? Si bien el concepto es simple, la metodología puede ser compleja y existe un área completa de investigación psicométrica dedicada a este tema. Hay varias formas de abordar esta cuestión, y la equiparación teoría de respuesta al ítem (TRÍ) es la más sólida.

¿Por qué necesitamos la equiparación?

La necesidad es obvia: ajustar las diferencias en dificultad para garantizar que todos los examinados reciban una puntuación justa en una escala estable. Supongamos que usted toma el Forma A y obtiene una puntuación de 72/100, mientras que su amigo toma el Forma B y obtiene una puntuación de 74/100. ¿Su amigo es más inteligente que usted, o su formulario tenía preguntas más fáciles? Bueno, si los diseñadores de la prueba incorporaron cierta superposición, podemos responder a esta pregunta empíricamente.

Supongamos que los dos formularios se superponen en 50 ítems, llamados ítems de anclaje o ítems de ecuador. Ambos formularios se entregan a una muestra grande y representativa. Estos son los resultados.

Forma Puntuación media en 50 Ítems superpuestos Puntuación media en 100 ítems en total
A 30 72
B 30 74

Because the mean score on the anchor items was higher, we then think that the Form B group was a little smarter, which led to a higher total score.

Now suppose these are the results:

FormA Puntuación media en 50 Ítems superpuestos Puntuación media en 100 ítems en total
A 32 72
B 32 74

Ahora, tenemos evidencia de que los grupos tienen la misma capacidad. La puntuación total más alta en el Forma B debe deberse entonces a que los ítems únicos en ese forma son un poco más fáciles.

¿Cómo calculo una equiparación?

Puede equiparar las formas con la teoría clásica de los test (TCT) o la teoría de respuesta al ítem (TRÍ). Sin embargo, una de las razones por las que se inventó la TRÍ fue que la equiparación con TCT era muy débil. Los métodos TCT incluyen Tucker, Levine y equipercentil. Sin embargo, ahora nos centraremos en la TRÍ.

La equiparación de TRÍ

Existen tres enfoques generales para la equiparación de TRÍ. Todos ellos se pueden lograr con nuestro software líder en la industria  Xcalibre, aunque la igualación de conversión requiere un software adicional llamado IRTEQ.

  1. Conversión
  2. Calibración concurrente
  3. Calibración de anclaje fijo

Conversión

Con este enfoque, debe calibrar cada forma de su prueba usando TRÍ, completamente por separado. Luego evaluamos la relación entre los parámetros TRÍ en cada forma y usamos eso para estimar la relación para convertir las puntuaciones del examinado. En teoría, lo que hace es alinear los parámetros TRÍ de los elementos comunes y realizar una regresión lineal, para luego poder aplicar esa conversión lineal a las puntuaciones.

Pero NO haga simplemente una regresión lineal regular. Hay métodos específicos que debe utilizar, incluidos media/media, media/sigma, Stocking & Lord y Haebara. Afortunadamente, no tiene que realizar todos los cálculos usted mismo, ya que hay software gratuito disponible para hacerlo por usted:  IRTEQ.

Calibración concurrentecommon item linking irt equating

El segundo enfoque consiste en combinar los conjuntos de datos en lo que se conoce como una matriz dispersa. Luego, se ejecuta este único conjunto de datos a través de la calibración TRÍ, y se colocarán todos los ítems y los examinados en una escala común. El concepto de una matriz dispersa se representa típicamente en la figura a continuación, que representa el enfoque de diseño de la prueba de anclaje no equivalente (NEAT).

El software de calibración TRÍ equiparará automáticamente los dos formas y usted podrá utilizar los puntajes resultantes.

Calibración de anclaje fijo

El tercer enfoque es una combinación de los dos anteriores; utiliza el concepto de calibración independiente, pero sigue utilizando el proceso de calibración TRÍ para realizar la equiparación en lugar de un software independiente.

Con este enfoque, primero calibraría sus datos para el Forma A. Luego, buscaría todos los parámetros de los ítems TRÍ para los elementos comunes y los ingresaría en su software de calibración TRÍ cuando calibre el Forma B.

Puede indicarle al software que “arregle” los parámetros de los ítems para que esos en particular (de los elementos comunes) no cambien. Luego, todos los parámetros de los ítems para los ítems únicos se fuerzan en la escala de los ítems comunes, que, por supuesto, es la escala subyacente del Forma A. Esto también fuerza las puntuaciones de los estudiantes del Forma B en la escala del Forma A.

¿Cómo se comparan estos enfoques de equiparación de TRÍ entre sí?
concurrent calibration irt equating linking

La calibración concurrente es posiblemente la más fácil, pero tiene el inconveniente de que fusiona las escalas de cada formulario en una nueva escala en algún lugar intermedio. Si necesita informar las puntuaciones de cualquiera de los formas en la escala original, debe utilizar los métodos de conversión o de anclaje fijo. Esta situación ocurre comúnmente si está haciendo comparaciones entre períodos de tiempo.

Suponga que entregó el Forma A el año pasado y ahora está tratando de hacer comparaciones con el Forma B. No puede simplemente crear una nueva escala y, por lo tanto, anular todas las puntuaciones que informó el año pasado. Debe mapear el Forma B en el Forma A para que las puntuaciones de este año se informen en la escala del año pasado y las puntuaciones de todos sean consistentes.

¿A dónde voy desde aquí?

Si desea realizar la equiparación TRÍ, necesita un software de calibración TRÍ. Los tres enfoques lo utilizan. Recomiendo encarecidamente  Xcalibre, ya que es fácil de usar y crea automáticamente informes en Word para usted. Si desea obtener más información sobre el tema de la equiparación, la referencia clásica es el libro de Kolen y Brennan (2004; 2014). Hay otros recursos más disponibles en Internet, como este manual gratuito de CCSSO. Si desea obtener más información sobre TRÍ, recomiendo los libros de de Ayala (2008) y Embretson & Reise (2000). Hay una introducción disponible en nuestra publicación de blog.