Desarrollo de pruebas Archives

Límites de Tiempo en Evaluaciones

Nathan Thompson, PhDmarzo 4, 2025

Los límites de tiempo son un parámetro esencial en prácticamente todos los tipos de evaluación. Un límite de tiempo es la duración asignada a los individuos para completar su evaluación o una parte definida de ella. Gestionar el tiempo de los exámenes de manera efectiva garantiza equidad, precisión y una experiencia agradable para todos los examinados. Por lo tanto, es un componente clave de la validez de la prueba, lo que significa que debemos investigar y establecer los límites de tiempo de manera reflexiva.

En este artículo, exploraremos el concepto de cronometraje en los exámenes, cómo se determinan los límites de tiempo y cómo se brindan ajustes para quienes necesitan tiempo adicional.

Evaluaciones de Potencia vs. Velocidad vs. Tiempo Controlado

Cuando hablamos del papel del tiempo en las evaluaciones, existen tres tipos principales. Este artículo se centra en los exámenes cronometrados, pero puedes leer más sobre pruebas de velocidad y potencia en este artículo.

Potencia (Power Tests)

Este tipo de prueba no tiene límite de tiempo, lo que permite que el examinado tenga todo el tiempo que necesite para demostrar cuánto puede hacer y hasta dónde puede llegar. El objetivo es medir el máximo nivel de rendimiento del examinado.

Ejemplo: Un examen de matemáticas con ejercicios avanzados que podrían estar más allá del nivel de aprendizaje del estudiante, pero que podrían ser resueltos si se les da suficiente tiempo.

Velocidad (Speeded Tests)

En estas pruebas, el límite de tiempo es lo suficientemente ajustado como para afectar el rendimiento. El objetivo es evaluar la rapidez del examinado.

Ejemplo: Proporcionar una lista de 100 problemas matemáticos simples y medir cuántos puede resolver en 30 segundos. O dar una lista de 100 palabras para corregir en el mismo tiempo.

En estos casos, la puntuación sigue dependiendo de las respuestas correctas, pero está condicionada por el tiempo disponible. En algunas evaluaciones, el tiempo en sí es la calificación, como cuando se mide el tiempo que una persona tarda en correr una milla.

Tiempo Controlado (Timed Tests)

Son pruebas con límite de tiempo, pero diseñado de manera que no afecte a la mayoría de los examinados. La mayoría de las evaluaciones entran en esta categoría.

Ejemplo: Un examen de 100 preguntas con un límite de 2 horas, donde la mayoría de los examinados terminan en 1.5 horas. El límite existe para evitar que una persona pase todo el día en la prueba, pero en general, no afecta su rendimiento.

Factores Claves al Determinar los Límites de Tiempo

Varios factores se consideran al decidir los límites de tiempo de una evaluación:

Complejidad del Contenido
- Un examen de matemáticas o ciencias con problemas complejos requerirá más tiempo que una prueba de razonamiento verbal o habilidades cognitivas generales.
Carga de Tiempo de las Preguntas
- Si el examen incluye pasajes de lectura, videos, imágenes complejas como radiografías, o cualquier otro material que deba analizarse antes de responder, el tiempo debe ajustarse en consecuencia.
Propósito de la Evaluación
- En exámenes de alta importancia, como certificaciones o licencias, se busca medir un conocimiento profundo y se necesita alta fiabilidad y validez.
- Para pruebas rápidas, como un test de matemáticas de 4º grado o una evaluación previa al empleo, un límite de tiempo más corto es suficiente y acorde con el objetivo de la prueba.
Seguridad del Examen
- Algunas personas intentan robar contenido del examen. Un tiempo extra prolongado puede permitir que memoricen preguntas para filtrarlas en sitios ilegales.

Cómo Determinar los Límites de Tiempo en Pruebas Lineales

Los desarrolladores de exámenes utilizan datos históricos y modelos estadísticos para estimar el tiempo óptimo para los examinados. Basándose en evidencia empírica, pueden predecir cuánto tiempo necesita un examinado promedio y ajustar el límite en consecuencia.

Ejemplo: Si un examen tiene 100 preguntas y cada una toma 1 minuto en promedio, entonces un límite de 120 minutos (2 horas) es razonable.

Cómo Determinar los Límites de Tiempo en Pruebas Adaptativas

A diferencia de los exámenes tradicionales, donde todos responden las mismas preguntas, los exámenes adaptativos ajustan la dificultad en tiempo real según el desempeño del examinado.

Ejemplo: El examen de licencia de enfermería NCLEX tiene entre 85 y 150 preguntas, por lo que los tiempos varían según el número de preguntas presentadas.

El ASVAB (prueba de aptitud para las Fuerzas Armadas de EE.UU.) es otro examen adaptativo que utiliza un enfoque lineal para determinar el tiempo, garantizando que el 98% de los examinados finalicen sin que el tiempo sea una limitación.

Extensiones de Tiempo: Ajustes para los Examinados

Las pruebas deben considerar a personas con necesidades especiales, como aquellas con dislexia, TDAH o discapacidades visuales. Estas personas pueden requerir tiempo adicional o herramientas de apoyo, como lectores de pantalla.

Las extensiones de tiempo se otorgan basadas en documentación médica o educativa, asegurando que los ajustes sean justos y no brinden ventajas indebidas.

Tipos de Límites de Tiempo en los Exámenes

Los límites de tiempo pueden aplicarse en varios niveles:

Por Pregunta: Ejemplo: Un test de memoria de trabajo con un límite de 30 segundos por pregunta.
Por Sección: Ejemplo: Un examen dividido en secciones con pausas intermedias.
Por Examen Completo: El formato más común, con un límite de tiempo global.
Por Sesión: En baterías de pruebas, puede haber un límite total para todo el proceso.

Las funciones de tiempo también deben integrarse con las medidas de seguridad, como el control de reingreso. Por ejemplo, nuestra plataforma Assess.ai tiene una opción donde el temporizador sigue corriendo incluso si el examinado se ausenta.

Conclusión: La Importancia de Establecer Límites de Tiempo Efectivos

Determinar el tiempo adecuado para una evaluación no es solo una cuestión técnica, sino un factor clave para garantizar equidad, precisión y validez. Un límite de tiempo bien diseñado equilibra la necesidad de evaluar el conocimiento sin imponer restricciones innecesarias a los examinados.

Ya sea en pruebas de potencia, velocidad o cronometradas, es esencial considerar la complejidad del contenido, la seguridad del examen y las necesidades de los examinados con ajustes especiales. Además, en pruebas adaptativas, la flexibilidad en los límites de tiempo puede mejorar la precisión de la evaluación.

En última instancia, establecer límites de tiempo efectivos es un paso fundamental para diseñar evaluaciones justas y confiables. Al implementar buenas prácticas y basarnos en evidencia empírica, podemos garantizar que cada examinado tenga la oportunidad de demostrar su verdadero nivel de conocimiento sin que el tiempo sea una barrera.

marzo 4, 2025/por Nathan Thompson, PhD

¿Qué es KSAO y cómo impacta en la evaluación?

Nathan Thompson, PhDfebrero 13, 2025

¿Qué es un KSAO?

Los KSAOs (Conocimientos, Habilidades, Capacidades y Otras Características) son una forma de definir los atributos humanos necesarios para tener éxito en un trabajo. Son esenciales en Recursos Humanos y Desarrollo Organizacional, influyendo en procesos críticos como el reclutamiento, la selección y la compensación.

Este artículo introduce los KSAOs y explica su impacto en las evaluaciones laborales, como pruebas de preselección o exámenes de certificación/licencia.

¿Necesitas ayuda para desarrollar una evaluación basada en principios psicométricos sólidos como el análisis de puesto y KSAOs? O tal vez solo una plataforma de software que facilite el proceso. ¡Contáctanos!

¿Qué es un KSAO? Conocimientos, Habilidades, Capacidades y Otras Características

KSAO es un acrónimo que representa cuatro componentes esenciales:

Conocimientos – Comprensión de conceptos, hechos e información necesarias para un puesto. Ejemplo: Un desarrollador de software necesita conocimientos de lenguajes como Python o Java.

Habilidades – Competencias adquiridas para realizar tareas específicas. Ejemplo: Un contador necesita habilidades en análisis financiero y manejo de hojas de cálculo.

Capacidades – Rasgos naturales o desarrollados que determinan el desempeño en ciertas tareas. Ejemplo: Un cirujano necesita capacidad de mantener la calma bajo presión y precisión manual.

Otras características – Rasgos personales que pueden influir en el desempeño laboral. Ejemplo: Un representante de servicio al cliente debe tener una actitud positiva y excelentes habilidades de comunicación.

Ejemplos de KSAOs en diferentes roles

Enfermero/a registrado/a

Conocimientos: Terminología médica, protocolos de atención, farmacología.
Habilidades: Administración de inyecciones, manejo de equipos médicos, registro de datos.
Capacidades: Resistencia emocional, pensamiento crítico, resistencia física.
Otras características: Compasión, trabajo en equipo, atención al detalle.

Gerente de marketing

Conocimientos: Investigación de mercado, tendencias de marketing digital, comportamiento del consumidor.
Habilidades: Análisis de datos, creación de contenido, gestión de campañas.
Capacidades: Pensamiento estratégico, multitarea, resolución creativa de problemas.
Otras características: Liderazgo, adaptabilidad, habilidades de comunicación.

Ingeniero/a de software

Conocimientos: Lenguajes de programación, metodologías de desarrollo de software.
Habilidades: Depuración de código, diseño de algoritmos, pruebas de software.
Capacidades: Razonamiento lógico, atención al detalle, gestión del tiempo.
Otras características: Innovación, trabajo en equipo, enfoque en la resolución de problemas.

¿Por qué los KSAOs son importantes en Recursos Humanos, Reclutamiento y Selección?

Impulsan el reclutamiento – Proporcionan un marco claro para emparejar candidatos con puestos.
Definen expectativas laborales – Reducen la confusión y alinean a empleados y empleadores.
Mejoran la toma de decisiones de contratación – Permiten evaluar candidatos con base en criterios objetivos.
Optimización del entrenamiento y desarrollo – Ayudan a identificar brechas de habilidades y mejorar la capacitación.
Cumplimiento legal y equidad – Reducen el riesgo de decisiones de contratación sesgadas o discriminatorias.
Estructuración de compensaciones – Justifican los niveles salariales con base en requisitos laborales específicos.

¿Cómo se relacionan los KSAOs con la evaluación?

Las evaluaciones de certificación y selección deben basarse en evidencia y documentación de validez.

Ejemplo: Si desarrollas un examen de certificación para fabricantes de widgets, no puedes simplemente escribir 100 preguntas al azar. Primero necesitas un análisis de puesto.

El análisis de puesto identifica las tareas y habilidades esenciales mediante grupos focales o encuestas a expertos en el área.

Los resultados permiten definir los KSAOs clave, asegurando que las evaluaciones reflejen las competencias necesarias y cumplan con estándares internacionales.

Sin KSAOs bien definidos, los exámenes y procesos de selección carecen de validez y pueden ser impugnados.

Conclusión: El valor de los KSAOs

Integrar los KSAOs en la contratación, desarrollo y evaluación de empleados aporta validez, precisión y eficiencia, beneficiando a la empresa y su talento.

Si eres un profesional de RRHH o evaluación de talento, comprender los KSAOs te ayudará a tomar mejores decisiones.

¿Quieres asesoría para desarrollar exámenes que cumplan con estándares psicométricos internacionales? ¡Contáctanos!

febrero 13, 2025/por Nathan Thompson, PhD

Evaluación de Habilidades Blandas en el Entorno Laboral Moderno

Leonardo Revilla, MScfebrero 4, 2025

En el mundo laboral actual, la experiencia técnica por sí sola ya no garantiza el éxito profesional. Las habilidades blandas—como la inteligencia emocional, la comunicación efectiva y la capacidad de trabajar en equipo—son clave para fomentar la colaboración, la innovación y la adaptabilidad en entornos de trabajo dinámicos.

Las empresas están adoptando un enfoque más integral en la selección de talento, lo que ha convertido la evaluación de habilidades blandas en una herramienta esencial para medir y desarrollar estas competencias. Evaluarlas no solo es útil de manera individual, sino que también complementa y mejora la validez de las pruebas cognitivas.

En este artículo, exploraremos la importancia de las habilidades blandas, su impacto en el crecimiento profesional y estrategias para evaluarlas y desarrollarlas, basándonos en investigaciones recientes y la opinión de expertos. Si estás listo para implementar estas evaluaciones, puedes adquirir pruebas predefinidas de empresas como ioPredict o utilizar los servicios de desarrollo de pruebas y la plataforma de evaluación en línea de ASC para diseñar y aplicar tus propias pruebas.

¿Qué son las habilidades blandas?

Las habilidades blandas abarcan un conjunto amplio de competencias interpersonales e intrapersonales. A diferencia de las habilidades técnicas, que son medibles y específicas, las habilidades blandas incluyen aspectos como: Improving Employee Retention - Strategies for Success

Comunicación: Capacidad de expresar ideas de manera clara y escuchar activamente.
Trabajo en equipo: Colaboración efectiva con personas de distintos perfiles y antecedentes.
Adaptabilidad: Manejo positivo del cambio y la incertidumbre.
Inteligencia emocional: Reconocimiento y gestión de las propias emociones y comprensión de las emociones ajenas.
Resolución de problemas: Abordaje de desafíos con pensamiento crítico y creatividad.

Estas competencias ayudan a los profesionales a navegar entornos laborales complejos y adaptarse a las exigencias del mercado actual.

¿Por qué son fundamentales las habilidades blandas?

Mayor colaboración en el trabajo

Las empresas dependen cada vez más del trabajo en equipo, lo que hace imprescindible la comunicación efectiva y la cooperación. Un estudio de McKinsey & Company (2021) reveló que los equipos con sólidas habilidades colaborativas son un 25% más productivos.

Adaptabilidad en un mundo en constante cambio

En un entorno marcado por la disrupción tecnológica y el trabajo remoto, la capacidad de adaptación se ha convertido en un factor determinante para el éxito profesional. El Foro Económico Mundial (2020) identificó la adaptabilidad como una de las habilidades clave en la Cuarta Revolución Industrial.

Liderazgo e inteligencia emocional

Ser un buen líder va más allá del conocimiento técnico: implica inspirar y guiar equipos. La inteligencia emocional es un componente fundamental del liderazgo efectivo. Según Daniel Goleman, los líderes con alta inteligencia emocional generan mayor compromiso y retención de talento en sus equipos (Goleman, 1998).

Mejora en la relación con clientes

En roles de atención al cliente, habilidades como la empatía y la escucha activa son esenciales. Un estudio de Salesforce (2022) mostró que el 70% de los clientes son más leales a empresas donde se sienten comprendidos y valorados.

Enfoques para la Evaluación de Habilidades Blandas

La evaluación de habilidades blandas requiere herramientas y metodologías que simulen escenarios reales y analicen las respuestas conductuales de los candidatos o empleados. Algunas de las estrategias más utilizadas incluyen: FastTest - Situational Judgment Test SJT example

Pruebas de juicio situacional (SJT):Presentan escenarios laborales realistas y piden a los participantes que elijan la mejor respuesta, evaluando su toma de decisiones e inteligencia interpersonal.
Entrevistas por Competencias: Preguntas estructuradas que exploran experiencias pasadas y cómo los candidatos manejaron distintas situaciones.
Feedback 360°: Evaluaciones que recopilan opiniones de colegas, supervisores y subordinados sobre la efectividad interpersonal del evaluado.
Pruebas de personalidad e inteligencia emocional: Herramientas como el modelo de los Cinco Grandes evalúan rasgos que influyen en la comunicación y adaptabilidad.
Simulaciones laborales: Ejercicios de rol que reproducen desafíos cotidianos del puesto de trabajo.

Preguntas de ejemplo para evaluar habilidades blandas en entrevistas

Comunicación: “Cuéntame sobre una ocasión en la que tuviste que explicar una idea compleja a alguien sin conocimientos en el tema. ¿Cómo te aseguraste de que lo entendiera?”
Trabajo en equipo: “Describe una experiencia en la que trabajaste en equipo. ¿Cuál fue tu rol y cómo manejaste los desacuerdos?”
Adaptabilidad: “Cuéntame sobre un momento en el que enfrentaste un cambio importante en tu trabajo. ¿Cómo lo manejaste?”
Resolución de problemas: “Menciona un desafío complicado que hayas enfrentado en el trabajo. ¿Cómo identificaste la causa raíz y lo resolviste?”
Inteligencia emocional: “Dame un ejemplo de una situación en la que notaste que las emociones de alguien estaban afectando su desempeño. ¿Cómo lo abordaste?”

Desarrollo de habilidades blandas

Las habilidades blandas pueden desarrollarse con práctica deliberada, retroalimentación y formación específica. Algunas estrategias efectivas incluyen:

Aprendizaje continuo: Talleres, cursos en línea y seminarios sobre comunicación, inteligencia emocional y liderazgo. Plataformas como Coursera y LinkedIn Learning ofrecen recursos valiosos.
Feedback y autoevaluación: La retroalimentación de colegas y supervisores ayuda a identificar áreas de mejora.
Ejercicios de simulación: Los juegos de roles y pruebas de juicio situacional permiten practicar habilidades en contextos reales.
Programas de mentoría: Aprender de mentores experimentados facilita el desarrollo de habilidades interpersonales.
Mindfulness y regulación emocional: Técnicas como la meditación mejoran la autorregulación emocional, la empatía y el manejo del estrés (Harvard Medical School, 2018).

Cómo medir el impacto de las habilidades blandas

Aunque las habilidades blandas pueden parecer intangibles, su impacto se refleja en métricas clave:

Retención de empleados: Las empresas que invierten en capacitación en habilidades blandas reducen la rotación de personal (LinkedIn Workplace Learning Report, 2023).
Desempeño en equipo: Los equipos con comunicación y colaboración efectiva logran mayores tasas de éxito en proyectos (MIT Sloan Management, 2017).
Satisfacción del cliente: Una mejor interacción con los clientes mejora la lealtad y la reputación de la empresa.

Conclusión

Las habilidades blandas ya no son un complemento, sino un pilar del éxito profesional. Implementar estrategias de evaluación adecuadas permite a las empresas identificar y potenciar estas competencias, promoviendo la innovación y el crecimiento sostenible.

febrero 4, 2025/por Leonardo Revilla, MSc

Evaluación de RH para la etapa previa al empleo: enfoques y soluciones

Adminenero 15, 2025

La evaluación de RH es una parte fundamental del ecosistema de RH, que se utiliza para seleccionar a los mejores candidatos con pruebas previas al empleo, evaluar la formación, certificar habilidades y más. Pero existe una gran variedad en cuanto a calidad, así como una amplia gama en el tipo de evaluación para la que está diseñada. Esta publicación desglosará los diferentes enfoques y lo ayudará a encontrar la mejor solución.

Las plataformas de evaluación de RH ayudan a las empresas a crear evaluaciones efectivas, ahorrando así recursos valiosos, mejorando la experiencia y la calidad de los candidatos, proporcionando información más precisa y procesable sobre el capital humano y reduciendo el sesgo de contratación. Pero encontrar soluciones de software que puedan ayudarlo a cosechar estos beneficios puede ser difícil, especialmente debido a la explosión de soluciones en el mercado. Si no sabe qué herramientas lo ayudarán a desarrollar y entregar sus propias evaluaciones de RH, esta guía es para usted.

¿Qué es la evaluación de RH?

La evaluación de RH es un proceso integral que utilizan los profesionales de recursos humanos para evaluar diversos aspectos de las capacidades, habilidades y desempeño de los empleados actuales y potenciales. Este proceso abarca una amplia gama de herramientas y metodologías diseñadas para brindar información sobre la idoneidad de una persona para un puesto, sus necesidades de desarrollo y su potencial de crecimiento futuro dentro de la organización.

El objetivo principal de la evaluación de RH es tomar decisiones informadas sobre la contratación, el desarrollo de los empleados y la planificación de la sucesión. Durante la fase de contratación, las evaluaciones de RH ayudan a identificar candidatos que poseen las competencias necesarias y se adaptan a la cultura de la organización.

Existen varios tipos de evaluaciones utilizadas en RH. Aquí hay cuatro áreas principales, aunque esta lista no es de ninguna manera exhaustiva.

Pruebas previas al empleo para seleccionar candidatos
Evaluaciones posteriores a la capacitación
Exámenes de certificación o de certificación (pueden ser internos o externos)
Evaluaciones de 360 grados y otras evaluaciones de desempeño

Pruebas previas al empleo

Encontrar buenos empleados en un mercado saturado es una tarea abrumadora. De hecho, según Harvard Business Review, el 80 % de la rotación de personal se atribuye a malas decisiones de contratación. Las malas contrataciones no solo son caras, sino que también pueden afectar negativamente la dinámica cultural en la fuerza laboral. Esta es un área en la que el software de evaluación de RR.HH. demuestra su valor.

Existen diferentes tipos de evaluaciones previas al empleo. Cada una de ellas logra un objetivo diferente en el proceso de contratación. Los principales tipos de evaluaciones previas al empleo incluyen:

Pruebas de personalidad: A pesar de que rápidamente se han abierto camino en RH, este tipo de pruebas previas al empleo son ampliamente malinterpretadas. Las pruebas de personalidad responden a preguntas del espectro social. Uno de los principales objetivos de estas pruebas es cuantificar el éxito de ciertos candidatos en función de rasgos de comportamiento.

Pruebas de aptitud: A diferencia de las pruebas de personalidad o las pruebas de inteligencia emocional que tienden a ubicarse en el espectro social, las pruebas de aptitud miden la resolución de problemas, el pensamiento crítico y la agilidad. Este tipo de pruebas son populares porque pueden predecir el desempeño laboral más que cualquier otro tipo, ya que pueden aprovechar áreas que no se pueden encontrar en los currículums o las entrevistas de trabajo.

Pruebas de habilidades: los tipos de pruebas se pueden considerar una medida de la experiencia laboral; van desde habilidades de alto nivel hasta habilidades de bajo nivel, como mecanografía o Microsoft Excel. Las pruebas de habilidades pueden medir habilidades específicas, como la comunicación, o medir habilidades generalizadas, como la aritmética.

Pruebas de inteligencia emocional: este tipo de evaluaciones son un concepto nuevo, pero están adquiriendo importancia en la industria de RH. Dado que una inteligencia emocional (IE) sólida se asocia con beneficios como una mayor productividad en el lugar de trabajo y un buen liderazgo, muchas empresas están invirtiendo mucho en el desarrollo de este tipo de pruebas. A pesar de que se pueden administrar a cualquier candidato, se recomienda reservarlas para personas que buscan puestos de liderazgo o para quienes se espera que trabajen en contextos sociales.

Pruebas de riesgo: como sugiere el nombre, este tipo de pruebas ayudan a las empresas a reducir los riesgos. Las evaluaciones de riesgo ofrecen garantías a los empleadores de que sus trabajadores se comprometerán con la ética laboral establecida y no se involucrarán en ninguna actividad que pueda causarles daño a ellos mismos o a la organización. Existen diferentes tipos de pruebas de riesgo. Las pruebas de seguridad, que son populares en contextos como la construcción, miden la probabilidad de que los candidatos participen en actividades que puedan causarles daño. Otros tipos comunes de pruebas de riesgo incluyen pruebas de integridad.

Evaluaciones posteriores a la capacitación

Esto se refiere a las evaluaciones que se realizan después de la capacitación. Puede ser una prueba sencilla después de un módulo de aprendizaje electrónico, hasta un examen de certificación después de meses de capacitación (consulte la siguiente sección). A menudo, es algo intermedio. Por ejemplo, puede realizar un curso de capacitación por la tarde, después del cual realiza una prueba formal que se requiere para hacer algo en el trabajo. Cuando era estudiante de secundaria, trabajé en un depósito de madera e hice exactamente esto para convertirme en un conductor de montacargas aprobado por OSHA.

Exámenes de certificación o certificado

A veces, el proceso de examen puede ser de alto riesgo y formal. En ese caso, se trata de un certificado o certificación, o, a veces, de un examen de licencia. Más información sobre eso aquí. Esto puede ser interno a la organización o externo.

Certificación interna: la credencial la otorga la organización de capacitación y el examen está específicamente vinculado a un determinado producto o proceso que la organización ofrece en el mercado. Hay muchos ejemplos de este tipo en la industria del software. Puede obtener certificaciones en AWS, SalesForce, Microsoft, etc. Uno de nuestros clientes fabrica máquinas de resonancia magnética y otras máquinas de imágenes médicas; los candidatos están certificados sobre cómo calibrarlas o repararlas.

Certificación externa: la credencial la otorga una junta externa o una agencia gubernamental y el examen es para toda la industria. Un ejemplo de esto son los exámenes SIE que ofrece FINRA. Un candidato puede ir a trabajar a una compañía de seguros u otra compañía de servicios financieros, que lo capacita y lo patrocina para que tome el examen con la esperanza de que la compañía obtenga una ganancia si el candidato aprueba y luego vende sus pólizas de seguro como agente. Pero la compañía no patrocina el examen; FINRA lo hace.

Evaluaciones de 360 grados y otras evaluaciones de desempeño

El desempeño laboral es uno de los conceptos más importantes en RH y también uno que a menudo es difícil de medir. John Campbell, uno de mis asesores de tesis, era conocido por desarrollar un modelo de desempeño de 8 factores. Algunos aspectos son subjetivos y otros se miden fácilmente con datos del mundo real, como la cantidad de dispositivos fabricados o la cantidad de automóviles vendidos por un vendedor de automóviles. Otros implican evaluaciones de estilo encuesta, como pedir a los clientes, socios comerciales, compañeros de trabajo, supervisores y subordinados que califiquen a una persona en una escala de Likert. Se necesitan plataformas de evaluación de RH para desarrollar, entregar y calificar dichas evaluaciones.

Los beneficios de utilizar un software de evaluación de nivel profesional

Ahora que ya comprende bien qué son las pruebas previas al empleo y otras pruebas de RH, analicemos los beneficios de integrar un software de evaluación previa al empleo en su proceso de contratación. Estos son algunos de los beneficios:

Ahorra recursos valiosos

Unlike the lengthy and costly traditional hiring processes, pre-employment assessment software helps companies increase their ROI by eliminating HR snugs such as face-to-face interactions or geographical restrictions. Pre-employment testing tools can also reduce the amount of time it takes to make good hires while reducing the risks of facing the financial consequences of a bad hire.

A diferencia de los largos y costosos procesos de contratación tradicionales, el software de evaluación previa al empleo ayuda a las empresas a aumentar su retorno de la inversión al eliminar inconvenientes de RH, como interacciones cara a cara o restricciones geográficas. Las herramientas de evaluación previa al empleo también pueden reducir la cantidad de tiempo que lleva realizar buenas contrataciones y, al mismo tiempo, reducir los riesgos de enfrentar las consecuencias financieras de una mala contratación.

Apoya las decisiones de contratación basadas en datos

Los datos gobiernan el mundo moderno, y la contratación no es diferente. Es mejor dejar que algoritmos complejos analicen los números y lo ayuden a decidir qué talento es el adecuado, en lugar de contratar basándose en una corazonada o métodos menos precisos como una entrevista no estructurada. El software de evaluación previa al empleo lo ayuda a analizar evaluaciones y generar informes/visualizaciones para ayudarlo a elegir a los candidatos adecuados de un gran grupo de talentos.

Mejora de la experiencia del candidato

La experiencia del candidato es un aspecto importante del crecimiento de una empresa, especialmente si se considera el hecho de que el 69% de los candidatos admiten no postularse para un trabajo en una empresa después de tener una experiencia negativa. Una buena experiencia del candidato significa que tiene acceso al mejor talento del mundo.

Eliminación del sesgo humano

Los procesos de contratación tradicionales se basan en el instinto. No son efectivos porque es fácil que los candidatos brinden información falsa en sus currículums y cartas de presentación. Pero el uso de software de evaluación previa al empleo ha ayudado a eliminar este obstáculo. Las herramientas han nivelado el terreno de juego y solo los mejores candidatos son considerados para un puesto.

Qué tener en cuenta al elegir herramientas de evaluación de RH

Ahora que tiene una idea clara de qué son las pruebas previas al empleo y los beneficios de integrar el software de evaluación previa al empleo en su proceso de contratación, veamos cómo puede encontrar las herramientas adecuadas.

A continuación, se detallan los aspectos más importantes que debe tener en cuenta al elegir el software de evaluación previa al empleo adecuado para su organización.

Facilidad de uso

Los candidatos deben ser su principal prioridad cuando busque un software de evaluación previa al empleo. Esto se debe a que la facilidad de uso se relaciona directamente con una buena experiencia del candidato. Un buen software debe tener módulos de navegación simples y una fácil comprensión.

A continuación, se incluye una lista de verificación para ayudarlo a decidir si un software de evaluación previa al empleo es fácil de usar:

¿Los resultados son fáciles de interpretar?
¿Cómo es la interfaz de usuario y la experiencia de usuario?
¿Qué métodos utiliza para automatizar tareas como la gestión de candidatos?
¿Tiene buena documentación y una comunidad activa?

Entrega de pruebas y supervisión remota

Un buen software de evaluación en línea debe contar con buenas funcionalidades de supervisión en línea. Esto se debe a que la mayoría de los trabajos remotos aceptan solicitudes de todo el mundo. Por lo tanto, es recomendable elegir un software de pruebas previas al empleo que tenga capacidades de supervisión remota seguras. Estas son algunas de las cosas que debe buscar en la supervisión remota:

¿La plataforma admite procesos de seguridad como autenticación basada en IP, bloqueo del navegador y señalización de IA?
¿Qué tipos de supervisión en línea ofrece el software? ¿En tiempo real en vivo, revisión de IA o grabación y revisión?
¿Le permite traer su propio supervisor?
¿Ofrece análisis de pruebas?

Seguridad de pruebas y datos, y cumplimiento normativo

La capacidad de defensa es lo que define la seguridad de las pruebas. Existen varias capas de seguridad asociadas con la seguridad de las pruebas previas al empleo. Al evaluar este aspecto, debe considerar qué hace el software de pruebas previas al empleo para lograr el mayor nivel de seguridad. Esto se debe a que las violaciones de datos son extremadamente costosas.

La primera capa de seguridad es la prueba en sí. El software debe admitir tecnologías y marcos de seguridad como el bloqueo del navegador, el marcado de IP y la autenticación basada en IP.

La otra capa de seguridad está del lado del candidato. Como empleador, usted tendrá acceso a la información privada del candidato. ¿Cómo puede asegurarse de que los datos de su candidato estén seguros? Esa es razón suficiente para evaluar las pautas de cumplimiento y protección de datos del software.

Un buen software de pruebas previas al empleo debe cumplir con certificaciones como la GDPR. El software también debe ser flexible para adaptarse a las pautas de cumplimiento de diferentes partes del mundo.

Preguntas que debe plantearse:

¿Qué mecanismos emplea el software para eliminar la infidelidad?
¿Su función de supervisión remota es fiable y segura?
¿Cumplen las directrices de cumplimiento de seguridad, como ISO, SSO o GDPR?
¿Cómo protege el software los datos de los usuarios?

Psicometría

La psicometría es la ciencia de la evaluación, que ayuda a obtener puntuaciones precisas a partir de pruebas defendibles, además de hacerlas más eficientes, reducir el sesgo y ofrecer una serie de otros beneficios. Debe asegurarse de que su solución admita el nivel necesario de psicometría. Algunas sugerencias:

Almacenar estadísticas de ítems en el banco de ítems
Gestionar estudios de Angoff modificados
Usar estadísticas de pruebas para el ensamblaje de formularios, como la función de información de pruebas
Compatibilidad con la teoría de respuesta a ítems
Pruebas adaptativas

Experiencia de usuario

Una buena experiencia de usuario es un factor indispensable a la hora de buscar un software empresarial. Un software de pruebas previas al empleo de última generación debe crear mapas de experiencia de usuario teniendo en cuenta tanto a los candidatos como al empleador. Algunas formas de saber si un software ofrece una experiencia de usuario perfecta incluyen:

Interfaz fácil de usar
Sencillo y fácil de interactuar
Bancos de elementos fáciles de crear y gestionar
Panel de control claro con análisis y visualizaciones avanzados

Personalizar los mapas de experiencia de usuario para que se ajusten a las expectativas de los candidatos atrae talento de alta calidad.

Escalabilidad y automatización

Dado que una única publicación de empleo atrae a aproximadamente 250 candidatos, la escalabilidad no es algo que deba pasar por alto. Por lo tanto, un buen software de pruebas previas al empleo debe tener la capacidad de manejar cualquier tipo de carga de trabajo, sin sacrificar la calidad de la evaluación.

También es importante que verifique las capacidades de automatización del software. El proceso de contratación tiene muchas tareas repetitivas que se pueden automatizar con tecnologías como el aprendizaje automático, la inteligencia artificial (IA) y la automatización robótica de procesos (RPA).

Estas son algunas preguntas que debe considerar en relación con la escalabilidad y la automatización:

¿El software ofrece generación automatizada de elementos (AIG)?
¿Cuántos candidatos puede manejar?
¿Puede admitir candidatos de diferentes ubicaciones en todo el mundo?

Informes y análisis

Un buen software de evaluación previa al empleo no lo dejará colgado después de ayudarlo a desarrollar y entregar las pruebas, sino que le permitirá obtener información importante de las evaluaciones.

Los informes analíticos se pueden utilizar para tomar decisiones basadas en datos sobre qué candidato es adecuado y cómo mejorar su experiencia. A continuación, se incluyen algunas consultas que se pueden realizar sobre informes y análisis.

¿El software tiene un buen panel de control?
¿En qué formato se generan los informes?
¿Qué información clave pueden obtener los clientes potenciales del proceso de análisis?
¿Qué tan buenas son las visualizaciones?

Atención al cliente y soporte técnico

El soporte técnico y al cliente no es algo que deba pasarse por alto. Un buen software de evaluación previa al empleo debe contar con un sistema de soporte omnicanal que esté disponible las 24 horas del día, los 7 días de la semana. Esto se debe principalmente a que algunas situaciones requieren una respuesta rápida. Estas son algunas de las preguntas que debe plantearse al evaluar el soporte técnico y al cliente:

¿Qué canales de soporte ofrece el software? ¿Qué tan rápido es su soporte?
¿Qué tan buena es su página de preguntas frecuentes/recursos?
¿Ofrecen medios de soporte en varios idiomas?
¿Tienen administradores dedicados para ayudarlo a aprovechar al máximo sus pruebas?

Conclusión

Encontrar el software de evaluación de RR.HH. adecuado es un proceso largo, pero rentable a largo plazo. Esperamos que el artículo arroje algo de luz sobre los aspectos importantes que se deben tener en cuenta al buscar dichas herramientas. Además, no olvide adoptar un enfoque pragmático al implementar dichas herramientas en su proceso de contratación.

¿No sabe cómo utilizar las herramientas de prueba previa al empleo para mejorar su proceso de contratación? No dude en ponerse en contáctenos y lo guiaremos en todo el proceso, desde el desarrollo del concepto hasta la implementación. Ya sea que necesite pruebas listas para usar o una plataforma integral para crear sus propios exámenes, podemos brindarle la orientación que necesita. También ofrecemos versiones gratuitas de nuestro software líder en la industria FastTest y Assess.ai. Visite nuestra página Contáctenos para comenzar.

Si está interesado en profundizar en las evaluaciones de liderazgo, es posible que desee consultar esta publicación de blog. Para obtener más información y un ejemplo de cómo las evaluaciones de RH pueden fallar, consulte nuestra publicación de blog llamada Prácticas de contratación y litigios de seguridad pública. La publicación de blog titulada Mejorar la retención de empleados con evaluaciones: estrategias para el éxito explora cómo el uso estratégico de las evaluaciones a lo largo del ciclo de vida del empleado puede mejorar la retención, crear equipos más fuertes e impulsar el éxito empresarial al alinear los objetivos organizacionales con el desarrollo y el compromiso de los empleados.

enero 15, 2025/por Admin

Tres enfoques para la equiparación de TRÍ

Nathan Thompson, PhDdiciembre 13, 2024

Si está entregando pruebas de alto riesgo en formas lineales, o está pilotando un banco para prueba adaptativa computarizada/prueba lineal sobre la marcha, se enfrenta al problema de cómo equiparar las formas entre sí. Es decir, ¿cómo podemos traducir de manera defendible una puntuación en el Forma A a una puntuación en el Forma B? Si bien el concepto es simple, la metodología puede ser compleja y existe un área completa de investigación psicométrica dedicada a este tema. Hay varias formas de abordar esta cuestión, y la equiparación teoría de respuesta al ítem (TRÍ) es la más sólida.

¿Por qué necesitamos la equiparación?

La necesidad es obvia: ajustar las diferencias en dificultad para garantizar que todos los examinados reciban una puntuación justa en una escala estable. Supongamos que usted toma el Forma A y obtiene una puntuación de 72/100, mientras que su amigo toma el Forma B y obtiene una puntuación de 74/100. ¿Su amigo es más inteligente que usted, o su formulario tenía preguntas más fáciles? Bueno, si los diseñadores de la prueba incorporaron cierta superposición, podemos responder a esta pregunta empíricamente.

Supongamos que los dos formularios se superponen en 50 ítems, llamados ítems de anclaje o ítems de ecuador. Ambos formularios se entregan a una muestra grande y representativa. Estos son los resultados.

Forma	Puntuación media en 50 Ítems superpuestos	Puntuación media en 100 ítems en total
A	30	72
B	30	74

Because the mean score on the anchor items was higher, we then think that the Form B group was a little smarter, which led to a higher total score.

Now suppose these are the results:

FormA	Puntuación media en 50 Ítems superpuestos	Puntuación media en 100 ítems en total
A	32	72
B	32	74

Ahora, tenemos evidencia de que los grupos tienen la misma capacidad. La puntuación total más alta en el Forma B debe deberse entonces a que los ítems únicos en ese forma son un poco más fáciles.

¿Cómo calculo una equiparación?

Puede equiparar las formas con la teoría clásica de los test (TCT) o la teoría de respuesta al ítem (TRÍ). Sin embargo, una de las razones por las que se inventó la TRÍ fue que la equiparación con TCT era muy débil. Los métodos TCT incluyen Tucker, Levine y equipercentil. Sin embargo, ahora nos centraremos en la TRÍ.

La equiparación de TRÍ

Existen tres enfoques generales para la equiparación de TRÍ. Todos ellos se pueden lograr con nuestro software líder en la industria Xcalibre, aunque la igualación de conversión requiere un software adicional llamado IRTEQ.

Conversión
Calibración concurrente
Calibración de anclaje fijo

Conversión

Con este enfoque, debe calibrar cada forma de su prueba usando TRÍ, completamente por separado. Luego evaluamos la relación entre los parámetros TRÍ en cada forma y usamos eso para estimar la relación para convertir las puntuaciones del examinado. En teoría, lo que hace es alinear los parámetros TRÍ de los elementos comunes y realizar una regresión lineal, para luego poder aplicar esa conversión lineal a las puntuaciones.

Pero NO haga simplemente una regresión lineal regular. Hay métodos específicos que debe utilizar, incluidos media/media, media/sigma, Stocking & Lord y Haebara. Afortunadamente, no tiene que realizar todos los cálculos usted mismo, ya que hay software gratuito disponible para hacerlo por usted: IRTEQ.

Calibración concurrente

El segundo enfoque consiste en combinar los conjuntos de datos en lo que se conoce como una matriz dispersa. Luego, se ejecuta este único conjunto de datos a través de la calibración TRÍ, y se colocarán todos los ítems y los examinados en una escala común. El concepto de una matriz dispersa se representa típicamente en la figura a continuación, que representa el enfoque de diseño de la prueba de anclaje no equivalente (NEAT).

El software de calibración TRÍ equiparará automáticamente los dos formas y usted podrá utilizar los puntajes resultantes.

Calibración de anclaje fijo

El tercer enfoque es una combinación de los dos anteriores; utiliza el concepto de calibración independiente, pero sigue utilizando el proceso de calibración TRÍ para realizar la equiparación en lugar de un software independiente.

Con este enfoque, primero calibraría sus datos para el Forma A. Luego, buscaría todos los parámetros de los ítems TRÍ para los elementos comunes y los ingresaría en su software de calibración TRÍ cuando calibre el Forma B.

Puede indicarle al software que “arregle” los parámetros de los ítems para que esos en particular (de los elementos comunes) no cambien. Luego, todos los parámetros de los ítems para los ítems únicos se fuerzan en la escala de los ítems comunes, que, por supuesto, es la escala subyacente del Forma A. Esto también fuerza las puntuaciones de los estudiantes del Forma B en la escala del Forma A.

¿Cómo se comparan estos enfoques de equiparación de TRÍ entre sí?

La calibración concurrente es posiblemente la más fácil, pero tiene el inconveniente de que fusiona las escalas de cada formulario en una nueva escala en algún lugar intermedio. Si necesita informar las puntuaciones de cualquiera de los formas en la escala original, debe utilizar los métodos de conversión o de anclaje fijo. Esta situación ocurre comúnmente si está haciendo comparaciones entre períodos de tiempo.

Suponga que entregó el Forma A el año pasado y ahora está tratando de hacer comparaciones con el Forma B. No puede simplemente crear una nueva escala y, por lo tanto, anular todas las puntuaciones que informó el año pasado. Debe mapear el Forma B en el Forma A para que las puntuaciones de este año se informen en la escala del año pasado y las puntuaciones de todos sean consistentes.

¿A dónde voy desde aquí?

Si desea realizar la equiparación TRÍ, necesita un software de calibración TRÍ. Los tres enfoques lo utilizan. Recomiendo encarecidamente Xcalibre, ya que es fácil de usar y crea automáticamente informes en Word para usted. Si desea obtener más información sobre el tema de la equiparación, la referencia clásica es el libro de Kolen y Brennan (2004; 2014). Hay otros recursos más disponibles en Internet, como este manual gratuito de CCSSO. Si desea obtener más información sobre TRÍ, recomiendo los libros de de Ayala (2008) y Embretson & Reise (2000). Hay una introducción disponible en nuestra publicación de blog.

diciembre 13, 2024/por Nathan Thompson, PhD

Análisis y Estadísticas de Ítems

Nathan Thompson, PhDnoviembre 4, 2024

El análisis de ítems es la evaluación estadística de las preguntas de la prueba para garantizar que sean de buena calidad y corregirlas si no lo son. Este es un paso clave en el ciclo de desarrollo de la prueba; después de que los ítems se han entregado a los examinados (ya sea como piloto o en uso completo), analizamos las estadísticas para determinar si hay problemas que afecten la validez y confiabilidad, como ser demasiado difíciles o sesgados. Esta publicación describirá los conceptos básicos de este proceso. Si desea más detalles e instrucciones sobre el uso del software, también puede consultar nuestros videos tutoriales en nuestro canal de YouTube y descargar nuestro software psicométrico gratuito.

Descargue una copia gratuita de Iteman: software para análisis de ítems

¿Qué es el análisis de ítems?

El análisis de ítems se refiere al proceso de analizar estadísticamente los datos de evaluación para evaluar la calidad y el desempeño de los ítems de la prueba. Este es un paso importante en el ciclo de desarrollo de la prueba, no solo porque ayuda a mejorar la calidad de la prueba, sino porque proporciona documentación para la validez: evidencia de que la prueba funciona bien y que las interpretaciones de las puntuaciones significan lo que usted pretende. Es una de las aplicaciones más comunes de la psicometría, mediante el uso de estadísticas de ítems para marcar, diagnosticar y corregir los ítems de bajo rendimiento en una prueba. Cada ítem que tiene un bajo rendimiento está perjudicando potencialmente a los examinados.

El análisis de ítems se reduce a dos objetivos:

Encontrar los ítems que no funcionan bien (dificultad y discriminación, por lo general)
Descubrir POR QUÉ esos elementos no funcionan bien, para que podamos determinar si los revisamos o los retiramos

Existen diferentes formas de evaluar el desempeño, como por ejemplo si el ítem es demasiado difícil/fácil, demasiado confuso (no discriminatorio), mal codificado o tal vez incluso sesgado hacia un grupo minoritario.

Además, existen dos paradigmas completamente diferentes para este análisis: la teoría clásica de los pruebas (TCP) y la teoría de respuesta al ítem (TRI). Además de eso, los análisis pueden diferir en función de si el ítem es dicotómico (correcto/incorrecto) o politómico (2 o más puntos).

Debido a las posibles variaciones, el análisis de ítems es un tema complejo. Pero eso ni siquiera entra en la evaluación del desempeño en las pruebas. En esta publicación, cubriremos algunos de los conceptos básicos de cada teoría, a nivel de ítem.

Cómo hacer un análisis de ítems

1. Prepare sus datos para el análisis de ítems

La mayoría del software psicométrico utiliza una matriz de persona x elemento. Es decir, un archivo de datos donde los examinados son filas y los elementos son columnas. A veces, es una matriz dispersa donde faltan muchos datos, como en las pruebas lineales sobre la marcha. También deberá proporcionar metadatos al software, como los identificadores de los elementos, las respuestas correctas, los tipos de elementos, etc. El formato para esto variará según el software.

2. Ejecutar datos a través de un software de análisis de ítems

Para implementar el análisis de ítems, debe utilizar un software dedicado diseñado para este propósito. Si utiliza una plataforma de evaluación en línea, le proporcionará resultados para el análisis de ítems, como valores P de distractores y biseriales puntuales (si no, no es una plataforma de evaluación real). En algunos casos, puede utilizar software independiente. CITAS proporciona un enfoque simple basado en hojas de cálculo para ayudarlo a aprender los conceptos básicos, completamente gratis. Aquí se encuentra una captura de pantalla de los resultados de CITAS. Sin embargo, los profesionales necesitarán un nivel superior a este. Iteman y Xcalibre son dos programas de software especialmente diseñados por ASC para este propósito, uno para TCP y otro para TRI.

3. Interpretar los resultados del análisis de ítems

El software de análisis de ítems generará tablas de números. A veces, serán tablas feas de estilo ASCII de la década de 1980. A veces, serán hermosos documentos de Word con gráficos y explicaciones. De cualquier manera, debe interpretar las estadísticas para determinar qué ítems tienen problemas y cómo solucionarlos. El resto de este artículo profundizará en eso.

Análisis de ítems con la teoría clásica de pruebas

La teoría clásica de tests ofrece un enfoque simple e intuitivo para el análisis de ítems. No utiliza nada más complicado que proporciones, promedios, recuentos y correlaciones. Por este motivo, es útil para exámenes a pequeña escala o para su uso con grupos que no tienen experiencia psicométrica.

Dificultad del ítem: dicotómica

La TCP cuantifica la dificultad del ítem para ítems dicotómicos como la proporción (valor P) de examinados que lo responden correctamente.

Varía de 0,0 a 1,0. Un valor alto significa que el ítem es fácil y un valor bajo significa que el ítem es difícil. No hay reglas estrictas porque la interpretación puede variar ampliamente para diferentes situaciones. Por ejemplo, se esperaría que una prueba realizada al comienzo del año escolar tuviera estadísticas bajas ya que a los estudiantes aún no se les ha enseñado el material. Por otro lado, un examen de certificación profesional, al que alguien ni siquiera puede presentarse a menos que tenga 3 años de experiencia y un título relevante, ¡puede hacer que todos los ítems parezcan fáciles a pesar de que son temas bastante avanzados! A continuación se ofrecen algunas pautas generales:

0.95-1.0 = Demasiado fácil (no sirve de mucho para diferenciar a los examinados, que es realmente el propósito de la evaluación)

0.60-0.95 = Típico

0.40-0.60 = Duro

<0.40 = Demasiado difícil (considere que una pregunta de opción múltiple de 4 opciones tiene un 25 % de probabilidad de acertar)

Con Iteman, puede establecer límites para marcar automáticamente los ítems. El límite del valor P mínimo representa lo que considera el punto de corte para que un ítem sea demasiado difícil. Para una prueba relativamente fácil, puede especificar 0,50 como mínimo, lo que significa que el 50 % de los examinados han respondido correctamente al ítem.

Para una prueba en la que esperamos que los examinados tengan un desempeño deficiente, el mínimo puede reducirse a 0,4 o incluso a 0,3. El mínimo debe tener en cuenta la posibilidad de adivinar; si el ítem es de opción múltiple con cuatro opciones, existe una probabilidad del 25 % de adivinar la respuesta al azar, por lo que el mínimo probablemente no debería ser 0,20. El valor P máximo representa el punto de corte para lo que considera un ítem demasiado fácil. La consideración principal aquí es que si un ítem es tan fácil que casi todos lo responden correctamente, no está brindando mucha información sobre los examinados. De hecho, los ítems con un P de 0,95 o más suelen tener correlaciones biseriales puntuales muy deficientes.

Tenga en cuenta que debido a que la escala está invertida (un valor más bajo significa una mayor dificultad), esto a veces se conoce como facilidad del ítem.

La media del ítem (politómica)

Se refiere a un ítem que se califica con 2 o más niveles de puntos, como un ensayo calificado con una rúbrica de 0 a 4 puntos o un ítem tipo Likert que se califica en una escala de 1 a 5.

1 = Totalmente en desacuerdo
2 = En desacuerdo
3 = Neutral
4 = De acuerdo
5 = Totalmente de acuerdo

La media de los ítems es el promedio de las respuestas de los ítems convertidas a valores numéricos de todos los examinados. El rango de la media de los ítems depende de la cantidad de categorías y de si las respuestas de los ítems comienzan en 0. La interpretación de la media de los ítems depende del tipo de ítem (escala de calificación o crédito parcial). Un buen ítem de escala de calificación tendrá una media de ítem cercana a la mitad del máximo, ya que esto significa que, en promedio, los examinados no respaldan categorías cercanas a los extremos del continuo.

Deberá realizar los ajustes necesarios para su propia situación, pero aquí se incluye un ejemplo para el ítem de estilo Likert de 5 puntos.

1-2 es muy bajo; la gente está bastante en desacuerdo en promedio

2-3 es bajo a neutral; la gente tiende a estar en desacuerdo en promedio

3-4 es neutral a alto; la gente tiende a estar de acuerdo en promedio

4-5 es muy alto; la gente está bastante de acuerdo en promedio

Iteman también proporciona límites de señalización para esta estadística. El límite de la media mínima del ítem representa lo que usted considera el punto de corte para que la media del ítem sea demasiado baja. El límite de la media máxima del ítem representa lo que usted considera el punto de corte para que la media del ítem sea demasiado alta.

Se debe tener en cuenta la cantidad de categorías para los ítems al establecer los límites de los valores mínimos/máximos. Esto es importante ya que todos los ítems de un tipo determinado (por ejemplo, 3 categorías) pueden estar marcados.

Discriminación de ítems: dicotómica

En psicometría, la discriminación es ALGO BUENO, aunque la palabra suele tener una connotación negativa en general. El objetivo de un examen es discriminar entre los examinados; los estudiantes inteligentes deberían obtener una puntuación alta y los no tan inteligentes, una puntuación baja. Si todos obtienen la misma puntuación, no hay discriminación y el examen no tiene sentido. La discriminación de ítems evalúa este concepto.

TCP utiliza la correlación biserial puntual entre ítem y total (Rpbis) como su estadística principal para esto.

La correlación biserial puntual de Pearson (r-pbis) es una medida de la discriminación o fuerza diferenciadora del ítem. Varía de −1,0 a 1,0 y es una correlación de las puntuaciones del ítem y las puntuaciones totales brutas. Si considera una matriz de datos puntuada (ítems de opción múltiple convertidos a datos 0/1), esta sería la correlación entre la columna del ítem y una columna que es la suma de todas las columnas del ítem para cada fila (la puntuación de una persona).

Un buen ítem es capaz de diferenciar entre los examinados de alta y baja capacidad, pero tiene un biserial de puntos más alto, pero rara vez por encima de 0,50. Un biserial de puntos negativo es indicativo de un ítem muy malo porque significa que los examinados de alta capacidad están respondiendo incorrectamente, mientras que los examinados de baja capacidad lo están respondiendo correctamente, lo que por supuesto sería extraño y, por lo tanto, generalmente indica que la respuesta correcta especificada es en realidad incorrecta. Un biserial de puntos de 0,0 no proporciona ninguna diferenciación entre los examinados de baja puntuación y los de alta puntuación, esencialmente “ruido” aleatorio. A continuación se presentan algunas pautas generales sobre la interpretación. Tenga en cuenta que estas suponen un tamaño de muestra decente; si solo tiene una pequeña cantidad de examinados, ¡se marcarán muchas estadísticas de ítems!

0,20+ = Buen ítem; los examinados más inteligentes tienden a responder el ítem correctamente

0,10-0,20 = Ítem aceptable; pero probablemente lo revise

0.0-0.10 = Calidad marginal del ítem; probablemente debería revisarse o reemplazarse

<0.0 = Ítem terrible; reemplácelo

***Una señal de alerta importante es si la respuesta correcta tiene un Rpbis negativo y un distractor tiene un Rpbis positivo

El límite mínimo de correlación ítem-total representa la discriminación más baja que está dispuesto a aceptar. Este suele ser un número positivo pequeño, como 0,10 o 0,20. Si el tamaño de su muestra es pequeño, es posible que se pueda reducir. El límite máximo de correlación ítem-total es casi siempre 1,0, porque normalmente se desea que el Rpbis sea lo más alto posible.

La correlación biserial también es una medida de la discriminación o fuerza diferenciadora del ítem. Varía de −1,0 a 1,0. La correlación biserial se calcula entre el ítem y la puntuación total como si el ítem fuera una medida continua del rasgo. Dado que la correlación biserial es una estimación de la r de Pearson, será mayor en magnitud absoluta que la correlación biserial puntual correspondiente.

La correlación biserial supone de manera más estricta que la distribución de la puntuación es normal. La correlación biserial no se recomienda para rasgos en los que se sabe que la distribución de puntuaciones no es normal (por ejemplo, patología).

Discriminación de ítems: politómica

La correlación r de Pearson es la correlación producto-momento entre las respuestas de los ítems (como valores numéricos) y la puntuación total. Varía de −1,0 a 1,0. La correlación r indexa la relación lineal entre la puntuación de los ítems y la puntuación total y supone que las respuestas de los ítems forman una variable continua. La correlación r y el Rpbis son equivalentes para un ítem de 2 categorías, por lo que las pautas para la interpretación permanecen inalteradas.

El límite mínimo de correlación ítem-total representa la discriminación más baja que está dispuesto a aceptar. Dado que la correlación r típica (0,5) será mayor que la correlación Rpbis típica (0,3), es posible que desee establecer el límite inferior más alto para una prueba con ítems politómicos (0,2 a 0,3). Si el tamaño de su muestra es pequeño, es posible que se pueda reducir. El límite máximo de correlación ítem-total es casi siempre 1,0, porque normalmente se desea que el Rpbis sea lo más alto posible.

El coeficiente eta es un índice adicional de discriminación calculado mediante un análisis de varianza con la respuesta al ítem como variable independiente y la puntuación total como variable dependiente. El coeficiente eta es la relación entre la suma de cuadrados entre grupos y la suma total de cuadrados y tiene un rango de 0 a 1. El coeficiente eta no supone que las respuestas al ítem sean continuas y tampoco supone una relación lineal entre la respuesta al ítem y la puntuación total.

Como resultado, el coeficiente eta siempre será igual o mayor que la r de Pearson. Tenga en cuenta que se informará la correlación biserial si el ítem tiene solo 2 categorías.

Análisis de claves y distractores

En el caso de muchos tipos de ítems, conviene evaluar las respuestas. Un distractor es una opción incorrecta. Queremos asegurarnos de que no haya más examinados seleccionando un distractor que la clave (valor P) y también de que ningún distractor tenga una mayor discriminación. Esto último significaría que los estudiantes inteligentes están seleccionando la respuesta incorrecta y los no tan inteligentes están seleccionando lo que se supone que es correcto. En algunos casos, el ítem es simplemente malo. En otros, la respuesta simplemente está registrada incorrectamente, tal vez por un error tipográfico. A esto lo llamamos un clave incorrecta del ítem. En ambos casos, queremos marcar el ítem y luego analizar las estadísticas de distractores para averiguar qué está mal.

Ejemplo

A continuación, se muestra un ejemplo de salida para un elemento de nuestro software Iteman, que puede descargar de forma gratuita. También puede interesarle este video. Se trata de un elemento con un rendimiento muy bueno. A continuación, se muestran algunas conclusiones clave.

Este es un ítem de opción múltiple de 4 opciones
Estaba en una subpuntuación llamada “Subpuntuación de ejemplo”
Este ítem fue visto por 736 examinados
El 70 % de los estudiantes lo respondió correctamente, por lo que fue bastante fácil, pero no demasiado fácil
El Rpbis fue de 0,53, que es extremadamente alto; el ítem es de buena calidad
La línea para la respuesta correcta en el gráfico de cuantiles tiene una pendiente positiva clara, que refleja la alta calidad de discriminación
La proporción de examinados que seleccionaron las respuestas incorrectas estuvo bien distribuida, no fue demasiado alta y tuvo valores Rpbis negativos. Esto significa que los distractores son suficientemente incorrectos y no confunden.

Análisis de ítems con teoría de respuesta al ítem

La teoría de respuesta al ítem (TRI) es un paradigma muy sofisticado de análisis de ítems y aborda numerosas tareas psicométricas, desde el análisis de ítems hasta la equiparación y las pruebas adaptativas. Requiere tamaños de muestra mucho más grandes que la TCP (100-1000 respuestas por ítem) y una amplia experiencia (normalmente un psicometría con doctorado). La estimación de máxima verosimilitud (MLE) es un concepto clave en la TRI que se utiliza para estimar los parámetros del modelo para una mayor precisión en las evaluaciones.

La TRI no es adecuada para exámenes a pequeña escala, como los cuestionarios en el aula. Sin embargo, se utiliza prácticamente en todos los exámenes “reales” que realizarás en tu vida, desde los exámenes de referencia de K-12 hasta las admisiones universitarias y las certificaciones profesionales.

Si no has utilizado la TRI, te recomiendo que consultes primero esta publicación del blog.

Dificultad de los ítems

La TRI evalúa la dificultad de los ítems dicotómicos como un parámetro b, que es algo así como una puntuación z para el ítem en la curva de campana: 0,0 es promedio, 2,0 es difícil y -2,0 es fácil. (Esto puede diferir un poco con el enfoque de Rasch, que reescala todo). En el caso de los ítems politómicos, hay un parámetro b para cada umbral o paso entre puntos.

Discriminación de ítems

La TRI evalúa la discriminación de ítems por la pendiente de su función de respuesta al ítem, que se denomina parámetro a. A menudo, los valores superiores a 0,80 son buenos y los inferiores a 0,80 son menos efectivos.

Análisis de claves y distractores

En el caso de preguntas politómicas, los múltiples parámetros b proporcionan una evaluación de las diferentes respuestas. En el caso de preguntas dicotómicas, el modelo TRI no distingue entre las respuestas correctas. Por lo tanto, utilizamos el enfoque TCP para el análisis de distractores. Esto sigue siendo extremadamente importante para diagnosticar problemas en preguntas de opción múltiple.

Ejemplo

A continuación se muestra un ejemplo de cómo se ve el resultado de un programa de análisis TRI (Xcalibre). También te puede interesar este video.

Aquí tenemos un ítem politómico, como un ensayo calificado de 0 a 3 puntos
Está calibrado con el modelo de crédito parcial generalizado
Tiene una fuerte discriminación clásica (0,62)
Tiene una mala discriminación TRI (0,466)
La puntuación bruta promedio fue 2,314 de 3,0, por lo que es bastante fácil
Hubo una distribución suficiente de las respuestas en los cuatro niveles de puntos
Los parámetros límite no están en secuencia; este ítem debe revisarse

Resumen

Este artículo es una descripción general muy amplia y no hace justicia a la complejidad de la psicometría y el arte de diagnosticar/revisar ítems. Te recomiendo que descargues algún software de análisis de ítems y comiences a explorar tus propios datos.

Para lecturas adicionales, recomiendo algunos de los libros de texto comunes. Para obtener más información sobre cómo escribir/revisar ítems, consulta Haladyna (2004) y trabajos posteriores. Para la teoría de respuesta a los ítems, recomiendo enfáticamente Embretson & Riese (2000).

noviembre 4, 2024/por Nathan Thompson, PhD

¿Qué es el análisis de tareas laborales para la certificación?

Nathan Thompson, PhDnoviembre 3, 2024

El análisis de tareas laborales (ATL) es un paso esencial en el diseño de una prueba que se utilizará en la fuerza laboral, como la prueba previa al empleo o la certificación/licencia, mediante el análisis de datos sobre lo que realmente se está haciendo en el trabajo. También conocido como análisis del trabajo o delimitación de funciones, el análisis de tareas laborales es importante para diseñar una prueba que sea legalmente defendible y elegible para la acreditación. Por lo general, implica un panel de expertos en la materia para desarrollar una encuesta, que luego se entrega a los profesionales de su campo para obtener datos cuantitativos sobre lo que se hace con más frecuencia en el trabajo y lo que es más crítico/importante. Estos datos luego se pueden utilizar para varios propósitos importantes.

¿Necesita ayuda? Nuestros expertos pueden ayudarlo a producir de manera eficiente un estudio de análisis de tareas laborales para su certificación, guiar el proceso de redacción de ítems y establecimiento de estándares, luego publicar y entregar el examen en nuestra plataforma segura.

Razones para realizar un análisis de tareas laborales

El análisis de tareas laborales es extremadamente importante en el campo de la psicología industrial/organizacional, de ahí el meme de @iopsychmemes. No se limita solo a las credenciales.

Diseño del examen

La razón más común es obtener datos cuantitativos que le ayudarán a diseñar un examen. Al saber qué conocimientos, habilidades o capacidades (CHC) se utilizan con más frecuencia, sabrá cuáles merecen más preguntas en la prueba. También puede ayudarle con aspectos de diseño más complejos, como definir un examen práctico con pacientes en vivo.

Plan de estudios de formación

De la misma manera, esa información cuantitativa puede ayudar a diseñar un plan de estudios y otros materiales de formación. Tendrás datos sobre lo que es más importante o frecuente.

Análisis de compensación

Con la encuesta ATL, tiene una audiencia cautiva. ¡Pregúnteles otras cosas que quiera saber! Este es un momento excelente para recopilar información sobre compensación. Trabajé en una encuesta ATL en el pasado que preguntaba sobre el lugar de trabajo: clínica, hospital, consultorio privado o proveedor/corporación.

Descripciones de puestos

Un buen análisis de puestos te ayudará a redactar una descripción de puestos para las ofertas de empleo. Te indicará las responsabilidades del puesto (tareas comunes), las cualificaciones (habilidades, capacidades y educación requeridas) y otros aspectos importantes. Si recopilas datos de compensación en la encuesta, estos se pueden utilizar para definir el rango salarial del puesto vacante.

Planificación de la fuerza laboral

Al analizar los datos, pueden resultar evidentes tendencias importantes. ¿Hay menos personas que ingresan a su profesión, tal vez en una región o grupo demográfico en particular? ¿Ingresan sin ciertas habilidades? ¿Hay ciertas universidades o programas de capacitación que no están funcionando bien? Un ATL puede ayudarlo a descubrir dichos problemas y luego trabajar con las partes interesadas para abordarlos. Estos son problemas potenciales importantes para la profesión.

ES OBLIGATORIO

Si tiene un examen de certificación profesional y desea que lo acredite una junta como NCCA o ANSI/ANAB/ISO, entonces se le OBLIGA a realizar algún tipo de análisis de tareas laborales.

¿Por qué es tan importante un JTA para la certificación y la licencia? Validez.

El objetivo fundamental de la psicometría es la validez, que es la evidencia de que las interpretaciones que hacemos de las puntuaciones son realmente verdaderas. En el caso de los exámenes de certificación y licencia, estamos interpretando que alguien que pasa la prueba está calificado para trabajar en ese puesto de trabajo. Por lo tanto, lo primero que debemos hacer es definir exactamente cuál es el puesto de trabajo y hacerlo de una manera cuantitativa y científica. No se puede simplemente hacer que alguien se siente en su sótano y escriba 17 puntos como plan de examen. Eso es una demanda a punto de suceder.

Hay otros aspectos que también son esenciales, como la capacitación de los redactores de ítems y los estudios de establecimiento de estándares.

La metodología: inventario de tareas laborales

No es fácil desarrollar un examen de certificación defendible, pero el proceso de ATL no requiere un doctorado en psicometría para comprenderlo. A continuación, se ofrece una descripción general de lo que se puede esperar.

Convoque a un panel de expertos en la materia (EM) y proporcione una capacitación sobre el proceso de ATL.
Luego, los EM analizan el papel de la certificación en la profesión y establecen temas de alto nivel (dominios) que debe cubrir la prueba de certificación. Por lo general, hay entre 5 y 20. A veces, hay subdominios y, ocasionalmente, subsubdominios.
El panel de EM genera una lista de tareas laborales que se asignan a los dominios; la lista se revisa para detectar duplicados y otros problemas potenciales. Estas tareas tienen un verbo de acción, un sujeto y, a veces, un calificador. Ejemplos: “Calibrar el lensómetro”, “Sacar la basura”, “Realizar un estudio de equivalencia”. Hay un enfoque específico para ayudar con la generación, llamado la técnica del incidente crítico. Con esto, se les pide a los expertos en la materia que describan un incidente crítico que sucedió en el trabajo y qué habilidades o conocimientos llevaron al éxito del profesional. Si bien esto puede no generar ideas para tareas frecuentes pero simples, puede ayudar a generar ideas para tareas que son más raras pero muy importantes.
La lista final se utiliza para generar una encuesta, que se envía a una muestra representativa de profesionales que realmente trabajan en el puesto. Los encuestados realizan la encuesta, mediante la cual califican cada tarea, generalmente en su importancia y tiempo empleado (a veces llamado criticidad y frecuencia). También se recopilan datos demográficos, que incluyen rango de edad, región geográfica, lugar de trabajo (por ejemplo, clínica vs hospital si es médico), años de experiencia, nivel educativo y certificaciones adicionales.
Un psicometrista analiza los resultados y crea un informe formal, que es esencial para la documentación de validez. Este informe a veces se considera confidencial, a veces se publica en el sitio web de la organización para el beneficio de la profesión y, a veces, se publica en forma abreviada. Depende de usted. Por ejemplo, este sitio presenta los resultados finales, pero luego le pide que envíe su dirección de correo electrónico para recibir el informe completo.

Usar los resultados de ATL para crear planos de prueba

Muchas corporaciones realizan un análisis de trabajo únicamente para fines internos, como descripciones de trabajo y compensación. Esto se vuelve importante para las grandes corporaciones donde puede haber miles de personas en el mismo trabajo; debe estar bien definido, con buena capacitación y compensación adecuada.

Si trabaja para una organización de acreditación (normalmente una organización sin fines de lucro, pero a veces la división de capacitación de una corporación… por ejemplo, Amazon Web Services tiene una división dedicada a los exámenes de certificación, deberá analizar los resultados del ATL para desarrollar planos de examen. Analizaremos este proceso con más detalle en otra publicación del blog. Pero a continuación se muestra un ejemplo de cómo se verá esto, y aquí hay una hoja de cálculo gratuita para realizar los cálculos: Análisis de tareas laborales para planos de prueba.

Ejemplo de análisis de tareas laborales

Supongamos que usted es un experto en la fabricación de widgets a cargo del examen de certificación de fabricante de widgets. Contrata a un psicometrista para que guíe a la organización a través del proceso de desarrollo de pruebas. El psicometrista comenzaría por realizar un seminario web o una reunión en persona para un panel de expertos en la materia para definir el rol y generar una lista de tareas. El grupo elabora una lista de 20 tareas, ordenadas en 4 dominios de contenido. Estas se enumeran en una encuesta a los fabricantes de widgets actuales, quienes las califican según su importancia y frecuencia. El psicometrista analiza los datos y presenta una tabla como la que se ve a continuación.

Podemos ver aquí que la Tarea 14 es la más frecuente, mientras que la Tarea 2 es la menos frecuente. La Tarea 7 es la más importante, mientras que la Tarea 17 es la menos frecuente. Cuando combina Importancia y Frecuencia, ya sea sumando o multiplicando, obtiene los pesos en las columnas de la derecha. Si sumamos estos y dividimos por el total, obtenemos los planos sugeridos en las celdas verdes.

noviembre 3, 2024/por Nathan Thompson, PhD

$math educational assessment$

¿Qué es la dificultad clásica del ítem (valor P)?

Nathan Thompson, PhDoctubre 31, 2024

Uno de los conceptos centrales en psicometría es la dificultad del ítem. Esto se refiere a la probabilidad de que los examinados respondan correctamente el ítem en evaluaciones educativas/cognitivas o respondan en la dirección indicada en evaluaciones psicológicas/de encuesta (más sobre esto más adelante). La dificultad es importante para evaluar las características de un ítem y si debe seguir siendo parte de la evaluación; en muchos casos, los ítems se eliminan si son demasiado fáciles o demasiado difíciles. También nos permite comprender mejor cómo los ítems y la prueba en su conjunto funcionan como un instrumento de medición y qué pueden decirnos sobre los examinados.

He oído hablar de la “facilidad del objeto”. ¿Es algo similar?

La dificultad del objeto también se denomina facilidad del objeto, que en realidad es un nombre más apropiado. ¿Por qué? El valor P es un concepto inverso: un valor bajo indica una dificultad alta y viceversa. Si pensamos en el concepto como facilidad o facilidad, entonces el valor P se alinea con el concepto; un valor alto significa una facilidad alta. Por supuesto, es difícil romper con la tradición, y casi todo el mundo todavía lo llama dificultad. Pero podría ayudarte pensar en ello como “facilidad”.

¿Cómo calculamos la dificultad clásica de los ítems?

Hay dos paradigmas predominantes en psicometría: la teoría clásica de los pruebas (TCP) y la teoría de respuesta al ítem (TRÍ). Aquí, me centraré en el enfoque más simple, la TCP.

Para calcular la dificultad clásica de los ítems con ítems dicotómicos, simplemente cuente el número de examinados que respondieron correctamente (o en la dirección clave) y divídalo por el número de encuestados. Esto le da una proporción, que es como un porcentaje pero está en la escala de 0 a 1 en lugar de 0 a 100. Por lo tanto, el rango posible que verá informado es de 0 a 1. Considere este conjunto de datos.

Persona	Ítem1	Ítem2	Ítem3	Ítem4	Ítem5	Ítem6	Puntaje
1	0	0	0	0	0	1	1
2	0	0	0	0	1	1	2
3	0	0	0	1	1	1	3
4	0	0	1	1	1	1	4
5	0	1	1	1	1	1	5
Dificultad:	0.00	0.20	0.40	0.60	0.80	1.00

El ítem 6 tiene un alto índice de dificultad, lo que significa que es muy fácil. El ítem 4 y el ítem 5 son ítems típicos, donde la mayoría de los ítems responden correctamente. El ítem 1 es extremadamente difícil; ¡nadie lo respondió correctamente!

Para ítems politómicos (ítems con más de un punto), la dificultad clásica del ítem es el valor de respuesta promedio. Es decir, si tenemos un ítem Likert de 5 puntos, y dos personas responden 4 y dos responden 5, entonces el promedio es 4.5. Esto, por supuesto, es matemáticamente equivalente al valor P si los puntos son 0 y 1 para un ítem no/sí. Un ejemplo de esta situación es este conjunto de datos:

Persona	Ítem1	Ítem2	Ítem3	Ítem4	Ítem5	Ítem6	Puntaje
1	1	1	2	3	4	5	1
2	1	2	2	4	4	5	2
3	1	2	3	4	4	5	3
4	1	2	3	4	4	5	4
5	1	2	3	5	4	5	5
Dificultad:	1.00	1.80	2.60	4.00	4.00	5.00

Tenga en cuenta que este enfoque para calcular la dificultad depende de la muestra. Si tuviéramos una muestra diferente de personas, las estadísticas podrían ser bastante diferentes. Este es uno de los principales inconvenientes de la teoría clásica de los pruebas. La TRÍ aborda ese problema con un paradigma diferente. También tiene un índice con la “dirección” correcta: los valores altos significan una gran dificultad con la TRÍ.

Si está trabajando con ítems de opción múltiple, recuerde que, si bien puede tener 4 o 5 respuestas, aún está calificando los ítems como correctos/incorrectos. Por lo tanto, los datos terminan siendo dicotómicos 0/1.

Nota final muy importante: este valor P NO debe confundirse con el valor p del mundo de las pruebas de hipótesis. Tienen el mismo nombre, pero por lo demás no están relacionados en absoluto. Por esta razón, algunos psicometristas lo llaman P+ (se pronuncia “P-plus”), pero eso no se ha popularizado.

¿Cómo interpreto la dificultad clásica de los ítems?

Para las evaluaciones educativas/cognitivas, la dificultad se refiere a la probabilidad de que los examinados respondan correctamente el ítem. Si más examinados responden correctamente el ítem, tiene baja dificultad. Para los datos de tipo psicológico/encuesta, la dificultad se refiere a la probabilidad de responder en la dirección clave. Es decir, si está evaluando la extraversión y el ítem es “Me gusta ir a fiestas”, entonces está evaluando cuántos examinados estuvieron de acuerdo con la afirmación.

Lo que es único con los datos de tipo encuesta es que a menudo incluyen una clave inversa; la misma evaluación también puede tener un ítem que sea “Prefiero pasar tiempo con libros en lugar de personas” y un examinado que no esté de acuerdo con esa afirmación cuenta como un punto para la puntuación total.

Para la evaluación educativa/de conocimiento estereotipada, con ítems de opción múltiple de 4 o 5 opciones, utilizamos pautas generales como esta para la interpretación.

Rango	Interpretación	Notas
0.0-0.3	Extremadamente difícil	Los examinados están en el nivel de probabilidad o incluso por debajo, por lo que su artículo podría estar mal escrito o tener otros problemas.
0.3-0.5	Muy difícil	Los elementos de este rango desafiarán incluso a los mejores examinados y, por lo tanto, podrían generar quejas, pero por lo general son muy fuertes.
0.5-0.7	Moderadamente difícil	Estos elementos son bastante comunes y un poco más resistentes.
0.7-0.90	Moderadamente fácil	Estos son los rangos de elementos más comunes en la mayoría de las pruebas construidas de manera clásica; lo suficientemente fáciles como para que los examinados rara vez se quejen.
0.90-1.0	Muy fácil	La mayoría de los examinados dominan estos ítems, pero en realidad son demasiado fáciles de proporcionar para los examinados y pueden ser perjudiciales para la confiabilidad.

No. Hay mucho software que puede hacerlo por ti. Si eres nuevo en psicometría, te recomiendo CITAS, que está diseñado para que puedas empezar a trabajar rápidamente, pero es demasiado simple para situaciones avanzadas. Si tienes muestras grandes o estás involucrado en trabajo a nivel de producción, necesitas Iteman. Regístrate para obtener una cuenta gratuita con el botón de abajo. Si ese es tu caso, también te recomiendo que consideres aprender TRÍ si aún no lo has hecho.

octubre 31, 2024/por Nathan Thompson, PhD

El poder de la prueba lineal sobre la marcha

Nathan Thompson, PhDoctubre 23, 2024

La Prueba Lineal Sobre la Marcha (PLSM) es un método de evaluación que aumenta la seguridad de la prueba al limitar la exposición de los ítems. Intenta equilibrar las ventajas de las pruebas lineales (por ejemplo, todos ven la misma cantidad de ítems, lo que resulta más justo) con las ventajas de los exámenes algorítmicos (por ejemplo, crear una prueba única para todos).

En general, hay dos familias de entrega de pruebas. Los enfoques estáticos entregan el mismo formulario o formularios de prueba a todos; este es el método de prueba “lineal” tradicional y omnipresente. Los enfoques algorítmicos entregan la prueba a cada examinado basándose en un algoritmo informático; esto incluye PLSM, pruebas adaptativas computarizadas (PAC) y pruebas multietapa (PME).

¿Qué es la prueba lineal sobre la marcha?

El objetivo de la prueba lineal sobre la marcha es proporcionar a cada examinado una prueba lineal creada exclusivamente para él, pero cada una de ellas se crea para que sea psicométricamente equivalente a todas las demás para garantizar la imparcialidad. Por ejemplo, podríamos tener un grupo de 200 ítems y cada persona solo recibe 100, pero esos 100 están equilibrados para cada persona. Esto se puede hacer asegurando la equivalencia de contenido y/o estadística, así como metadatos auxiliares como los tipos de ítems o el nivel cognitivo.

Equivalencia de contenido

Esta parte es relativamente sencilla. Si el plan de prueba requiere 20 ítems en cada uno de los 5 dominios, para un total de 100 ítems, entonces cada formulario administrado a los examinados debe seguir este plan. A veces, el plan de contenido puede tener 2 o incluso 3 niveles de profundidad.

Equivalencia estadística

Por supuesto, existen dos paradigmas psicométricos predominantes: la teoría clásica de las pruebas (TCP) y la teoría de respuesta al ítem (TRI). Con la TCP, es fácil crear formularios que tengan un valor P equivalente y, por lo tanto, una puntuación media esperada. Si se dispone de estadísticas biseriales puntuales para cada ítem, también se puede diseñar el algoritmo para diseñar formularios que tengan la misma desviación estándar y confiabilidad.

Con la teoría de respuesta al ítem, el enfoque típico es diseñar formularios que tengan la misma función de información de la prueba o, a la inversa, la función de error estándar condicional de la medición. Para obtener más información sobre cómo se implementan, lea esta publicación del blog sobre la TRI o descargue nuestra herramienta de ensamblaje de formularios clásicos.

Implementación de la prueba lineal sobre la marcha

PLSM se implementa generalmente mediante la publicación de un conjunto de elementos con un algoritmo para seleccionar subconjuntos que cumplan con los requisitos. Por lo tanto, necesita un motor de pruebas psicométricamente sofisticado que almacene las estadísticas y los metadatos de los elementos necesarios, le permita definir un conjunto de elementos, especificar las opciones relevantes, como las estadísticas de destino y los planos, y entregar la prueba de manera segura. Muy pocas plataformas de prueba pueden implementar una evaluación PLSM de calidad. La plataforma de ASC lo hace; haga clic aquí para solicitar una demostración.

Beneficios de usar PLSM en las pruebas

Sin duda, no es fácil crear un banco de elementos sólido, diseñar grupos de PLSM y desarrollar un algoritmo complejo que satisfaga las necesidades de equilibrio estadístico y de contenido. Entonces, ¿por qué una organización utilizaría pruebas lineales sobre la marcha?

Bueno, es mucho más seguro que tener unos pocos formularios lineales. Dado que cada persona recibe un formulario único, es imposible que se diga cuáles son las primeras preguntas de la prueba. Y, por supuesto, simplemente podríamos realizar una selección aleatoria de 100 elementos de un grupo de 200, pero eso sería potencialmente injusto. El uso de PLSM garantizará que la prueba siga siendo justa y defendible.

octubre 23, 2024/por Nathan Thompson, PhD

Estudio del método Angoff modificado

Nathan Thompson, PhDoctubre 21, 2024

Un estudio con el método Angoff modificado es una de las formas más comunes de establecer una puntuación de corte defendible en un examen. Por lo tanto, significa que las decisiones de aprobado/reprobado tomadas por la prueba son más confiables que si eligiera un número redondo arbitrario como el 70%. Si su médico, abogado, contador u otro profesional ha aprobado un examen en el que la puntuación de corte se ha establecido con este método, puede confiar más en sus habilidades.

¿Qué es el método Angoff?

El método Angoff es una forma científica de establecer un puntaje de corte (punto de aprobación) en una prueba. Si tiene una interpretación basada en criterios, no es legalmente defendible simplemente elegir convenientemente un número redondo como 70%; necesita un proceso formal. Hay una serie de metodologías aceptables en la literatura psicométrica para estudios de establecimiento de estándares, también conocidos como puntajes de corte o puntos de aprobación. Algunos ejemplos incluyen Angoff, Angoff modificado, Bookmark, Grupos contrastantes y Borderline. El enfoque Angoff modificado es, por lejos, el enfoque popular. Se utiliza especialmente con frecuencia para exámenes de certificación, licencia, certificado y otras credenciales.

Originalmente fue sugerido como una mera nota a pie de página por el reconocido investigador William Angoff, del Educational Testing Service.

¿Cómo funciona el enfoque Angoff?

Primero, reúne a un grupo de expertos en la materia (EM), con un mínimo de 6, aunque se prefieren 8-10 para una mejor confiabilidad, y pídeles que definan lo que consideran un Candidato Mínimamente Competente (CMC). A continuación, pídeles que estimen el porcentaje de candidatos mínimamente competentes que responderán cada elemento correctamente. Luego, analiza los resultados en busca de valores atípicos o inconsistencias. Si los expertos no están de acuerdo, deberá evaluar la confiabilidad y el acuerdo entre evaluadores, y luego hacer que los expertos discutan y vuelvan a calificar los elementos para obtener un mejor consenso. La calificación final promedio es entonces el puntaje porcentual correcto esperado para un candidato mínimamente competente.

Ventajas del método Angoff

Es defendible. Debido a que es el enfoque más comúnmente utilizado y se estudia ampliamente en la literatura científica, es bien aceptado.
Puede implementarse antes de que se administre una prueba. Algunos otros métodos requieren que primero se administre la prueba a una muestra grande.
Es conceptualmente simple, lo suficientemente fácil de explicar a los no psicometristas.
Incorpora el juicio de un panel de expertos, no solo de una persona o un número redondo.
Funciona para pruebas con teoría de pruebas clásica y teoría de respuesta al ítem.
No lleva mucho tiempo implementarlo: si es una prueba corta, ¡se puede hacer en cuestión de horas!
Se puede usar con diferentes tipos de ítems, incluidos ítems con puntaje politómico (multipuntos).

Desventajas del método Angoff

No utiliza datos reales, a menos que implementes el método Beuk junto con él.
Puede hacer que los expertos sobreestimen el desempeño de los candidatos principiantes, ya que olvidaron cómo era empezar hace 20 o 30 años. Esta es una razón para usar el método Beuk como una “verificación de la realidad” al mostrarles a los expertos que, si se quedan con el puntaje de corte que acaban de elegir, ¡la mayoría de los candidatos podrían fallar!

Ejemplo del método Angoff modificado

En primer lugar, no espere un proceso sencillo y directo que conduzca a una puntuación de corte incuestionablemente correcta. Todos los métodos de establecimiento de estándares implican cierto grado de subjetividad. El objetivo de los métodos es reducir esa subjetividad tanto como sea posible. Algunos métodos se centran en el contenido, otros en los datos de rendimiento del examinado, mientras que algunos intentan fusionar los dos.

Paso 1: Prepare a su equipo

El proceso Angoff modificado depende de una muestra representativa de EM, generalmente de 6 a 20. Cuando digo “representativa” me refiero a que deben representar a las distintas partes interesadas. Por ejemplo, una certificación para asistentes médicos podría incluir asistentes médicos, enfermeras y médicos experimentados de diferentes áreas del país. Debe capacitarlos sobre su función y cómo funciona el proceso, para que puedan comprender el objetivo final y avanzar hacia él.

Paso 2: Definir el Candidato Mínimamente Competente (CMC)

Este concepto es el núcleo del método Angoff modificado, aunque se lo conoce con una variedad de términos o acrónimos, incluidos candidatos mínimamente calificados (CMC) o apenas calificados (CAC). El razonamiento es que queremos que nuestro examen separe a los candidatos que están calificados de los que no lo están. Por lo tanto, les pedimos a los expertos en la materia que definan qué hace que alguien esté calificado (¡o no calificado!) desde una perspectiva de habilidades y conocimientos. Esto conduce a una definición conceptual de un CMC. Luego queremos estimar qué puntaje obtendría este candidato en el límite, que es el objetivo del resto del estudio. Este paso se puede realizar en persona o mediante un seminario web.

Paso 3: Calificaciones de la ronda 1

A continuación, pida a sus expertos en la materia que lean todos los ítems de su formulario de prueba y calculen el porcentaje de candidatos mínimamente competente que responderían cada uno correctamente. Una calificación de 100 significa que el ítem es una apuesta segura; es tan fácil que todos los candidato mínimamente competente lo responderían correctamente. Una calificación de 40 es muy difícil. La mayoría de las calificaciones están en el rango de 60 a 90 si los ítems están bien desarrollados. Las calificaciones deben recopilarse de forma independiente; si todos están en la misma sala, déjelos trabajar solos en silencio. Sin embargo, esto se puede realizar fácilmente de forma remota.

Paso 4: Discusión

Aquí es donde se pone divertido. Identifique los elementos en los que hay más desacuerdo (tal como se define por las distribuciones de frecuencia agrupadas o la desviación estándar) y haga que los expertos en la materia los discutan. Tal vez dos expertos en la materia pensaron que era muy fácil y le dieron un 95 y otros dos pensaron que era muy difícil y le dieron un 45. Intentarán convencer a la otra parte de su locura. Es probable que no falten opiniones y usted, como facilitador, descubrirá que su mayor desafío es mantener la reunión encaminada. Este paso se puede realizar en persona o mediante un seminario web.

Paso 5: Calificaciones de la ronda 2

Luego, los evaluadores vuelven a calificar los ítems en función de la discusión. El objetivo es que haya un mayor consenso. En el ejemplo anterior, no es probable que todos los evaluadores se conformen con un 70. Pero si todos los evaluadores terminan con una calificación entre 60 y 80, no hay problema. ¿Cómo se sabe que hay suficiente consenso? Recomendamos la confiabilidad entre evaluadores sugerida por Shrout y Fleiss (1979), así como también observar el acuerdo entre evaluadores y la dispersión de las calificaciones para cada ítem. Este uso de múltiples rondas se conoce como el enfoque Delphi; se aplica a todas las discusiones impulsadas por el consenso en cualquier campo, no solo a la psicometría.

Paso 6: Evaluar los resultados y la recomendación final

Evalúa los resultados de la Ronda 2 y de la Ronda 1. A continuación, se incluye un ejemplo de esto. ¿Cuál es la puntuación de corte recomendada, que es el promedio o la suma de las puntuaciones de Angoff según la escala que prefieras? ¿Mejoró la confiabilidad? Calcula la media y la desviación estándar de las puntuaciones de los examinados (hay varios métodos para esto). ¿Qué tipo de tasa de aprobación esperas? Mejor aún, utiliza el Compromiso de Beuk como una “verificación de la realidad” entre el enfoque de Angoff modificado y los datos de prueba reales. Debes tener en cuenta múltiples puntos de vista, y los expertos en la materia deben votar sobre una recomendación final. Por supuesto, ellos conocen el material y a los candidatos, por lo que tienen la última palabra. Esto significa que el establecimiento de estándares es un proceso político; nuevamente, reduce ese efecto tanto como puedas.

Algunas organizaciones no establecen el puntaje de corte en el punto recomendado, sino en un error estándar de juicio (ESJ) por debajo del punto recomendado. El ESJ se basa en la confiabilidad entre evaluadores; tenga en cuenta que NO es el error estándar de la media ni el error estándar de medición. Algunas organizaciones utilizan este último; el primero es simplemente incorrecto (aunque lo he visto utilizado por aficionados).

Paso 7: Redacta tu informe

La validez se refiere a la evidencia reunida para respaldar las interpretaciones de los puntajes de las pruebas. Bueno, tienes mucha evidencia relevante aquí. Documentala. Si tu prueba es cuestionada, tendrás todo esto en su lugar. Por otro lado, si simplemente elegiste 70% como tu puntaje de corte porque era un número redondo, podrías tener problemas.

Temas adicionales

En algunas situaciones, hay más cuestiones de las que preocuparse. ¿Múltiples formas? Deberá hacer alguna comparación. ¿Utiliza la teoría de respuesta al ítem? Deberá convertir la puntuación de corte del método Angoff modificado a la métrica theta utilizando la función de respuesta a la prueba (FRP). ¿Tiene una nueva credencial y no dispone de datos? Ese es un verdadero problema del huevo y la gallina.

¿A dónde voy desde aquí?

¿Está listo para dar el siguiente paso y aplicar realmente el proceso Angoff modificado para mejorar sus exámenes? Regístrese para obtener una cuenta gratuita en nuestro banco de ítems FastTest. También puede descargar nuestra herramienta de análisis Angoff de forma gratuita.

Referencias

Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability. Psychological bulletin, 86(2), 420.

octubre 21, 2024/por Nathan Thompson, PhD

Evaluaciones de Potencia vs. Velocidad vs. Tiempo Controlado

Potencia (Power Tests)

Velocidad (Speeded Tests)

Tiempo Controlado (Timed Tests)

Cómo Determinar los Límites de Tiempo en Pruebas Lineales

Cómo Determinar los Límites de Tiempo en Pruebas Adaptativas

Extensiones de Tiempo: Ajustes para los Examinados

Tipos de Límites de Tiempo en los Exámenes

Conclusión: La Importancia de Establecer Límites de Tiempo Efectivos

¿Qué es un KSAO?

¿Qué es un KSAO? Conocimientos, Habilidades, Capacidades y Otras Características

Ejemplos de KSAOs en diferentes roles

Enfermero/a registrado/a

Gerente de marketing

Ingeniero/a de software

¿Por qué los KSAOs son importantes en Recursos Humanos, Reclutamiento y Selección?

¿Cómo se relacionan los KSAOs con la evaluación?

Conclusión: El valor de los KSAOs

¿Qué son las habilidades blandas?

¿Por qué son fundamentales las habilidades blandas?

Mayor colaboración en el trabajo

Adaptabilidad en un mundo en constante cambio

Adaptabilidad en un mundo en constante cambio

Liderazgo e inteligencia emocional

Mejora en la relación con clientes

Enfoques para la Evaluación de Habilidades Blandas

Preguntas de ejemplo para evaluar habilidades blandas en entrevistas

Desarrollo de habilidades blandas

Cómo medir el impacto de las habilidades blandas

Conclusión

¿Qué es la evaluación de RH?

Pruebas previas al empleo

Evaluaciones posteriores a la capacitación

Exámenes de certificación o certificado

Evaluaciones de 360 ​​grados y otras evaluaciones de desempeño

Los beneficios de utilizar un software de evaluación de nivel profesional

Ahorra recursos valiosos

Apoya las decisiones de contratación basadas en datos

Mejora de la experiencia del candidato

Eliminación del sesgo humano

Qué tener en cuenta al elegir herramientas de evaluación de RH

Facilidad de uso

Entrega de pruebas y supervisión remota

Seguridad de pruebas y datos, y cumplimiento normativo

Psicometría

Experiencia de usuario

Escalabilidad y automatización

Informes y análisis

Atención al cliente y soporte técnico

Conclusión

¿Por qué necesitamos la equiparación?

¿Cómo calculo una equiparación?

La equiparación de TRÍ

Calibración concurrente

Calibración de anclaje fijo

¿Cómo se comparan estos enfoques de equiparación de TRÍ entre sí?

¿A dónde voy desde aquí?

¿Qué es el análisis de ítems?

Cómo hacer un análisis de ítems

1. Prepare sus datos para el análisis de ítems

2. Ejecutar datos a través de un software de análisis de ítems

3. Interpretar los resultados del análisis de ítems

Análisis de ítems con la teoría clásica de pruebas

Dificultad del ítem: dicotómica

La media del ítem (politómica)

Discriminación de ítems: dicotómica

Discriminación de ítems: politómica

Análisis de claves y distractores

Análisis de ítems con teoría de respuesta al ítem

Resumen

Razones para realizar un análisis de tareas laborales

Diseño del examen

Plan de estudios de formación

Análisis de compensación

Descripciones de puestos

Planificación de la fuerza laboral

ES OBLIGATORIO

¿Por qué es tan importante un JTA para la certificación y la licencia? Validez.

La metodología: inventario de tareas laborales

Usar los resultados de ATL para crear planos de prueba

Evaluaciones de 360 grados y otras evaluaciones de desempeño