Introducción a la teoría y construcción de instrumentos
de medición
Carlos Andújar Rojas, Ph.D.
i
Introducción a la teoría y construcción de instrumentos de mediciónNo está permitida la reproducción total o parcial de este manual, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito del autor.
Derechos reservados © 2001 Carlos Andújar Rojas
ii
Tabla de contenido
Capítulo 1: Introducción a la teoría y construcción de pruebas y su perspectiva histórica.....7Los instrumentos de medición psicológica y el contexto social.............................................20Perspectiva social.....................................................................................................................21Capítulo 2: Conceptos y definiciones.......................................................................................23Utilización de los instrumentos de medición...........................................................................28Tipos de instrumentos de medición.........................................................................................30Capítulo 3: Diseño de Objetivos Educativos............................................................................37Las Características de un Objetivo bien Enunciado................................................................38Capítulo 4: Taxonomía del Dominio Cognoscitivo de Benjamín Bloom y Colaboradores......45Capítulo 5: Tablas de Especificaciones....................................................................................49Preparación de una Tabla de Especificaciones para una Prueba Normativa.........................50Tabla de Especificaciones para una Prueba de Criterio..........................................................54Ejercicio de Práctica.................................................................................................................57Capítulo 6: Preparando la prueba............................................................................................57Establecimiento de los Límites de Tiempo..............................................................................57Preparación de las Instrucciones.............................................................................................57Capítulo 7: Desarrollo de las Preguntas de la Prueba.............................................................58Reglas Generales para la Construcción de Preguntas ...........................................................59El Ejercicio de Cierto o Falso....................................................................................................59Reglas para la Redacción de Preguntas de Cierto o Falso......................................................60Preguntas de Alternativas Múltiples .......................................................................................62Reglas para la Formulación de la Premisa...............................................................................62Reglas para la Formulación de la Respuesta Correcta............................................................63Reglas para la Formulación de las Alternativas......................................................................63Ejercicio de Pareo.....................................................................................................................64Reglas para la Construcción de un Ejercicio de Pareo............................................................64Ejercicio de Respuesta Breve...................................................................................................66Reglas para la Construcción de Preguntas de Respuesta Breve............................................66La Pregunta de Discusión o Ensayo.........................................................................................67Reglas para la Construcción de Preguntas de Discusión .......................................................67Listas de Cotejo........................................................................................................................68Reglas para la Redacción de Listas de Cotejo.........................................................................68Capítulo 8: Desarrollo de Escalas de Actitudes.......................................................................70Pasos generales para desarrollar escalas de actitud..............................................................71Tipos de escalas de actitudes..................................................................................................74
Escala Thurstone............................................................................................................ 74Escala Guttman........................................................................................................................75Escala Likert..............................................................................................................................76Prueba de equívocos................................................................................................................77Diferencial Semántico..............................................................................................................78Capítulo 9: Análisis de Reactivos.............................................................................................79Análisis de reactivos cuantitativo............................................................................................79Análisis de Reactivos Cualitativo.............................................................................................81Capítulo 10: Confiabilidad........................................................................................................83Confiabilidad de Consistencia Interna.....................................................................................83Confiabilidad Temporal............................................................................................................84Prueba Reprueba......................................................................................................................84Confiabilidad a Través de Formas Equivalentes.....................................................................85Confiabilidad del Examinador..................................................................................................85Capítulo 11: Validez..................................................................................................................87
iii
Validez Aparente......................................................................................................................87Validez de Contenido................................................................................................................87Validez de Constructo...............................................................................................................92Validez de Criterio....................................................................................................................92Referencias...............................................................................................................................94
iv
Índice de Tablas
Tabla 1: Tabla de Especificaciones para una Prueba Normativa sobre el Tema de la Construcción de Preguntas de Examen…………. 38
Tabla 2: Tabla de Especificaciones para una prueba de Criterio sobre la Operación de una Máquina de Encapsular ……………………43
Tabla 3: Tabla de Schipper para Valores Mínimos de Razones de Validez de Contenido…………………………………………..............…. 77
5
PrólogoEste texto tiene el propósito de preparar el estudiante para desarrollar
pruebas, escalas e inventarios usando las más modernas técnicas
psicométricas disponibles. Provee la base conceptual necesaria para
entender cómo funciona el proceso de construcción y validación de pruebas.
También provee con ejercicios que el estudiante puede hacer y discutir con
sus compañeros.
La construcción de instrumentos de medición es un proceso que
combina tanto los elementos artísticos como los científicos. El desarrollo de
dimensiones y preguntas es un arte y una actividad creativa. Mientras que
el proceso de validación y normalización de un instrumento se fundamenta
en el método científico, las estadísticas y la teoría psicométrica.
Este escrito comienza presentando la importancia que tiene el uso de
pruebas en la sociedad y un análisis socio histórico. Luego se muestran una
serie de definiciones importantes que introducen al estudiante en el campo
de la construcción de pruebas y escalas psicológicas y educacionales. Se
comenzará demostrando las formas de diseñar objetivos educacionales,
para proceder a construir tablas de especificaciones para pruebas
normativas y de criterio. Una vez hayan concluido estas actividades se
presentan los pasos para la construcción de preguntas de cierto o falso,
pareo, respuesta breve, discusión o ensayo, listas de cotejo y escalas de
actitudes. Se definen los distintos tipos de preguntas, se presentan las
6
reglas generales para la construcción de las mismas y algunos ejercicios que
los participantes llevarán a cabo.
Se define el concepto de análisis de reactivos o preguntas. Se
presentan las técnicas cualitativas y cuantitativas para el análisis de
preguntas y ejercicios de análisis de preguntas. Por último, presenta las
definiciones de validez y confiabilidad, las técnicas cualitativas y
cuantitativas para la evaluación de la validez y confiabilidad para las
pruebas y escalas.
7
Capítulo 1: Introducción a la teoría y construcción de pruebas y su perspectiva histórica
La construcción de pruebas es una disciplina relativamente joven ya
que como disciplina científica fue desarrollada durante las primeras décadas
del siglo veinte. No significa que antes no existieran intentos de medir el
comportamiento humano con diferentes propósitos. Desde que el ser
humanos existe en la faz de la tierra siempre ha habido intentos de
desarrollar herramientas que permitieran comparar el desempeño de una
persona con otra. Los seres primitivos medían sus fuerzas el uno con el otro
para ver quién era más fuerte. Las tribus de cazadores competían a ver
quién conseguía la mayor cantidad de presas. En fin, siempre ha existido un
deseo por parte del ser humano de compararse con otros buscando
establecer una diferencia. El concepto de medición ha ido refinándose a
través del tiempo ya que el ser humano ha desarrollado sistemas de
medidas para cuantificar elementos físicos.
Perspectiva histórica
En el pasado han existido sistemas para medir el desempeño relativo
de las personas. Cohen y Swerdlik (2001) señalan que en el año 2000 antes
de Cristo los chinos tenían un sistema de selección al servicio público por
medio de pruebas que se administraban cada tres años. No se conoce
8
mucho de este sistema, pero durante la Dinastía Yan 1,115 años antes de
Cristo, el gobierno de China desarrollo un sistema de selección de personal
para funcionarios públicos donde se le administraban pruebas que duró
hasta su abolición en 1905 (Cohen y Swerdlik, 2001). Este sistema se
fundamentaba en el mérito. Las personas comenzaban a competir desde
las aldeas, luego la ciudad y por último al nivel nacional. Se administraban
pruebas en las áreas de música, arquería, equitación, escritura y aritmética.
También se evaluaban otras áreas como habilidad en los ritos y ceremonias
de la vida pública y social, leyes civiles, asuntos militares, agricultura, y
geografía entre otros.
Este sistema fue conocido por los Ingleses y en el se inspiró el sistema
de selección por mérito en Gran Bretaña. Es esta misma forma, Estados
Unidos se inspiró en el concepto de los ingleses para constituir el sistema de
selección por mérito del gobierno norteamericano. También esta
documentado que en los tiempos de Grecia, los soldados eran sometidos a
pruebas físicas y mentales para ser candidatos al ejército. En Roma
también existía un sistema de selección basado en la capacidad física y
mental de una persona para poder entrar a la milicia. Las bases filosóficas
de la cuantificación fueron expuestas por los griegos en la voz de Aristóteles
(Savage y Ehrlich, 1992). Los escritos de metafísica y de las categorías
fueron fundamentales en la conceptuación de los elementos de Euclídes que
son representativos de una teoría de medición.
9
Ciertamente, las herramientas que usaban para medir el
comportamiento de las personas eran un tanto rudimentarias ya que no
existían bases teóricas y conceptuales que pudieran dar apoyo al uso de los
mismos. La motivación para utilizar estas herramientas se fundamentaban
en implicaciones prácticas y no en teorías sofisticadas.
En la edad media, las universidades europeas usaban exámenes
formales para conceder títulos académicos, (Anastasi y Urbina, 1997). La
mayor parte del desarrollo del campo de la medición surgió durante el siglo
19. En esta época surgió un gran interés por el tratamiento de personas
con retardación mental. Ante la creación de instituciones mentales fue
necesario desarrollar medidas para diagnosticar retardo mental y proceder
con un tratamiento. En 1838, un francés de nombre Esquirol desarrolló un
tratado donde definió exhaustivamente el concepto de retardación mental.
Intentó diseñar varios instrumentos para medir retardación mental y
argumentó que la mejor herramienta para evaluar los niveles de retardación
de una persona era mediante el análisis del uso del lenguaje. Esta es una
de las razones de porqué muchas pruebas de inteligencia miden el aspecto
verbal. Esquirol planteaba que existían varios grados de retardación.
Desde la normalidad hasta grandes grados de idiotez.
Otra de las personas que contribuyó fue Seguín. Este fue pionero en el
adiestramiento de personas con retardo mental. Pensaba que se debían de
incluir aspectos sensoriales y musculares en el adiestramiento de las
10
personas con retardo metal. Desarrolló medidas de discriminación sensorial
y control motor. Construyó lo que se conoce como el tablero de Seguín.
Este era un instrumento donde las personas tenían que insertar unas figuras
en un tablero y los contornos del mismo tenían que entrar adecuadamente.
Era básicamente rellenar el patrón vacío con la figura que se proveía. Los
trabajos de Seguín sirvieron como fundamento para el desarrollo de pruebas
de desempeño y no-verbales.
En 1904 Alfred Binet y Theodore Simon fueron contratados por el
Ministerio Francés de Educación para desarrollar un instrumento para
detectar deficiencias intelectuales en niños franceses. Dicho instrumento fue
llamado la prueba de Inteligencia Simon Binet. Esta prueba constaba de 30
problemas arreglados según su nivel de dificultad. La primera muestra que
se utilizó para hacer validación de la prueba fue de 50 niños entre las
edades de 3 a 11 años clasificados como normales y algunos niños y adultos
clasificados como retardados. La primera edición de esta prueba se
desarrolló en 1905 y le siguieron versiones en 1908 y 1911
respectivamente.
Este instrumento llamó la atención de los psicólogos norteamericanos
H.H. Goddard y L.M. Terman. Estos quedaron tan impresionados con los
trabajos de Binet y Simon que le pidieron que se les permitieran traducir y
adaptar al idioma inglés. Este instrumento en los Estados Unidos. Goddard
fue el primero en traducir y adaptar el instrumento. Más tarde, Terman
11
junto a un grupo de colegas de la Universidad de Stanford, desarrolló el
instrumento usando técnicas psicométricas más avanzadas. Esta versión se
conoció como la Stanford-Binet. En la misma se incluyó el concepto de
coeficiente intelectual que se definía como la proporción de acuerdo entre la
edad cronológica y la edad mental.
Otra de las personas que aportó significativamente al campo de la
psicometría fue Sir Francis Galton. Galton quedo muy impresionado por el
libro “El Origen de las Especies” escrito por su primo Carlos Darwin en 1859.
En el mismo, Darwin argumentaba planteaba que la variación azarosa de las
especies sería seleccionada o rechazada para la supervivencia por la
naturaleza de acuerdo a su valor adaptativo y de supervivencia. El aspecto
más importante que le impacto a Galton fue el de las diferencias
individuales. Esto le permitió desarrollar la teoría de que las diferencias
individuales podían ser medidas a través de instrumentos. Galton era
biólogo de profesión y comenzó llevando a cabo estudios antropométricos
midiendo las diferencias individuales al nivel sensoriomotor.
Diseñó medidas de discriminación visual y motora. Señaló que usando
estas medidas podía determinar los niveles de retardación mental de una
persona. Encontró que los individuos con determinados grados de
retardación no podían discriminar adecuadamente entre el calor, el frío o el
dolor. Se le atribuye también el diseño de un instrumento para medir el
tono de la audición. El mismo se conoció con el nombre del silbato de
12
Galton. También se le atribuye el uso de las estadísticas como herramienta
de investigación y el desarrollo del concepto teórico de correlación.
El modelo matemático de la correlación fue desarrollado por un
alumno de Galton, Karl Pearson. Pearson fue una figura bien importante en
el campo de la psicometría ya que diseñó las primeras técnicas que se
utilizaron para estimar la confiabilidad de las pruebas. Dichos modelos se
siguen usando hoy día en el campo de desarrollo de pruebas.
El pionero en el campo de la psicometría moderna lo fue James
McKeen Cattell. Se destacó en el área de la medición de la personalidad.
Cattell se adiestró en los laboratorios de Leipzip, Alemania. Su trabajo de
disertación fue dirigido a medir las diferencias individuales en los tiempos
de reacción. Luego se fue a dictar cátedra a la Universidad de Cambridge
llevando a cabo estudios sobre las diferencias individuales y creando
laboratorios de investigación. Se dedicó gran parte de su vida a promover
el movimiento de la medición psicológica.
En 1890 acuñó el término test “mental”. Se sabe que Cattell
compartía la idea de Galton de que la inteligencia se podía medir a través
de instrumentos de discriminación sensorial. Posteriormente, se han llevado
a cabo varios estudios que contraponen y discrepan de esta posición. No se
encuentran diferencias entre la discriminación sensorial y la inteligencia.
Pruebas de grupo
Hasta la primera década no existían pruebas que se pudieran
13
administrar en grupos. Las pruebas existentes eran de carácter individual y
tomaba mucho tiempo su administración, corrección e interpretación.
En 1917, se declara la Primera Guerra Mundial y Robert Yerkes,
Presidente de la American Psychological Association, consciente de las
aportaciones que podía hacer la psicología al conflicto bélico le hizo una
propuesta al ejército norteamericano para desarrollar una prueba de
inteligencia que pudiera ayudar a clasificar a los reclutas de acuerdo a su
nivel de inteligencia. Dicha propuesta fue aceptada y Yerkes creó un comité
de expertos en el campo para que desarrollaran dicho instrumento. Reclutó
a Arthur Otis que fue el principal arquitecto del proyecto. Desarrolló varias
preguntas de alternativas múltiples que fueron incorporadas en lo que se
llamó la prueba Army Alfa. Cuando comenzaron a administrar la Army Alfa
se dieron cuenta de que había personas que no sabían leer o escribir y
desarrollaron una prueba alterna y la llamaron Army Beta. Esta era una
prueba de inteligencia no verbal.
Una vez finalizó la Guerra, las empresas civiles comenzaron a utilizar
de forma masiva. Se desarrollaron pruebas para niños, adolescentes y
adultos. Para el 1920, los maestros estaban a aplicando pruebas de
inteligencia en las escuelas. La consecuencia que tuvo la masificación del
uso de pruebas fue la desconfianza de varios sectores en términos de su
efectividad. Comenzaron los cuestionamientos de sí las pruebas de
inteligencia medían realmente inteligencia o diversos tipos de habilidades.
14
Las críticas giraban principalmente en torno al fuerte contenido verbal de
las pruebas y la falta de ejercicios numéricos y de lógica. Surge también el
debate de sí la inteligencia es heredada o aprendida socialmente. De esta
discusión es que surgen las pruebas de aptitud. Las mismas buscaban
estimar la capacidad latente de una persona para culminar determinada
actividad de forma exitosa. Siempre y cuando se le haya adiestrado
previamente.
Las pruebas de aptitud se comenzaron a usar en el campo de la
consejería vocacional, selección y clasificación en los sistemas públicos,
privados y militares. El desarrollo de diversos tipos de aptitud (mecánica,
verbal y espacial entre otras) conllevo que se comenzaran a observar
discrepancias en las puntuaciones que obtenían los evaluados. Por ejemplo,
una persona puntuaba bien en aptitud verbal, pero mal en lógica. El
problema en aquel momento no parecía ser uno de carácter práctico sino
teórico. No existían teorías sólidas que ayudaran a entender el concepto de
inteligencia.
El psicólogo británico Carlos Spearman se dedicó a tratar de
desarrollar enfoques teóricos, metodológicos y estadísticos que permitieran
conocer mejor el concepto de inteligencia. Siguiendo los trabajos iniciales
de T.L. Kelley y L.L. Thurstone desarrolló la técnica estadística conocida
como el análisis de factores. La misma permite mediante análisis
estadísticos explorar la agrupación de determinadas variables en grupos o
15
factores. Esto permitía generar mayor evidencia empírica relacionada a la
conceptuación teórica de la prueba. Esta técnicas permitió el desarrolló de
muchos instrumentos de habilidad y aptitud. La técnica de análisis de
factores se sigue usando hoy día, especialmente, en los estudios de valides
de constructo o construcción lógica. También durante la Segunda Guerra
Mundial, muchas ramas del ejército norteamericano utilizaron pruebas de
aptitud tanto para seleccionar, clasificar y ubicar soldados y oficiales.
Mientras que los psicólogos se mantenían ocupados desarrollando
pruebas de aptitud para el ejército, en las escuelas los educadores estaban
diseñando pruebas de aprovechamiento que se pudieran administrar a nivel
estatal. Esta era una manera de evaluar si los estudiantes habían aprendido
el material que se enseñaba en los currículos del estado. Este movimiento
surge gracias a los problemas que confrontaban los maestros al momento
de evaluar a sus estudiantes. En muchas ocasiones los maestros no se
ponían de acuerdo sobre los criterios de evaluación que utilizaban en los
exámenes orales.
Dicho movimiento se intensificó en la década de 1930 y se
comenzaron a desarrollar equipos de mayor sofisticación para corregir
grandes cantidades de pruebas ya que las mismas se administraban por
todo los Estados Unidos de Norteamérica. Se crearon empresas como el
“College Entrance Examination Board” que ofrecían exámenes para
determinar sí el estudiante de escuela superior tenía los conocimientos
16
mínimos para entrar y lograr éxito en la universidad.
En 1947, las funciones del “College Entrance Examination Board”
fueron fusionadas con las de la “Carnegie Corporation” y la “American
Council of Education” para crear el “Educational testing Service” (ETS). Esta
institución se ha encargado a través de los años de administrar, corregir e
interpretar las pruebas para solicitar a escuelas y universidades.
Las pruebas de aprovechamiento no solamente se han usado en
ambientes académicos sino que también se utilizan en el ámbito
empresarial. También se han usado para seleccionar personal para el
servicio público.
En el servicio público de los Estados Unidos de Norteamérica se
utilizan las pruebas como mecanismos para hacer valer el principio del
mérito. Esto significa que las personas tienen que ser seleccionadas
tomando en consideración sus conocimientos, habilidades y destrezas. En
los estados Unidos de Norteamérica la oficina que se encarga de seleccionar
candidatos al servicio público es la U.S. Office of Personnel Management”.
En Puerto Rico se le llamó hasta hace algunos años la Oficina Central de
Administración de Personal (OCAP). Hoy se le llama la Oficina Central de
Asesoramiento Laboral y Administración de Recursos Humanos (OCALARH).
En este momento esta empresa se dedica a desarrollar pruebas para
clientes en el gobierno y además ofrecen diversos tipos de adiestramientos
y asesoramiento organizacional.
17
En el campo de la medición de la inteligencia se realizaron muchos
avances. Uno de los campos que no había sido desarrollado desde la
perspectiva psicométrica fue el de la personalidad. El término personalidad
se refiere a las características que conforman al individuo. Dicho de otro
modo más operacional, es el estudio de las características tales como
estados emocionales, relaciones interpersonales, motivación, interés y
actitudes, (Anastasi y Urbina, 1997).
Los trabajos iniciales en el campo de la personalidad se derivan de la
práctica clínica y psicoterapéutica. Precursores como Emil Kraepelin usaban
la técnica de asociación libre para trabajar con sus pacientes. Dicha técnica
se usa cuando un terapeuta busca información reprimida por el paciente. El
terapeuta le va a decir una palabra o frase y el paciente asocia dicha
palabra con cualquier oración que le venga en a la mente. Esta técnica
podía ser muy buena en la práctica clínica, pero a un nivel cualitativo. En
términos cuantitativos era muy difícil de aplicar y al hacerse intentos no se
lograba conseguir indicadores adecuados de su validez y confiabilidad.
Para tratar de contrarrestar los problemas metodológicos de las
técnicas como la asociación libre, se comenzaron a desarrollar instrumentos
estructurados de medición de la personalidad. El primer instrumento
desarrollado fue el Woodworth Personal data Sheet. El mismo se le daba al
paciente para que lo contestara y mediante su evaluación diagnosticar
algún posible disturbio de la personalidad. Este instrumento se uso también
18
dentro del ambiente militar en la selección de oficiales. Luego vinieron
otros instrumentos que han sido útiles en diferentes contextos. Entre los
más conocidos se puede mencionar el Inventario de los 16 Factores de
Personalidad de Raymond Cattell, el Inventario Multifásico de la
personalidad de Minnesota (MMPI) y un derivado de este, el Inventario
Psicológico de California (CPI). Otro que ha tomado mucho auge es el
Indicador de los Tipos de Myers-Briggs que fue desarrollado usando como
marco conceptual la teoría neopsicoanalítica de Carl Gustav Jung. Otro
instrumento que se ha diseñado tomando en consideración un aspecto
teórico es el NEO Personality Inventory. El mismo está inspirado en la
Teoría de los Cinco Factores de Costa y McCrae (1989). La teoría de los
Cinco factores postula que todos los inventarios de personalidad contienen
al menos cinco factores (1. Apertura a nuevas experiencias, 2. Neurotisismo,
3. Extraversión, 4. Conformidad y 5. Escrupulosidad. Esta teoría se ha
evaluado tomando en consideración estudios de análisis de factores de los
diferentes tipos de inventarios de personalidad. Dicha teoría ha ganado
adeptos y críticos severos por su enfoque de querer reducir la personalidad
a solamente cinco factores. A pesar de ello, es un acercamiento
parsimonioso al estudio de la personalidad que ayuda a entender mejor las
características de la persona.
Otro de los enfoques que se han utilizado para evaluar la personalidad
19
es el de las pruebas situacionales. Este tipo de herramienta le presenta a las
personas o grupos de personas una situación difícil de resolver y se observa
la interacción entre las personas, conductas maladaptativas a la luz de
criterios previamente establecidos.
Las simulaciones se utilizaron mucho durante la Segunda Guerra
Mundial. La “Office of Strategic Services” (OSS) las utilizaba para entrenar
candidatos a espías. Luego de la guerra, muchas instituciones comenzaron
a usar simulaciones para determinar talento gerencial.
Un instrumento que se ha utilizado tradicionalmente para medir
rasgos psicopatológicos de la personalidad es la prueba proyectiva. Dichas
pruebas constan de estímulos no estructurados o ambiguos que se le
presentan a la persona para que ésta diga que es lo que esté viendo. El
principio teórico detrás de este tipo de herramienta es la proyección. La
proyección es la externalización que una persona hace de uno mismo. Al
presentársele el estímulo la persona proyecta sus sentimientos en el mismo
y esto ayuda a determinar si existen o no problemas psicológicos. Este tipo
de instrumento se usa mucho en el ambiente clínico y en Europa muchas
empresas lo usan para seleccionar personal. Las pruebas proyectivas más
conocidas son la Prueba de Apercepción Temática (TAT) de Henry Murray y
la Prueba de Manchas de Tinta de H. Rorschach. La primera usa fotografías
como estímulos y la segunda laminas manchadas de tinta en blanco y negro
y a colores.
20
Las pruebas proyectivas han sido muy criticadas debido a los
problemas de validez y confiabilidad que enfrentan. Existen varios sistemas
de clasificación que pueden traer algo de confusión y se argumenta que los
aspectos culturales afectan la interpretación de los resultados.
La psicometría y Puerto Rico
El campo de la psicometría y la evaluación es muy reciente en países
como Puerto Rico. Los primeros trabajos que se hicieron fueron en las
traducciones y adaptaciones de diferentes instrumentos. No fue hasta la
década de 1950 que Pablo Roca estuvo a cargo de un proyecto donde se
diseñaron las Pruebas Cooperativas Interamericanas, pruebas de habilidad
general, la prueba Colectiva Puertorriqueña, el Cuestionario de Personalidad
y un Inventario de intereses Vocacionales.
Más tarde, Gabriel Cirino Gerena, desarrolló el Inventario de Cirino de
Intereses Vocacionales para la década de 1970. Se resaltan también los
trabajos de Leticia Herrans y Juana myrtia Rodríguez en la traducción y
adaptación de la prueba Wechler para adultos y niños. José Bauermeister se
ha destacado en las traducciones y adaptaciones de pruebas para medir
ansiedad-Rasgo. Guillermo Bernal en traducciones y adaptaciones de
instrumentos para medir depresión. Víctor Álvarez también se ha destacado
en el campo de la investigación y desarrollo de escalas clínicas.
En el campo de la psicología industrial organizacional se han
destacado varios profesionales que han desarrollado diferentes escalas para
21
medir aspectos del comportamiento organizacional. Entre éstos se puede
mencionar a Georgiana Lope de Caro, Miguel Martínez Lugo, Carlos Andújar
Rojas y Ernesto Rosario entre otros. En el área estrés laboral, Lope de Caro,
Carlos Andújar, Quintero, Álvarez y González han diseñado instrumentos
para medir aspectos del estrés. Carmen Olivencia, Carlos Andújar, Roberto
DeJesús, Ernesto Rosario y Blanca Ortiz desarrollaron inventarios de
personalidad normal.
Existen otras aportaciones que no se han logrado reseñar debido a
que muchos de estos proyectos se logran a través de trabajos de tesis y
disertaciones en las diferentes instituciones de educación superior. Lo
cierto es que se han logrado muchos avances en el desarrollo de pruebas.
Todavía es necesario seguir trabajando y orientando al público sobre el uso
adecuado de las pruebas. El futuro es uno alentador y cada día se crea
mayor conciencia de la utilidad práctica que tiene el uso de pruebas dentro
de la sociedad.
Los instrumentos de medición psicológica y el contexto social
Los instrumentos de medición psicológica son herramientas que se
utilizan muchos propósitos e intenciones. El propósito verdadero es hacer
unas estimaciones lo más cercanas a la realidad. Esto significa que no
estamos midiendo la inteligencia de la misma forma que una mesa o
cualquier objeto físico. Las pruebas son representaciones de los constructos
que queremos medir. Esto significa que la inteligencia por si sola no existe
22
si no es representada por elementos físicos y observables tales como la
conducta humana. Cuando usted observa a un estudiante que saca buenas
notas, que hace proyectos y asignaciones fuera de lo común, participa
activamente en las discusiones de la clase podría concluir que es inteligente
o que tiene un alto nivel de inteligencia. No es sino a través de las
conductas manifiestas que se puede determinar si algo es medible en una
cantidad determinada. Guilford (citado en citado en Savage y Ehrlich, 1992)
establece que según establece Thorndike “todo lo que existe en alguna
cantidad puede ser medido”. Esto significa que cualquier elemento que se
defina y le asignen reglas puede ser cuantificado. Se puede cuantificar la
tristeza, la alegría el odio y el amor siempre y cuando exista un sistema de
definiciones y reglas que permitan operacionalizar lo que se quiere medir.
Perspectiva socialEl uso de los instrumentos de medición tiene unas repercusiones
sociales bien grandes. Si una persona no es seleccionada para un empleo,
se afecta su situación económica. Un joven que aspiraba a entrar en una
universidad fue rechazado por las puntuaciones que obtuvo en una prueba.
Un niño es diagnosticado con problemas de aprendizaje que nunca se pensó
que existían. En fin, el uso incorrecto de los instrumentos de medición
puede tronchar el futuro de una persona. Es por esto necesario que las
personas usen adecuadamente estas herramientas. Es fundamental que
quienes usan las pruebas sean profesionales que se han educado en el
23
campo de la psicología o de la educación. Además es necesario que sigan al
pie de la letra los códigos de ética de sus respectivas profesiones.
De la misma forma que los usuarios de los instrumentos de medición
tienen que ser responsables en el uso de los mismos, los desarrolladores de
instrumentos deben llevar a cabo estudios científicos cuando los construyen.
Existe mucho desconocimiento de los procesos científicos para construir,
validar y normalizar un instrumento de medición. Muchas personas piensan
que construir una prueba es mirar un libro y a partir de la información
desarrollar una lista de preguntas y se acabó. El proceso de construcción de
un instrumento es uno que combina el arte y la ciencia. El arte se
manifiesta en la conceptuación teórica del desarrollador. La teoría sirve
como marco de referencia para el desarrollo de las dimensiones y
posteriormente las preguntas que contendrá el instrumento. Hasta aquí
hemos definido la parte artística del proceso. Luego de esto, comienzan las
pruebas de las preguntas y los estudios de validez y confiabilidad para
determinar si las dimensiones y las preguntas son representativas de lo que
se quiere medir y si las respuestas a las preguntas son confiables. Luego,
se establecen puntuaciones de referencia o normas que permiten la
comparación de la puntuación de una persona con un grupo de individuos
con características similares.
24
Capítulo 2: Conceptos y definicionesEl campo de la psicometría está constituido de muchos conceptos que
a primera vista pueden parecer confusos, pero una vez que se estudien
adecuadamente, la persona los puede entender sin problemas. A
continuación se discutirán varios conceptos con son medulares para
entender el lenguaje o jerga que se utiliza en el campo de la psicometría.
El primero de estos conceptos es el más usado, pero incorrectamente.
El concepto de prueba se refiere a cualquier medida de papel y lápiz o de
desempeño que contiene contestaciones correctas e incorrectas y que es
utilizada como base para cualquier decisión. Cuando digo que se usa
incorrectamente me refiero a que para la persona lega, cualquier
instrumento de medición es llamado una prueba. Solamente se le llama
prueba a aquel instrumento que contiene contestaciones correctas o
incorrectas. Como verán en las próximas definiciones se observarán los
términos que denominan a los otros instrumentos de medición que se usan
tanto en la psicología como en la educación.
El término escala se refiere a aquel conjunto de estímulos que
permiten evaluar la actitud que en general tiene una persona sobre un tema
o situación específica. La persona va a expresar su nivel de acuerdo o
desacuerdo con las preguntas y dichas preguntas pretenden medir una
actitud determinada. Una actitud se define como aquellas opiniones que
formulamos sobre aspectos sociales. Por ejemplo, si usted tiene una actitud
25
favorable hacia el aborto, estaría de acuerdo con las aseveraciones de una
escala que mida actitudes hacia el aborto. Es importante recordar que las
actitudes no son correctas ni incorrectas. Solo son opiniones que las
personas expresan acerca de diferentes temas sociales. Este factor es el
que hace que las pruebas y las escalas sean instrumentos diferentes. Las
pruebas contienen contestaciones correctas e incorrectas mientras que las
escalas de actitudes no.
Un segundo concepto que se asocia mucho con el de prueba es el de
inventario. Un inventario ser define como aquel instrumento que mide las
preferencias que la persona tiene con relación a un tema en particular. Se
caracterizan por que no contienen contestaciones correctas o incorrectas,
sino que nos permite evaluar nuestras preferencias y la manera en que nos
percibimos. Existen dos tipos de inventarios: los de personalidad y los de
intereses vocacionales.
Los inventarios de personalidad buscan que los individuos se
describan a sí mismos por medio de un conjunto de dimensiones o rasgos de
personalidad. Dicho de otra forma, lo que busca este tipo de instrumento es
medir cómo preferimos comportarnos. Los inventarios de personalidad son
herramientas muy útiles ya que permiten conocer con bastante profundidad
a una persona, pero típicamente se presta para que la persona al contestar
presente su mejor imagen y la misma no necesariamente describe su
verdadera personalidad. Este factor se conoce como deseabilidad social. Es
26
necesario tratar de controlar es la deseabilidad social ya sea incluyendo una
escala de verificación o incluyendo una escala de deseabilidad social cuando
se valida el instrumento. Las escalas de verificación son instrumentos que
contienen aseveraciones que son bien susceptibles en aquellos que quieren
presentar su mejor imagen. Las mismas se administran con el inventario y
se corrige. Si la puntuación es bien alta, se sugiere que está persona está
tratando de impresionar y exagerar sus verdaderas características de
personalidad.
La otra táctica para evaluar la deseabilidad social es mediante la
aplicación de una escala de deseabilidad social cuando se está sometiendo
al inventario a un estudio de validación. Se administra ambos instrumentos
a una muestra de por lo menos 200 a 300 personas (preferiblemente
seleccionadas al azar) y mediante un análisis de correlación, se asocian las
aseveraciones de deseabilidad social con las del inventario. Los índices de
correlación deben ser los más bajos posibles o cercanos a cero. Del
contrario, las aseveraciones del inventario estarían permeadas por el factor
de deseabilidad social.
El otro tipo de inventario es el de intereses vocacionales. El mismo
pretende medir las preferencias que tienen las personas hacia determinadas
ocupaciones. Este tipo de herramienta se usa cuando los jóvenes están
cercanos a terminar su escuela superior y van a entrar a la universidad o a
una escuela técnica. Los inventarios de intereses ayudan a que el joven se
27
oriente vocacionalmente y elija aquellas profesiones en las que le gustaría
trabajar.
Las herramientas antes mencionadas conforman el proceso de
medición. El término medición se define como las reglas para la asignación
de números a objetos de forma tal que representen cantidades de atributos.
Este es un aspecto bien importante en el desarrollo de instrumentos de
medición psicológica o educativa ya que la persona que construye el
instrumento es la encargada de asignar los números a los objetos o
dimensiones que se vayan a medir. Existen muchos investigadores que
desarrollan cuestionarios para tratar de probar teorías o modelos y cometen
el error de seleccionar sistemas de cuantificación que dificultan la medición
de los atributos que se desean medir. Las personas que diseñan
instrumentos tienen que contar con una base conceptual adecuada cuando
necesitan desarrollar cualquier tipo de herramienta de medición psicológica
o educativa. De lo contrario confrontará problemas en la corrección e
interpretación de la prueba, escala o inventario.
La rama de la psicología cuya finalidad es llevar a cabo la medición de
la conducta se conoce con el nombre de psicometría. Esta disciplina utiliza
técnicas científicas y estadísticas que permite que hagamos estimaciones
precisas del comportamiento humano. La esencia de la disciplina es medir
la conducta. El término de conducta lo definimos como la actividad
realizada por un organismo intacto: es lo que un ser humano o animal hace,
28
no importa que esa actividad sea voluntaria o involuntaria, sino que
constituya una actividad realizada por el organismo y que pueda ser objeto
de observación. Los pensamientos no pueden ser observados directamente,
pero sí sus manifestaciones a través de las conducta que presenta y que
pueden ser sometidas a la observación. Las aseveraciones de un
instrumento de medición son una muestra representativa de los
comportamientos que se quieren medir en una persona.
Una de las preguntas que se hacen las personas es ¿Qué es lo que
miden las pruebas o cualquier otro instrumento de medición? Los
instrumentos de medición miden rasgos o atributos que son atribuciones
que hacen los científicos de la existencia de una variable latente ante la
observación de una serie de conductas. Por ejemplo, el niño siempre saca
buenas notas, por lo tanto, es un niño inteligente. Son construcciones que
se hacen con el propósito de explicar una concatenación de
comportamientos. En el campo de la psicología hay atributos que no se
pueden medir directamente. Por ejemplo, la inteligencia no se puede medir
directamente como si fuera una libra de papas o un galón de leche ya que
no tiene una propiedad física. Los que se hace es inferir mayor o menor
grado de inteligencia a partir de las conductas que se definen en el rasgo o
atributo. Las mismas nos proveen un grado de estimación del nivel de
inteligencia de la persona.
En el campo de la construcción de pruebas se distinguen dos tipos: las
29
objetivas y las de ensayo. Las pruebas objetivas son aquellas cuyas
preguntas requieren que la persona examinada reconozca la respuesta o
respuestas correctas. La calificación consiste en comparar respuestas con
una clave preparada de antemano. El calificativo objetivo se refiere al
proceso de calificar las respuestas, ya que la determinación de cuáles
respuestas son correctas o aceptables sigue siendo subjetiva. De esta
misma forma es subjetiva la manera en que se definen los rasgos o
atributos a medir, las preguntas que se redactan y las estrategias para
validar y normalizar el instrumento. Esto no quiere decir que existan unos
parámetros o criterios para construir, validar y normalizar las pruebas.
Existen criterios de acuerdo en la comunidad científica de cómo se debe de
desarrollar un instrumento. Lo que sucede es que las decisiones de cómo
hacerlo van a depender de la persona que construye el instrumento.
Por otro lado, existen las pruebas de ensayo que requieren que la
persona examinada escriba su respuesta. Por lo general no se le proveen
alternativas sino que el o ella generan la misma. Estas pruebas, por lo
general incluyen, la redacción de un ensayo, respuestas breves o de llenar
blancos. En este tipo de prueba es importante que la persona que la
desarrolla establezca una clave con las contestaciones ideales ya que de lo
contrario, la corrección va a depender del juicio subjetivo del evaluador.
También es importante establecer criterios claro de contestación para que
quien la contesta tenga claro la contestación que se está buscando.
30
Utilización de los instrumentos de mediciónLos instrumentos de medición tienen el propósito de servir para
apoyar diferentes tipos de decisiones en el ámbito social. Las mismas
impactan los contextos de educación, el mundo del trabajo, el
funcionamiento individual y familiar entre otros. En el mundo del
trabajo los instrumentos de medición se utilizan en el proceso de selección
de los mejores candidatos a un empleo. En este proceso se evalúa a
múltiples candidatos con el propósito de seleccionar al que mejor
puntuación obtenga. Las pruebas que son válidas y confiables permiten
predecir el comportamiento de los candidatos. Se presume que una
persona con puntuaciones altas en las pruebas posee una alta probabilidad
de éxito en su trabajo. Las pruebas de selección se utilizan también con
candidatos a entrar en algún colegio, escuela o universidad. En las
facultades establecen unas puntuaciones de aceptación y luego que los
estudiantes toman las pruebas, se corrigen y se conoce si cualifican o no
para entrar a la institución o facultad de su preferencia. En las empresas
también se usan los instrumentos de medición para la clasificación de los
empleados o candidatos a empleo. La clasificación busca hacer que los
individuos pareen con las alternativas existentes. Se intenta parear las
competencias que demostraron las personas a través de las pruebas con un
grupo de puestos clasificados previamente. Un ejemplo de clasificación es
el de la aplicación de las pruebas que usa el Gobierno para determinar a
qué nivel cualifican las personas que están solicitando a la familia de puesto
31
de Asistente Administrativa. Basado en los resultados de las pruebas y en la
experiencia las personas cualificarán para los niveles de Asistente
Administrativa I o Asistente Administrativa II, según sea el caso. Un
concepto parecido al de clasificación es el de ubicación. La ubicación tiene
el propósito de colocar a la persona en un puesto, basado en sus
potencialidades. Las mismas son medidas a través de la o las pruebas. A
diferencia de la clasificación, la ubicación va a ubicar a una persona que ya
está empleada en la organización. La clasificación lo que hace es que le
dice a la persona para qué puesto esta cualificada.
Otro de los usos que tienen los instrumentos de medición es el de
diagnóstico. El diagnóstico permite evaluar las fortalezas y áreas a
desarrollar en los individuos. Permite un análisis de las capacidades de los
individuos y ayuda a crear programas para mantener o fortalecer las áreas
fuertes y a mejorar las áreas débiles de la persona. En el campo de la
psicología clínica se usan los instrumentos de medición con el propósito de
diagnósticas tendencias de comportamiento normal y anormal. En este
caso, se desarrolla un programa psicoterapéutico que le permita a la
persona mejorar su salud mental en el menor tiempo posible.
Los campos de la educación y la psicología utilizan los instrumentos de
medición con el propósito de hace investigación que conduzca a probar
teoría y modelos que permitan una aplicación efectiva. La investigación
tiene el propósito principal de construir y probar hipótesis. Permiten la
32
corroboración de una intuición o teoría mediante el uso riguroso y
sistemático del método científico. La evaluación es otro de los usos que
tienen los instrumentos de medición. La evaluación es el proceso
sistemático para determinar hasta qué punto los adiestrados o estudiantes
han alcanzado los objetivos del periodo de adiestramiento o del curso que
estén tomando. En este caso lo que se busca es evidenciar el aprendizaje
de las personas luego de una actividad de capacitación. Esto es importante
ya que de otra forma resulta difícil evidenciar si se ha logrado el propósito
de la actividad.
Tipos de instrumentos de mediciónExisten variados tipos de instrumentos de medición. Muchos de ellos
sirven a diferentes propósitos y permiten medir tanto aspectos psicológicos
como educativos. El primer tipo de instrumento que deseo discutir es la
prueba individual. Este tipo de instrumento se le administra a una
persona a la vez. Tienden a ser largas y en muchas ocasiones es necesaria
la interacción del evaluador ya que éste es el que le presenta los estímulos
al evaluado. El otro tipo de prueba es la grupal o de grupo. La misma se
administra a varias personas a la misma vez. Las instrucciones para la
contestación de las mismas deben ser iguales para todo el mundo. El
evaluador debe tener destrezas para manejar grupos.
Otro tipo de prueba de uso común es la de papel y lápiz. Este tipo
de instrumento contiene preguntas o estímulos escritos. Tienden a ser más
33
manejables a la hora de administrarse y resultan ser más baratos que
cualquier otro tipo de prueba. Pueden consistir de un folleto donde se
encuentran las preguntas y una hoja de contestación. Este tipo de
configuración se usa cuando la corrección se hace electrónicamente ya que
la hoja es leída a través de un lector óptico. También existe el examen
tradicional que se contesta en las mismas hojas donde están las preguntas.
La contraparte de las pruebas de papel y lápiz es la instrumental. Las
pruebas instrumentales contienen estímulos que son generados por un
aparato o equipo mecánico o computadorizado. Son equipos complejos de
operar por lo general y tienden a ser costosos. Los módulos de vuelo para
el adiestramiento de pilotos son un ejemplo de este tipo de prueba. En el
ejército también existen simuladores de helicópteros y de tanques de guerra
que se usan para practicar, pero a la misma vez recogen información sobre
el desempeño de los evaluados. Estos equipos están comenzando a usarse
más en las empresas debido a que los avances tecnológicos abaratan costos
y a largo plazo se hacen más accesibles.
Los avances en la computación han permitido el desarrollo de las
pruebas adaptativas por computadoras. Las pruebas adaptativas por
computadoras están fundamentadas en la Teoría Moderna de Construcción
de Pruebas. Dentro de esta teoría se encuentra la que se conoce como la
Teoría de Respuesta al Ítem. Esta Teoría es distinta a la Teoría Clásica de
Medición que está contenida en este manual. La Teoría de Respuesta al
34
Ítem supone que el comportamiento de las preguntas de un examen se
pueden observar de forma independiente. Este concepto se conoce como
independencia local. Cada pregunta puede estar midiendo un nivel del
rasgo o atributo psicológico o educativo que se quiere medir. Esto significa
que no hace falta administrar una prueba completa ya que con una cantidad
pequeña de preguntas se puede llegar a medir el atributo que se desea
medir. Por ejemplo, se quiere medir la habilidad verbal de una persona. El
programa de computadora que se usa, primero le somete al evaluado una
pregunta fácil y si la contesta correctamente, le presenta una más difícil
hasta que el evaluado comienza a fallar las respuestas. Si falla determinada
cantidad de preguntas, el programa se detiene y hace una estimación de la
habilidad verbal de la persona ya que la probabilidad de que siga
contestando preguntas correctamente es mínima. Esto no se puede hacer
con las pruebas tradicionales ya que si la prueba tiene 100 preguntas, hay
que administrarlas todas para estimar la habilidad verbal de la persona.
Esta metodología es muy innovadora, pero todavía dista mucho su
aplicación al nivel de los centros educativos y de las empresas.
Otro tipo de prueba es la de aptitud. Este tipo de instrumento sirve
para determinar si existe talento o facultad para que una persona pueda
concluir exitosamente un periodo de aprendizaje ya sea una clase,
adiestramiento o grado académico. Es necesario que la persona halla sido
adiestrada previamente. Un ejemplo de este tipo de prueba son las pruebas
35
de admisión a estudios graduados. Las mismas buscan determinar si la
persona puede culminar exitosamente un programa de maestría o
doctorado, siempre y cuando cuente con un grado de bachillerato. Otro tipo
de instrumento que se tiende a confundir en su pronunciación con las
pruebas de aptitud con las escalas de actitud. Como vimos anteriormente,
las escalas de actitud miden el grado de acuerdo u desacuerdo que una
persona tiene sobre un aspecto social. Lo importante es no llegar a
confundirse ya que una es una prueba (aptitud) y la otra es una escala
(actitud).
Un tipo de prueba que se usa mucho en los ambientes de trabajo es la
de perfección. Las pruebas de perfección miden lo acertadamente que
una persona puede realizar un trabajo o lo que conoce hasta el momento de
un tema o temas. Este tipo de prueba presume que para una persona
dominar un concepto o una destreza, debe ser diestro en la totalidad del
material o de la destreza. Por ejemplo, si una persona toma una prueba de
perfección para demostrar dominio de un equipo. Debe de dominar todas
las destrezas para operar el mismo ya que de lo contrario no lo operaría
eficientemente.
Un tipo de prueba que resulta ser muy conocida para las personas que
tienen un grado de maestría o doctorado es la oral. En una prueba oral se
le pide a la persona que exponga un tema oralmente ante un panel de
expertos. En este tipo de ejercicio se mide conocimiento, manejo de
36
información con ayudas visuales, manejo de ansiedad, expresión en la
comunicación verbal y no verbal y manejo del tiempo entre otras. Puede
ser un ejercicio bien estresante si la persona no está preparada o se siente
muy nerviosa. Se le puede olvidar información, cometer errores de dicción
o que el equipo audiovisual que usa se le dañe durante el proceso del
examen.
Un tipo de prueba de papel y lápiz bien común es la de invención de
respuestas. En este formato se le presenta un conjunto de estímulos a la
persona y ésta tiene que crear la respuesta a partir de los mismos. Las
preguntas de respuestas breves o de llena blancos se incluyen en este tipo
de prueba. También se incluye la prueba de ensayo ya que la persona tiene
que redactar una información para contestar una pregunta. Las pruebas
de reconocimiento de respuestas son también muy conocidas en el
formato de papel y lápiz. En la misma se presenta un conjunto de estímulos
que contienen varias alternativas, para que la persona seleccione la
respuesta correcta. Las preguntas de alternativas múltiples y las de pareo
son las de mayor uso.
Entre los distintos tipos de pruebas se encuentra las de rapidez. Las
pruebas de rapidez tienen un límite de tiempo para la contestación de las
mismas. Por lo general, la cantidad de preguntas es mayor al tiempo que se
tiene disponible para contestarlas. Otros tipos son las de potencia. En las
pruebas de potencia las preguntas están distribuidas por dificultad
37
progresiva. Esto es que las mismas se van a presentar desde las más
fáciles hasta las de mayor dificultad. Muchas pruebas de aptitud combinan
rapidez y potencia. Estas características hacen que este instrumento
contenga una mayor dificultad en comparación con otros como las pruebas
de aprovechamiento. Las pruebas de aprovechamiento determinan la
efectividad de unas actividades de aprendizaje. Ayuda a determinar el nivel
en que cada persona ha aprendido un material didáctico enseñado durante
un curso o periodo de adiestramiento.
Otro de los tipos de pruebas que existen es la normativa. En las
pruebas normativas se ubica a la persona a lo largo de un continuo que
representa la característica que se pretende medir. Se compara a la
persona con un grupo de referencia, esto es, personas con características
similares que han contestado la prueba anteriormente. Las puntuaciones
que se usan para comparar el desempeño relativo de la persona se conocen
con el nombre de estandarizadas. También se conocen como normas ya
que son estándares de comparación entre individuos. Otro concepto con el
que se confunde a las pruebas normativas es el de pruebas estandarizadas.
Las pruebas estandarizadas son aquellas que contienen procedimientos
uniformes tanto para la administración, corrección e interpretación de las
mismas. Las normas son parte del concepto de estandarización, pero
ambos conceptos son diferentes ya que las pruebas normativas comprenden
la creación y uso de normas, pero las pruebas estandarizadas, además de
38
normas se controlan otros elementos como: temperatura, ruido, lugar de
administración, instrucciones y otros.
La contraparte de las pruebas normativas son las pruebas de criterio.
Las pruebas de criterio establecen si la persona domina o no un nivel de
habilidad o conocimiento. No se compara el desempeño de la persona en
relación a un grupo como sucede en las pruebas normativas, sino que se
compara el desempeño de éste contra sí mismo. Este tipo de pruebas se
administran mucho en los ambientes laborales donde se les pide a los
empleados que operen determinados equipos o tecnología existente.
El último tipo de prueba que vamos a presentar en esta sección es la
relacionada al dominio. Las pruebas relacionadas al dominio tienen el
propósito de medir un dominio o conocimiento de la manera más completa
posible. Se definen por un conjunto de estímulos o preguntas que tienden a
ser representativas del dominio o conocimiento que se quiere medir. Por
ejemplo, se decide que el dominio del conocimiento será la salud y
seguridad ocupacional. Se desarrollan 300 preguntas sobre este tema. Esta
cantidad de preguntas puede resultar poco práctica en el caso de que se
estén midiendo otros dominios. Así que se pasa a seleccionar una muestra
representativa de las 300 preguntas. La misma puede ser de alrededor de
168. Luego se pasa a evaluar cuál es el por ciento de preguntas que debe
pasar la persona para determinar si domina o no el material perteneciente
al universo de conocimiento.
39
Capítulo 3: Diseño de Objetivos Educativos
El proceso de enseñanza tiene el propósito fundamental de modificar
comportamiento. Cuando adiestramos y capacitamos a una persona para
que realice un tipo de trabajo o se convierta en un profesional, es necesario
que diseñemos unos objetivos que nos permitan evaluar los cambios que
esperamos que la persona logre durante el tiempo que se le está
capacitando.
La enseñanza no debe ser un proceso azaroso ni carente de estructura
ya puede modificar conductas en una dirección no deseada. Es una realidad
que los seres humanos estamos aprendiendo todo el tiempo. El ambiente
nos rodea de estímulos que permiten que modifiquemos y reforcemos un
gran número de conductas. El problema con esta situación es que muchas
de las conductas que aprendemos no poseen una dirección ni un propósito
social fundamental y nos llevan desarrollar conductas maladaptativas.
El proceso de enseñanza-aprendizaje no se puede dejar al simple
azar, sino que debe estructurar unas actividades que puedan ser evaluadas
mediante objetivos. Es importante evaluar lo que se espera de los
adiestrados o estudiantes luego de un periodo de adiestramiento o clases.
Por ello la importancia de tener objetivos educativos que permitan evaluar
los resultados obtenidos por los evaluados durante un proceso de
enseñanza-aprendizaje.
40
Un objetivo educativo se define como la descripción de una conducta
determinada que el estudiante o adiestrado deberá adquirir. Un objetivo
describe el resultado final de la enseñanza más que el proceso mismo de
enseñanza. Robert Mager ha sido un experto que por muchos años se ha
dedicado a la enseñanza de la construcción de objetivos educativos. Este
nos dice que los objetivos son importantes por varias razones.
En primer lugar, cuando no existen metas claramente definidas no
existe una base sólida sobre la que se puedan seleccionar las ayudas
didácticas, el contenido y las técnicas apropiadas. Si no se sabe dónde se
quiere ir es difícil escoger los caminos a llegar.
En segundo lugar, los exámenes o pruebas son señales que marcan el
proceso en la vía de aprendizaje y se espera que indiquen tanto al
evaluador como al evaluado el grado de éxito logrado por ambos.
La tercera razón para que existan objetivos bien definidos es que le
provee al evaluado los medios para evaluar su progreso y poder así
organizar sus esfuerzos en actividades relacionadas con lo que está
aprendiendo. Ya no necesita preocuparse por averiguar el tipo de
preguntas que a cada instructor le gusta hacer.
Las Características de un Objetivo bien EnunciadoUn objetivo bien enunciado es el que logra transmitir al lector el
intento educacional del que lo redacta. Las características de un buen
objetivo son las siguientes:
41
1. Debe identificar por su nombre la conducta final. Es fundamental especificar el tipo de destreza que usted aceptaría como evidencia de que el evaluado ha logrado el objetivo.
2. Define con mayor precisión la conducta deseada por medio de una descripción de las condiciones importantes bajo las cuales dicha conducta debe ocurrir.
3. Especifica el patrón de rendimiento aceptable mediante la fijación del grado de perfección que el aprendiz debe alcanzar para ser aprobado.
En síntesis, las características de un objetivo bien redactado son las
siguientes: 1. Conducta final: destrezas concretas (lo que el aprendiz debe
ser capaz de hacer), 2. Condiciones: (las circunstancias concretas dentro de
las cuales debe darse el resultado, la conducta final y 3. Patrón de
rendimiento: el nivel que se puede considerar aceptable en la realización del
objetivo.
Conducta Final
El objetivo debe comenzar expresando cual es la conducta final que se
espera del estudiante o adiestrado al final de un periodo de instrucción. La
misma debe ser expresada en verbos activos, para lograr concretizar la
conducta esperada. A continuación se presentará una lista de verbos
activos que pueden ser utilizados como índices de conducta final:
1. leer2. caminar3. contar4. resolver problemas5. localizar6. preparar7. organizar en orden lógico
42
8. corregir9. definir10. arreglar11. colocar12. contribuir13. usar14. hacer funcionar15. bosquejar16. operar17. restar18. sumar19. reconocer20. escribir
Esta es solamente una pequeña parte de la inmensa cantidad de
verbos que existen. A continuación se presentan varios ejemplos de
objetivos que contienen la conducta final esperada:
1. Reconocer las 5 situaciones de mayor peligro en el uso de la máquina de encapsular.
2. Redactar 10 preguntas de selección múltiple, pareo, cierto o falso, respuesta breve, ensayo y listas de cotejo.
3. Diseñar una tabla de especificaciones para una prueba normativa.
En el primer ejemplo se puede observar que la conducta final
esperada es que el estudiante o participante pueda preparar una lista que
contenga 10 preguntas de cierto o falso. El segundo y tercer ejemplo
recurren a los verbos definir y reconocer para definir la conducta final
esperada.
Condiciones
Las condiciones son aquellas situaciones concretas bajo las cuales se
espera que el estudiante o adiestrado realice la conducta esperada. Las
43
mismas pueden relacionarse con el medio ambiente. Por ejemplo: el salón
de clases o la sala de adiestramiento. También pueden ser las herramientas
que necesita la persona para emitir la conducta final esperada. Por ejemplo,
un libro, una charla, un periodo de instrucción, un lápiz. En fin, es cualquier
herramienta ya sea proveniente del medio ambiente o provista por el
maestro o adiestrador. A continuación se presentará una lista de
condiciones que pueden ser utilizadas en la formulación de un objetivo
educativo:
1. Con la ayuda de un procedimiento...2. Usando un diccionario...3. Provista una lista de...4. Dada una situación problemática...5. Con la ayuda del maestro o adiestrador...6. Al finalizar el adiestramiento...7. Siguiendo instrucciones escritas...8. Al ser expuestos a...9. Provisto el equipo computadorizado...10. Utilizando los mismos materiales...
A continuación se presentará varios ejemplos de objetivos que
contienen conducta final esperada y condiciones:
1. Con la ayuda de un procedimiento estándar de operaciones, el adiestrado reconocerá las 5 situaciones de mayor peligro en el uso de la máquina de encapsular.
2. Luego del adiestramiento de construcción de instrumentos de medición, los participantes redactarán preguntas de selección múltiple, pareo, cierto o falso, respuesta breve, ensayo y listas de cotejo.
3. Con la ayuda del manual del participante diseñará una planilla de especificaciones para una prueba normativa.
El ejemplo 1 nos presenta que el procedimiento estándar de operación
44
es la condición para realizar la conducta de reconocer las 5 situaciones de
mayor peligro en el uso de una máquina de encapsular. En los ejemplos
siguientes, tanto el adiestramiento como la ayuda que provee el manual del
participante, son condiciones para realizar las conductas de reacción y
diseño.
Patrón de Rendimiento
El patrón de rendimiento se define como el comportamiento mínimo
aceptable para evidenciar que el estudiante o adiestrando haya cumplido
con un objetivo dado. El mismo nos permite aumentar la precisión de un
objetivo especificando la calidad, cantidad y el tiempo máximo permisible
en el desempeño de la conducta final. Cuando se logra especificar el patrón
de rendimiento en un objetivo, el mismo nos sirve para comparar los
resultados de nuestros cursos y talleres. Nos permite además determinar el
grado de éxito alcanzado en el logro de nuestros propósitos educativos. A
continuación se presentará una lista de patrones de rendimiento aceptable
que pueden ser utilizados para la redacción de un objetivo:
1. con 80% de efectividad...2. sin cometer errores...3. permitiendo solo dos errores...4. sin fallar...5. cuatro de cinco preguntas...6. una sola pregunta errónea. ..7. tres de cinco aciertos...8. cero defectos...9. 70% de las preguntas correctas...10. 20% de errores...
45
A continuación se presentarán varios ejemplos de objetivos antes
presentados que anteriormente contenían conducta final esperada,
condiciones y ahora contienen patrón de rendimiento:
1. Con la ayuda de un procedimiento estándar de operaciones, el adiestrado reconocerá las 5 situaciones de mayor peligro en el uso de la máquina de encapsular sin cometer errores.
2. Luego del adiestramiento de construcción de instrumentos de medición, los participantes redactarán 20 preguntas de selección múltiple, pareo, cierto o falso, respuesta breve, ensayo y listas de cotejo, con un 80 por ciento de efectividad.
3. Con la ayuda del manual del participante diseñará una tabla de especificaciones para una prueba normativa, con un mínimo de dos equivocaciones.
En el primer ejemplo el objetivo no se permite que la persona cometa
errores en la identificación de las 5 situaciones de mayor peligro en el uso
de una máquina de encapsular. La persona que reconozca 4 situaciones no
habrá cumplido con el objetivo. Muchas veces hay que ser riguroso con el
patrón de rendimiento ya que el contenido de un material de enseñanza
debe ser aprendido en su totalidad. Este es el caso del primer ejemplo,
donde es crítica la identificación de 5 situaciones de mayor peligro.
Ejercicio de Práctica
46
Lea cuidadosamente los objetivos que se presentan a continuación.
Favor de subrayar con una línea la conducta final esperada, con dos líneas
la o las condiciones y con tres líneas el patrón de rendimiento.
1. Dado un conjunto de procedimientos de operación, el participante operará la Mezcladora de ingredientes, con un 90 por ciento de efectividad.
2. Luego de concluir el periodo inicial de adiestramiento, los participantes escribirán un procedimiento de operación, con un 20 por ciento de error permitido.
3. Al finalizar el taller de calidad total, los participantes discutirán los 14 Puntos de Deming sin equivocarse.
4. Dado un paño, detergente y un cepillo de cerdas suaves, el participante limpiará la máquina encapsuladota sin dejar residuos contaminantes.
5. Luego de esta sesión del taller, los participantes redactarán cinco objetivos educativos que contengan conducta final esperada, al menos una condición y un patrón de rendimiento.
47
Capítulo 4: Taxonomía del Dominio Cognoscitivo de Benjamín Bloom y Colaboradores
El desarrollo integral de un estudiante o un adiestrado requiere que
los objetivos educativos sean amplios, variados e integrados. Esta razón dio
lugar a que ciertos educadores y profesionales crearán un sistema de
clasificación de objetivos. En primer lugar se identificaron tres áreas en los
que se pueden agrupar estos objetivos: cognoscitivos, afectivo y
psicomotor. Posteriormente se dieron a la tarea de crear una taxonomía
dentro de cada una de las áreas que facilitara la labor del educador a la
hora de crear un periodo de instrucción o adiestramiento y los mecanismos
para evaluar los mismos.
La primera taxonomía de objetivos fue la del área cognoscitiva. La
misma incluye los procesos intelectuales de conocimiento y pensamiento.
La segunda taxonomía fue la del dominio afectivo que incluye todos los
aspectos emotivos, de sensaciones y sentimientos, valores, actitudes e
intereses. La tercera área es la psicomotora. Esta no fue desarrollada por
Bloom y colaboradores, pero un educador llamado Simpson desarrolló una y
la definió como las actividades que brindan mayor énfasis al desarrollo de
destrezas muscular o motora, a la manipulación de materiales y objetos o a
las acciones que requieren coordinación neuromuscular. Los objetivos que
se realizan bajo esta taxonomía se encuentran muy relacionados con los
48
procesos de escritura, lenguaje oral, y con la educación en deportes oficios,
cursos técnicos y ciencias naturales. La taxonomía afectiva y psicomotora
no han sido desarrolladas e investigadas rigurosamente. Hasta este
momento, la taxonomía que mayor cantidad de investigaciones ha
generado es la cognoscitiva. Los educadores y adiestradores aceptan que la
misma es la de mayor profundidad científica y utilidad práctica.
La taxonomía del área cognoscitiva a su misma vez contiene las áreas
de conocimiento, comprensión, aplicación que a su vez incluye las sub áreas
de análisis, síntesis y evaluación. El primero comprende actividades donde
la memorización de datos específicos, formas y maneras de trabajar con
datos, abstracciones y generalizaciones, principios teorías y estructuras son
importantes. La segunda requiere además de la memorización, del
entendimiento del conocimiento aprendido. Incluye el traducir de una u otra
forma, explicar y resumir y extrapolar más allá de los datos.
El nivel de aplicación consiste en la utilización del conocimiento en
situaciones concretas y particulares. El nivel de análisis consiste en
identificar los elementos, las relaciones y los principios organizacionales. La
síntesis incluye la producción de una comunicación única, de un plan, o la
derivación de conjuntos de relaciones abstractas. Por último, el nivel de
evaluación incluye el emitir juicios basados en criterios propios o externos.
A continuación se presentarán los verbos más comunes relacionados a las
áreas contenidas en la taxonomía de Bloom y colaboradores:
49
AREA COGNOSCITIVA SEGUN BENJAMIN BLOOM Y COLABORADORES
CONOCIMIENTO COMPRENSION
APLICACION ANALISIS SINTESIS EVALUACION
Definir Traducir Interpretar Distinguir Componer Juzgar
Repetir Decir en sus propias palabras
Aplicar Analizar Planificar Estimar
Anotar Reconocer Utilizar Diferenciar Proponer Evaluar
Listar Explicar Demostrar Estimar Diseñar Clasificar
Recordar Identificar Dramatizar Calcular Formular Comparar
Nombrar Localizar Practicar Experimentar
Proponer un plan
Elegir
Relatar Informar Catalogar Probar Unir Valorar
Leer Asociar Calcular Comparar Crear Revisar
Enumerar Cambiar Resolver Contrastar Organizar Seleccionar
Escribir Computar Hacer un diagrama
Manejar Elegir
Contar Diferenciar Examinar Preparar Medir
Describir Debatir Combinar Verificar
Distinguir Inventar
Comparar Resolver
Dar ejemplos Categorizar
Inspeccionar
Seleccionar
50
Los verbos antes presentados tienen el propósito de definir la
conducta final esperada. Todos pueden utilizarse ya que son conductas
observables que nos permiten examinar el aprendizaje de los estudiantes o
adiestrados.
A continuación se presentarán algunos ejemplos de objetivos relacionados a
las distintas áreas de la taxonomía cognoscitiva:
Conocimiento
Al final de este periodo de instrucción, los participantes reconocerán los tres componentes de un objetivo educativo.
Comprensión
Dado una lista de objetivos educativos, los participantes identificarán aquellos que contengan los tres componentes básicos de un objetivo sin cometer errores.
Aplicación
Luego de un periodo de instrucción, los participantes redactarán cinco objetivos educativos con al menos dos de los componentes de un objetivo.
Análisis
Dado el manual del equipo, el participante desmontará cada una de las partes del equipo, con un 80 por ciento de precisión.
Síntesis
Con el manual de procedimientos a mano, el participante ensamblará la computadora sin cometer errores.
51
Evaluación
Dado la cantidad de 35 órdenes de compra de materiales de oficina y un presupuesto hipotético, el participante escogerá aquellas que deben ser procesadas con un 90 por ciento de efectividad.
Ejercicio de Práctica
A continuación se presentarán una lista de objetivos. Su labor
consiste en identificar el área del nivel cognoscitivo a la cual pertenecen
cada uno de los mismos.
1. Dado un destornillador largo de estrella, el participante desarmará la tapa principal del ordenador y añadirá los microprocesadores de memoria, sin cometer errores.
2. Dado las instrucciones, un martillo y un destornillador de estrella, el participante armará el escritorio sin cometer errores.
3. Dado una computadora que tenga un programa de procesamiento de hojas electrónicas, los participantes diseñaran un gráfico de barras, con un 80 por ciento de efectividad.
4. Con el manual de procedimientos a mano, el participante listará las herramientas necesarias para desempeñar una limpieza de la secadora de tabletas.
5. Dado este adiestramiento, los participantes diferenciarán los distintos objetivos educativos en las áreas cognoscitivas, sin cometer errores.
Capítulo 5: Tablas de Especificaciones
Toda prueba es una muestra de los conocimientos que aparentemente
han adquirido los estudiantes o adiestrados a través de un periodo de
instrucción. En el desarrollo de pruebas se seleccionan preguntas de
carácter pertinente a los temas que se han presentado durante la
52
instrucción y que a la misma vez contienen los objetivos con sus respectivos
niveles cognoscitivos. La representatividad del contenido de una prueba se
determina por el juicio de uno o más expertos. En el caso de un maestro o
un instructor, el experto es el o ella ya que es quien está a cargo de la
planificación y selección del contenido del material que se va a administrar
durante el periodo de instrucción. Una herramienta que nos permite
organizar el contenido de la información que vamos a incluir en una prueba
es la tabla de especificaciones. Este instrumento nos permite determinar la
cantidad de preguntas y el nivel cognoscitivo de cada concepto a base de
dos dimensiones: 1. los objetivos educativos y 2. los tópicos cubiertos
dentro de la materia enseñada. Existen dos tipos de tablas de
especificaciones. La primera se conoce como normativa y la segunda
como de criterio. La primera tiene el propósito de ayudar a diseñar
pruebas cuyos resultados puedan comparar el desempeño del estudiante o
adiestrado con el de personas con características similares. La segunda
permite el diseño de pruebas donde se compara los resultados de éste con
su propio desempeño. Ambas tablas se construyen de forma diferente.
Preparación de una Tabla de Especificaciones para una Prueba Normativa
En el desarrollo de una tabla de especificaciones para una prueba
normativa se siguen los siguientes pasos:
1. Determinación de la importancia relativa de las categorías de
53
objetivos a ser evaluados en al prueba. La taxonomía de Bloom
colaboradores permite desarrollar este tipo de actividad. Se ha
encontrado que es muy difícil distinguir entre objetivos de aplicación,
análisis síntesis y evaluación, por lo que éstos se agrupan en una
categoría de aplicación. La importancia relativa que tiene cada
categoría de objetivos se refleja como por cientos o decimales en la
tabla de especificaciones. En el ejemplo de la Tabla 1, se puede
observar que se asignó a las áreas de conocimiento .15,
comprensión .60 y aplicación .25.
2. Establecimiento de la importancia relativa de los tópicos. Estos pesos
se reflejan en la tabla de especificaciones en términos porcentuales o
decimales. En la Tabla 1 los tópicos sobre construcción de preguntas
se le adjudicó un peso de .25 a cada uno de los mismos. La
importancia relativa de los tópicos la va a determinar el maestro o el
adiestrador que es considerado como la persona experta en el tema.
3. Determinación del número total de preguntas que tendrá la prueba.
El total de preguntas se determina a base de aspectos tales como el
tiempo que se tiene disponible para administrar la prueba y sus
instrucciones, la confiabilidad deseada en la prueba, el tipo de materia
que se cubre, la edad de los estudiantes o adiestrados, las experiencia
de los estudiantes o adiestrados y otros. En el caso de la Tabla 1, se
54
seleccionaron 50 preguntas.
4. Determinación del número total de preguntas por categoría de
objetivos. Esto se hace multiplicando el decimal que representa el
peso relativo de ese objetivo por el total de la prueba. En la Tabla 1
podemos observar que cuando multiplicamos el peso del área de
conocimiento (.15) por el número total de preguntas (50) obtenemos
que el área de conocimiento se debe redactar 8 preguntas. Este
mismo procedimiento se realiza en todas las áreas.
5. Determinación del número de preguntas por cada tópico y categoría
de objetivos. Generalmente, todas las preguntas en una prueba
tienen igual peso y el número de preguntas dedicadas a cada tópico
en particular se obtiene multiplicando el decimal correspondiente a su
peso relativo por el total de preguntas de cada categoría de objetivos.
En la Tabla 1 podemos observar al multiplicar el peso de funciones de
las preguntas (.25) por el número total de preguntas en el área de
conocimiento (8) obtenemos que necesita redactar dos preguntas. El
mismo procedimiento se repite con todos los tópicos hasta completar
todas las preguntas.
6. Determinación del número total de preguntas en cada tópico por
categoría de objetivos. Esto se obtiene sumando el total de preguntas
por categoría de objetivos en cada tópico. Por ejemplo, en la Tabla 1
55
tomamos el tópico de funciones de las preguntas y sumamos el
número de preguntas en las categorías de objetivos que son: 1)
conocimiento (2 preguntas), comprensión (8 preguntas) y 3)
aplicación (3 preguntas), obteniendo una puntuación total de 13. La
misma se coloca en la columna denominada Total. Esto se realiza en
cada tópico y luego suma la cantidad de preguntas por tópico. La
misma debe ser igual al total de preguntas estipulado en el paso
número tres.
Tabla 1: Tabla de Especificaciones para una Prueba Normativa Sobre el Tema de la Construcción de Preguntas de Examen
CATEGORÍA DE OBJETIVOS
Tópicos Peso Conocimiento
.15
Comprensión
.60
Aplicación
.25
Total
Funciones de las preguntas
.25 2 8 3 13
Importancia de las preguntas
.25 2 8 3 13
Impacto de las pruebas estandarizadas
.25 2 7 3 12
Controversias de las pruebas
.25 2 7 3 12
TOTALES 1.00 8 30 12 50
56
Ejercicio de Práctica
A continuación se presenta una tabla de especificaciones. La misma contiene el total de preguntas, los pesos por tópicos, por área cognoscitiva. Favor de completar la información que falta.
Tópicos Peso Conocimiento
.35
Comprensión
.45
Aplicación
.20
Total
Preparación antes de la operación .20
Mezcla de los ingredientes
.25
Operación de la encapsuladota .35
Limpieza de la encapsuladota .20
TOTALES 60
Tabla de Especificaciones para una Prueba de Criterio
La tabla de especificaciones para una prueba de criterio consiste de
una lista de objetivos educativos expresados en términos de conducta y
número de preguntas que se van a utilizar para evaluar cada objetivo. Para
medir cada objetivo debe existir un número suficiente de preguntas
representativas de los conocimientos de ese objetivo. Es difícil determinar
el número requerido de preguntas. Se recomienda que no haya menos de 5
preguntas y preferiblemente 10 o más.
57
En segundo lugar, lo objetivos se expresan en forma de conductas que
puedan ser cuantificables. Ambos tipos de pruebas requieren que las
preguntas que se incluyan sean representativas de los conocimientos a ser
medidos. Pero en las pruebas de criterio, el universo de conocimientos se
define con mayor precisión y se refiere a un conjunto de conocimientos más
limitado. El número total de preguntas en una prueba de criterio depende,
no solamente de las consideraciones antes mencionadas, sino también del
número de objetivos y del número de preguntas mínimas que se pueden
incluir para medir cada objetivo. A continuación se presenta la Tabla 2 que
contiene un ejemplo de una tabla de especificaciones para una prueba de
criterio.
Tabla 2: Tabla de Especificaciones para una Prueba de Criterio para la Operación de una Máquina de Encapsular.
Área Destreza Número de Preguntas
Puntuación Mínima
Operación de una máquina de encapsular
Preparar los
a la operación
5 4
Llenar los documentos necesarios antesde la operación
5 4
Operar de la máquina de encapsular
5 4
Limpiar elequipo
5 4
TOTAL 20
58
El número de objetivos de conducta que se pueden formular para
evaluar el material de un curso o adiestramiento es relativamente alto. Se
recomienda que los objetivos seleccionados sean aquellos que evidencien el
mayor grado de asociación con otros objetivos. De esa forma, al medir el
objetivo, se miden indirectamente otros objetivos.
Con relación a las especificaciones de las prueba, se recomienda que se incluya lo siguiente:
1. Una descripción general de las conductas que se quieren medir.
2. Proveer ejemplos de preguntas.
3. Una descripción de los atributos del estímulo (la pregunta),
cómo se selecciona el contenido de la pregunta, qué tarea se le
presenta al estudiante o adiestrado.
4. Una descripción de los atributos de las respuestas. El estudiante
o adiestrado producirá la respuesta o hará una selección entre
las alternativas. Cuando es de selección se especifican los tipos
de respuesta que pueden incluirse como alternativas incorrectas
y respuestas correctas. Cuando se requiere al estudiante
producir la respuesta (preguntas de discusión) se establecen los
criterios para evaluarla.
5. Un suplemento que ofrezca más detalles sobre el contenido a medirse.
59
Ejercicio de Práctica
Utilizando ya sea un libro de texto, revista, este manual o un
procedimiento estándar de operación, seleccione un tema y diseñe una
tabla de especificaciones para una prueba que contenga 30 preguntas.
Capítulo 6: Preparando la pruebaEstablecimiento de los Límites de Tiempo
En la determinación de la cantidad de preguntas que se van a incluir
en una prueba se debe tener en consideración el tiempo que se tiene para
contestar las misma. Uno de los criterios para determinar el tiempo que
debe durar una prueba debe ser aquel donde el 90 por ciento de las
personas que las contesten puedan terminar sin problema alguno. Dicho de
otra forma, es el tiempo que le toma al 90 por ciento de las personas
terminar una prueba cuando se le provee tiempo ilimitado para responder a
la misma.
Otra estrategia que se puede usar es la de tomar el tiempo que le
toma contestar la prueba a cada persona y luego calcular el promedio y la
desviación estándar de los tiempos. Este resultado dará una idea de cuánto
toma en promedio contestar el examen.
Preparación de las Instrucciones
Una parte importante de una prueba son sus instrucciones. Es
60
necesario que la persona que va a contestar la prueba sepa qué es lo que se
le pide que responda y de qué manera se debe responder. Las instrucciones
son el mecanismo que permite orientar a la persona con la información que
necesita para responder la prueba. Las instrucciones deben contener los
siguientes aspectos:
1. ¿Qué tipo de marca se utilizará para identificar la respuesta del
estudiante o adiestrado?
2. ¿Se utilizará una hoja de respuesta separada del folleto de la prueba?
3. ¿Se provee papel para cómputos o deben hacerse los cálculos en el
folleto?
4. ¿Hay limite de tiempo para las partes de la prueba?
5. ¿Cuál es el tiempo máximo disponible?
6. ¿Puede entregar su trabajo tan pronto termine?
7. ¿Qué materiales o equipo se pueden utilizar durante la prueba?
8. ¿Se penalizarán los intentos de adivinar respuestas?
Capítulo 7: Desarrollo de las Preguntas de la Prueba
Una vez se tiene claro las materias que se van a evaluar, se pasa a la
redacción de las preguntas. Existen varias maneras de redactar preguntas.
A continuación se presentarán las reglas generales que hay que seguir para
desarrollar las preguntas de una prueba. Luego se presentarán las reglas
61
para formular distintos tipos de preguntas.
Reglas Generales para la Construcción de Preguntas
1. Formule preguntas sobre conceptos básicos.
2. Presente la pregunta en la forma más clara y precisa posible.
3. Al formular preguntas no repita textualmente lo que aparece en el
material impreso.
4. Si la pregunta está basada en una opinión, indique de quién es la opinión.
5. La información contenida en una pregunta no debe revelar la
respuesta a otra pregunta.
6. La respuesta a una pregunta no debe depender de la respuesta a otra
anterior.
7. Las respuestas correctas deben colocarse al azar, distribuidas
equitativamente entre las posiciones.
8. Evite preguntas que tiendan a engañar al examinado.
9. Evite preguntas que solo requieran sentido común para contestarse
correctamente (esto sólo se permite en pruebas de habilidad mental).
El Ejercicio de Cierto o FalsoEl ejercicio de cierto o falso requiere que la persona exprese su juicio
en torno a un enunciado dado en términos de su veracidad o falsedad. Este
se caracteriza por el hecho de que existen solamente dos posibles
contestaciones a seleccionar: cierto o falso, correcto o incorrecto y otros.
62
Este tipo de pregunta le provee la oportunidad a la persona de contestar el
50% de las preguntas correctamente por adivinanza. Esto conlleva el hecho
de que una persona que no ha estudiado un material didáctico o que no ha
atendido adecuadamente a un periodo de adiestramiento, tiene un 50% de
probabilidad de contestar la respuesta correcta mediante la adivinanza.
Este ejercicio debe contener una premisa que sea absolutamente
cierta o claramente falsa sin excepciones. Generalmente las premisas
de cierto o falso se utilizan para medir datos que necesitan ser
memorizados. Sin embargo es posible utilizarlas para medir procesos de
razonamiento complejo.
Reglas para la Redacción de Preguntas de Cierto o Falso
1. La premisa de cierto o falso debe contener una sola idea ya que
de otra forma puede confundir a los respondientes.
2. Debe redactarse de manera que pueda clasificarse
inequívocamente como cierto o falso.
3. La premisa debe ser corta y contener una estructura gramatical
simple.
4. Se recomienda el uso mínimo de premisas negativas, pero de
utilizarse, se debe resaltar la palabra negativa ya sea
subrayando, usando letras mayúsculas o ennegreciéndola.
5. Cuando la premisa involucra una opinión, se debe incluir la
fuente de la misma.
63
6. Las premisas de cierto o falso deben incluir datos y
generalizaciones importantes y relevantes.
7. Se debe evitar el uso de claves que sugieran la contestación:
a. Evitando usar palabras que se asocian con argumentos
ciertos o falsos.
b. Procure que las premisas de cierto o falso tengan
aproximadamente la misma extensión.
c. Procure que el número de premisas ciertas sea igual al de
falsas.
8. Debe evitarse el uso de ciertas palabras o frases que se asocian
con argumentos ciertos o falsos ya que proveen claves en la
contestación. Las palabras absolutas como siempre, nunca,
todo, tienden a ser falsas. Mientras que palabras como
usualmente, puede, algunos, debiera, generalmente tienden a
ser ciertas.
9. Se debe evitar que las premisas que son ciertas sean más largas
que las falsas. La extensión debe ser más o menos la misma en
ambos tipos de premisas.
Ejercicio de Práctica
A continuación encontrará una serie de preguntas de cierto o falso
que contienen varios errores de construcción. Su tarea consistirá en
identificar cada uno y recomendar la forma correcta en que se deben
64
redactar los mismos.
1. Todo envejeciente va deshaciéndose de sus ataduras, especialmente las asociadas con el trabajo y comunidad.
2. De acuerdo con Lodahl y Kejner el nivel en que el empleado se involucra en el trabajo es una característica individual, mientras que para Argyris es una respuesta al ambiente organizacional. 3. Cae de su peso que Politemo, cíclope de Neptuno y comedor de carne humana, devoraría niños con preferencia, por ser manjar tierno.
la calidad.
d) estrategia de la Preguntas de Alternativas Múltiples Las preguntas de alternativas múltiples son las que gozan de mayor
prestigio entre todos lo tipos de preguntas. Ello se debe a que las mismas
pueden evaluar de forma amplia todos lo niveles de la taxonomía
cognoscitiva. La pregunta de alternativas múltiples contiene una premisa
que sirve como base. Esta por lo regular consta de una pregunta o una
declaración incompleta. Una vez establecida la premisa, se procede a
establecer unas alternativas para que se seleccione la mejor contestación.
Por lo general se redactan de cuatro a cinco alternativas por pregunta. A
continuación se presentan las reglas para formular la premisa u oración
principal.
Reglas para la Formulación de la Premisa1. Formular claramente una pregunta de manera que el examinado
pueda entenderla sin recurrir a las alternativas.
2. Contener en lo posible, todas las palabras comunes a las alternativas.
65
3. Contener únicamente material pertinente a la respuesta de la
pregunta, a menos que se esté midiendo la capacidad de seleccionar
el material pertinente a la solución de un problema
4. Estar libre de indicios (claves) sobre cuál es la respuesta correcta.
5. Contener toda la información posible para responder a la pregunta.
6. Presentarse en forma positiva.
7. Presentar una pregunta de alternativas múltiples y no de cierto o
falso.
8. Indicar la existencia de otras respuestas correctas que no se incluyen
entre las alternativas cuando este sea el caso. En tal situación debe
iniciar con frases como: De las siguientes...
9. Requerir un conocimiento, no la opinión del examinado.
Reglas para la Formulación de la Respuesta Correcta1. Debe haber una sola respuesta correcta.
2. Si hay más de una respuesta correcta. LA MEJOR respuesta debe
establecerse a base de criterios aceptados.
3. La respuesta correcta debe tener aproximadamente la misma
extensión que las alternativas incorrectas.
Reglas para la Formulación de las AlternativasLas alternativas deben:
1. guardar estrecha relación con la premisa.
2. tener la misma estructura gramatical.
66
3. excluirse mutuamente.
4. ser homogéneas en contenido.
5. presentarse en la forma más simple posible.
6. tener el mismo atractivo.
A continuación presentamos algunos ejemplos de preguntas de alternativas múltiples:
1. El proceso que según Joseph Juran establece los objetivos dirigidos a la calidad y el desarrollo de formas para realizar los mismos se conoce con el nombre de
a) control de la calidad.b) evaluación de la calidad.c) planificación de calidad.
2) Según establece la teoría de calidad de Juran un compañero de trabajo debe ser considerado como un cliente
a) interno.b) externo.c) periférico.d) importante.
3) El propósito fundamental de la reingeniería de negocios es la revisión y el rediseño radical de procesos para alcanzar mejoras espectaculares en medidas tales como
a) costos, beneficios, servicio y rapidez.b) calidad, costos, planificación y rapidez. c) costos, calidad, servicio y rapidez.d) productividad, calidad, costos y rapidez.
Ejercicio de PareoEl ejercicio de pareo constituye una variación de las preguntas de
alternativas múltiples. El mismo provee varias premisas y respuesta
67
simultáneamente.
Reglas para la Construcción de un Ejercicio de Pareo1. El ejercicio de pareo consta de dos columnas. La columna de la
izquierda contiene los estímulos o las premisas mientras que la
columna de la derecha contiene las respuestas.
2. Ambas columnas deben aparecer en la misma página ya que de
otra manera el ejercicio se torna confuso
3. Se debe medir conocimiento homogéneo. El contenido de cada
una de las columnas debe girar en torno a un solo tema.
4. El número de respuestas debe ser mayor que el número de
estímulos. Esto permite reducir la probabilidad de adivinar las
respuestas. Las respuestas deben exceder por dos o tres
respuestas el número de preguntas.
5. El ejercicio de pareo no debe ser muy extenso. Es
recomendable usar un máximo de 8 a10 preguntas.
6. La lista de respuestas debe presentarse en un orden lógico (Ej.
Alfabético o cronológico). Esto contribuye a facilitar la selección
de las respuestas.
7. Deben de existir unas instrucciones que indiquen la base a parear.
A continuación se presenta un ejemplo de un ejercicio de pareo
Paree el concepto (columna derecha) con su respectiva descripción (columna izquierda):
68
1. Juicio subjetivo sobre la calidad a. selección del desempeño de una persona b.
diagnóstico 2. Comparación del desempeño de un c. rapidez
individuo en varias áreas para d. perfección determinar fortalezas y debilidades e. medición 3. Asignar valores numéricos a desempeño f.
instrumental de una persona g.
clasificación 4. Identificar personas con mayores h.
evaluación probabilidades de éxito 5. Enfoque que prefiere las pruebas de ensayo y que analiza el proceso
Ejercicio de Práctica
A continuación se presentará un ejercicio de pareo. Su tarea consiste
en señalar los errores que encuentre en el mismo y recomendar la forma en
que se puede mejorar el mismo.
Pareo:1.Anne Anastasi a.gran exponente en
2.Max Weber Psicometría
3.John Locke b.Falsas crónicas del Sur4.Ana L. Vega c.burocracia
d.tabula rasa
Ejercicio de Respuesta BreveSe le pide a la persona que elabore la respuesta. El mismo consta de
una premisa incompleta que la persona completa con una palabra, frase,
oración, símbolo o un numeral. Este tipo de premisa se utiliza para medir
objetivos que implican memorización de datos, aplicación de principios y la
69
solución de problemas. Tienden a ser fáciles de construir y reducen a un
mínimo la posibilidad de adivinanza.
Reglas para la Construcción de Preguntas de Respuesta Breve1. Debe haber una sola respuesta.
2. El contexto en forma de pregunta tiende a ser más directo y
claro que el de la declaración incompleta.
3. Si se redacta una declaración incompleta se debe incluir el
espacio en blanco
A continuación se ofrecen ejemplos de preguntas de respuesta breve:
1. Según Cirino (1989), el tipo de pregunta que requiere que la persona exprese su juicio en torno a un enunciado en términos de su veracidad o falsedad se conoce como_________.
2. La memorización de datos, símbolos, terminología y hechos puede medirse utilizando ejercicios de ___________.
3. ___________ es la capital de Puerto Rico.
La Pregunta de Discusión o Ensayo
Es un medio para lograr medir logros de aprendizaje importante que
no es factible por otros medios. Es útil para medir los niveles más altos de
la taxonomía de Bloom y colaboradores, como lo son la síntesis y la
evaluación. Este tipo de pregunta promueve la producción y organización
de ideas y, además, le provee la libertad a la persona de elaborar su
respuesta. Presenta la desventaja de que es poco representativa del
aprovechamiento total que se quiere medir. La prueba tipo ensayo tiende a
favorecer a aquellas personas que tienen gran habilidad para escribir. La
70
corrección de este tipo de prueba involucra gran subjetividad, por lo que sus
resultados tienden a ser poco confiables. Este aspecto se puede minimizar
cuando se le asigna puntos a los temas y subtemas o pasos que debe
contener cada pregunta.
Reglas para la Construcción de Preguntas de Discusión 1. Cada pregunta debe presentar una tarea clara y definida.
2. Todas las personas deben contestar las mismas preguntas. No
se debe presentar varias preguntas para que los evaluados
escojan ya que se afecta la representatividad del material a
evaluar.
3. El evaluador debe proveer un límite de tiempo justo para que los
evaluados respondan a las preguntas.
4. En la corrección de las preguntas se deben corregir las
respuestas que dan los evaluados a una sola pregunta antes de
pasar a la próxima. Ello minimiza la subjetividad en la
corrección
A continuación se presentará un ejemplo de una pregunta de
discusión sobre el tema de construcción de preguntas:
Defina los tipos de preguntas existentes y las reglas de construcción para cada una de ellas. Además explique según discutido en el adiestramiento, qué tipo de preguntas se ajustan mejor a los adiestramientos en la industria y ¿Por qué?
a. Definición de cada tipo de pregunta (10 puntos)b. Reglas para la redacción de cada tipo de pregunta (20
puntos)
71
c. Preguntas que más se ajustan a la industria y razones para ello (20 puntos).
Listas de CotejoLa lista de cotejo es el tipo de prueba que permite la evaluación del
desempeño de una persona a la vez que éste realiza el trabajo para el cual
se le está evaluando. Es recomendable utilizar la misma cuando se quiere
medir el desempeño de una persona luego de concluido un adiestramiento
sobre la operación de cierto equipo o máquina. La lista de cotejo consta de
una serie de conductas que conllevan los pasos lógicos para la realización
de una tarea. Este es un tipo de prueba donde una persona va marcando si
la persona está realizando las conductas necesarias para culminar la tarea y
las realiza en un orden lógico. Las conductas que se realizan están
relacionadas a objetivos cognoscitivos del área de aplicación y el nivel
psicomotor.
Reglas para la Redacción de Listas de Cotejo1. Defina concretamente las conductas que incluirá la lista de
cotejo. Las mismas deben ser específicas. Las conductas
pueden ser obtenidas de análisis de puestos, procedimientos de
operación estándar, observación directa y otros.
2. Presente la misma en el orden lógico que requiere la realización
de la tarea.
3. Coloque un espacio que sirva para realizar una marca al lado de
cada conducta.
72
4. La lista de conductas no debe ser extensa. Alrededor de 10 a 15
premisas son deseables
5. Se evita utilizar lenguaje complejo y rebuscado ya que lo que se
busca medir son conductas específicas relacionadas al
desempeño.
73
A continuación se presenta un ejemplo de una lista de cotejo para la misma redacción de una lista de cotejo:
Favor de colocar una marca () al lado de cada una de las conductas según el evaluado las vaya realizando. Cada conducta tiene un valor de 5 puntos. Luego de terminar la evaluación, sume las conductas que el evaluado realizó y divídalas por el total de conductas. Esta será la puntuación total. La puntuación mínima para aprobar este examen es 70 por ciento.
_____1. Diseña los objetivos educativos_____2. Redacta la tabla de especificaciones_____3. Evalúa el análisis de puestos_____4. Observa directamente el desempeño deseado_____5. Redacta las premisas en forma de conducta_____6. Las premisas están organizadas lógicamente_____7. Coloca el espacio para marcar al lado de las premisas_____8. Redacta alrededor de 10 a 15 premisas_____9. Evita usar lenguaje complejo____10. Le otorga una puntuación a cada premisa
____Total ____Aprobado
Capítulo 8: Desarrollo de Escalas de Actitudes
Las escalas de actitudes son herramientas que teóricamente
pretenden medir las inferencias establecidas por la taxonomía del dominio
afectivo. Las actitudes según Sachs (1993) se definen como las
predisposiciones a reaccionar negativa o positivamente en cierto grado
frente a un objeto, instituciones o clase de individuos. Dichas
predisposiciones pueden medirse de dos formas:
Observación de las actitudes manifiestas. Las manifestaciones actitudinales se observan a nivel del comportamiento. Un o una observadora adiestrada realiza observaciones de rigor y corrobora las mismas mediante entrevistas que validen la información.
74
Desarrollar inventarios o escalas. Las mismas son instrumentos de papel y lápiz donde las personas señalan su grado de acuerdo o desacuerdo con las aseveraciones que pretenden medir la actitud en cuestión.
Las escalas de actitudes revelan la posición de los individuos en un
continuo de aprobación y desaprobación de las instituciones o eventos
sociales, las actividades de los grupos y los principios que pueden afectar el
bienestar de los demás Sachs, 1983). Esencialmente, las escalas de
actitudes pretenden medir las opiniones que expresan las personas ante
ciertos elementos de carácter social. Por ejemplo, a los trabajadores y
trabajadoras de una organización de productos o servicios se les pide que
señalen su nivel de acuerdo o desacuerdo con las nuevas políticas que se
están implantando en la empresa. Una vez estas personas terminan de
contestar el instrumento, se suman las puntuaciones marcadas en cada
contestación y el resultado se considera como la magnitud de l actitud
latente de estas personas (Spector, 1992). Spector señala que las escalas
no solamente pueden medir actitudes, sino también a aspectos de la
personalidad.
Pasos generales para desarrollar escalas de actitud
1. Defina la actitud claramente usan cualquiera de esta alternativas
Use una teoría como marco de referencia
Use constructos o dominios previamente establecidos
Use su propia conceptuación teórica
75
Use datos empíricos obtenidos de entrevista focalizadas en temas,
análisis de contenido de textos, observación participante o
cualquier otra técnica cualitativa que estime conveniente
2. Seleccione la escala de respuesta. Puede usar escalas que fluctúen desde
4,5, 7 o 10 gradaciones. (Ejemplo: 1) totalmente en desacuerdo, 2) en
desacuerdo, 3) de acuerdo y 4) totalmente de acuerdo.
3. Desarrolle las aseveraciones usando los siguientes criterios
Cada aseveración debe expresar una idea
Redacte aseveraciones positivas y negativas. Permite que cuando
las personas contesten la escala no tiendan a contestar en la
misma dirección de la escala. Esta situación sucede cuando todos
los reactivos están fraseados de manera positiva. Puede incluir los
ítemes impares como negativos y los pares como positivos
Evite usar jergas o lenguaje que sea complicado de entender
Considere el nivel de lectura de las personas que van a contestar el
instrumento
Evite usar la palabra no cuando redacte las aseveraciones
Ejemplo:
Aseveración mal redactada Aseveración bien redactada
No me gustan los lugares fríos Me desagradan los lugares fríos
76
Prepare las instrucciones para contestar la escala- Sea claro/a y
preciso/a en la información que usted desea que la persona que va
a contestar separa para contestar el instrumento
4. Realice un estudio piloto con 100 personas (Kline, 1986, 1991)
Haga un estudio de validez de contenido con 10 a 12 expertos
Aplique los reactivos a las 100 personas y haga un análisis de
reactivos para calcular los índices de discriminación. Retenga
aquellos reactivos cuyos índices fluctúen entre .30 y .80 (Klein,
2000)
Estime la confiabilidad de consistencia interna. Aplique la técnica
alfa de Cronbach. Autores como Kline (1991) y Spector (1992)
señalan que esta técnica es la más precisa ya que toma en
consideración a todo el instrumento, contrario a la técnica de
división en mitades que a pesar de corregir el efecto de la
correlación con la técnica de Spearman-Brown, no toma en
consideración la variación total de la escala. Los indicadores de
confiabilidad deben fluctuar entre .70 y 1.00.
Calcule el error estándar de la medida
Elimine los reactivos que no cumplan con los criterios expertos ni
con los de los análisis de reactivos
Vele por que la confiabilidad cumpla con los criterios
77
5. Administre los reactivos que sobrevivieron en el estudio piloto a una
muestra de 200 personas y añada una escala de deseabilidad social
Correlacione los reactivos de la escala con los de deseabilidad
social y elimine aquellos con correlaciones moderadas o altas
Realice un análisis de factores con los reactivos que no reflejan
deseabilidad social
Evalúe los factores obtenidos, el valor eigen y el porcentaje de
variación explicada
Retenga aquellos reactivos cuyos factores de carga inicial fluctúen
entre .30 y .80 (Pedhazur y Pedhazur Schmelkin, 1991)
6. Repita el análisis de reactivos y de confiabilidad y evalúe los reactivos a
la luz de los criterios utilizados anteriormente.
7. Elimine los reactivos que sean necesarios
8. Use los reactivos que sobrevivieron para constituir la forma final del
instrumento
9. Administre la forma final a un grupo representativo de la población y
establezca las normas de la escala. El tamaño de la muestra dependerá
del tamaño de la población
Tipos de escalas de actitudes
Escala ThurstoneSe desarrolla seleccionando una serie de opiniones que constituirán el
78
universo de la actitud a medir. El mismo va a ser definido de la misma
forma que se define operacionalmente un constructo. Se va a desarrollar
una lista inmensa de aseveraciones que contengan gradaciones desde
altamente favorable hasta altamente desfavorable. Se van a reclutar
alrededor de 100 jueces para que los mismos, usando una escala del 1 al
11. Los reactivos seleccionados tienen que tener la aprobación de la
mayoría de los jueces y la escala final debe contener reactivos que cubran
el recorrido de actitudes que fluctúe en la escala del 1 al 11. Los jueces
serán personas que conocen el objeto de estudio a medirse. Si la escala es
para medir la opinión que se tiene sobre las uniones, los jueces tienen que
tener relación directa con las uniones, sino de lo contrario el proceso sería
un fracaso metodológico. Cirino (en Rodríguez Irlanda, 1991) indica que el
problema mayor que confronta el desarrollo de la escala tipo Thurstone es
el trabajo que conlleva el diseño de la misma.
Ejemplo:
Las mujeres deben cobrar igual que los hombresFavorable_____________ Desfavorable
Escala GuttmanSegún el mismo Guttman una escala de actitudes debe reproducir
cada una de las contestaciones de cada una de las personas que respondan
a ésta. Esta reconstrucción se hace con los valores totales obtenidos. Esto
implica que una escala debe tener reactivos que fluctúan desde una actitud
favorable hasta una desfavorable. Si una persona responde favorablemente
79
a un reactivo es porque los reactivos anteriormente contestados deben
haberse contestado también de manera favorable. Guttman expresa que si
esto no sucede la escala estaría midiendo más de un factor. Cirino (en
Rodríguez Irlanda, 1991) señala que en la práctica esto ocurre en muy rara
ocasión ya que los grados de contestación de una persona varíe
independientemente del orden de los reactivos. Este dato llevó a que
Guttman creará lo que denomina un índice de reproducibilidad. El mismo
especifica que una escala de actitud unidimensional es aquella donde el
90% de los y las respondientes son consistentes en la contestación
favorable o desfavorable de la escala
Ejemplo de escala Guttman:
Las uniones obreras son el mejor instrumento de justicia social.Favorable________ Desfavorable_______
Las uniones obreras han contribuido al desarrollo económico de los Estados Unidos.
Favorable________ Desfavorable_______
Escala LikertLikert diseñó esta escala para reducir el trabajo que se requería al
desarrollar una escala Thurstone. En este tipo de escala no se le asignan
valore a las opiniones, sino que cada sujeto indica el grado de acuerdo o
desacuerdo con las opiniones. Esta escala resulta más fácil de construir que
la Thurstone y existen estudios que arrojan altas correlaciones entre ambas
escalas (Cirino en Rodríguez Irlanda, 1991). Las actitudes se pueden medir
usando gradaciones de 4,5 o 7 puntos. Andújar Rojas y Martínez Lugo
80
(1996) encontraron que al usar la Teoría de la Respuesta al Ítem, la
categoría de intermedio o neutral no pareció ser una gradación efectiva en
la Escala que mide el Nivel en que los empleados se Involucran en el
Trabajo.
81
Ejemplo de una escala Likert:
Vivo, como y respiro trabajo
1. totalmente en desacuerdo2. en desacuerdo3. neutral4. de acuerdo5. totalmente de acuerdo
Prueba de equívocosLas pruebas de equívocos se utilizan cuando se sospecha que en la
población que se quiere medir una actitud, las personas pueden falsear los
resultados de la misma. Se trata de evitar la deseabilidad social ya que se
diseñan unos reactivos de alternativa múltiple, pero no existe una
contestación correcta. Los reactivos buscan medir la actitud de los y las
respondientes.
Ejemplo:
La falta de motivación en el trabajo le presenta en pérdidas a las empresas puertorriqueñas la cantidad de
a. un millón de dólares.b. cinco millones de dólares.c. diez millones de dólares.d. cien millones de dólares.
Se supone que una persona que esté en desacuerdo con que la
motivación afecta a las empresas contestará la alternativa a, mientras si
esté de acuerdo la tendencia será a marcar la alternativa d. Este tipo de
prueba se desarrolla cuando no se puede establecer la confidencialidad y el
anonimato en la evaluación de la muestra.
82
Diferencial Semántico
Este tipo de escala busca medir el significado que tienen las palabras
o los conceptos. La misma fue desarrollada por Osgood, Suci y
Tannenbaum. La escala de diferencial semántico es una escala bipolar que
provee una serie de posiciones intermedias para que se juzguen los
conceptos que se desean medir. Las posiciones pueden fluctuar desde cero
hasta 9. Se ha encontrado que la gradación más efectiva es la de siete.
Ejemplo de una escala de diferencial semántico:
Ser sumamente rico
Bueno________________________MaloBueno___ ___ ___ ___ ___ ___ ___Malo
83
Capítulo 9: Análisis de Reactivos
El análisis de reactivos es una herramienta estadística útil para
determinar si los reactivos discriminan en términos de las personas que
dominan o no unas áreas de conocimiento. Este el caso especifico de las
pruebas de conocimiento, aptitud, aprovechamiento, habilidad. En el caso
de las escalas de actitud, lo que se busca es evaluar si las preguntas
discriminan de las personas que tienen o no una actitud en particular.
El análisis de reactivos también nos provee información sobre
dificultad de las preguntas. Este es el caso de las pruebas que presumen
respuestas correctas e incorrectas. El análisis también nos provee
información sobre el comportamiento de las alternativas.
Análisis de reactivos cuantitativo
En el pasado este análisis se calculaba por medio de una calculadora
de bolsillo. Hoy día existen programas computadorizados de análisis de
reactivos que son efectivos y de bajo costo. Los mismos presentan los datos
de forma precisa ya que minimizan el nivel de error producido por un mal
cálculo. Además, que realiza análisis que pueden tomar horas calculándose
manualmente, en solo segundos. Uno de los de los más conocidos es
ITEMAN. A continuación presentaremos un ejemplo de la información que
este programa nos provee sobre una pregunta en particular.
84
ITEM PROP.CORRECT
BISER. ALT PROP.ENDORSING
BISER. KEY
1 .28 .47 1 .30 -.072 .13 -.173 .09 -.284 .12 -.125 .29 .47 *
OTHER .06 -.22
De izquierda a derecha debajo de la palabra ITEM nos muestra el
número de la pregunta que se está evaluando. En este caso es la pregunta
número uno. Seguido se encuentra el índice de dificultad. El mismo nos
señala la proporción de personas que obtiene la pregunta correcta. Las
preguntas que contienen índices de dificultad entre 0 y .15 se consideran
demasiado difíciles. Las que fluctúan entre .16 y .30 tienden a ser difíciles,
las de .31 a .70 se consideran de dificultad promedio, las de .71 a .85
resultan ser fáciles y de .86 a 1.00 se consideran demasiado fáciles. En el
caso del ejemplo, podemos señalar que la pregunta aparenta ser difícil
(.28). Al lado derecho del índice de dificultad se encuentra el índice de
discriminación. El mismo nos muestra cuanto discrimina la pregunta de los
que conocen el material contenido en la pregunta de lo que no lo conocen.
Este índice es de carácter correlacional, asocia cada pregunta con las
puntuaciones totales que obtuvieron las personas que sacaron mejores
puntuaciones y los de menor puntuación. Los índices de discriminación
deben fluctuar entre .20 y .80. Preguntas cuyos índices estén fuera de
este recorrido deben ser eliminados de la prueba. En el caso del ejemplo
antes presentado, la pregunta 1 discrimina ya que se encuentra dentro del
85
recorrido señalado (.47). Al lado derecho de este índice se encuentra las
letras de las alternativas y al lado de éstas, se pueden observar el por
ciento de personas que contestó cada alternativa. Por ejemplo, la
alternativa A fue contestada por el 30 por ciento de las personas. Podemos
observar que seguido al por ciento de respuesta se encuentra el índice de
discriminación por alternativa. Este utiliza los mismos parámetros de
comparación que el índice de discriminación de la pregunta. Por ejemplo, la
alternativa E es la que mejor discrimina (.47) de todas, además de que
resulta ser la alternativa correcta. Por último, la columna que se encuentra
a la derecha de los índices de discriminación de las alternativas contiene un
asterisco que identifica la contestación correcta.
Análisis de Reactivos CualitativoEn muchas ocasiones queremos realizar análisis de reactivos y no
tenemos la disponibilidad de condiciones óptimas para ello. Carecemos de
muchas personas para evaluar las preguntas estadísticamente, no tenemos
los programas para realizar los mismos y nos falta tiempo para realizar un
buen análisis. Sucede que tenemos que recurrir a alternativas cualitativas
para encontrar los índices de dificultad y discriminación. Una manera de
evaluar el primero es mediante la formulación de preguntas sobre cuán
difícil o fácil estuvo la pregunta y por qué. Esto nos permite evaluar el
fraseo de la premisa, la manera en que se redactaron las alternativas y la
calidad de la respuesta correcta. Toda esta información debe ser anotada
86
por el adiestrador y tomada en cuenta en el momento de mejorar o eliminar
las preguntas.
Los índices de discriminación se pueden evaluar cuando usted les pide
a los participantes que levanten la mano los que obtuvieron la pregunta
correctamente. Cuente el número de personas que acertaron
correctamente. Si el 50 por ciento la contestó correctamente, la pregunta
discrimina adecuadamente. La pregunta que fue contestada por el 80 por
ciento de las personas tiende a ser fácil y las que fueron contestadas por el
20 por ciento aparenta ser difícil. Lo importante es que el por ciento de
contestación correcta se encuentre entre el 20 y 80 por ciento. De otra
manera la pregunta no discriminaría adecuadamente.
Ejercicio de Práctica
A continuación encontrará una impresión de computadora de un análisis de
reactivos. Utilizando los criterios antes mencionados, señale las
características del mismo en términos de la dificultad, discriminación y
comportamiento de las alternativas
ITEM PROP.CORRECT
BISER. ALT PROP.ENDORSING
BISER. KEY
1 .75 .60 1 .10 .062 .10 .183 .70 .56 *4 .12 .115 .08 .30
OTHER .00 .00
87
Capítulo 10: ConfiabilidadUna de las características de que debe tener una prueba es la
confiabilidad. Esto significa que los resultados de la misma deben ser
consistentes cada vez que se administre la misma. Esto implica que las
puntuaciones obtenidas en la prueba deben estar libres de errores. Una
prueba que sea tomada por un grupo de personas en dos ocasiones y que
sus resultados varíen significativamente no es una prueba confiable. Por
otro lado una prueba cuyo contenido sea altamente heterogéneo tampoco
será confiable. Los índices de confiabilidad fluctúan entre 0 y 1.00. Mientras
más se acercan a 1.00 mayor es la confiabilidad de una prueba y mientras
más se acerque a 0 menor será la misma. La comunidad científica acepta
que la confiabilidad mínima de una prueba debe ser .70. Índices menores
que .70 no son evidencia de una buena confiabilidad. Existen varias formas
de obtener la confiabilidad de una prueba. A continuación se presentarán
las formas más comunes de obtener la confiabilidad de una prueba o escala.
Confiabilidad de Consistencia InternaLa confiabilidad de consistencia interna se logra mediante el análisis
estadístico de la correlación. El mismo permite establecer la correlación
entre cada una de las preguntas con el total de la prueba. También esto se
logra mediante la correlación de la mitad de las preguntas con la otra mitad.
Por lo general existen dos índices de consistencia interna que son los de
mayor uso en la psicometría: alfa de Cronbach y División en mitades usando
88
la fórmula de Spearman-Brown. El primero se realiza calculando las
correlaciones entre cada una de las preguntas y el total de la prueba. Se
obtiene una proporción que es corregida por la fórmula alfa de Cronbach y
se obtiene el índice. La segunda se obtiene dividiendo la prueba en dos
mitades. Pueden dividirse usando las preguntas pares y nones o
dividiendo la prueba en dos mitades solamente. Estas preguntas pasan a
ser correlacionadas y corregidas por la fórmula Spearman-Brown. Este tipo
de confiabilidad se obtiene cuando administramos la prueba en una sola
ocasión. Cuando la prueba es una de dificultad progresiva se usa la técnica
de pares y nones para evitar que la dificultad de las preguntas afecte el
nivel de confiabilidad.
Confiabilidad TemporalEsta técnica busca establecer una correlación entre el instrumento o
una versión del mismo administrado en dos ocasiones luego de haber
esperado determinado periodo de tiempo. El tiempo varía en función del
tipo de instrumento que se vaya a administrar y de la cantidad de personas
con que se cuenta para realizar el estudio. El problema principal radica en
que un número considerable de los evaluados se ausenten en la segunda
administración del instrumento. Algunos expertos recomiendan que fluctúe
entre dos semanas a seis meses. Las dos técnicas que se usan para estimar
la confiabilidad a través del tiempo son la de prueba-reprueba y la de
formas equivalentes.
89
Prueba RepruebaLa misma se obtiene cuando se le administra la misma prueba a un
mismo grupo en dos ocasiones. Se administra en una primera ocasión, se
deja pasar un tiempo suficiente para que las personas olviden el contenido
de la misma y se pasa a administrarla en una segunda ocasión. Luego se
correlacionan los resultados de ambas pruebas.
Confiabilidad a Través de Formas EquivalentesLa misma se obtiene cuando se le administra una prueba a un mismo
grupo en dos ocasiones. Se administra en una primera ocasión, se deja
pasar un tiempo suficiente para que las personas olviden el contenido de la
misma y se pasa a administrar una versión que mide lo mismo que la
primera en una segunda ocasión. Luego se correlacionan los resultados de
ambas versiones de las pruebas.
Confiabilidad del ExaminadorEsta es una técnica cualitativa que también nos permite obtener la
confiabilidad de las pruebas o escalas. Para establecer la misma se necesita
que un mínimo de dos examinadores o adiestradores contesten la prueba y
luego se comparen las puntuaciones en la prueba. De no existir similitud en
las puntuaciones, la prueba no resultarán ser confiables. Esto se puede
hacer cualitativamente mediante la comparación de las puntuaciones de los
examinadores. Si la misma discrepa significativamente (por ejemplo: uno
sacó 100 y el otro 75) existe un bajo grado de confiabilidad. Por otro lado,
este procedimiento se puede hacer de manera estadística. En primer lugar
90
se le administra la prueba a un número considerable de examinadores (30 o
más examinadores). En segundo lugar se calcula una distribución de
frecuencias de las puntuaciones obtenidas y se estima el promedio, la
mediana, la variación y la desviación típica. Se supone que haya un sesgo
positivo en la distribución. Es decir, las puntuaciones deben ser altas y
deben distribuirse hacia el lado derecho de la distribución.
91
Capítulo 11: ValidezLa validez es la característica más importante que tienen las pruebas,
inventarios y escalas. El término validez se refiere a que la prueba debe
medir lo que se supone que mida. Si una prueba no es válida en términos
de las inferencias que se hacen partiendo de las puntuaciones de la prueba,
la misma no posee valor alguno. A continuación se presentarán los distintos
tipos de obtener la validez de las pruebas.
Validez AparenteEste es un tipo de validez cualitativa que establece que la apariencia
de las preguntas de la prueba debe ser compatible con el propósito de la
misma. Por ejemplo, una persona está solicitando para el puesto de
secretaria y le presentan una prueba que muestra ejemplos de casos en el
área ingeniería. Este factor afecta la motivación de las personas que
contestan la prueba y, por consiguiente, el comportamiento de la prueba.
Validez de Contenido
La misma se refiere a que las preguntas deben concordar con los
objetivos educativos de la prueba. La tabla de especificaciones es una
manera de evidenciar la validez de contenido de la prueba. Por otro lado
cuando tenemos una escala de actitud o un inventario, es necesario
evidenciar la validez de contenido mediante la consulta a un grupo de
expertos. Esto se conoce como la validez de contenido evaluada a través de
92
expertos o jueces. La metodología de mayor uso se conoce como la Técnica
de Lawshe. En este caso, se le pide a un grupo de expertos (este no debe
ser menor de 5 expertos) que realicen un análisis del contenido de cada
pregunta y señalen si cada uno es o no esencial para medir las dimensiones
que se desean medir. Basado en el nivel de esencialidad de las preguntas,
se va a pasar a calcular la razón de validez de contenido (RVC) para cada
pregunta. Esto se logra mediante el uso de la siguiente formula:
RVC= Nje - Nne Ntj
Donde: Ntj es el número total de jueces, Nje es el número de jueces
que marco la pregunta como esencial y Nne fue el número de jueces que
dijo que el reactivo no era esencial para medir la dimensión. Por ejemplo,
una pregunta que haya sido evaluada por 12 jueces de los cuales 10
señalaron que la misma era esencial y 2 dijeron que no lo era. Al convertir:
RVC = 10 - 2 = 8 12 12
RVC = .67
La razón de validez de contenido para esa pregunta es .67. Es
necesario recurrir a la tabla de Schipper para determinar cual es el RVC
mínimo permitido basado en la cantidad de jueces disponibles. A
continuación se presenta la Tabla 3 que contiene los RVC mínimos basado
en la cantidad de jueces disponibles:
93
Tabla 3: Tabla de Schipper Para Valores Mínimos de RVC Número de jueces Valor mínimo
5 .996 .997 .998 .759 .78
10 .62 11 .59 12 .56 13 .54 14 .51 15 .49 20 .42 25 .37 30 .33 35 .31 40 .29
En nuestro ejemplo, tenemos 12 jueces y la tabla nos señala que el
RVC mínimo es .56. Preguntas con RVC menores de .56 deben ser
eliminadas, cuando 12 jueces evalúan las preguntas. En el ejemplo anterior
el RVC que calculamos fue .67, por consiguiente, esta pregunta debe ser
retenida ya que cumple con el RVC mínimo (.59).
Luego de haber calculado todos los RVC de una prueba se pasa a
calcular el Índice de Validez de Contenido (IVC). Este se calcula utilizando la
siguiente fórmula:
IVC = RVC # total de preguntas
Donde: RVC es la suma de todos los RVC dividida entre el número
total de preguntas. Por ejemplo: cuatro reactivos con RVC de .59, .70, .85
94
y .94 son sumados y obtenemos la cantidad de 3.08 la dividimos por 4 que
es la cantidad total de preguntas y obtenemos un IVC de .77. Esto nos dice
que la prueba de 4 preguntas tiene validez de contenido. Pruebas con IVC
de menos de .70 carecen de validez de contenido.
Ejercicio de Práctica
A continuación se presentan los resultados de la evaluación de 10 jueces en 10 preguntas de una prueba de conocimiento. Favor de calcular los RVC y el IVC para la prueba:
Pregunta Esencial No Esencial
1. 9 1
2. 8 2
3. 10 0
4. 7 3
5. 5 5
6. 9 1
7. 8 2
8. 6 4
9. 4 6
10. 10 0
95
Cálculos
96
Validez de ConstructoLa validez de constructo se refiere a que para la prueba ser válida o
medir lo que pretende medir, debe estar relacionado altamente con una
medida igual o desigual según sea el caso. Existen dos tipos de validez de
constructo: convergente y divergente. La validez convergente se refiere
a la correlación entre dos pruebas que midan lo mismo. Se administra a un
grupo de personas la prueba que se quiere validar, se deja pasar un tiempo
y se le administra otra prueba que sea válida y que mida lo mismo que la
primera. Se correlacionan ambas pruebas y si la misma resulta ser alta
(.60-1.00) se puede concluir que existe validez de constructo.
La validez divergente se refiere a la correlación entre dos pruebas
que no miden lo mismo. Se administra a un grupo de personas la prueba
que se quiere validar, se deja pasar un tiempo y se le administra otra
prueba que sea válida, pero que no mida lo mismo que la primera. Se
correlacionan ambas pruebas y si la misma resulta ser alta y negativa (.60-
1.00) o se acerca bastante a cero, se puede concluir que existe validez de
constructo divergente ya que las pruebas no miden lo mismo.
Validez de CriterioLa validez de criterio presupone que una prueba mide lo que pretende
medir en función a la existencia de un criterio o factor. El criterio es una
medida externa que existe con anterioridad y que se acepta por los
expertos como índice adecuado del contenido que la prueba pretende
97
medir. Existen dos tipos de validez de criterio: validez predictiva y
concurrente. La validez predictiva nos contesta la pregunta ¿Será José
exitoso? En este tipo de validez, se le administra la prueba a un grupo de
personas y luego se deja pasar una cantidad considerable de tiempo (seis
meses a un año) y se recoge la medida del criterio. Por ejemplo, usted
evalúa con una prueba de inteligencia a un grupo de personas que entraron
a su compañía en este año. Espero seis meses y evaluó el desempeño de
todos. Correlacionó las puntuaciones de las pruebas con las de la
evaluación. De encontrar una correlación al alta (.80 y 1.00) entre la prueba
y la evaluación se puede concluir que la primera predice desempeño. El
único problema con este tipo de validez es que requiere de la evaluación de
muchas personas (alrededor de 300 personas). Muchas veces este factor
inhibe su utilización en las industrias.
El segundo tipo de validez es la concurrente. La misma contesta la
pregunta ¿José es exitoso? En la validez concurrente se administra la prueba
y el criterio de forma simultanea. Por ejemplo: usted quiere determinar la
importancia de la inteligencia en el proceso de adiestramiento. Lo primero
que se puede hacer es administrarle una prueba de inteligencia a un grupo
que va a tomar un adiestramiento donde se requiere altos niveles de
inteligencia. Al final de este adiestramiento usted les administra a los
participantes un examen sobre el contenido del mismo. Luego va a
correlacionar las puntuaciones entre la prueba de inteligencia y la prueba
98
del adiestramiento. Cuando se encuentra una correlación al alta (.80 y
1.00) entre la prueba y la prueba de adiestramiento se puede concluir que
la primera predice el éxito inmediato tienen las personas basado en sus
niveles de inteligencia.
99
Referencias
Anastasi. A. & Urbina S. (1997). Psychological Testing, (7ma. Ed.). New Jersey: Prentice-Hall
Andújar, C. A. & Martínez-Lugo ME. (1996). Análisis científico de la Escala que Mide el Nivel en que los Empleados se Involucran en el Trabajo de Lodahl y Kejner utilizando las Teorías de Respuesta al Ítem y la de Generalización. Revista Latinoamericana de Psicología., 16, 1-17.
Cirino, G. (1984). Introducción al desarrollo de pruebas escritas. Río Piedras: Editorial Bohío.
Cohen, R.J. & Swerdlik, M.E. (2001). Pruebas y evaluación psicológica: Introducción a las pruebas y a la medición, 4ta. Ed. Méjico: McGraw-Hill.
Collazo, A. A. (1974). Nociones básicas en la elaboración de pruebas. Río Piedras: Universidad de Puerto Rico.
Crocker, L. & Algina, J. (1986). Introduction to Classical & Modern Test Theory. Forth Worth. Harcourt Brace Jovanovich.
DeVellis, R. F. (1991). Scale Development: Theory, and Applications. London: Sage.
Díaz de Grana, L. (1988). Los objetivos educacionales: Criterios claves para la evaluación del aprendizaje. Río Piedras: Editorial de la Universidad de Puerto Rico.
Edenborough, R. (1999). Using Psychometrics: A Practical Guide to Testing and Assessment, (2da. Ed.), Londres: Kogan Page.
Gronlund, N.E. (1994). Elaboración de tests de aprovechamiento. México: Trillas.
Kline, P. (1986). A Handbook of Test Construction: Introduction to Psychometric design. London: Methuen.
Kline, P. (1998). The New Psychometrics: Science, Psychology and Measurement. Londres: Routledge.
Kline, P. (2000). A Hanbook of Psychological Testing, (2da. Ed.).
100
London: Routledge.
Nunnally, J.C. & Berstein (1994). Psychometric Theory, (3ra. Ed.). New York: McGraw-Hill.
Mager, R.F. (1980). Objetivos para la enseñanza efectiva. Caracas: Editorial Salesiana.
Mehrens, W.A. & Lehmann, I.J. (1991). Measurement and Evaluation in Education and Psychology, (4ta. Ed.), Fort Worth: Harcourt Brace.
Pedhazur, E., Pedhazur Melkin, L. (1991). Measurement, Design, and Analysis. New Jersey: Lawrence Erlbaum.
Rodríguez Irlanda, D. (1991). Medición y evaluación. San Juan, Puerto Rico: Publicaciones Puertorriqueña.
Sachs, G. (1983). Medición y evaluación en educación y en “guidance”. Barcelona: Herder.
Spector, P.E. (1992). Summated Rating Scale Construction: An Introduction. Newbury: Sage.
Wade Savage, C, & Ehrlich, P. (1992). Philosophical and Foundational Issues In Measurement Theory. New Jersey: Lawrence Erlbaum.
Westgaard, O. (1999). Tests that Work: Designing & Delivering Fair & Practical Measurement Tools in the Workplace. San Francisco: Jossey-Bass, Pfeiffer.
Top Related