León Dario Bello Parias Estadístico Docente Facultad...

16
León Dario Bello Parias Estadístico Docente Facultad Nacional de Salud Pública Universidad de Antioquia [email protected] XI Jornadas de Epidemiología en Neiva Huila Colombia Marzo de 2004

Transcript of León Dario Bello Parias Estadístico Docente Facultad...

León Dario Bello Parias

Estadístico

Docente Facultad Nacional de Salud Pública

Universidad de Antioquia

[email protected]

XI Jornadas de Epidemiología en Neiva – Huila –

Colombia Marzo de 2004

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

SPSS Versión 11.0

(Statistical Package for the Social Sciences)

El SPSS es una marca registrada que tiene como software bandera el

programa estadístico que lleva su nombre, es de uso general e integra

procedimientos estadísticos y gráficos interactivos de alta resolución, de tal

manera que sirve de apoyo al análisis de datos, así como a la preparación de

los datos (transformaciones) . Su modulo gráfico en ésta versión es lo menos

potente, de ahí que en la nueva versión (12.0), se haya colocado el mayor

énfasis a mejorar dichos gráficos. Permite la construcción de tablas de

frecuencias univariadas y bivariadas, permitiendo agrupar los resultados por

segmentos o estratos. Calcula estadísticas descriptivas, presentando sus

resultados de tal manera que permite la comparabilidad. Tiene incorporados

los procedimientos más usuales y/o actuales de la estadística paramétrica

(intervalos de confianza y pruebas de hipótesis) y no paramétrica. Permite

comparar dos o más poblaciones según sea el caso. Además, de

procedimientos multivariados dependientes (regresión múltiple, análisis

discriminante, ANOVA) o de interdependencia (análisis de Factor, de

Conglomerados).

Pasos básicos. Los pasos a seguir en el análisis de datos utilizando el S.P.S.S son los

siguientes:

Entrada de datos: Puede abrir un archivo de datos previamente guardado,

leer una hoja de cálculo, un archivo de texto o una base de datos, o

introducir los datos directamente en el Editor de datos.

Explore los datos y realice las transformaciones necesarias para

lograr los objetivos propuestos.

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Seleccione un procedimiento en los menús para crear tablas, calcular

estadísticos o generar gráficos.

Seleccione las variables que desea utilizar en el análisis. Es vital tener

presente la escala de medición de las variables.

Ejecute el procedimiento y analice los resultados.

COMO INICIAR UNA SESION: La instalación coloca el icono del paquete en el sub menú programas del botón Inicio. Luego de entrar al programa, se maximiza la ventana, en la cual se editan (digitan) los datos. La presentación en pantalla, luego de activar el menú de Archivo es:

En dicho menú se activan las opciones correspondientes fundamentalmente

al manejo de archivos, es decir, se llaman nuevos archivos, se crean, se

guardan y se imprimen. El SPSS tiene una característica en cuanto a los

archivos que crea, y es la de guardar los resultados en archivos distintos a

los de resultados, así como otras posibilidades, tal como se aprecia en la

pantalla mostrada previamente.

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Los archivos de datos son grabados con extensión *.sav, sin embargo, los

resultados se graban con extensión *.spo, permitiendo grabar diferentes

resultados en diversos archivos. Además, permite grabar formatos de tablas,

programas de sintaxis etc. Con diferentes extensiones.

Creación o Modificación de la estructura de un archivo de datos: El

siguiente pantallazo muestra las opciones a definir cuando se crea un archivo

con formato .sav, o para modificar una estructura ya hecha.

Para activar el pantallazo anterior, es necesario darle clic en la pestaña

ubicada en la parte inferior de la ventana de edición de datos, para luego

digitar los nombres de las variables con sus respectivas características, así:

Ejemplo Nombre: Máximo 8 caracteres. clso Tipo: Tipo de dato. Cadena Anchura: Espacio disponible para entrar datos. 1 Decimales: Cantidad de decimales (datos numéricos) 0 Etiqueta: Describir la variable objeto de estudio, de tal manera que dicha

etiqueta salga en los cuadros de salida. Sexo del Paciente

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Valores: Cambia los datos de entrada por nuevos rótulos o códigos. Tal

como se aprecia en la pantalla – Etiquetas de Valor -

Perdidos: Se utiliza en caso de definir de antemano algunos códigos que

representaran valores no válidos para el análisis. 99

Columna: Permite observar un número determinado de columnas, por

defecto es de ocho. 8

Alineación: Poco usada, hace referencia a la presentación de la entrada de

valores. Derecha

Medida: Punto clave y fundamental para el posterior análisis de

resultados. Nominal

Luego de construir la estructura y de digitar o importar los datos, se procede

a realizar el control de calidad de los datos, situación independiente de la

parte propiamente estadística. Por lo tanto, se presentarán primero lo que he

llamado órdenes de manejo, para luego entrar con las órdenes de

procedimiento.

ORDENES DE MANEJO: Están concentradas básicamente en los menús de

Opción de Datos y en Transformar.

En Datos, se puede: Insertar variables y/o casos, ordenar variables

ascendente o descendentemente, unir archivos, tanto de manera horizontal

(variables) como vertical (casos), seleccionar de un número de registros,

algunos con características especiales o con fines de auditoria y muestreo.

Tiene además, la potente opción de segmentar archivos, con la cual se

optimiza de manera importante la forma de presentar información según

variables de identificación, como: Municipio, región, comuna, zona, tipo de

institución, sexo, escolaridad etc. Dado la importancia de ésta última opción,

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

se muestra a continuación.

La variable seleccionada es usualmente categórica y lo que se pretende es

que los resultados posteriores se entreguen según dicha variable, es decir,

para hombres y para mujeres de manera separada.

Transformar, es vital en el procesamiento de datos, ya que permite

transformar los datos realizando cálculos, cambiando escalas, aplicando

funciones. Incluso a las variables nominales se les puede recodificar. Las

posibilidades de Transformar se muestran en el siguiente pantallazo.

De las anteriores, las más utilizadas son: Calcular, opción que permite

transformar los datos en bruto y Recodificar, la cual permite cambiar no sólo

códigos, si no cambiar el nivel de la escala de medición de una cuantitativa a

una categórica. Las cajas de dialogo para dichas alternativas son:

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

En la caja de dialogo se plantea la necesidad de calcular la edad de los

pacientes en meses, por lo tanto se multiplica la variable original en años por

12, tal como lo muestra el pantallazo anterior.

En la de recodificación, se observa como se codifica la variable edad según

dos categorías, Adultos (48 a 50) y Adultos Mayores (más de 50). Esta caja

de dialogo es la utilizada cuando la recodificación es en otra variable.

ORDENES DE PROCEDIMIENTO: Se encuentran ubicadas en el menú,

ANALIZAR, cualquier orden que involucre un procedimiento estadístico, bien

sea paramétrico o no, multivariante o no, dependiente o no, clásico o no, se

encuentra ubicado en ésta opción del menú. Se mencionaran las dos

opciones más usuales, ellas son: La parte de estadística descriptiva y la de

comparación de medias. La primera entrada es la siguiente:

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Como se observa, esta opción permite realizar todos los procedimientos

estadísticos más usuales, bien sean univariados, bivariados y multivariados,

además, de paramétricos o no paramétricos, tanto para datos numéricos

como para datos categóricos.

En el Sub menú Estadísticos Descriptivos se realizan los procedimientos de:

Frecuencias, Medidas de Posición y de Variación, análisis exploratorio de

datos y cruces de variables. La entrada inicial es la siguiente:.

Las frecuencias simples (.Analizar + Estadísticos descriptivos +

Frecuencias), ayudan a determinar la existencia de errores de digitación y/o

de situaciones anormales o atípicas. La caja de dialogo y las opciones a

seleccionar son:

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Los resultados entregados sin ningún formato adicional son:

Estadísticos

70 70 70 70

0 0 0 0

1.50 1.91

1.50 2.00

1a 2

.504 .531

1.00 1.00

Válidos

Perdidos

N

Media

Mediana

Moda

Desv. típ.

5Percentiles

SEXO Clase Social

Talla en

metros

Categorías

Edad

Existen v arias modas. Se mostrará el menor de los valores.a.

Clase Social

13 18.6 18.6 18.6

50 71.4 71.4 90.0

7 10.0 10.0 100.0

70 100.0 100.0

1

2

3

Total

Válidos

Frecuencia Porcentaje

Porcentaje

válido

Porcentaje

acumulado

Se requiere de pulir las tablas, ya que en algunos casos no se requieren las

frecuencias acumuladas y en otros el porcentaje valido es igual a la columna

titulada porcentaje.

Nótese la diferencia en los

iconos que anteceden los

nombres de las variables.

Se seleccionan las

medidas requeridas, de

acuerdo a las necesidades

de información.

Es claro que estas medidas

no son adecuadas para las

variables sexo y clase social.

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Otra posibilidad que brinda el SPSS y que es fundamental en el análisis

previo de los datos, es el análisis exploratorio de datos (Analizar +

Estadísticos descriptivos + Explorar), cuya caja de dialogo es:

Lo que se pretende es identificar la existencia de valores atípicos y/o

extremos en las variables cuantitativas, según una(s) variables categóricas.

Entrega por defecto, las medidas descriptivas y los gráficos de tallo y hojas y

de caja y sesgo. Tal como se observa a continuación:

Descriptivos

144.86 3.600

137.54

152.17

144.68

140.00

453.655

21.299

110

185

75

40.00

.152 .398

-1.326 .778

135.37 2.801

129.68

141.06

134.02

130.00

274.534

16.569

115

180

65

18.00

1.219 .398

1.393 .778

Media

Límite inferior

Límite superior

Intervalo de confianza

para la media al 95%

Media recortada al 5%

Mediana

Varianza

Desv. típ.

Mínimo

Máximo

Rango

Amplitud intercuarti l

As imetría

Curtosis

Media

Límite inferior

Límite superior

Intervalo de confianza

para la media al 95%

Media recortada al 5%

Mediana

Varianza

Desv. típ.

Mínimo

Máximo

Rango

Amplitud intercuarti l

As imetría

Curtosis

SEXO

Hombre

Mujer

Tens ión arterial s istól ica

Estadístico Error típ.

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Tensión arterial sistólica Stem-and-Leaf Plot for

SEXO= 1

Frequency Stem & Leaf

2.00 11 . 05

7.00 12 . 0000055

6.00 13 . 000005

4.00 14 . 0005

3.00 15 . 000

5.00 16 . 00055

7.00 17 . 0000055

1.00 18 . 5

Stem width: 10

Each leaf: 1 case(s)

Tensión arterial sistólica Stem-and-Leaf Plot for

SEXO= 2

Frequency Stem & Leaf

3.00 11 . 555

10.00 12 . 0000055555

9.00 13 . 000005555

7.00 14 . 0000355

2.00 15 . 00

2.00 16 . 05

2.00 Extremes (>=180)

Stem width: 10

Each leaf: 1 case(s)

Los resultados se entregan teniendo en cuanta las categorías de la variable

cualitativa o factor. Es labor del investigador definir en que casos se deben

eliminar casos o estimarlos.

3535N =

SEXO

21

Tensió

n a

rterial sis

tólic

a

200

180

160

140

120

100

2214

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

El gráfico de caja y sesgo, así como el de tallo y hojas, muestra de manera

más diciente los valores considerados como anormales. De ahí la

importancia de realizar éste procedimiento antes de construir las tablas y

gráficos y calcular indicadores.

Tablas de Contingencia. (Analizar + Estadísticos descriptivos + Tablas de contingencia) El cruce de variables pretende identificar si existe relación entre dos o más

de ellas, además, de posibilitar el análisis de estas variables en una sola

tabla, en lugar de construir dos cuadros simples. Estas tablas aplican

fundamentalmente para variables categóricas o incluso cuantitativa discreta

si ésta no tiene muchas categorías de respuestas

Es útil recalcular manualmente los porcentajes marginales donde da 100%,

con el fin de determinar los porcentajes de las categorías pertenecientes a la

variable independiente. Lo usual es redactar los datos encontrados en las

márgenes del cuadro, para luego identificar posibles relaciones entre las

variables redactando las celdas interiores de la tabla. La tabla como la

entrega el programa se muestra a continuación.

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Compara Medias (Analizar + Estadísticos descriptivos + Compara medias).

El Sub menú Comparar Medias permite realizar procedimientos de Inferencia

Estadística, tales como diferencia de medias para datos paramétricos, tanto

para muestras relacionadas como no relacionadas, además, del

procedimiento ANOVA de una vía. Las opciones son las siguientes:

Tabla de contingencia Clase Social * SEXO

8 5 13

22.9% 14.3% 18.6%

24 26 50

68.6% 74.3% 71.4%

3 4 7

8.6% 11.4% 10.0%

35 35 70

100.0% 100.0% 100.0%

Recuento

% de SEXO

Recuento

% de SEXO

Recuento

% de SEXO

Recuento

% de SEXO

Alta

Media

Baja

Clase

Social

Total

Hombre Mujer

SEXO

Total

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Los resultados siguientes, muestran los resultados originados por la

comparación de medias para las variables cuantitativas, Trigliceridemia y

Colesterolemia Basal, según la variable cualitativa clase social. Es claro, que

el programa permite realizar las operaciones y cálculos que el usuario le

defina, la situación importante, es que se le den órdenes que relacionen

variables con significado según la teoría estudiada.

OPCION GRAFICA.

Hace referencia a los diferentes gráficos, tales como la nube de puntos,

utilizada fundamentalmente en regresión, gráficos de análisis exploratorio de

datos y los conocidos para los negocios, como: Barras, pastel, lineas etc. No

sobra, resaltar que todos los procedimientos tienen diferentes opciones de

maquillaje. No obstante, los gráficos no son el punto fuerte de éste paquete,

al menos hasta la versión 11.5, ya que la nueva versión del 2004, realiza

cambios importantes en éste sentido, de ahí, que el énfasis de éste

documento no es presentar opciones que ya están rediseñadas, no obstante,

se muestran algunas generalidades de la versión 11.0.

Es importante anotar que cada uno de ellos permite diferentes opciones, por

ejemplo el histograma se puede construir con diseños como los presentados

posteriormente.

Trigliceridemia basal Colesterolemia basal * SEXO

139.88 246.66

34 35

39.193 39.478

138.03 226.89

33 35

37.030 25.893

138.97 236.77

67 70

37.865 34.605

Media

N

Desv. típ.

Media

N

Desv. típ.

Media

N

Desv. típ.

SEXO

Hombre

Mujer

Total

Trigliceridemia

basal

Colesterolemia

basal

Trigliceridemia basal Colesterolemia basal * Clase Social

141.77 238.38

13 13

44.805 35.643

136.45 239.50

47 50

34.803 35.152

150.71 214.29

7 7

47.352 21.937

138.97 236.77

67 70

37.865 34.605

Media

N

Desv. t íp.

Media

N

Desv. t íp.

Media

N

Desv. t íp.

Media

N

Desv. t íp.

Clase Social

Alta

Media

Baja

Total

Trigliceridemia

basal

Colesterolemi

a basal

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

Algunos de los más utilizados son: Barras: Simple, Agrupada y Apilada Dispersión: Simple y Superpuesto. Líneas: Simple y múltiples. Sectores: Circular o pastel Area: Simples y apiladas. Autocorrelaciones: Series de Tiempo Control: Control de Calidad Diagramas de caja: Medidas de posición. Barras de Error: Intervalos de Confianza al 95%

Generalidades sobre el SPSS León Darío Bello P.

[email protected] 28/10/a

Docente FNSP – U de A -

El que aprende y aprende y no práctica lo que sabe, es como el que ara y ara y nunca siembra.

Platón

Digite la siguiente información:

EDAD

SEXO ESTADO CIV. PROFESIÓN SALARIO (miles semanal)

ESTRATO

28 Hombre Soltero Estadístic@ 400 4

38 Mujer U .libre Enfermer@ 500 3

51 Mujer Soltero Médic@ 450 4

44 Mujer Soltero Enfermer@ 450 5

27 Hombre Soltero Médic@ 480 4

40 Mujer U .libre Bacteriólog@ 1250 5

38 Mujer Soltero Médic@ 400 3

40 Mujer Casado Otra 450 6

38 Hombre Casado Enfermer@ 450 3

51 Hombre U. libre Otra 250 4

30 Mujer Soltero Médic@ 5

32 Mujer Soltero Enfermer@ 450 4

28 Hombre Soltero Bacteriólog@ 400 3

45 Hombre Soltero Otra 380 3

55 Mujer U. libre Enfermer@ 420 5

38 Hombre Casado Médic@ 515 5

28 Mujer Soltero Bacteriólog@ 545 6

53 Mujer Casado Enfermer@ 485 4

30 Hombre Soltero Bacteriólog@ 379 4

30 Mujer Casado Bacteriólog@ 450 5

1. Realice el análisis exploratorio de datos (variables cualitativas y cuantitativas).

2. Realice los cambios que considere necesarios (justifique sí es del caso) 3. Calcule el salario con unidad de medida en mes y la edad en meses. 4. Recodifique la edad en tres categorías: Menos de 30, de 31 a 40 y más de

50. De los nombres que considere adecuados. 5. Cruce las variables sexo VS estado civil y sexo VS estrato. Diga si las

variables están relacionadas. Justifique. 6. Calcule las medidas descriptivas para las variables cuantitativa y diga cual

es más homogénea. 7. Utilizando el diagrama de caja y sesgo, diga si la profesión influye en el

salario. 8. Con las medidas de posición diga que forma parecen tener los datos. 9. Construya el histograma para las variables cuantitativas. Interprételo. 10. Calcule los percentiles 20, 40, 60 y 80. Interprételos. 11. Calcule los cuartiles e interprételos. 12. Diga si es mayor el salario de mujeres que el de los hombres puede

generalizar el resultado?