EL PAQUETE ESTADÍSTICO PASW Statistic 18....

21
Fundamentos de Bioloxía Aplicada I. 2011/12 Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva) M. Carmen Carollo, Beatriz Pateiro Página 1 EL PAQUETE ESTADÍSTICO PASW Statistic 18. INTRODUCCIÓN AL PAQUETE Y ESTADÍSTICA DESCRIPTIVA 1. El paquete estadístico PASW 18 2. El editor de datos 3. Apertura de un archivo desde el editor de datos 4. Creación de un nuevo archivo de datos 5. Editor de resultados. Editor de Gráficos 6. Remate e inicio de una nueva sesión 7. Manipulación de archivos 8. Análisis descriptivo univariante 9. Análisis descriptivo bivariante

Transcript of EL PAQUETE ESTADÍSTICO PASW Statistic 18....

Page 1: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 1

EL PAQUETE ESTADÍSTICO PASW Statistic 18. INTRODUCCIÓN AL PAQUETE Y ESTADÍSTICA DESCRIPTIVA

1. El paquete estadístico PASW 18 2. El editor de datos 3. Apertura de un archivo desde el editor de datos 4. Creación de un nuevo archivo de datos 5. Editor de resultados. Editor de Gráficos 6. Remate e inicio de una nueva sesión 7. Manipulación de archivos 8. Análisis descriptivo univariante 9. Análisis descriptivo bivariante

Page 2: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 2

1. El paquete estadístico PASW 18

Los paquetes estadísticos nos permiten la introducción, representación gráfica y tratamiento estadístico de datos. Uno de los más completos y de fácil manejo es el PASW (Predictive Analytics Software Statistics), sucesor del SPSS fabricado por SPSS inc y recientemente adquirido por IBM. Este programa permite la manipulación de grandes bases de datos y ofrece la posibilidad de aplicarles procedimientos estadísticos y gráficos. En este curso utilizaremos la versión PASW 18 para Windows.

2. El Editor de datos

Cuando entramos en el PASW 18 aparece la ventana Editor de datos. Desde ella vamos a poder acceder a un determinado tipo de archivos de datos, ya creados, y podremos modificar los datos de los archivos. Además también podremos introducir directamente los datos para un nuevo archivo. Los archivos de datos se nombran con la extensión .sav. En general, en un archivo de datos de PASW 18 tenemos n filas y p columnas. Cada fila corresponde a un individuo y contiene, para ese individuo, los valores de p variables. Es decir, cada fila corresponde a un individuo, cada columna a una variable y cada cuadrícula contiene un dato (asociado a una variable y a un individuo). Una cuadrícula vacía se interpreta como un dato perdido (missing). En la ventana Editor de datos nos encontramos con un menú desde el que se puede acceder a muchas das funciones del PASW STATISTIC 18. Tiene las siguientes opciones: • Archivo: permite crear, abrir, guardar e imprimir archivos. Muestra los datos que fueron

utilizados recientemente. • Edición: permite buscar, copiar, cortar, pegar y borrar datos.

Page 3: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 3

• Ver: permite seleccionar o no la visualización de cierto tipo de información, como la

cuadrícula, barras de herramientas y estado. También proporciona información sobre las fuentes: tipo, estilo y tamaño de letra.

• Datos: permite hacer cambios globales en los datos (añadir nuevas variables, ordenar o

seleccionar casos,...) • Transformar: permite hacer cambios en determinadas variables, crear nuevas variables a

partir de las ya existentes o substituir valores perdidos. • Analizar: permite efectuar diferentes procedimientos estadísticos: informes, tablas, medidas

resumen, gráficos sencillos, etc. • Gráficos: permite efectuar diferentes tipos de representaciones gráficas. • Utilidades: permite obtener información sobre las variables, definir conjuntos de variables o

ejecutar determinados procesos de PASW STATISTIC 18. • Ventana: da información sobre las ventanas abiertas. • ?: contiene información sobre el programa PASW STATISTIC 18. Debajo del menú encontramos una barra de herramientas con unos botones desde los que se puede acceder rápidamente a algunas de las funciones más habituales. Al situar el puntero sobre cada botón se puede obtener una breve descripción del mismo.

Podemos distinguir tres tipos de herramientas: las generales (que aparecen en todas las

ventanas de WINDOWS), las específicas de cada ventana y las herramientas de gráficos.

Las herramientas generales nos permiten abrir un archivo, guardarlo, imprimirlo, mostrar un

listado de las operaciones más recientes efectuadas con PASW STATISTIC 18, mostrar los datos

de un individuo concreto e información sobre las variables.

En cuanto a las herramientas específicas de la ventana Editor de datos permiten, entre otras cosas, buscar un valor concreto de una variable y todos los individuos que presentan dicho valor, añadir una fila para los datos de un nuevo individuo o una columna para una nueva variable, seleccionar los individuos que verifican alguna condición o elegir entre la visualización de los valores de las variables o de sus etiquetas. En la parte inferior de la ventana se encuentra la denominada barra de estado que proporciona información sobre el estado actual del proceso, el número de casos procesados, el filtrado de los datos (cuando se utiliza solamente una parte del archivo de datos), la variable que pondera (cuando se usa algún criterio de ponderación) o la segmentación de datos (cuando el archivo de datos se divide en subgrupos a partir de una o varias variables de agrupación).

Page 4: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 4

3. Apertura de un archivo desde la ventana Editor de datos

Lo haremos desde a opción Archivo/ Abrir/ Datos. Aparecerá entonces un cuadro de diálogo en el que habrá que seleccionar: •Nombre del archivo: aparece una lista de los archivos de datos (con extensión .sav) de la

carpeta de PASW STATISTIC 18. Se puede seleccionar alguno de ellos o bien algún otro guardado en esa misma carpeta o en otra diferente.

• Archivos de tipo: permite seleccionar entre los diferentes tipos de archivos de datos que

reconoce el PASW STATISTIC 18. • Buscar en: nos permite seleccionar la carpeta en la que queremos buscar el archivo de

datos. Podemos recorrer al “árbol”, hacia abajo (abriendo nuevas carpetas) o hacia arriba (cerrando carpetas y buscando dentro de las que ya están abiertas).

Hay varios tipos de archivos de datos que reconoce el PASW STATISTIC 18: • PASW STATISTIC 18(*.sav): son los archivos de datos que se crean y/o guardan con el PASW

18bajo Windows o UNIX. • PASW STATISTIC 18/PC+(*.sys): los archivos que se crean con PASW STATISTIC 18/PC+. • Portables de PASW STATISTIC 18(*.por): archivos creados bajo otros sistemas como

Macintosh. • Excel(*.xls): archivos creados por la de cálculo Excel. • Lotus(*.w*): archivos creados por la hoja de cálculo Lotus. • SYLK(*.slk): archivos creados por Excel o Multiplan guardados en formato Sylk. • dBase(*.dbf): archivos de la base de datos dBase. • Texto(*.txt): archivos de texto. • Datos(*.dat): archivos de texto que están delimitados por tabuladores. • Todos los archivos(*.*): cualquier tipo de archivo.

Ejemplo 1: En la dirección C:\Archivos de programa\PASW STATISTIC 18\Samples\Spanish podemos abrir el archivo Breast cáncer survival.sav.

En Vista de datos podemos observar que tenemos información sobre 11 variables en 1207 individuos. En Vista de variables podemos ver con detalle las características de cada variable, en particular

los posibles valores de cada una de ellas. En concreto, si para la variable tumorcat vamos a la

Page 5: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 5

celda correspondiente a valores, al pulsar en … , podemos ver los diferentes valores así como

las etiquetas que identifican a cada uno de ellos.

4. Creación de un nuevo archivo de datos

Lo podremos hacer desde la opción Archivo/ Nuevo/ Datos. Hay que seguir los siguientes pasos:

4.1 Introducción de las variables de interés y sus características Después de entrar en un nuevo archivo de datos y desde Vista de variables podremos introducir las siguientes características de las variables de las que vamos a datos: • Nombre: Por defecto, PASW 18 asigna a una variable el prefijo “var” seguido de cinco

dígitos. Cuando introduzcamos los nombres debemos tener en cuenta los siguientes requisitos:

o Tendrá un máximo de ocho caracteres. o Empezará por una letra y no acabará con un punto. o No puede contener espacios en blanco ni caracteres especiales (¡,?,*,…) o No puede haber dos nombres de variables repetidos. o programa no distingue entre mayúsculas y minúsculas. o No pueden usarse las palabras ALL, LT, AND, EN, BY, NOT, EQ, OR, GE, TO, GT,

UIT, LE.

• Tipo: las variables pueden ser:

o Numéricas: éstas admiten valores numéricos, signos de “+” “-“ y decimales. El ancho máximo es de 40 caracteres y el número de decimales es 16.

o Coma: igual que el tipo numérico pero incluyendo una coma de delimitación

para cada tres valores. Los decimales en este caso se separan por un punto. o Punto: igual que en el caso anterior, pero cambiando comas por puntos. o Cadena: Variables tales que sus valores no son numéricos. o Otros: Notación científica, fecha y moneda.

Etiqueta: cada variable puede tener una etiqueta explicativa, que identifique su contenido

• Valores: Podemos asignar una etiqueta a cada valor de la variable cuando los valores no son numéricos pero en realidad representan modalidades de una variable cualitativa. Es

Page 6: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 6

importante que cada vez que en la correspondiente ventana de diálogo se introduce un valor e y su etiqueta, debemos pulsar o botón de añadir.

• Perdidos: Aparte de cualquier cuadrícula en blanco dentro de los datos (que se considerará

un dato perdido o “missing”) podemos indicar qué valores se pueden considerar como perdidos: tres valores como máximo en las variables discretas, un intervalo en las variables continuas o un intervalo y un valor fuera del mismo para ambos tipos de variables.

• Otros: Además se puede especificar la anchura de caracteres que ocupará la variable, el

número de decimales que usaremos, poner una etiqueta a la variable, indicar el número de columnas que se reservan, la alineación de la información dentro de la cuadrícula (derecha, centro o izquierda) y el tipo de medida que corresponde a la variable (escala, ordinal o nominal).

Ejemplo 2: Se va a realizar un estudio sobre un residuo en una ría. Se toma una muestra de algas, moluscos y peces en una determinada zona. De cada elemento de la muestra se anotará un identificador (id), el tipo (Alga, Pez o Molusco) (tipo), el tamaño (Pequeño, Mediano, Grande) (tam), el peso en gramos (peso) y la cantidad de residuo en gramos (residuo).

Ejercicio: Crear un archivo de datos con estas variables y sus características. Guardar el archivo con el nombre Practica1.sav.

4.2 Introducción de los datos

Una vez que se creó la “plantilla” con todas las variables, si vamos a Vista de datos, por cada variable creada vemos que aparece una columna con el nombre de dicha variable. Ahora, en cada fila, se deben introducir los datos (correspondientes a todas las variables) de un individuo. Introducir, por ejemplo, los datos de la tabla que aparece a continuación.

identificador tipo tamaño peso residuo

1 Alga 1 0,30 0,0100

2 Alga 1 0,09 0,0030

3 Molusco 3 2300,00 1,0000

4 Molusco 2 500,00 0,0010

5 Molusco 3 1700,00 0,5000

6 Pez 3 30,00 2,0000

7 Alga 2 10,00 0,0100

8 Molusco 1 200,00 0,0010

9 Pez 2 10,00 2,0000

10 Pez 3 25,00 2,0000

11 Molusco 1 150,00 0,0008

Page 7: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 7

5. Editor de resultados. Editor de Gráficos

Para introducirnos en el uso de estos editores vamos a realizar un sencillo análisis descriptivo

con los datos del ejemplo 2.

Comenzamos estudiando la variable peso para la cual vamos a obtener algunos índices

descriptivos: mínimo, máximo, media, desviación típica y varianza. Los pasos a seguir son los

siguientes:

Analizar/ Estadísticos descriptivos/Descriptivos

Variables: peso

Opciones: marcar los estadísticos que deseemos obtener (media, varianza,etc.)

Aceptar

Deberíamos obtener una tabla similar a la siguiente:

Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ.

peso 11 ,09 2300,00 447,7627 793,02075

N válido (según lista) 11

Observar que al efectuar el proceso estadístico el programa abrió una ventana donde escribió

el resultado. Esta ventana se denomina Editor de resultados y es el lugar en el que el PASW va

pegando los sucesivos resultados que se obtienen.

Si realizamos algún procedimiento gráfico se abrirá una nueva ventana, la del Editor de

gráficos.

Vamos a hacer un gráfico para una variable cualitativa, por ejemplo tipo. Un gráfico adecuado

es un gráfico de sectores. Para obtenerlo seguimos los siguientes pasos:

Gráficos / Cuadros de diálogos antiguos / Sectores..

Resúmenes para grupos de casos / Definir

Definir sectores por: tipo

Aceptar

Page 8: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 8

El gráfico resultante aparece justo debajo de la tabla anterior

en el Editor de resultados.

Si pinchamos dos veces con el ratón sobre el gráfico

podremos editarlo. El programa permite cambiar aspectos

como el color o el tipo de letra. Una vez modificado el gráfico

debemos pulsar con el ratón en otra parte del editor de

resultados para volver al mismo.

6. Remate y nuevo inicio de una sesión

Si queremos guardar el archivo basta utilizar la opción Archivo/ Guardar como e indicar la carpeta y el nombre para el archivo. Cuando el archivo ya tiene un nombre y se quieren guardar nuevos datos, basta utilizar Archivo/ Guardar. Para salir del programa utilizaremos Archivo/ Salir. Para volver a trabajar con un documento ya creado, después de entrar en el programa utilizaremos Archivo/ Abrir/ Datos e indicaremos la carpeta y el nombre del archivo.

7. Transformación de datos

Una vez creado un archivo de datos, podremos modificarlos añadiendo datos nuevos, nuevos variables (incluso de otros archivos) o creando y eliminando variables.

o Modificar datos: para modificar un dato concreto, basta situarse en la cuadrícula correspondiente e introducir el cambio.

o Copiar, cortar y pegar datos: se puede seleccionar una cuadrícula para a continuación cortarla o copiarla y después pegarla en otras cuadrículas. Lo mismo se puede hacer con una fila (individuo) o una columna (variable) completas del archivo.

o Añadir un nuevo caso o una nueva variable: en la opción Edición. o Eliminar: marcando el individuo o la variable y pulsando el botón derecho

(opción borrar), o también desde el menú de edición (Edición/Eliminar) una vez seleccionada la fila o columna que deseamos borrar.

o Buscar: si deseamos buscar un individuo: Edición/Ir a caso. Si lo que deseamos es buscar una variable: Edición/Buscar.

Page 9: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 9

En este apartado vamos a trabajar con los datos del ejemplo dos al que le añadimos un nuevo

dato.

identificador tipo tamaño peso residuo

1 Alga 1 0,30 0,0100

2 Alga 1 0,09 0,0030

3 Molusco 3 2300,00 1,0000

4 Molusco 2 500,00 0,0010

5 Molusco 3 1700,00 0,5000

6 Pez 3 30,00 2,0000

7 Alga 2 10,00 0,0100

8 Molusco 1 200,00 0,0010

9 Pez 2 10,00 2,0000

10 Pez 3 25,00 2,0000

11 Molusco 1 150,00 0,0008

12 Alga 2 1,00 0,0100

7.1 Segmentar archivos A partir de los datos anteriores vamos dividir el archivo en tres: uno con las algas, otro con los moluscos, y otro con los peces. Una de las opciones más útiles es la segmentación del archivo. Mediante la segmentación , se puede tratar el archivo de datos por bloques.

Datos/ Segmentar archivo/ Organizar los resultados por grupos/ Grupos basados en tipo.

Para desactivar esta agrupación basta seleccionar:

Datos/ Segmentar archivo/ Analizar todos los casos, no crear los grupos

7.2 Seleccionar casos

Al hacer ciertos análisis nos va a interesar en ocasiones seleccionar algunos individuos concretos en el estudio. 7.2.1 Selección aleatoria Vamos a seleccionar, aleatoriamente, la mitad de los casos. Podemos decirle aproximadamente el 50% de los individuos de entre toda la muestra ó bien el nº exacto de individuos. Los casos no seleccionados son filtrados.

Page 10: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 10

Datos / Seleccionar casos / Muestra aleatoria de casos / Ejemplo…. Aproximadamente: 50% de todos los casos Continuar Aceptar

Datos / Seleccionar casos / Muestra aleatoria de casos / Ejemplo…. Exactamente: 6 Entre los: 12 primeros Continuar Aceptar

Si queremos trabajar de nuevo con todos los datos debemos seleccionarlos todos.

Datos / Seleccionar casos/ Todos los casos

7.2.2 Selección si satisface una condición

Page 11: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 11

Seleccionemos ahora los que satisfagan una cierta condición, por ejemplo, los tengan peso inferior a 250 gramos.

Datos / Seleccionar casos/ Si satisface la condición/ Si peso <250

7.3. Ordenar casos

Vamos a ordenar los individuos de mayor a menor peso

Datos / Ordenar casos

Ordenar por: peso Ordenación: descendente

Page 12: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 12

7.4. Creación de nuevas variables

A partir de variables que ya tenemos en el archivo de datos se pueden crear nuevas variables aplicando fórmulas matemáticas y lógicas.

Vamos a crear una nueva variable que sea el peso en Kg. Haremos:

Transformar / Calcular / Variable de destino peso kg Tipo y etiqueta: numérico y peso en Kg Expresión numérica: peso/1000

Page 13: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 13

7.5. Recodificación de variables Vamos a crear una nueva variable que tenga valor 1 para los elementos de la muestra que tengan tamaño pequeño y medio y 2 para el resto.

Transformar / Recodificar en distintas variables Variable de entrada: tam Variable resultado: Nombre: tam_rec, Etiqueta: tamaño recodificado (por ejemplo) Valores antiguos y nuevos: antiguo 1 nuevo 1 añadir antiguo 2 nuevo 1 añadir antiguo 3 nuevo 2 añadir Continuar / Aceptar

8. Análisis descriptivo univariante

Ejemplo: Un investigador está interesado en el estudio de un tipo de miel que se produce en

la provincia de Lugo. Se recogieron 66 muestras de miel en dos zonas de dicha provincia

clasificándolas de acuerdo a las siguientes variables: Zona, Humedad, Cenizas, Solins (sólidos

insolubles), Azured (azucares redutores), Sacar (sacarosa), Conduc (conductividad), AcTot

(acidez total), AcLib (acidez libre), AcLab (acidez lactónica), HMF (Hidroximetilfusfural,

Page 14: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 14

importante para clasificar las mieles), pH, Lac_Lib (AcLac/AcLib) y Azu_Hum

(Azured/Humedad).

Vamos a realizar un análisis descriptivo de este conjunto de datos. Como ya hemos dicho, los ficheros de datos de PASW STATISTIC 18 tienen la extensión .sav. En este análisis vamos a tener en cuenta el tipo de variables en estudio (Cualitativo o bien numérico)

8.1 Caso nominal

La única variable de este tipo en este conjunto de datos es la zona. Comenzamos realizando un análisis descriptivo gráfico.

Gráficos / Cuadros de diálogos antiguos / Sectores..

Resúmenes para grupos de casos / Definir

Definir sectores por: zona

Aceptar

Podemos también hacer un diagrama de barras:

Gráficos / Cuadros de diálogos antiguos / Barras

Simple / Resúmenes para grupos de casos

Definir / Eje de categorías: zona

Aceptar

Page 15: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 15

8.2 Caso numérico

Vamos a hacer un análisis descriptivo para todas las variables numéricas. Comenzamos obteniendo algunos índices descriptivos: mínimo, máximo, media, desviación típica y varianza.

Analizar / Estadísticos descriptivos /Descriptivos

Variables: introducir las variables que interesen

Opciones: marcar los estadísticos que deseemos obtener (media, varianza,etc.)

Continuar / Aceptar

N Mínimo Máximo Media Desv. típ. Varianza

humedad 66 15,2 19,8 17,211 ,9314 ,867

cenizas 66 ,03 1,01 ,4089 ,21778 ,047

solins 66 ,001 ,142 ,02921 ,027919 ,001

azured 66 61,7 78,3 69,282 2,7796 7,726

sacar 66 ,20 6,29 1,7039 1,14411 1,309

conduc 66 66 644 280,70 98,161 9635,630

actot 66 20,0 61,3 37,998 9,5282 90,786

aclib 66 16,94 58,32 33,8727 9,24439 85,459

aclac 66 ,10 1734,00 30,4042 212,94015 45343,508

hmf 66 ,77 17,28 7,9076 3,76903 14,206

ph 66 3,52 4,77 4,1621 ,33267 ,111

N válido 66

En esta tabla vemos los valores de los estadísticos seleccionados y el nº de datos N, que se han utilizado para su cálculo. La última fila muestra el nº de datos sin valores faltantes (en este caso no había datos faltantes).

Page 16: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 16

La tabla se puede editar de forma análoga a como hicimos con los gráficos. Se pueden intercambiar filas y columnas, cambiar el tipo de letra, etc. Vamos a ver ahora si las variables presentan valores atípicos. Para ello utilizamos el diagrama de cajas para las variables (lo haremos sólo con algunas de ellas, por ejemplo: sacar, actot y conduc).

Gráficos / Cuadros de diálogos antiguos / Diagramas de caja

Simple / Resúmenes para distintas variables

Definir / las cajas representan: sacar, actot y conduc

Etiquetas mediante: zona

Aceptar

Obtenemos la siguiente gráfica. Vemos una clara diferencia entre las tres variables. La sacar y actot tienen una variabilidad muy pequeña, mientras que conduc la tiene mucho mayor. Los casos marcado con un círculo ( ) son casos atípicos moderados. Los casos marcados con * son los llamados atípicos extremos. Es prácticamente imposible que estos datos vengan de la misma distribución que el resto. En todo caso es conveniente investigar los datos atípicos e intentar encontrar la causa de que aparezcan. Podemos también hacer histogramas para ver si los datos (de una o más variables) siguen

aproximadamente una distribución normal. Para ello

Page 17: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 17

Analizar/ Estadísticos descriptivos / Frecuencias

Variables: sacar y conduc

Gráficos / Histogramas: mostrar curva normal en el histograma

Continuar /Aceptar

Vemos que conduc parece ajustarse bien a una normal. Con la sacar no ocurre lo mismo

(haremos un contraste de normalidad en el que veremos que no puede aceptarse que esos

datos sigan una distribución normal).

9. Análisis descriptivo bivariante

9.1 Caso numérico_numérico

Cuando las variables son numéricas es muy útil construir gráficos de dispersión , para un par

de variables o para varios pares.

Gráficos / Cuadros de diálogos antiguos / Dispersión / Puntos

Matricial / Definir

Variables en la matriz: cenizas, conduc, actot

Page 18: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 18

Opciones: excluir caso variable por variable

Continuar / Aceptar

Obtenemos un gráfico del siguiente tipo que nos permite ver cuáles de las variables están más

correlacionadas y sí la correlación es positiva o negativa.

9.2 Caso nominal_numérico

En este archivo de datos, la zona es la única variable de tipo nominal. Vemos si la zona influye en la acidez total. Para ello comparamos las cajas (para una única variable) atendiendo a la zona (la única variable que es nominal)

Gráficos / Cuadros de diálogos antiguos / Diagramas de caja

Simple / Resúmenes para grupos de casos

Variable: actot

Eje de categorías: zona

Aceptar

A la vista del diagrama de dispersión, parece

que la acidez total depende de la zona (más

acidez en zona 2).

9.3 Caso nominal_nominal Corresponde a lo que se conoce como datos categóricos. Los datos se presentan en tablas de doble entrada (tablas de contingencia) en la que los datos aparecen resumidos a través de las correspondientes frecuencias. La tabla siguiente nos muestra 56 observaciones en las que se estudiaron dos variables nominales (tipo de cereal y rendimiento). Los datos suelen resumirse en una tabla de contingencia como la siguiente.

Page 19: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 19

RENDIMIENTO

CEREAL Malo Bueno Muy bueno

A 6 14 10

B 8 10 8

Vamos a ver cómo obtener esta tabla con el PASW.

Archivo /Nuevo /Datos

Definimos las variables: Cereal y Rendimiento

Definir los valores de cada variable: ( por ej.: 1 y 2 para cereal; 1,2 y 3 para rendimiento)

Crear la variable frecuencia (en la cual se introducen los valores de la tabla)

Datos / Ponderar casos

Ponderar casos mediante / variable de frecuencia: frecuencia

De esta forma no es necesario teclear todos los datos.

Para reconstruir la tabla hacemos:

Analizar / Estadísticos descriptivos / Tablas de contingencia

Filas: cereal / Columnas: rendimiento

Continuar / Aceptar

Obtenemos la siguiente tabla que nos muestra que los datos han sido bien tratados.

Tabla de contingencia cereal * rendimiento

rendimiento

Total malo Bueno Muy bueno

cereal A 6 14 10 30

B 8 10 8 26

Total 14 24 18 56

Page 20: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

M. Carmen Carollo, Beatriz Pateiro Página 20

Podemos hacer distintas representaciones gráficas, por ejemplo diagramas de barras

agrupadas o apiladas.

Gráficos / Cuadros de diálogos antiguos / Barras / Barras agrupadas (ó apiladas)

Recuento de casos

Eje de categorías: cereal / Definir grupos por: rendimiento / Aceptar

A la vista de cualquiera de los gráficos concluimos que no parece que el tipo de cereal influya

en el rendimiento.

Ejercicio 1.- Crear una nueva variable que clasifique la humedad en:

Baja si humedad <15,5

Media si la 15,5 ≤ humedad < 17

Alta si humedad ≥ 17

Ejercicio 2.- Crear una nueva variable que sea el logaritmo neperiano de la sacarosa.

Ejercicio 3.- Obtener un diagrama de cajas para las variables cenizas, azúcares reductores y

acidez libre. Interpretar los gráficos.

Ejercicio 4.- Obtener un diagrama de cajas, por zona, para la variable cenizas. Comparar las

medidas resumen para ambas zonas.

Ejercicio 5.- Obtener un histograma, con curva de ajuste por la normal, para la variable

acidez total. Cambiar el color del relleno, de los rectángulos y de la curva.

Page 21: EL PAQUETE ESTADÍSTICO PASW Statistic 18. …eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · • Excel(*.xls): archivos creados por la de cálculo ... Los decimales

Fundamentos de Bioloxía Aplicada I. 2011/12

Práctica 1. El PASW Statistics (Introducción y Estadística Descriptiva)

M. Carmen Carollo, Beatriz Pateiro Página 21

Ejercicio 6.-

a) Crear un archivo con los datos que aparecen en la siguiente tabla de contingencia.

b) Obtener un diagrama de barras que recoja la información de la tabla.

c) A la vista del diagrama anterior, ¿pensaríamos que el sexo influye en la preferencia?

Preferencia

Sexo Destacar en

deportes

Buenas

notas

Popularidad

Niña 17 101 75

Niño 51 95 38