Mg. Ing. Susana Vanlesberg

81
Universidad Nacional del Litoral Facultad de Ingeniería y Ciencias Hídricas ESTADÍSTICA Ingenierías: RH-Amb- Agr Mg. Ing. Susana Vanlesberg

Transcript of Mg. Ing. Susana Vanlesberg

Page 1: Mg. Ing. Susana Vanlesberg

Universidad Nacional del Litoral

Facultad de Ingeniería y Ciencias Hídricas

ESTADÍSTICA

Ingenierías: RH-Amb-Agr

Mg. Ing. Susana Vanlesberg

Page 2: Mg. Ing. Susana Vanlesberg

ESTADÍSTICA DESCRIPTIVA YEXPLORACIÓN DE DATOS

Page 3: Mg. Ing. Susana Vanlesberg
Page 4: Mg. Ing. Susana Vanlesberg

ESTADÍSTICADESCRIPTIVA

•Es la parte de la Estadística que da una descripción numérica, ordenada y simplificada, con la ayuda de representaciones gráficas, de la información obtenida en el relevamiento de datos de un fenómeno o situación en estudio.

Page 5: Mg. Ing. Susana Vanlesberg

•POBLACIÓN es el todo referido a una variable en estudio.

•MUESTRA es una porción representativa de la población de referencia

Page 6: Mg. Ing. Susana Vanlesberg

•Caracteres estadísticos: propiedad que permite clasificar a los individuos de una población.

•Pueden ser:

• a) Cualitativos

•Cualidades, no se pueden medir. Las modalidades son las diferentes situaciones de un carácter

• b) Cuantitativos

• Son aquellos que se pueden medir o contar

Page 7: Mg. Ing. Susana Vanlesberg

DATOS CUANTITATIVOS

•En el ordenamiento de los datos se debe hacer la distinción entre datos (variables) de tipo continuo y discreto.

• La forma de la distribución de los datos (observaciones de una variable) se denomina distribución de frecuencias.

Page 8: Mg. Ing. Susana Vanlesberg

• Frecuencia absoluta fi : número de observaciones de un carácter que interesa en particular, o sea es el número de veces que se repite el valor xi.

Page 9: Mg. Ing. Susana Vanlesberg

• Frecuencia absoluta acumulada Fi : Es el número de elementos de la muestra cuya modalidad es inferior o equivalente al valor de la variable considerada

• Frecuencia relativa hi : Es el cociente entre las frecuencias absolutas y el número total de observaciones o datos N

N

fh i

i

Page 10: Mg. Ing. Susana Vanlesberg

• Frecuencia relativa acumulada : Es el número de elementos de la muestra inferior o equivalente al valor de la variable considerada (Fi) dividido por el total de datos:

N

FH i

i

Page 11: Mg. Ing. Susana Vanlesberg

•Como normalmente el conjunto de datos que se recolecta suele ser muy grande, es necesario disponer de alguna herramienta mediante la cual podamos visualizarlos.

•Para ello, una vez ordenados, se hace un recuento de dichos datos y se realizan tablas estadísticas.

Page 12: Mg. Ing. Susana Vanlesberg

• En estas tablas, deberán figurar los valores de la variable en estudio, y sus frecuencias correspondientes.

• Si bien este ordenamiento puede evitarse al trabajar con programas específicos o alguno que posea este tipo de análisis, es útil para la realización de algunos gráficos.

Page 13: Mg. Ing. Susana Vanlesberg

• La principal dificultad para la obtención de una distribución de frecuencias, reside en la construcción de las modalidades, ya que ésta variará de acuerdo con el tipo de variable que se pretende describir: si la variable es cualitativa, se tomarán como modalidades las distintas respuestas observadas de la muestra.

Page 14: Mg. Ing. Susana Vanlesberg

• Si la variable es cuantitativa se deberá considerar el tipo:

• Si la variable es discreta (que tome pocos valores distintos), las modalidades coincidirán con los distintos valores medidos en la muestra.

• Si la variable es continua (o bien discreta, pero toma muchos valores distintos), se tomarán como modalidades intervalos de clase. Los intervalos donde se encuentran los datos agrupados, se simbolizan por [Li-1, Li).

Page 15: Mg. Ing. Susana Vanlesberg

• Luego dependiendo del tipo de agrupamiento o del tipo de dato que se tenga las definiciones de los distintos tipos de frecuencia son equivalentes.

•Cuando en una serie de datos no se repiten valores es decir no hay frecuencias, la serie será tratada como serie simple.

Page 16: Mg. Ing. Susana Vanlesberg

Gráficos para Variables Cualitativas

• Gráficos para variables cualitativas o atributos

• Diagrama de barras o bastones

Page 17: Mg. Ing. Susana Vanlesberg

•Diagramas de sectores o de torta:

• Se utilizan para hacer comparaciones de las distintas modalidades de un carácter mediante sectores circulares

Page 18: Mg. Ing. Susana Vanlesberg

Gráficos para Variables Cuantitativas

•Variables discretas• Diagrama de barras

•Variables continuas• Histograma

Page 19: Mg. Ing. Susana Vanlesberg

Datos discretos

Page 20: Mg. Ing. Susana Vanlesberg

22-ago.

24-ago.

26-ago.

28-ago.

30-ago.

01-sep.

03-sep.

05-sep.

07-sep.

09-sep.

11-sep.

13-sep.

15-sep.

17-sep.

19-sep.

21-sep.

23-sep.

25-sep.

1971

1972

1973

1974

1975

1976

1977

1978

1979

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

días

años

Heladas tardías en 33 años en Ceres

Diagrama de barras

Page 21: Mg. Ing. Susana Vanlesberg

Datos continuos

Page 22: Mg. Ing. Susana Vanlesberg

Distribución de frecuencia

• Los tres pasos necesarios para construir una distribución de frecuencias y definir las clases de la misma con datos cuantitativos son:

• 1. Determinar el número de clases (disyuntas).

• 2. Determinar el ancho de cada clase

• 3. Determinar los límites de clase.

Page 23: Mg. Ing. Susana Vanlesberg

• Número de clases Las clases se forman especificando los intervalos que se usarán para agrupar los datos.

• Se recomienda emplear entre 5 y 20 clases. Cuando los datos son pocos, cinco o seis clases bastan para resumirlos. Si son muchos, se suele requerir más clases. La idea es tener las clases suficientes para que se muestre la variación en los datos, pero no deben ser demasiadas si algunas de ellas contienen pocos datos.

• Ancho de clase El segundo paso al construir una distribución de frecuencia para datos cuantitativos es elegir el ancho de las clases. Como regla general es recomendable que el ancho sea el mismo para todas las clases.

• Como sugerencia se dan dos expresiones para obtener el ancho de clase o el número de clases.

Page 24: Mg. Ing. Susana Vanlesberg

clasedeanchoclasesdeN

muestralaenmenorValormuestralaenmayorValor

datosdecantidadnnclasesdeN

Page 25: Mg. Ing. Susana Vanlesberg

• Al elaborar distribuciones de frecuencia para datos cualitativos, no es necesario especificar límites de clase porque cada dato corresponde de manera natural a una de las clases disyuntas. Pero con datos cuantitativos los límites de clase son necesarios para determinar dónde colocar cada dato.

Page 26: Mg. Ing. Susana Vanlesberg

Histograma

Page 27: Mg. Ing. Susana Vanlesberg

•Consejos:• 1. Usar intervalos de la misma longitud

• 2. Los intervalos no se solapan

• 3. Cada observación sólo puede pertenecer a un intervalo

• 4. Todos los datos deben pertenecer a algún intervalo

Page 28: Mg. Ing. Susana Vanlesberg
Page 29: Mg. Ing. Susana Vanlesberg

Polígono de frecuencias

Page 30: Mg. Ing. Susana Vanlesberg

Gráficos de Frecuencias acumuladas

Page 31: Mg. Ing. Susana Vanlesberg

0

10

20

30

40

50

60

10 30 50 70 90 110 130 150 170

Fre

cuencia

s A

cum

ula

das

Concentraciones medias de PAHs

Frecuencia Acumulada

Page 32: Mg. Ing. Susana Vanlesberg

ANÁLISIS EXPLORATORIO•Análisis reciente, son métodos

innovadores para el análisis de datos.

•Hace énfasis en la exploración de los datos por métodos gráficos previos al clásico análisis estadístico.

Page 33: Mg. Ing. Susana Vanlesberg

•La visualización de los datos permite al investigador penetrar en su estructura, minimizando los supuestos probabilísticos que tradicionalmente se asumen con respecto a su comportamiento y distribución. Lo anterior equivale a proporcionarle al investigador "una lente" de aumento que le permite:

Page 34: Mg. Ing. Susana Vanlesberg

• Exhibir características o patrones ocultos dentro de los datos.

• Resaltar con claridad la tendencia que conforman los datos.

• Proporcionar hipótesis o modelos acerca del comportamiento de los datos

• Se ha robustecido con la reciente aparición de diversos programas específicos con licencia y software libre.

Page 35: Mg. Ing. Susana Vanlesberg

• Lo más importantes :

• - El diagrama de tallo y hoja.

• -El diagrama de caja.

Page 36: Mg. Ing. Susana Vanlesberg

• El examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida.

• Las tareas implícitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier análisis estadístico.

Page 37: Mg. Ing. Susana Vanlesberg

Diagrama de Tallo y Hoja

• Combina los aspectos visuales del histograma con la información numérica que proporciona una tabla de distribución de frecuencias.

• Es un gráfico muy sencillo de realizar, se puede considerar como la técnica de representación gráfica recomendable para variables cuantitativas, por encima de otra forma muy usual como el histograma.

Page 38: Mg. Ing. Susana Vanlesberg

Construcción

• 1.-Ordenar el lote de datos en magnitud creciente.

• 2. Dividir en dos partes cada dato según la característica de los datos o lo que se quiere mostrar de ellos.

• 3. Formar el tallo (parte más significativa del número) y las hojas (el resto de las cifras) con las fracciones respectivas.

• 4. Construir el tallo escribiendo verticalmente los dígitos enteros ordenados en forma creciente, asociando a cada uno su hoja respectiva.

Page 39: Mg. Ing. Susana Vanlesberg

•En términos generales hace visibles las siguientes características:

• 1. Muestra el rango de valores que los datos cubren.

• 2. Determina donde se concentran la mayoría de los datos

• 3. Describe la simetría del conjunto de datos.

• 4. Identifica si existen huecos en la distribución de los datos.

• 5. Señala aquellos valores que claramente se desvían del conjunto de datos.

Page 40: Mg. Ing. Susana Vanlesberg

•La observación de cualquiera deestos gráficos: el histograma o eldiagrama de tallo y hoja, permiteextraer ideas de las característicasgenerales de la variable tratada.

Page 41: Mg. Ing. Susana Vanlesberg

0|991|0011112222233333334444441|5567782|0112223342|6778888993|001111222343|55688994|0111222244444|555666777888885|0012

Page 42: Mg. Ing. Susana Vanlesberg
Page 43: Mg. Ing. Susana Vanlesberg
Page 44: Mg. Ing. Susana Vanlesberg

CARACTERÍSTICAS DE UNA MUESTRA

• MEDIDAS DE TENDENCIA CENTRAL

• MEDIDAS DE DISPERSIÓN

• MEDIDAS DE FORMA:•ASIMETRIA•CURTOSIS

Page 45: Mg. Ing. Susana Vanlesberg

MEDIDAS DE TENDENCIA CENTRAL

•Promedios• Media aritmética o media de muestra:

n

x

x

n

i

i 1

Page 46: Mg. Ing. Susana Vanlesberg
Page 47: Mg. Ing. Susana Vanlesberg

Propiedades

ixxn.

0)( xxi

mínimoxxi

2)(

N

NxNxNxX nn 2211

Page 48: Mg. Ing. Susana Vanlesberg

Otros promedios:

• Media Geométrica

nixGm

)log.....log(log1

log 21 nm xxxn

G

Page 49: Mg. Ing. Susana Vanlesberg

• Media Armónica:

N

xxx

Hm

n

1....

11

1 21

Page 50: Mg. Ing. Susana Vanlesberg

Medidas de ubicación

•Modo: es el valor que se corresponde con la máxima frecuencia.

•Si hay un gráfico de intervalos se busca interpolar. Hoy se puede obtener con programas.

cdd

dLMo iMo

21

1

cff

fLMo iMo

21

1

Page 51: Mg. Ing. Susana Vanlesberg

Mediana

• Variables discretas:

• Si no hay frecuencias

• - Número de datos impar: la Mna. es el valor central.

• - Número de datos par: la Mna. es el promedio de los valores centrales.

Page 52: Mg. Ing. Susana Vanlesberg

• Si hay frecuencias:

• - Se obtienen las frecuencias acumuladas (Ni) y se

calcula N/2:

- Se distinguen dos casos:

• - Si existe un valor tal que Ni-1 es un número decimal entonces se toma la Mna. = al valor de xi correspondiente

• - Si existe un valor tal que Ni=N/2 entonces la mediana será el promedio entre el valor correspondiente de xi y el siguiente:

2. 1 ii xx

Mna

Page 53: Mg. Ing. Susana Vanlesberg

• Variables continuas: se obtiene interpolando, hoy se dispone de su cálculo en los softwares.

cf

FLN

LMedianai

i

i

2

Page 54: Mg. Ing. Susana Vanlesberg

• También se la puede obtener gráficamente:

Page 55: Mg. Ing. Susana Vanlesberg

Propiedades

• No está influenciada por valores extremos. Por lo tanto, es una medida conveniente de la ubicación central.

• -Un valor seleccionado al azar se ubicará por arriba o por debajo de ella con igual probabilidad; por esto suele llamársela valor probable.

Page 56: Mg. Ing. Susana Vanlesberg

• Algunas desventajas son:

• -No se la puede manipular algebraicamente.

• -No es tan usada como la media aritmética, y tiene mayor error que ella.

Page 57: Mg. Ing. Susana Vanlesberg

Cuantiles

• Como la mediana divide a la distribución de datos en dos partes, los cuartiles la dividen en cuatro, los deciles en diez y los percentiles en cien.

• Se calculan de la misma forma que la mediana, sólo que cambia como se determina el orden del cuantil.

Page 58: Mg. Ing. Susana Vanlesberg

• Se muestra el cálculo de percentiles. Los cuartiles y deciles solo son percentiles determinados; así que los pasos para calcular los percentiles también se emplean para calcular los cuartiles y deciles.

Page 59: Mg. Ing. Susana Vanlesberg

CÁLCULO DEL PERCENTIL p

• Paso 1. Ordenar los datos de menor a mayor (colocar los datos en orden ascendente).

• Paso 2. Calcular el orden:

donde p es el percentil que se quiere obtener y n es el número de observaciones.

• Paso 3.

• (a) Si i no es un numero entero, se debe redondear. El primer entero mayor que i denota la posición del percentil p.

• (b) Si i es un numero entero, el percentil p es el promedio de los valores en las posiciones i e i + 1.

• HOY SE OBTIENEN DE SOFTWARE

np

i

100

Page 60: Mg. Ing. Susana Vanlesberg

•Ahora que se dispone de las características necesarias se presenta un nuevo gráfico:

Page 61: Mg. Ing. Susana Vanlesberg

Gráfico de caja y bigote

•Es un gráfico basado en cinco datos para construirlo: el valor mínimo, el primer cuartil, la mediana, el tercer cuartil, y el valor máximo. Ayuda a visualizar un conjunto de datos.

Page 62: Mg. Ing. Susana Vanlesberg

• Es posible introducir algunas variaciones en la construcción de estos diagramas, dependiendo del tipo de estudio y de la información disponible.

• La caja o rectángulo contiene un porcentaje de la muestra y puede construirse con diferentes rangos de variación.

• Es recomendable señalar con una marca los valores atípicos.

Page 63: Mg. Ing. Susana Vanlesberg
Page 64: Mg. Ing. Susana Vanlesberg
Page 65: Mg. Ing. Susana Vanlesberg

• Puede construirse sin tener en cuenta escala.

• De forma horizontal o vertical

• Sirve para comparar la variabilidad y asimetría de varias muestras

• El ancho de la caja esta definido por el rango inter-cuartílico (Q1 y Q3). A mayor amplitud de la caja, mayor variabilidad en los datos.

Page 66: Mg. Ing. Susana Vanlesberg
Page 67: Mg. Ing. Susana Vanlesberg
Page 68: Mg. Ing. Susana Vanlesberg
Page 69: Mg. Ing. Susana Vanlesberg
Page 70: Mg. Ing. Susana Vanlesberg

MEDIDAS DE DISPERSION

n

xxS

i

2

2)(

1

)( 2

2

n

xxS

i

Page 71: Mg. Ing. Susana Vanlesberg
Page 72: Mg. Ing. Susana Vanlesberg

n

xxS

i

2)(

(%)x

SCv

Page 73: Mg. Ing. Susana Vanlesberg

• Se utiliza una regla empírica para interpretar los valores de la varianza o desvío. Se usa cuando la muestra es grande y la forma de la muestra es aproximadamente simétrica.

• Esta regla considera que:• si se miden en el eje x hacia ambos lados de la media una distancia igual al

desvío, en ese intervalo quedarán comprendidos el 68% de las observaciones.

• si se toma dos veces el desvío hacia ambos lados de la media quedarán comprendidos el 95% de las observaciones en ese intervalo.

• si se trazan tres veces el desvío quedarán comprendidos el 99% de las observaciones entre esos límites.

Page 74: Mg. Ing. Susana Vanlesberg
Page 75: Mg. Ing. Susana Vanlesberg

MEDIDAS DE FORMA

•ASIMETRÍA

S

ModoxAs

)(

S

MedianaxAs

)(3

n

xxm

i

3

3

)(

3

3

S

mAs

Page 76: Mg. Ing. Susana Vanlesberg

Distribución simétrica

Page 77: Mg. Ing. Susana Vanlesberg

Distribución asimétrica positiva o a la derecha

Page 78: Mg. Ing. Susana Vanlesberg

Distribución asimétrica negativa o a la izquierda

Page 79: Mg. Ing. Susana Vanlesberg

•CURTOSIS

)(

)(

2

1

1090

13

PP

QQK

4

4

S

mK

Page 80: Mg. Ing. Susana Vanlesberg
Page 81: Mg. Ing. Susana Vanlesberg

• Es conveniente recordar las notaciones en población y muestra.