Apunte 1 Estadistica Prim2015

25
APUNTE Nº 1 ESTADÍSTICA 1 1ª Unidad: Análisis de Datos Univariados I. ESTADÍSTICA DESCRIPTIVA Definiciones: A. Estadística Es un conjunto de conceptos y métodos, empleados para recolectar e interpretar datos referentes a un área de investigación particular y para extraer conclusiones en situaciones en que la variabilidad está presente. El OBJETIVO de la Estadística es hacer INFERENCIAS (predecir, tomar decisiones) sobre algunas características de una población con base en la información contenida en una muestra. B. Estadística Descriptiva o Deductiva Es una descripción, vale decir, resume y registra, en forma adecuada, un gran conjunto de datos. Estos datos se recopilan, organizan, tabulan, y se representan mediante gráficos o tablas. C. Población Población Estadística, es el conjunto completo de posibles mediciones o registros de algún rasgo cualitativo, corresponde a la colección completa de unidades de las que se harán inferencias. La Población representa el objetivo de una investigación y, por ende, es el punto desde donde se recolectan datos para obtener o extraer conclusiones referente a ella. D. Muestra La Muestra de una población, es el conjunto de mediciones que se obtienen en el curso de la recolección, por lo tanto corresponde a un subconjunto de la Población. E. Variable Es cualquier característica, que diferencia a un miembro de otro, dentro de una misma Población Estadística. Puede tomar un valor cualquiera, obtenido de un conjunto que constituye el dominio de la variable. Se representa por x, y, etc. Atributos: Corresponde a los datos de tipo cualitativo. Por ejemplo: Color de pelo, Nacionalidad, Profesión, Nombres, etc. Tipos de Variables: Existen dos tipos: Variable Continua y Variable Discreta. Variable Continua Es aquella que puede tomar cualquier valor comprendido entre dos valores dados, además se obtiene mediante un proceso de medición . Por ejemplo : la estatura de una persona Variable Discreta Es aquella que puede tomar sólo valores enteros, se obtiene mediante un proceso de conteo. Por ejemplo : el número de personas que son atendidas en una Isapre en un mes determinado F. Datos

description

Apunte 1 Estadistica Prim2015

Transcript of Apunte 1 Estadistica Prim2015

Page 1: Apunte 1 Estadistica Prim2015

APUNTE Nº 1 ESTADÍSTICA 11ª Unidad: Análisis de Datos Univariados

I. ESTADÍSTICA DESCRIPTIVA

Definiciones: A.      EstadísticaEs un conjunto de conceptos y métodos, empleados para recolectar e interpretar datos referentes a un área de investigación particular y para extraer conclusiones en situaciones en que la variabilidad está presente.El OBJETIVO de la Estadística es hacer INFERENCIAS (predecir, tomar decisiones) sobre algunas características de una población con base en la información contenida en una muestra.B.     Estadística Descriptiva o DeductivaEs una descripción, vale decir, resume y registra, en forma adecuada, un gran conjunto de datos. Estos datos se  recopilan, organizan, tabulan, y se representan mediante gráficos o tablas.C.     PoblaciónPoblación Estadística, es el conjunto completo de posibles mediciones o registros de algún rasgo cualitativo, corresponde a la colección completa de unidades de las que se harán inferencias. La Población representa el objetivo de una investigación y, por ende, es el punto desde donde se recolectan datos para obtener o extraer conclusiones referente a ella.D.     MuestraLa Muestra de una población, es el conjunto de mediciones que  se obtienen en el curso de la recolección, por lo tanto corresponde a un subconjunto de la Población.E.     VariableEs cualquier característica, que diferencia a un miembro de otro, dentro de una misma Población Estadística. Puede tomar un valor cualquiera, obtenido de un conjunto que constituye el dominio de la variable. Se representa por x, y, etc.Atributos: Corresponde a los datos de tipo cualitativo.Por ejemplo: Color de pelo, Nacionalidad, Profesión, Nombres, etc.

Tipos de Variables:Existen dos tipos: Variable Continua y Variable Discreta.Variable ContinuaEs aquella que puede tomar cualquier valor comprendido entre dos valores dados, además se obtiene mediante un proceso de medición . Por ejemplo : la estatura de una persona

Variable DiscretaEs aquella que puede tomar sólo valores enteros, se obtiene mediante un proceso de conteo. Por ejemplo : el número de personas que son atendidas en una Isapre en un mes determinado

F.     DatosConjunto de valores asociados o asignados a una variable.Por ejemplo: Población :  Trabajadores de una empresaMuestra : Trabajadores que laboran en la sección de recursos humanos dentro de la empresaVariable :  Ingresos los trabajadores de la sección de recursos humanos Datos :  $350.000; $425.000; $385.200; $421.400; etc.

Distribuciones de Frecuencias Es usual presentar la ordenación de datos muy numerosos, en forma  agrupada y ordenada, en clases o categorías. Determinar el número de individuos que pertenecen a cada clase, se denomina, Frecuencia de Clase.Una disposición tabular o Tabla de Datos, junto con las correspondientes frecuencias de clase, se llama Distribución de Frecuencias, o Tabla de Frecuencias.

Para confeccionar estas Tablas de Frecuencias, debemos considerar las siguientes situaciones:

Page 2: Apunte 1 Estadistica Prim2015

Si la variable que estamos midiendo, es de tipo Discreto, asumen valores de un conjunto finito, entonces podemos realizar la distribución en columnas, en las cuales se registran los valores de la variable y las frecuencias asociadas a ellas.

Si la variable que estamos midiendo, es de tipo Continuo, pueden tomar cualquier intervalo determinado por los números reales, no tiene sentido  tabularla para cada una de las observaciones, dado que es muy improbable que la variable bajo estudio tome el mismo valor durante el experimento. Dicho de otro modo, cuando en una distribución de frecuencias haya muchos valores distintos de la variable, conviene agruparlos en Intervalos o Clases.

Agrupación de IntervalosSe debe considerar: Recorrido o Campo de Variación de la Variable(RANGO): Es la diferencia entre el mayor y el

menor valor que ella toma. Es decir: Valor máximo – valor mínimo

Número de Intervalos: Debe cumplir con dos condiciones:a.- Resumir la informaciónb.- Conservar el detalle de la muestraExisten diferentes criterios que permiten determinar el número de intervalos. Uno de ellos corresponde a determinar la raíz cuadrada del tamaño de la muestraNúmero de intervalos =

Tamaño o amplitud de los Intervalos: Dependen de la cantidad de datos de la muestra y de su recorrido.

c = Ejemplos :

Variable Tipo DiscretoLos siguientes datos corresponden a las edades (en años) de un grupo de 34 personas:45   36   72   54   45   72   48   62   38   43   48 64   43   36   54   72   64 60   70   38  64   60 70   48   72   62   72    48   54   64   70   43   60 45Tabla de frecuencias que corresponde es:Edad               N° de personas36                   238                         243                         345                         348                         454                         360                  362                         264                470                         372                      5

34

Variable Tipo ContinuoDespués de medir los resultados obtenidos en una prueba para postular a un cargo administrativo dentro de una empresa. de 40 personas, resultaron los siguientes valores de la variable:154   178   150   166   181   175   163   175   150   162152   155   161   165   160   159   160   168   162   162163   155   157   161   162   155   167   164   165   158158   163   166   167   156   164   170   176   172   160Rango de la muestra = 181 - 150 = 31

Si elige intervalos de cuatro puntos de diferencia entre los valores extremos, de cada intervalo entonces:

2

Page 3: Apunte 1 Estadistica Prim2015

                        31:4 = 7,75 aprox. 8 intervalos

Tabla de Frecuencias:Intervalo                               N° de personas150-154                                  3154-158                                  6158-162                                  8162-166                                 11166-170                                  5170-174                                  2174-178                                  3178-182                                  2

Tablas de FrecuenciasPara facilitar el resumen de la información contenida en las Tablas de Frecuencias, es necesario definir algunos conceptos:

a)      Frecuencia o Frecuencia Absoluta ( )Corresponde al número de veces que se repite un valor o una característica determinada, en algunos casos corresponderá al número de valores que caen  en un determinado intervalo.b) Frecuencia total (n) : es el total de la muestra, es decir :

c) Frecuencia Relativa ( )

Si se denota por  a la variable bajo estudio y  al número de veces que   se repite dicha variable, la Frecuencia Relativa corresponderá a la expresión:

  Propiedad a cumplir :

d)      Frecuencia Relativa PorcentualCorresponde a la Frecuencia Relativa multiplicada por 100. e)      Frecuencia Absoluta AcumuladaCorresponde a los valores una vez ordenados que van siendo agregados a través de las distintas clases o categorías.

Propiedad a cumplir : Fm = n

f)      Frecuencia Relativa AcumuladaCorresponde a la Frecuencia Absoluta acumulada partido por el total de observaciones.

Propiedad a cumplir:

Intervalos o clases Para Tablas, en que la variable esté representada por Intervalos, es necesario definir algunos otros conceptos que nos serán de utilidad más adelante.

a)      Intervalos de Clases y Límites de ClasesEl símbolo que define una Clase, como el  150-154, en nuestro ejemplo, se llama Intervalo de Clase. Los números extremos,  150 y 154 se llama límite inferior de clase (150) y límite superior de clase (154).

b)     Fronteras de Clase o límites reales

3

Page 4: Apunte 1 Estadistica Prim2015

Si se dan alturas con precisión de 1 cm., el intervalo de clase 150-154 incluye teóricamente todas las medidas desde 149,5 a 154,5. Estos números se llaman Fronteras de Clase o Límites Reales de Clase. En la práctica, los límites reales se obtienen promediando el límite superior de un intervalo con el inferior del siguiente.

c) Amplitud o tamaño de un Intervalo de ClaseEs la diferencia entre las Fronteras de Clases superior e inferior.

Es decir: c = LRS - LRI

d)     Marca de ClaseEs el punto medio del Intervalo de Clase y se obtiene promediando los límites inferior y superior del intervalo (clase). EjemploLa tabla que resume las puntuaciones obtenidas en el examen de selección es:

Intervalo de   Clase Marca de Clase %150-154 152 3 3 7,5% 7,5 %154-158 156 6 9 15 % 22,5 %158-162 160 8 17 20 % 42,5 %162-166 164 11 28 27,5% 70,0 %166-170 168 5 33 12,5% 82,5 %170-174 172 2 35 5 % 87,5 %174-178 176 3 38 7,5% 95,0%178-182 180 2 40 5% 100,0%

Observación : Verificar si se cumplen las propiedades de las frecuencias.Representaciones Gráficas de las Distribuciones de Frecuencias

a)      HistogramaConsiste en un conjunto de rectángulos con:Bases en el eje X horizontal, centros en las marcas de clases y amplitud ( ancho) iguales a los tamaños de los Intervalos de Clases.Áreas proporcionales a las Frecuencias de Clases.Si los Intervalos de Clases, tienen todos la misma amplitud,  las alturas de los rectángulos son proporcionales a las Frecuencias de Clase, y entonces  es costumbre tomar las alturas iguales a las Frecuencias absolutas.

b)     Polígono de FrecuenciaEs un gráfico de trazos de la Frecuencia de Clase con relación a la marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los rectángulos del Histograma.

Por ejemplo Polígono e Histograma de la Tabla de Frecuencias de la altura.

4

Page 5: Apunte 1 Estadistica Prim2015

  c)      Ojiva

Otra representación gráfica de las Tablas de Frecuencias es la Ojiva, la diferencia entre ésta y el Histograma,  o el Polígono de Frecuencias, es que la Ojiva representa la distribución de frecuencias acumuladas por debajo de cualquiera de las fronteras de clase superiores respecto de dicha frontera.

Por ejemplo

PROBLEMAS RESUELTOS

1. Dadas las siguientes variables, clasifíquelas, en atributos, variables discretas o continuas:a) Valor de la U.F.b) Sueldo de un asistente judicial, en la Región Metropolitanac) Número de cargas familiares de un grupo de trabajadoresd) Número de personas que ingresa diariamente a un bancoe) Valor de dólarf) Número de fojas, que contiene un expediente judicialg) Nacionalidad de los asistentes a un evento musicalSolución:a) Variable continuab) Variable continua

5

Page 6: Apunte 1 Estadistica Prim2015

c) Variable discretad) Variable discretae) Variable continuaf) Variable discretag) Atributo

2) Los siguientes datos corresponden al número de empleados que tienen demanda por pensión alimenticia, en veinte empresas del rubro metalúrgico:

5 0 2 3 12 4 3 2 03 2 1 2 51 3 2 0 4

Con la información anterior construya una tabla de distribución de frecuencias, considerando frecuencias absolutas y relativas.Solución: Los datos anteriores corresponden a una variable discreta, ya que no admite valores intermedios.Los valores de la variable están comprendidos entre 0 y 5, los cuales se ubican en la primera columna, marca de clase.

La segunda columna corresponde a la frecuencia absoluta ( ), la cual se obtiene contando, las veces que se repiten cada uno de los valores de la muestra.

La tercera columna corresponde a la frecuencia absoluta acumulada , el primer valor acumulado es igual al primer valor de la frecuencia absoluta, los siguientes valores , se obtienen a partir de sumas acumuladas.

La cuarta columna corresponde a la frecuencia relativa , que indica el porcentaje de cada

frecuencia absoluta, respecto del total

La quinta columna corresponde a la frecuencia relativa acumulada , el primer valor acumulado es igual al primer valor de la frecuencia relativa, los siguientes valores , se obtienen a partir de sumas acumuladas.

   0 3 3 15% 15 %1 3 6 15 % 30 %2 6 12 30 % 60 %3 4 16 20% 80 %4 2 18 10 % 90 %5 2 20 10   % 100 %

Totales: 20     100%

Con respecto a la tabla anterior, responda lo siguiente:a) Número de empresas, que presentan menos de tres trabajadores con demanda

alimenticia

b) ¿ Qué tanto por ciento de la empresas no presentan empleados con demanda alimenticia?

c) ¿ Qué tanto por ciento de las empresa presentan entre dos y tres demandas por pensión alimenticia?

6

Page 7: Apunte 1 Estadistica Prim2015

d) Número de empresas que presentan a lo menos cuatro trabajadores con problemas judiciales.

Solución :

a) Doce empresas, presentan menos de tres trabajadores con demanda alimenticia, esto se obtiene, considerando la suma de ninguno, uno y dos trabajadores que cumplen esta condición.

b) 15% de las empresas no tienen problemas judiciales, esto lo obtenemos directamente a partir de la tabla.

c) El cincuenta por ciento de las empresas presentan entre dos y tres demandas judiciales, esto corresponde a la suma de la frecuencia relativa de dos y tres trabajadores.

d) Cuatro empresas presentan a lo menos cuatro trabajadores con problemas judiciales, que corresponde a la suma de las frecuencias absolutas de cuatro y cinco trabajadores.

Represente gráficamente la información anterior. 3) La siguiente información nos proporciona el número de causas que ingresan en un día determinado a la corte de apelaciones , presentadas por 50 abogados de diferentes empresas:

5 12 8 25 4 10 15 23 2 08 3 15 18 14 9 6 7 6 214 11 7 9 12 14 10 11 14 4

10 15 4 8 5 12 11 14 8 920 17 14 11 3 4 1 18 12 10

Con la información anterior construya una tabla de distribución de frecuenciasSolución :Rango de la variable: Valor máximo variable – Valor mínimo de la variable R = 25 – 0 = 25Para la construcción de la tabla de distribución consideraremos una amplitud de 5 ( Este valor corresponde a un criterio determinado, Ud. puede elegir otra amplitud, de acuerdo a su criterio)Con respecto al tipo de intervalo, se ha escogido, intervalo cerrado por la izquierda y abierto por la derecha. Cerrado por la izquierda significa que este valor pertenece al conjunto, abierto por la derecha, significa que el valor no está incluido en el intervalo. Usted puede definir otro tipo de intervalo.

Marca de clase     %

0 - 5 2,5 10 10 20% 20%5 –10 7,5 13 23 26% 46 %10 -15 12,5 17 40 34% 80 %15 -20 17,5 6 46 12% 92 %20 -25 22,5 4 50 8% 100 %

Totales: 50 100%

Con respecto a la tabla anterior, responda lo siguiente:¿ Qué cantidad de abogados ingresa entre 5 y menos de 15 causas?¿ Qué porcentaje de abogados ingresan menos 20 causas?¿ Qué cantidad de abogados ingresa menos de 10 causas?Entre que rango varían el mayor número de causas que presentan estos profesionales?Solución:

7

Page 8: Apunte 1 Estadistica Prim2015

Observando los valores de la tabla de distribución, podemos responder las interrogantes anteriores, en forma similar al problema anterior30 abogados ingresan entre 5 y 15 menos de 15 causas.92% de los abogados ingresan menos de 20 causas.23 abogados ingresan menos de 10 causasDiecisiete abogados presentan entre 10 y menos de 15 causas

PROBLEMAS PROPUESTOS

1. La siguiente información corresponde a los sueldos de 40 empleados de la empresa XXX

Con la información anterior, construya una tabla de distribución de frecuencias.

2. . El número de inasistencias de los alumnos, durante 50 clases en la asignatura de estadísticas son :

1 3 0 0 1 0 4 1 1 0 1 2 6 0 1 0 0 0 0 1 0 0 1 2 6 0 1 0 0 1 0 0 2 4 5 6 0 1 2 4 5 2 1 3 1 2 0 1 0 1a) Diseñar una tabla de frecuencias. b ) Completar la tabla con hi, Fi , Hi c) Interpretar estadísticamente f4 , h5 , H5 , F4

8

Page 9: Apunte 1 Estadistica Prim2015

II. ESTADÍGRAFOS DE POSICIÓN

Las medidas de tendencia central son valores que están en el centro o punto medio de un conjunto de datos.Entre las medidas más conocidas se pueden señalar las siguientes:

a) Media aritmética : La media aritmética de un conjunto de valores es el valor que se obtiene sumando los valores y dividiendo el total entre la cantidad de valores. Esta medida recibe también el nombre de promedio aritmético o simplemente promedio.

Notación :

Media = =

Donde : denota la suma de los valores de la muestra o población.n : representa el tamaño de la muestra.N : representa el tamaño de la población.

Si se cuenta con todos los valores de la población la media se denota por

La media aritmética para datos agrupados en tablas de distribución de frecuencias

está dada por : =

donde : x i corresponde al valor observado o a la marca de clasef i corresponde a la frecuencia absoluta .

Ejemplo : Los siguientes datos corresponden a las edades de 6 personas:

34, 33, 44, 29, 45, 25La media aritmética de las edades es:

Se interpreta como que la mayoría de las personas tiene edad cercana a los 35 años.

Media aritmética para muestras estratificadas.

Para más de una muestra, si se tiene la media aritmética ( ) y el tamaño ( n i ), de cada una de las muestras se puede determinar la media aritmética de la siguiente forma:

=

Ejemplo : En una fábrica, se tiene que el sueldo promedio de 90 empleados de la sección A es de $560.000, el sueldo promedio de 60 empleados del sección B es de $ 600.000 y el sueldo promedio del de 50 empleados sección C es de $ 500.000.

9

Page 10: Apunte 1 Estadistica Prim2015

El sueldo promedio de los empleados de la fábrica es igual a: = = 557000

La media o promedio de sueldo de los trabajadores de la fábrica es de $ 557.000

Propiedades de la media aritmética

1)

2) k = ; k R

3) ; k R

Ejemplo :Los siguientes datos corresponden a las edades de 8 personas:

x i : 35, 25, 36, 45, 36, 39, 40, 26.

La media aritmética es: =

¿Cuál será la media dentro de 5 años? = Que es igual a sumar 5 a la media aritmética: + 5 = 35 + 5 = 40

b) Mediana ( Me) : La mediana de un conjunto de valores es a que se encuentra en medio de los valores ordenados en forma ascendente ( o descendente) .Para obtener la mediana, primero se clasifica los valores y luego se decide de acuerdo a uno de los siguientes criterios:

i) Si el NÚMERO DE DATOS ES IMPAR, la mediana es el número que está situado exactamente a la mitad de la lista.Ejemplo : Obtenga la mediana de estos tiempos de supervivencia en años (después de entrar en funciones) de los primeros cinco presidentes de Estados Unidos.

10 29 26 28 15Al ordenar los valores: 10 15 26 18 29Se obtiene que el valor que está justo en la mitad es 26, es decir: Me= 26

ii) Si el NÚMERO DE DATOS ES PAR, la mediana se obtiene sumando los valores que están en medio y dividiéndolos por 2.

Ejemplo: Los siguientes valores representan los sueldos ( en miles de pesos) de 6 funcionarios de la empresa G. E: 600, 556, 356, 700, 450, 659.

Al ordenar los valores: 356, 450, 556, 600, 659, 700

Se obtiene que la mediana es = 578

Si los datos están agrupados en tablas de distribución de frecuencias la mediana se determina a partir de la siguiente fórmula:

M e = L IR +

Donde L i : Es el límite inferior del intervalo o clase.

10

Page 11: Apunte 1 Estadistica Prim2015

C : es la amplitud del intervaloF i – 1 : Es la frecuencia acumulada del intervalo anterior.f i : es la frecuencia absoluta de la clase o intervalo.

Profundidad de Mediana d(Me ) =

Ejemplo: Sean los datos 6, 7 , 8 , 9 , 9 y 10 d( Me) = Esto significa

que, la mediana está a la mitad entre la porciones de datos tercera y cuarta. Luego Me = 8,5

Ejemplo : La siguiente distribución de frecuencias representa el número de días durante un año, que los empleados y obreros de una compañía manufacturera, estuvieron ausentes del trabajo debido a enfermedad.

Nº de inasistencias

Nº de empleados ( f i )

F i

0 – 2 5 53 – 5 12 176 – 8 20 37

9 – 11 10 4712 - 14 3 50

n = 50

Ubicamos el 25 en la frecuencia acumulada La mediana ( o valor mediano) se encuentra en el intervalo 6 – 8 ( que se denomina INTERVALO MEDIANO)

Observación : El límite inferior del Intervalo Mediano debe ser Real para el cálculo de la Mediana.

M e = 5,5 + = 6,7

Interpretación : Para este grupo de 50 empleados , el 50% de las inasistencias se encuentra en 6,7 7 días.

Moda ( M o ) : La moda de un conjunto de datos es el valor que más se repite, es decir, el valor de mayor frecuencia.

Si hay dos datos que tienen la misma frecuencia, y esta frecuencia es la más alta, los dos valores son moda. En tal caso la distribución se denomina bimodal . Si ningún valor se repite, no hay moda.

Ejemplo : Los siguientes valores representan los sueldos ( en miles de pesos) de 8 funcionarios de la empresa G. E: 600, 556, 356, 700, 450, 659. 450 , 450.

Para este caso M o = 450.000

La moda para de un conjunto de datos agrupados está dada por :

11

Page 12: Apunte 1 Estadistica Prim2015

M o = L IR +

Donde : es la diferencia entre la frecuencia del intervalo modal y la frecuencia anterior.

es la diferencia entre la frecuencia del intervalo modal y la frecuencia posterior.

Ejemplo : Para la distribución dada.

Nº de inasistencias

Nº de empleados ( f i )

0 – 2 53 – 5 126 – 8 20

9 – 11 1012 - 14 3

Se tiene que la frecuencia absoluta más alta es f3 = 20 y eso indica que la moda se encuentra en el intervalo 6 – 8.

Recuerda que : según la fórmula se necesitan los límites reales del "INTERVALO MODAL"Para determinar el valor que denominaremos moda, se procede de la siguiente forma:Determinar

= f 3 – f 2 = 20 – 12 = 8= f 3 – f 4 = 20 – 10 = 10

M o = 5,5 + = 6.83

Interpretación: El número de inasistencias que ocurre mmás se repite para la muestra de 50 empleados es de 6,8 = 7 días

El valor denominado moda, no siempre es un valor de la muestra.

COMPARACIÓN ENTRE MEDIA, MEDIANA, Y MODA.

i) Si la distribución de frecuencias de la variable es simétrica, las tres medidas coinciden.ii) Si la distribución es unimodal y es sesgada a la derecha ( asimétrica positiva) , entonces

M o < M e < iii) Si la distribución es unimodal y es sesgada a la izquierda ( asimétrica negativa ) , entonces

< M e < M o

12

Page 13: Apunte 1 Estadistica Prim2015

OTRAS MEDIDAS DE POSICIÓN:

Las medidas de localización dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra. Así en psicología los resultados de los test o pruebas que realizan a un determinado individuo, sirve para clasificar a dicho sujeto en una determinada categoria en función de la puntuación obtenida. Estos medidas según su localización son :

1. Cuartiles. 2. Deciles. 3. Percentiles.

Los percentiles, deciles y cuartiles corresponden a medidas de posición , pero no de tendencia central.

a) Percentiles : Son los 99 valores que dividen la distribución en 100 partes iguales. Se designan por P1 , P2 ,..., P 99 , donde P1 es el percentil 1, P2 es el percentil 2, etc .

Ejemplo 1En una distribución de notas, el percentil 45 es una nota de referencia que permite afirmar

que el 45% de los alumnos tiene una nota igual o inferior a esa nota o que el ( 100-46)% tiene una nota superior a esa nota.

Para determinar el percentil se utiliza la siguiente fórmula:

P p = L i +

Ejemplo 2: Los siguientes datos corresponden a puntajes obtenidos por 55 personas en un

test de habilidades mentales.

Clase f i F i10 - 20 6 620 – 30 5 1130 – 40 16 27 40 – 50 10 3750 – 60 5 4260 – 70 5 4770 - 80 8 55

i) Determinar el percentil 40 .

13

Page 14: Apunte 1 Estadistica Prim2015

n = 55

Ubicamos el 22 en la frecuencia acumulada. El percentil 40 está en el intervalo 30 – 40

P 40 = 30 + = 36,875 = 36,88

El 40% de las personas obtuvo un puntaje menor o igual a 36,88.

ii) Determine el percentil 50, interprete.

b) Cuartiles : Medida de localización que divide la población o muestra en cuatro partes iguales.

Q1= Valor de la variable que deja a la izquierda el 25% de la distribución. Q2= Valor de la variable que deja a la izquierda el 50% de la distribución = mediana. Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.

Su expresión es :

Observación : P 25 = Q 1 ; P 50 = Q 2 ; P 75 = Q 3

c) Deciles : Medida de localización que dividen a la distribución en 10 partes iguales, por lo tanto hay 9 deciles.

Observación : El percentil 50, el cuartil 2 y el decil 5 coinciden con la mediana, es decir :

M e = P 50 = Q 2 = D 5

EJEMPLO:Dada la siguiente distribución de frecuencia , calcular Q1 , Q3 , D3 y P45

Li-1 Li ni Ni45 55 6 655 65 10 1665 75 19 3575 85 11 4685 95 4 50

Solución : Como se puede observar la forma de calcular estas medidas (Cuartiles) es muy similar a la del cálculo de la mediana.

Cálculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25% de N=50, corresponde al 2º intervalo. (50/4 = 12.5)

14

Page 15: Apunte 1 Estadistica Prim2015

Análogamente calculemos Q3, Buscamos ahora en la misma columna el correspondiente al 75 %de N que en este caso es el 4º intervalo (3.50/4=37.5)

Veamos ahora el decil 3º. (corresponde al 30 % 3 · 50 / 10 = 15) sería el 2º intervalo.

Por último veamos el percentil 45 (45·50/100 = 22.5) Corresponde al intervalo 3º.

III. ESTADÍGRAFOS DE DISPERSIÓN

Las medidas de posición por sí solas, no son suficientes para describir o comparar distribuciones, ya que ellas no consideran la variabilidad ( o dispersión) de los valores observados.La idea de dispersión se relaciona con la mayor o menor concentración de los datos en torno al promedio y por lo tanto la mayor o menor representatividad de este. Los datos tienen mayor dispersión cuando están más alejados del promedio y tienen menor dispersión si el conjunto de datos está mas cerca del promedio.Las medidas de dispersión son los valores típicos de cada conjunto de datos que expresan la forma en que ellos se alejan con respecto a cierto valor.

a) Rango o Intervalo : Se define como la diferencia entre le valor máximo y el valor mínimo observado en la muestra. Si los datos están agrupados en intervalos, se hace la diferencia entre el límite inferior del primer intervalo y el límite superior del último intervalo.

Esta medida no es muy útil, ya que depende de los valores extremos y por error puede aparecer un valor muy grande o muy pequeño.

b) Desviación estándar y Varianza:

i) La desviación estándar toma en cuenta todos los valores de la muestra y corresponde a una medida de la variación de los alrededor de la media y se calcula con la siguiente fórmula:

15

Page 16: Apunte 1 Estadistica Prim2015

ii) La varianza corresponde a la desviación estándar al cuadrado ,es decir:

v ( x ) = s 2 =

La varianza para datos agrupados se determina con la siguiente fórmula :

v ( x ) = s 2 =

Observación: Una forma abreviada de calcular la varianza y la desviación estándar:

V(x) = s =

c) Coeficiente de Variación : Es una medida de variabilidad que no depende de la unidad de medida. Se expresa, generalmente en porcentaje.

CV(x) = 100% donde: s x es la desviación estándar de la variable x

APLICACIONES

1) Los sueldos promedios expresados en pesos en las secciones de una empresa son, respectivamente: A : $ 150.900, B :$ 273.500 y C : $ 361.000. Si el número de empleados en cada sección es: 160, 91 y 30 respectivamente.

a) Determine el sueldo promedio de los empleados de la empresa.b) Determine el sueldo promedio de los empleados, si en la sección B hay un

reajuste del 4,5%.

2) A cada persona que se presenta como candidato para un trabajo de ensamble es una empresa de muebles, se le aplica una prueba de aptitudes mecánicas. Una parte de la prueba consiste en ensamblar un armario con base e instrucciones numeradas. En la siguiente distribución de frecuencias se tiene una muestra de los tiempos que necesitaron 42 personas para ensamblar el armario.

Tiempo ( mín)

f i F i h i H i

1 – 4 44 – 7 8

7 – 10 1410 – 13 913 – 16 516 - 19 2

a) ¿Cuál es la amplitud total? :b) ¿ Cuál es el tiempo medio de la 5ta clase?c) ¿ Cuántas personas ensamblaron el armario en menos de 10 minutos?d) ¿ Qué porcentaje de las personas a lo más tardó 16 minutos en ensamblar el armario?e) ¿ Cuál es el tiempo promedio de ensamble del armario?f) ¿Cuántas personas tardaron, en promedio, 5 minutos y medio?g) Interprete f 2, , F 4 , H 3

16

Page 17: Apunte 1 Estadistica Prim2015

3) El ministerio de agricultura en su informe anual, publicó el siguiente histograma. El texto decía que correspondía a los ingresos netos ( millones de pesos) en 1992 de una muestra de parcela subvencionadas en parte por el estado.

Nº de parcelas

16 ----------------------- 14 -- 12 ----------- 10 -- 9 8 -- 7 6 -- 4 -------------------------------------- 2 --------------------------------------------------------

0 5 10 15 20 25 30 35 Ingresos

a) Calcule el número de parcelas consideradas en el estudiob) Genere la tabla de frecuenciasc) Halle el ingreso promedio de las parcelas.d) En qué clase se encuentra la mayor cantidad de observaciones.e) Determine el 50% de la muestra.f) Determine la varianza, desviación estándar y el coeficiente de variación.

4) Los siguientes datos corresponden a los ingresos percibidos por los trabajadores del departamento de ventas de una empresa: ( en miles de pesos)

SUELDOS NÚMERO DE EMPLEADOS

Marca de

Clase240 – 290 2290 – 340 4340 – 390 12390 – 440 25440 – 490 3490 – 540 2

a) Complete la tabla para los ingresos percibidosb) Calcular :

- El ingreso promedio mensual- La mediana- La desviación estándar- El coeficiente de variación

5) Las distribuciones de ingresos de dos países son las siguientes.

PAÍS A PAÍS BIngresos anuales Población

remuneradaIngresos Anuales Población

remunerada80 - 100 30000 60 - 90 10000

17

Page 18: Apunte 1 Estadistica Prim2015

100 - 120 80000 90 - 120 20000120 - 140 40000 120 - 150 50000140 - 160 10000 150 - 180 20000160 - 180 4000 180 - 210 15000180 - 200 1000 210 - 240 10000

240 - 270 4000

a) Encontrar los ingresos anuales correspondiente para ambos países.b) Calcular la desviación estándar para los ingresos del país B.c) Compare la desviación para los ingresos de ambos países.d) Calcular el coeficiente de variación para el país B.

6) Los siguientes datos corresponden a los tiempos (en minutos) que demoran los clientes en una cafetería.

tiempo N° de clientes

20-40 10

40-60 15

60-80 25

80-100 8

100-120 3

120-140 2

a) Cuál es el tiempo más frecuente de permanencia de los clientes en la cafetería? Mod =70

b) Cuál es el tiempo promedio de permanencia en la cafetería.

c) En cuántos minutos se encuentra el 50% del tiempo de estadía?

e) Obtener el histograma para el tiempo de permanencia.

7) La siguiente  Tabla de Distribución corresponde a las ventas diarias (en miles de pesos) de un  Centro Comercial  en Santiago.

Xi ni

100-150 10

150-200 25

200-250 30

250-300 8

300-350 5

a) Calcular la desviación típica para las ventas.

b) Encontrar el coeficiente de variación.

18

Page 19: Apunte 1 Estadistica Prim2015

c) Representar las ventas diarias en una ojiva.

8)   En la oficina de un diario , el tiempo que se tardan en imprimir la primera plana fue registrado durante 50 días. A continuación se transcriben los datos , aproximados en décimas de minuto.

Minutos fi19,0 – 19,7 419,8 – 20,5 420,6 – 21,3 1021,4 – 22,1 522,2 – 22,9 723,0 – 23,7 523,8 – 24,5 1124,6 – 25,3 4a) Calcular para los datos las medidas de tendencia central.b) Representar gráficamente la información.c) Calcular la varianza para el tiempo de impresión.

9) Antes de construir una presa sobre el río Colorado, el Army Corps of Engineers efectuó una serie de pruebas para medir el flujo de agua más allá del sitio propuesto por la obra. Los resultados de las pruebas son:

Flujo del río (miles galones por mín)

Frecuencia

1,001 –1,050 71,051 – 1,100 211,101 – 1,150 321,151 – 1,200 49 1,201 – 1,250 581,251- 1,300 411,301 – 1,350 271,351 – 1,400 11

a) Con los datos calcular donde se encuentra el 50% de ellos.b) Cuánto flujo se obtuvo en la mayor cantidad de muestras.

10) El Ministerio de Economía en relación a un estudio , publicó el siguiente histograma. El texto decía que correspondía a los ingresos netos mensuales (en millones de pesos) en 2001 de un grupo de microempresarios . 20 16 - 15 14 - 12 12 - 11 10 - 9 8 - 6 6 4 - 4 2 - 5 10 15 20 25 30 35 40 a) Calcular el número de microempresarios considerados en el estudio.b) Hallar el ingreso promedio de los empresarios.c) Encontrar el valor de la desviación máxima.

19

Page 20: Apunte 1 Estadistica Prim2015

d) Calcular la dispersión para los ingresos netos.e) Calcular el coeficiente de variación.

11) Los siguientes datos corresponden a los ingresos percibidos por los trabajadores del departamento de ventas de una empresa ( en miles de pesos )

SUELDOS NUMERO DE EMPLEADOS

240 - 290 2 290 - 340 4 340 - 390 12 390 - 440 25 440 - 490 3 490 - 540 2

a) Calcular el ingreso promedio mensual del departamento de ventas. Realice la mejor gráfica.b) Calcular la varianza.c) Calcular el coeficiente de variación. d) Encontrar las medidas de tendencia central para los sueldos.

12) La siguiente distribución corresponde a los pesos de 80 variedades de espárragos , para exportación medidos en grms.

PESOS fi10 - 13 1013 - 16 2016 - 19 3019 - 22 1522 - 25 5

a) Calcular los estadígrafos de posición , para la distribución de espárragos. b) Indicar el tipo de simetría que presentan los espárragos.

13) Dado el conjunto de los siguientes valores en (US$) ganados por un grupo de amigos en un cierto juego: yi = ( 2 , 6 , 4 , 2 , 5 , 3 , 2 , 0 ,1 , 3 )

Calcular el valor de los estadígrafos de posición.

14) Sean las siguientes tasas de interés correspondientes a préstamos hipotecarios otorgados por una cierta entidad financiera de Santiago.

8,5 7,5 8,25 8,2 7,5 9 8,5 7,75 8,5 8,5 9,06 7,6 8,1 9,2 7,09

a) Calcular los estadígrafos de posición. b) Calcular la desviación estándar y el coeficiente de variación para la muestra.

20