Post on 27-Oct-2019
Bioestadística
Sesión 2-3: Estadística descriptiva
1
José Aurelio Pina Romero Ja.pina@ua.es Bioestadística – Grado Enfermería UA- Departamento de Enfermería
-Sesión 1 n Población y muestra n Tipo de variables à codificar
¨ Cualitativas o categóricas (factores): Nominales, Ordinales ¨ Cuantitativas o Numéricas: Discretas, Continuas
n Tablas de frecuencia (fi, Fi, fri, Fri, %) n Gráficos
¨ V.cualitativas: diagrama de barras, diagrama de sectores ¨ V.cuantitativas: diagrama de barras(v.discretas), Histogramas
¨ Medidas (v.cuantitativas) ¨ Medidas tendencia central: media(promedio), mediana, moda
n Estadístico (muestra) us Parámetro (población)
¨ Medidas de posición: percentiles, cuartiles, deciles,… ¨ Medidas de dispersión: varianza, desviación típica, cv, rango ¨ Medidas de asimetría: indicadores
2
µ,σ 2,σ ,X ,S 2,S ,
-Sesión 1: medidas de tendencia central
n media(promedio)
¨ Sensible valores extremos ¨ Centro gravedad datos ¨ Utiliza todos los datos
n Mediana ¨ Divide observaciones en dos grupos con = individuos/datos ¨ No es sensible valores extremos ¨ Conveniente datos asimétricos ¨ Datos pares/impares
n Moda ¨ Es el/los valor/es donde la distribución de frecuencia alcanza un
máximo ¨ valor que más se repite
3
n
xx
n
ii∑
== 1
21+
=nrMd
-Sesión 1: medidas dispersión
Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. n rango
¨ Sensible valores extremos
n Varianza ¨ Es sensible a valores extremos (alejados de la media). ¨ Sus unidades son el cuadrado de las de la variable
n Desviación tipica n Tiene la misma dimensionalidad (unidades) que la variable. n Versión ‘estética’ de la varianza
n Coeficiente Variación n Rango intercuartílico (P75 - P25 )
¨ No es tan sensible a valores extremos
4
S 2 =1n
X i − X( )2=
i =1
n
∑X i
2
i =1
n
∑n
− X2
n Coeficiente de variación Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. Suele ser expresado en porcentaje, pudiendo alcanzar valores entre 0 e ∞
CV =sx(x100)
5
Ejemplo: 5 pacientes Peso (70,60,56,83,79 Kg) TAS (150,170,135,180,195 mmHg) ¿Qué distribución es más dispersa?
X = 69,6kgS =10,44CV =10,44 / 69,6 =15%
X =166mmHgS = 21,31CV = 21,30 /166 =12,8%
Medidas de posición n Se define el cuantil de orden α como un valor de la variable por debajo
del cual se encuentra una frecuencia acumulada α.
n Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
6
Medidas de posición n Percentil de orden k
¨ La mediana es el percentil 50 ¨ El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%
n Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. ¨ Primer cuartil = Percentil 25 ¨ Segundo cuartil = Percentil 50 = mediana ¨ Tercer cuartil = Percentil 75
7
Ejemplos: percentiles
rq =q100
(n +1)
8
BMI: 18, 19, 18, 23, 26, 24, 21, 20, 23, 31, 29, 17, 27, 25, 16 n=15
+ - Variable Pq%
q% (100-q)%
pq = (1− f )x i + fx i +1
p90 = (1−0,4) ⋅29+0,4 ⋅31= 29,8r90 =90100
(15+1) =14,4
f parte fraccionaria de rq
16,17,18,18,19,20,21,23,23,24,25,26,27,29,31
Ejemplos: percentiles
Teorema de Thales
9
+ - Variable Pq%
q% (100-q)%
BMI: 18, 19, 18, 23, 26, 24, 21, 20, 23, 31, 29, 17, 27, 25, 16 n=15
Ejemplos: percentiles
r90 =90100
(15+1) =14,4
10
BMI: 18, 19, 18, 23, 26, 24, 21, 20, 23, 31, 29, 17, 27, 25, 16 n=15 Valores
Posición
P90% 29 31
14 14,4
15
p90 − 2914,4−14
=31− 2915−14
Pasos: 1) Ordenar los datos
2) Calcular Posición/rango 3) Calcular el percentil
16,17,18,18,19,20,21,23,23,24,25,26,27,29,31
percentile q para n personas X1 ,X2 , X3 , X4 ,X5 ,X6 , X7 , X8 , X9 , X10 ,X11,X12 , . . . ,,Xn
Pasos: 1. Ordenar los datos 2. Calcular rango/posición 3. Calcular el percentil
Values
Positions i
i+1 i+f
Xi Xi+1 Pq%
pq = (1− f )x i + fx i +1
rq =q100
(n +1)
f parte fraccionaria de rq
¨ Media
¨ Rango
¨ Varianza
¨ Percentiles
2ss =
rq =q100
n +1( )12
x =xmi ⋅ f i
i =1
n
∑n
R = xmmax − xmmin
s 2 =xmi − x( )
2⋅ f i
i =1
n
∑n
=xmi
2 ⋅ f ii =1
n
∑n
− x2
Datos organizados en tabla
Pq = l i +q ⋅n / 100−Fi −1
Fi −Fi −1
⎛
⎝⎜⎜
⎞
⎠⎟⎟ai
Variable(Li) xmi fi Fi
[l0 – L0) xm1 f1 F1
[l1 – L2) xm2 f2 F2
... Fi-1
[li – Li) xmi fi Fi
n
si está en intervalos usar como xmi las marcas de clase.
ai = amplitud del intervalo
Desviación típica
Ejemplo
Tiempo en meses Nº de sujetos
0 - 6 6 - 12
12 - 18 18 - 24 24 - 30 30 - 36
28 14 10 8 8 5
Total 73
13
En un estudio sobre supervivencia tras un tratamiento con quimioterapia para cierto tipo de cáncer ha sido registrado el tiempo transcurrido desde el inicio del tratamiento hasta el fallecimiento de los individuos. Los tiempos registrados se resumen en la tabla adjunta, agrupados por intervalos de 6 meses de amplitud:
Histograma
0
5
10
15
20
25
30
3 9 15 21 27 33
Tiempo de supervivencia
Frec
uenc
ias
Abs
olut
asTiempo en
meses Marca de clase
(Xmi) Frecuencias
Absolutas (fi) Frecuencias Absolutas
Acumuladas (Fi) Frecuencias relativas (fri) Porcentaje (pi) Porcentaje
Acumulado(Pi) 0 - 6 3 28 28 28/73 = 0,38 38% 38% 6 a 12 9 14 42
14/73 = 0,19 19% 57% 12 a 18 15=(18+12)/2 10 52 10/73 = 0,14 14% 71=38+19+14 18 - 24 21 8 60=28+14+10+8 8/73 = 0,10 10% 81% 24 - 30 27 8 68 8/73 = 0,10 10% 91% 30 - 36 33 5 73 5/73 = 0,07 7% 98%≈ 100%
Total 73 1,00 100%
14
Tiempo
Marca de clase (xmi)
fi Fi
0 - 6 3 28 28
6 a 12 9 14 42
12 a 18
15 10 52
18 - 24
21 8 60
24 - 30
27 8 68
30 - 36
33 5 73
Total 73
15
x =xmi f i
i =1
6
∑n
=3× 28( )+ 9×14( )+ ...+ 33×5( )
73=12,45
Moda = 3 meses Mediana: 1.- Los datos por encontrarse en una tabla están ordenados 2.-Calculamos la posición: 3.-Calculamos el percentil 50
rq =q100
n +1( ) = 50100 73+1( ) = 37
P50 = x i +q ⋅n / 100−Fi −1
Fi −Fi −1
⎛
⎝⎜⎜
⎞
⎠⎟⎟ai = 6+
36,5− 2842− 28
⎛
⎝⎜
⎞
⎠⎟6 = 9,64
Varianza = ( )
( ) ( )73
545,1233...2845,123 221
2
2 ×−++×−=
−
=
∑=
n
fxx
s
n
iii
=11,16 meses2 Desviación típica = s = 3,34 meses y el Coeficiente de variación = Cv = 0,27
Por tanto el tiempo de supervivencia está entorno a 12,45 meses con una variabilidad entorno a este valor de 3,34 meses.
Media
Percentil 95
Tiempo Xmi fi Fi
0 - 6 3 28 28
6 a 12 9 14 42
12 a 18 15 10 52
18 - 24 21 8 60
24 - 30 27 8 68
30 - 36 33 5 73
Total 73
16
Esta variable recoge el tiempo entre el inicio del tratamiento con quimioterapia y la defunción del paciente, por tanto buscamos aquel valor de la variable (tiempo en meses) tras el cual quedan vivos solo el 5% de la población, o lo que es lo mismo, por debajo de este valor quedarán las defunciones del 95% de la población. Calculamos por tanto el percentil del 95%:
1.- Los datos por encontrarse en una tabla están ordenados 2.-Calculamos la posición: luego fijándonos en las frecuencias acumuladas obtenemos el intervalo que referencia, en este caso es el último. 3.-Calculamos el percentil 95
P95% = X i +qn / 100−Fi −1Fi −Fi −1
⎛
⎝⎜⎜
⎞
⎠⎟⎟ai = 30+
69,35− 6873− 68
⎛
⎝⎜
⎞
⎠⎟× 6 = 31,62 meses
rq =q ⋅ (n +1)100
=95 ⋅74100
= 70,3
Otra forma de calcular los percentiles FiF1F2.Fi .Fn-1Fn
X [l1-L1) f1[l2-L2) f2
. .[li-Li) fi
. .[ln-1-Ln-1) fn-1 [ln-Ln] fn
ifPasos: 1. Ordenar los datos. 2. Calcular la posición r=(n+1)q/100 3. Calcular percentil
[li-Li) is the Reference Interval
Position Fi-1
Pq% li Li
Fi
Values
Pq − l in ⋅q100
−Fi −1=Li − l iFi −Fi −1
Pq = l i +n ⋅q100
−Fi −1Fi −Fi −1
⎛
⎝
⎜⎜⎜⎜
⎞
⎠
⎟⎟⎟⎟ai
Gráficos variables cuantitativas à Polígonos de frecuencias
18
Distribución asimétrica positiva à media > mediana Distribución asimétrica negativa à media < mediana
Distribución simétrica à media = mediana fichero:meses.xls
0
5
10
15
20
25
3 9 15 21 27 33 39 45
Histogramaypolígonodefrecuencias
0
2
4
6
8
10
12
14
3 9 15 21 27 33 39 45
Histogramaypolígonodefrencuencias
0
5
10
15
20
25
3 9 15 21 27 33 39 45
Histogramaypolígonodefrecuencias
Gráficos variables cuantitativas à Polígonos de frecuencias acumulado
19
Gráficos variables cuantitativas à Polígonos de frecuencias
20
Medidas de forma: datos sin agrupar x1, x2, ..., xn
n Coeficiente de asimetría:
n Coeficiente de curtosis
21
As =
x i − x( )3
i =1
n
∑ns 3
Cu =
x i − x( )4
i =1
n
∑ns 4
As = 0→SimetriaAs>0→ Asimetria positivaAs < 0→ Asimetria negativa
Cu = 3→MesocúrticaCu>3→LeptocúrticaCu < 3→Platicúrtica
Medidas de forma: datos agrupados por intervalos
n Coeficiente de asimetría:
n Coeficiente de curtosis
22
As =
xmi − x( )3⋅ f i
i =1
n
∑ns 3
Cu =
xmi − x( )4⋅ f i
i =1
n
∑ns 4
Variable(Li) xmi fi Fi
[l0 – L0) xm1 f1 F1
[l1 – L2) xm2 f2 F2
... Fi-1
[li – Li) xmi fi Fi
n
As = 0→SimetriaAs>0→ Asimetria positivaA < 0→ Asimetria negativa
Cu = 3→MesocúrticaCu>3→LeptocúrticaCu < 3→Platicúrtica