MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES
MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT - UPC APUNTS DE CLASSE PROF. LÍDIA MONTERO:
Introducció a l’Anàlisi Exploratori de Dades
AUTORA:
Lídia Montero Mercadé
Departament d’Estadística i Investigació Operativa
Versió 1.3
Setembre de 2.013
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 2 Curs 2. 01 3- 2. 01 4
1-1. WEB DOCENT: HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 3 Curs 2. 01 3- 2. 01 4
1-1. WEB DOCENT: HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 4 Curs 2. 01 3- 2. 01 4
1-2. WEB DOCENT: HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 5 Curs 2. 01 3- 2. 01 4
1-1.WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:
HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 6 Curs 2. 01 3- 2. 01 4
1-1.WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:
HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
• WOMENLF.TXT. Dades de Fox sobre participació laboral femenina. WOMEN'S LABOUR-FORCE PARTICIPATION DATASET, CANADA 1977 [1] OBSERVATION [2] LABOUR-FORCE PARTICIPATION fulltime = WORKING FULL-TIME parttime = WORKING PART-TIME not_work = NOT WORKING OUTSIDE THE HOME [3] HUSBAND'S IINCOME, $1000'S [4] PRESENCE OF CHILDREN absent present [5] REGION Atlantic = ATLANTIC CANADA Quebec Ontario Prairie = PRAIRIE PROVINCES BC = BRITISH COLUMBIA Source: Social Change in Canada Project, York Institute for Social Research.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 7 Curs 2. 01 3- 2. 01 4
1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:
HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
• DUNCAN1. Dades de Fox sobre el prestigi de diversos llocs de treball. Data on Prestige of American Occupations [1] Occupational title [2] Type: prof = Profession and Managerial wc = White Collar bc = Blue Collar [3] Income: Percent of males in occupation earning $3500 or more in 1950 [4] Education: Percent of males in occupation in 1950 who were high-school graduates [5] Prestige: Percent of raters in NORC study rating occupation as excellent or good in prestige Source: Table VI-1 in O. D. Duncan (1961), "A socioeconomic index for all occupations," in A. J. Reiss, Jr., Occupations and Social Status, New York, Free Press.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 8 Curs 2. 01 3- 2. 01 4
1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:
HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
• DAVIS.TXT. Dades proposades per Fox sobre pesos i alçades humans. Data on Self-Reports of Height and Weight Among Men and Women Active in Exercise [1] Subject number [2] Sex of subject: M = male F = female [3] Measured weight in Kg [4] Measured height in cm [5] Reported weight in Kg [6] Reported height in cm Note: Missing data are given by ? Source: Personal communication from C. Davis, Departments of Physical Education and Psychology, York University.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 9 Curs 2. 01 3- 2. 01 4
1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:
HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
• Dades de Angell (1951) sobre integració social en funció de l’heterogeneitat racial, la mobilitat de la població i la zona dels EEUU.
Data on the Moral Integration of American Cities [1] City [2] Moral Integration: Composite of crime rate and welfare expenditures. [3] Ethnic Heterogenity: From percentages of nonwhite and foreign-born white residents. [4] Geographic Mobility: From percentages of residents moving into and out of the city. [5] Region: E = Northeast MW = Midwest S = Southeast W = West Source: Table 9 in R. C. Angell (1951), "The moral integration of American Cities," American Journal of Sociology, 57 (part 2): 1-140.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 0 Curs 2. 01 3- 2. 01 4
1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:
HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
• Dades de Moore i Krupat sobre un experiment sociològic per determinar la tolerància social.
Moore and Krupat's Data on Status, Authoritarianism, and Conformity [1] SUBJECT [2] STATUS: low high [3] CONFORMITY [4] F-SCALE CATEGORIZED: low medium high [5] F-SCALE SCORE Source of data: J. C. Moore, Jr. and E. Krupat (1971). Relationship between source status, authoritarianism and conformity in a social setting. Sociometry, 34: 122-134. Personal communication from J. Moore, Department of Sociology, York University.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 1 Curs 2. 01 3- 2. 01 4
1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:
HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID
• LEINHART & WASSERMAN : Mortalitat infantil segons la renda per càpita. Leinhardt and Wasserman's Data on Infant-Mortality [1] Nation [2] Per-capita income in US dollars [3] Infant-mortality rate per 1000 live births, around 1970 ? = missing [4] Region: Americas Africa Europe Asia = Asia and Oceania [5] Oil-exporting country: yes no Sources of data: Table 3 in S. Leinhardt and S. S. Wasserman (1979), "Exploratory data analysis: An introduction to selected methods," in K. Schuessler, ed., Sociological Methodology 1979. San Francisco: Jossey-Bass; and p. E-3 New York Times, 28 Sept 1975.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 2 Curs 2. 01 3- 2. 01 4
1-2. DINÀMICA DE LES CLASSES DE LABORATORI
• Sessions de dues hores a l’aula de PC’s. • Les pràctiques es realitzen en grups de dos. • Necessari haver llegit abans d’assistir a classe el contingut de la pràctica
corresponent. • Durant els primers 20-30 minuts es dona una explicació de la Sessió
corresponent • Desenvolupament de la Sessió (guiada) durant la resta del temps: segons
el guió establert al Web Docent de l’assignatura. 1a Sessió: El software estadístic R i l’anàlisi exploratori de dades
R version 2.11.1 (2010-05-31) Copyright (C) 2010 The R Foundation for Statistical Computing
ISBN 3-900051-07-0
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 3 Curs 2. 01 3- 2. 01 4
1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA I R
Dades d’Edat i Lloc de Residència dels components de la classe de MCAID-MLTM-UPC: • Descripció 1 variable (descriptiva univariant) • Descripció de variables per grups • Descripció de 2 variables simultàniament.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 4 Curs 2. 01 3- 2. 01 4
1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Descripció d’una variable contínua: Missing i Outliers • Una dada és un outlier si és una observació anormalment llunyana de la
resta. Un outlier no ha de correspondre forçosament a una error de codificació/gravació.
• Les dades anomenades missings vol dir desaparegudes, en el cas d’una
enquesta, una no resposta. En R, es codifiquen amb un valor especial: NA. • Valors Numèrics:
Mesures de Tendència Central: Mitjana, Mediana, Moda. Mesures de la Dispersió: Variança, Desviació Estàndar, Quartils, IQR (rang interquartilar = Q3-Q1), Màxim, Mínim.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 5 Curs 2. 01 3- 2. 01 4
1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
• Representacions Gràfiques per una variable numèrica: - Histograma, Histograma Acumulat. - BoxPlot, Dotplot. - Pie Chart, Diagrama de Barres.
Descripció d’una variable categòrica • Representacions Gràfiques
- Histograma, Histograma Acumulat. - Pie Chart.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 6 Curs 2. 01 3- 2. 01 4
1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Estadística Descriptiva Univariant Continua: Indicadors numèrics en R: > summary(data.frame)
• Mitjana x = ∑=
11n xi
i
n (Media, mean)
• Mediana: Valor de la variable tal que 50% Observacions són < Mediana (Q2) & 50% Observacions són > Mediana (Q2) (Mediana, median)
• Quartil Q1 del 25% i quartil Q3 del 75% - Valors de la variable que 25% Observacions són < Q1 & 75% Observacions són > Q1 75% Observacions són < Q3 & 25% Observacions són > Q3
• Variança ( )2sx =−
−∑=
11
2
1n ix xi
n
(Varianza, variance): var(data.frame$variable).
• Desv. Estàndar xs (Desviación Standard o Típica, Standard Deviation).
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 7 Curs 2. 01 3- 2. 01 4
1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
MEDIANA 50
Q1
Q3
25% 25%
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 8 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Diagrama de barres: a) absolut o percentual b) densitat o acumulat.
• Les variables numèriques discretes amb pocs valors tenen un histograma que és diagrama de barres.
Resta CatalunyaEstat EspanyolBCN-AMB
10
5
0
residència
Num
ber N
onm
issi
ng o
f eda
t
Resta Catalu ( 3; 20,0%)
Estat Espany ( 2; 13,3%)
BCN-AMB (10; 66,7%)
Pie Chart of residència
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 1 9 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
⇒ Dades de Davis: davis.RData (data.frame, 1 o varis, més gràfics, pot accedir arxius de comandes davis.R)
> ls() [1] "davis" > summary(davis) id sex weight height r_weight r_height Min. : 1.00 F:112 Min. : 39.0 Min. : 57.0 Min. : 41.00 Min. :148.0 1st Qu.: 50.75 M: 88 1st Qu.: 55.0 1st Qu.:164.0 1st Qu.: 55.00 1st Qu.:160.5 Median :100.50 Median : 63.0 Median :169.5 Median : 63.00 Median :168.0 Mean :100.50 Mean : 65.8 Mean :170.0 Mean : 65.62 Mean :168.5 3rd Qu.:150.25 3rd Qu.: 74.0 3rd Qu.:177.2 3rd Qu.: 73.50 3rd Qu.:175.0 Max. :200.00 Max. :166.0 Max. :197.0 Max. :124.00 Max. :200.0 NA's : 17.00 NA's : 17.0 > attributes(davis) $names [1] "id" "sex" "weight" "height" "r_weight" "r_height" $row.names [1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15" [16] "16" "17" "18" "19" "20" "21" "22" "23" "24" "25" "26" "27" "28" "29" "30" [31] "31" "32" "33" "34" "35" "36" "37" "38" "39" "40" "41" "42" "43" "44" "45" … [196] "196" "197" "198" "199" "200"
$class [1] "data.frame"
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 20 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
> var(davis[,3:4]) weight height weight 227.85930 34.37588 height 34.37588 144.19055
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 21 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Un paquet estadístic és una eina especialitzada en la manipulació estadística de dades: • Exploració de mostres. Inferència sobre la “població”. • Regressió Lineal Simple i Múltiple. • Anàlisi de la Variança • Regressió Logística i Multinomial (cardinal i ordinal). • Alguns paquets estadístics:
o MINITAB. Paquet estadístic extès en l’entorn universitari de fácil ús. o SPSS. Paquet estadístic extès en l’entorn professional: administracions públiques i
consultories. o R. Paquet de lliure distribució adaptable al desenvolupament de nous paquets
(packages). Prestigi acadèmic.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 22 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Estructura matricial de les dades (Worksheet en MINITAB – data.frame en R) POBLACIÓ Carac1 Carac2 … Individu 1 valor valor’ … Individu 2 valor’’ valor’’’ … … Investigar a partir de característiques d’un subconjunt (no arbitrari) com inferir característiques del conjunt: inferència estadística • La població és tot el conjunt. Una mostra és un subconjunt de la població.
• Aspectes rellevants: a mesura que la mostra s’incrementa de tamany, les inferències de valors poblacionals són més propers a la realitat (consistència). En la tria d’una mostra, sigui quin sigui el tamany, la mostra ha de ser representativa de la població (condueix a estimador no biaixats)(no sesgados).
Mostra: Subconjunt de la població ≡ Matriu de Dades Característiques ≡Variables Observacions ≡Individus d’una mostra
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 23 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Edad E.civil Ingresos
Cotxe …
1 43 S 7.6 Si …
2 36 C 2.3 No …
… … … … … …
n 45 S 4.5 Si …
( Valors = Numèrics o Alfanumèrics )
Tipus de variables: • Numèriques (quantitatives)
o Continues ( valors reals o en “punt flotant” ) Ex: Ingresos, pes, Capacitat pulmonar, etc.
o Discretes (valors enters): diferent tractament segons nb valors diferents Ex: Número de fills, Edat, etc.
Exemple: Mostra de n observacions
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 24 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
• Categòriques (qualitatives): en R són factors. o Amb ordenació
Ex: Nivell d’estudis, Categoria laboral, etc. o Sense ordenació
Ex: Sexe, Raça, Estat Civil … • Les variables categòriques poden venir expressades per un valor enter:
Ex. Sexe: Home=0, Dona=1. ( No confondre-les amb variables quantitatives )
• Les variables, en sentit estadístic, venen representades en R per vectors i els conjunt de característiques d’una mostra és una colecció de vectors de la mateixa longitud que s’articula en un data.frame.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 25 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
R per Windows: comandes Input/Output (Ull! R és case sensitive) Verificar si surt > i triar el directori de treball
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 26 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
• Obrir (carregar) i Salvar Espais de treball ICONA ARCHIVO
ARCHIVO → Cargar área de trabajo ARCHIVO → Guardar área de trabajo.
Carregar un àrea de treball: per exemple dades de pesos i alçades. • Per sortir de l’entorn: ARCHIVO → Salir
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 27 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
ICONA ARCHIVO (obrir/tancar/salvar scripts): ARCHIVO → Abrir script / Guardar script ARCHIVO → Nuevo script Lectura/Escriptura d’Arxius ASCII amb comandes scripts.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 28 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
ARCHIVO → Cargar histórico / Salvar histórico
Elements essencials de R:
• Expressions (operen sobre objectes) i Objectes (escalars, vectors, matrius, llistes, etc)
• L’objecte per excel.lència: list(). • Matriu de dades: data.frame.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 29 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Finestres disponibles: R Console (on hi apareixen diàlegs i els resultats) Tantes finestres amb scripts com vulgui l’usuari.
Finestra amb gràfics:
R graphics configuració matricial que permet combinar sortides gràfiques: per ex. 2 files i 2 columnes par(mfrow=c(2,2))
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 30 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Estructura de les comandes R: > COMANDA paràmetres <ret> > COMANDA paràmetres ; COMANDA paràmetres <ret>
A la finestra R console o en algun dels scripts.
Per executar una línia de comandes: tecla F5. Per executar moltes línies: seccionar amb el cursor i fer <ctrl- R>. Ex: crear vector de 4 elements Concatenació directa: c(.) Seqüència: seq(.) Replicació: rep(.)
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 31 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
ICONA MISC: Llista objectes de l’espai de treball actual, Indica les vies d’accés a la instal.lació R Esborra tots els objectes (ull! És irrecuperable) MISC → Listar objectos MISC → Remover todos los objetos MISC → Listar el camino de búsqueda
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 32 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Objectes importants: vectors, matrices i arrays • Matrius son arrays de dimensió 2.
• Les matrius i els arrays de dimensió superior a 2 es representen com vectors amb dimensions.
• Comandes rownames(), colnames(), dim() per consultar.
• Per crear matrius: > x<-matrix(1:24, nrow=6) > rownames(x) <- letters [1:6] > colnames(x)<-c("A","B","C","D") > colnames(x)<-list("A","B","C","D")
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 33 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Functions i arguments: • Una funció en R no és el mateix que en matemàtiques, existeix log(x), però també plot(alçada,pes) seria una funció. • Diferenciació entre els paràmetres reals (actual arguments) i paràmetres formals (formal arguments). • Molts arguments tenen defecte (això és bo i és dolent alhora) i poden ometre’s. • Les crides poden fer-se amb positional matching (paràmetres en l’ordre de la descripció dels paràmetres formals en la signatura de la funció) o amb keyword matching. L’especificació dels paràmetres es pot barrejar.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 34 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Per exemple: • plot(alçada,pes) seria una crida amb positional matching • plot(alçada,pes, col=2) afegeix un paràmetre per keyword matching. • plot(y=pes, x=alçada, col=2) permet posar els paràmetres en qualsevol ordre (tots keyword matching). • Consultar paràmetres:
help(plot) args(plot.default)
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 35 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
factor(x = character(), levels = sort(unique.default(x), na.last = TRUE), labels = levels, exclude = NA, ordered = is.ordered(x)) ordered(x, ...) is.factor(x) is.ordered(x) as.factor(x)
as.ordered(x)
Factors: • Vectors que representen
variables qualitatives. • Ordenades o no. • Considerar levels o labels. • Aspecte clau en l’anàlisi
descriptiva. • Per obviar etiquetes:
as.numeric(factor)
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 36 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Manipulació de matrius de dades (data.frame) :
• Creació d’una nova variable funció matemàtica d’altres ja existents a l’espai de treball o a un data.frame (LET de MINITAB): o Espai de treball: directament operador habituals, y<- log(x)+z+4.5 (sempre
que x i z siguin vectors existents i a més x contingui valors positius). o En data.frame: Cal fer accessibles les columnes amb attach(davis) i després
construir pes2 <- weight^2 que no estarà incorporat al data.frame tret que es digui explícitament davis$pes2 <- weight^2. Ull! encara no és visible fins que es faci un detach(davis) i després un attach( davis ).
• Esborrar un objecte: rm(). • Ara bé si és una columna d’un data.frame aleshores cal especificar-lo i assignar
NULL: davis$pes2<- NULL. • Esborrar tots els objectes de l’espai de treball: rm(list=ls()). • Esborrar objectes començant per ‘la’: rm(list=ls(pattern="la")).
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 37 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 38 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
• Vigileu la visibilitat dels objectes; tantmateix com no feu un ús indiscriminat
de la comanda attach(). Heu de ser especialment curosos si programeu funcions pròpies o esborreu objectes.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 39 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
> ls() [1] "davis" "davis1" "davis2" "davis3" "davisF" "davisM" [7] "homes" "last.warning" "opinio" "opinio1" "opinio2" "opinio3" > ls(pattern="opi") [1] "opinio" "opinio1" "opinio2" "opinio3" > rm(list=ls(pattern="opi")) > ls() [1] "davis" "davis1" "davis2" "davis3" "davisF" "davisM" [7] "homes" "last.warning"
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 40 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Es pot operar amb els data.frame com si fossin matrius!
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 41 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
• Com indexar vectors?: pes2[ 29] posició 29 del vector de pesos al quadrat. • Com indexar matrius?: davis[2,4] observació 2 i variable columna 4 (height-
alçada). • Com obtenir tota una observació (fila d’una matriu)?: davis[ 2, ]. • Com obtenir tota una columna (característica d’un data.frame)? : davis[ , 4]
(height és un vector amb 200 observacions). • Rang de valors columnes: davis[ , c(1,3:4) ] , facilita id més weight i height. • Rang de valors de files (observacions): o davis[ 1:100,] observacions 1, 2, 3 … 100 o davis[ seq(1,100,2), ] … observacions 1, 3, 5, 7 … o davis[ sample(100:200,50,rep=T), ] 50 observacions a l’atzar amb reposició
entre les 100 darreres. o davis[ rep(c(1,2),10) ,] observacions (repetides)
1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 > davis3<- davis[ sample(100:200,10,rep=T), ] > table(davis3$id) 104 105 141 173 174 175 177 180 194 1 1 1 1 1 1 2 1 1
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 42 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Codificació: Crea una nova variable per transformació de rangs de valors. • Discretitzant rangs de valors: crear factor a partir variable numèrica:
o En intervals d’igual tamany.
o En intervals triats per l’usuari.
o En intervals segons quartils.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 43 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA
Codificació: Crea una nova variable per transformació de rangs de valors. • Reagrupant categories: crear nova variable amb condicions i sentències ifelse(). > as.numeric( davis$tipus )
[1] 4 2 1 3 2 4 4 3 3 2 3 4 1 2 1 2 4 2 4 2 4 2 2 3 1 1 2 2 1 4 3 3 4 1 3 2 2 3 4 2 1 4 2 4 4 1 3 1 1 [50] 3 4 2 3 4 2 2 3 3 3 2 3 3 3 4 4 2 2 2 1 4 2 3 1 2 1 1 1 2 3 3 2 1 1 2 2 2 2 1 2 2 3 2 4 3 4 2 4 1
[99] 1 1 1 2 1 1 2 1 1 2 2 2 4 4 1 3 4 2 4 4 3 2 4 3 3 1 3 1 1 1 3 1 2 4 2 1 4 1 2 2 4 4 3 1 1 1 2 1 1
[148] 2 3 4 2 1 1 1 1 1 3 2 2 2 1 1 1 2 2 2 2 3 4 1 4 1 2 4 2 3 2 3 4 3 4 1 4 2 3 2 2 2 4 1 4 4 2 1 2 3
[197] 4 4 4 4
> grup <- rep( 0, dim( davis )[1] )
> grup <- factor(ifelse( as.numeric(davis$tipus)>2,1,0))
> levels(grup) <- c("correcte","controlar")
> summary(grup)
correcte controlar
117 83
>
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 44 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA UNIVARIANT PER GRUPS
Cas Particular Estadística Descriptiva Bivariant On:
VARIABLE DE RESPOSTA ÉS CONTÍNUA VARIABLE EXPLICATIVA ÉS CATEGÒRICA (amb màxim 5-6 categóries)
OBJECTIU: Donar resposta a la qüestió de si els valors de la variable explicativa (la qualitativa) determinen les característiques de la resposta. • Són independents les 2 variables? Si els valors de la variable explicativa no
determinen les característiques de la resposta. • Són dependent les 2 variables? Si les característiques de la resposta és
diferencial segons els valors de la variable explicativa. Característiques de la resposta: resumible a partir de les tècniques d’Estadística Univariant .
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 45 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA UNIVARIANT PER GRUPS
Per exemple: Descriure el pes segons el gènere
• Estadística descriptiva univariant del pes (numèrica i gràfica) i del gènere. • Estadística descriptiva per grups numèrica. • Estadística descriptiva per grups gràfica.
DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades
Prof. Lídia Montero © Pàg. 1 - 46 Curs 2. 01 3- 2. 01 4
1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA UNIVARIANT PER GRUPS
par(mfrow=c(2,3))
pie( table( sex ))
barplot( table(sex) )
hist( weight )
tapply( weight, sex, hist )
plot( weight ~ sex )
Cal usar llegendes, colors, etc és a dir configurar-se a mida els gràfics perquè siguin llegibles.
Top Related