R El Distribuidor de Software Cientfico Lder en Latinoamrica
Brayan RojasDarwin Marcelo Gordillo
SOFTWARE shop 3020 Issaquah Pine Lake Rd Sammamish WA, 98075 USA
________________________________________________________________________________ Copyright 2013 por SOFWARE Shop Todos los derechos Reservados
Ni la totalidad ni parte de esta publicacin pueden reproducirse, registrarse o transmitirse, por un sistema de recuperacin de informacin, en ninguna forma ni por ningn medio, sea electrnico, mecnico, fotoqumico, magntico o electroptico, por fotocopia, grabacin o cualquier otro, sin permiso previo por escrito del autor.
DARWIN MARCELO
Darwin Marcelo tiene nueve aos de experiencia en investigacin aplicada en economa a travs de distintos pases de Amrica Latina. El principal rea de enfoque de su trabajo ha sido el desarrollo sostenible, con nfasis en infraestructura, desarrollo rural, violencia, empleo y pobreza.
Posee fuertes conocimientos en anlisis y habilidades en econometra aplicada, mtodos de evaluacin de impacto, modelos estadsticos y manejo de software como Stata, Eviews, Systat, Rats, GIS, Axum y MI Win.
Cuenta con cuatro aos de experiencia en el departamento de economa, desarrollo sostenible para Amrica Latina y el Caribe del Banco Mundial y 5 aos de experiencia como economista en el Departamento Nacional de Planeacin de Colombia.
As mismo, ha trabajado como consultor externo en el Instituto de Polticas de Desarrollo de Colombia (IPD), el Programa Nacional de Desarrollo Humano (PNDH), el Departamento Nacional de Estadstica (DANE), la Presidencia de la Republica de Colombia, y se ha desempeado como profesor en la facultad de economa de la Universidad Central y de la Universidad Javeriana.
BRAYAN ROJAS
Economista de la Universidad Nacional de Colombia, con especializacin en Gestin de Riesgo y Control de Instituciones Financieras de la Universidad de los Andes, realizando posgrado en estadstica en la Universidad Nacional de Colombia.
Profesor de la Universidad del Rosario y de la Universidad Piloto, trabaj en el rea de Investigaciones del Banco de la Repblica de Colombia. Posee fuertes conocimientos en anlisis y habilidades en econometra aplicada, modelos estadsticos y manejo de software como Stata, Eviews, Risk Simualtor, Crystal Ball, @Risk, Rats, entre otros.
Ha impartido varias capacitaciones en temas de estadstica y riesgos financieros a importantes entidades como bancos centrales, ministerios, bancos y empresas reguladoras en el sector financiero, universidades a nivel Latinoamrica.
CONTENIDO
1. INTRODUCCIN ........................................................................................................................... 1
1.1 Descripcin del libro ...............................................................................................................................1 2. MANEJO FUNDAMENTAL DE STATA 12 ....................................................................................... 3
2.1 Conociendo el entorno de Stata .............................................................................................................3 2.2 Barras .....................................................................................................................................................5 2.3 El men de ayuda ...................................................................................................................................5
2.3.1 Actualizaciones en Stata:............................................................................................. 8
2.4 Tipos de archivo .....................................................................................................................................8 2.5 Estructura de comandos .........................................................................................................................9 2.6 Ventana de comandos .......................................................................................................................... 10 2.7 Configuracin de la memoria de Stata .................................................................................................. 11 2.8 Cambiar el directorio de trabajo de Stata ............................................................................................. 11 2.9 Bases de datos de ejemplo .................................................................................................................. 11 2.10 Tipos de variables ................................................................................................................................. 12
2.10.1 Formato de las variables: .......................................................................................... 13
3. MANEJO DE BASE DE DATOS ..................................................................................................... 15
3.1 Fundamentos de bases de datos .......................................................................................................... 15 3.1.1 Creacin de un archivo log ........................................................................................ 15
3.1.2 Abrir una base de datos ............................................................................................ 16
3.1.3 Importar una base de datos .CSV o TXT .................................................................... 16
3.1.4 Importar una base de datos .XLS o .XLSX .................................................................. 17
3.1.5 Importar otros tipos de archivo ................................................................................ 20
3.2 Salvando una base de datos ................................................................................................................ 20 3.3 Descripcin de la base de datos ........................................................................................................... 20
Cargar una base de datos del programa ........................................................................... 21 Observar los datos ............................................................................................................. 21 Describir los datos ............................................................................................................. 21
3.4 Creacin de Variables .......................................................................................................................... 22 3.4.1 Extensiones en la creacin de variables .................................................................... 26
3.5 Ordenar variables y bases de datos ..................................................................................................... 26 3.6 Clculos por grupos .............................................................................................................................. 27 3.7 Codebook e Inspect .............................................................................................................................. 28 3.8 Conservar y recargar bases de datos ................................................................................................... 29 3.9 Filtros de la base de datos .................................................................................................................... 29 3.10 Administrador de variables ................................................................................................................... 30
3.10.1 Rename ..................................................................................................................... 32
3.10.2 Label Variable ............................................................................................................ 32
3.10.3 Notes ......................................................................................................................... 32
3.11 Creacin de categoras ......................................................................................................................... 32 3.12 Modificacin y transformacin de variables .......................................................................................... 34
3.12.1 Recode ....................................................................................................................... 34
3.12.2 Divisin de Variables de texto ................................................................................... 36
3.13 Combinacin de bases de datos ........................................................................................................... 36 3.13.1 Combinacin Vertical Append ................................................................................ 36
3.13.2 Combinacin Horizontal Merge ............................................................................. 37
3.14 Cambio en la organizacin de los datos ............................................................................................... 39 3.14.1 Collapse ..................................................................................................................... 39
3.14.2 Reshape ..................................................................................................................... 40
3.14.3 Xpose ......................................................................................................................... 43
3.14.4 Stack .......................................................................................................................... 44
3.15 Problemas en el manejo de bases de datos ......................................................................................... 45 3.15.1 Replicar informacin ................................................................................................ 45
3.15.2 Verificacin de datos ................................................................................................. 46
3.15.3 Contador y reporte de datos repetidos..................................................................... 47
3.16 Anlisis de duplicados .......................................................................................................................... 47 3.17 Creacin de programas editor de texto .............................................................................................. 50 3.18 Ejemplo aplicado .................................................................................................................................. 51
3.18.1 Cambiando la orientacin de la base de datos: De horizontal a vertical y viceversa 53
3.18.2 Ejercicio ..................................................................................................................... 53
3.19 Comandos usados ................................................................................................................................ 54 3.19.1 Otros comandos recomendados ............................................................................... 55
capture ...................................................................................................................................... 55
4. ANLISIS ESTADSTICOS CON STATA ......................................................................................... 56
4.1 Estadstica descriptiva .......................................................................................................................... 57 4.2 Ponderadores -weight- ........................................................................................................................ 58 4.3 Calculo de medias ................................................................................................................................ 58 4.4 Intervalos de confianza ......................................................................................................................... 59 4.5 Pruebas de hiptesis ............................................................................................................................ 60
4.5.1 Media ........................................................................................................................ 60
4.5.2 Varianza ..................................................................................................................... 61
4.5.3 Proporciones ............................................................................................................. 61
4.6 Manejo de tablas de datos .................................................................................................................... 61 4.6.1 Tabstat ....................................................................................................................... 62
4.6.2 Tabulate (tab) ............................................................................................................ 63
4.6.3 Table .......................................................................................................................... 64
4.7 Pruebas no paramtricas ...................................................................................................................... 66 4.8 Ejemplo aplicado .................................................................................................................................. 68
4.8.1 Comandos Bsicos ..................................................................................................... 68
4.8.2 Ayuda visual table y tabstat ..................................................................................... 69
4.8.3 Tablas de contingencia .............................................................................................. 71
4.8.4 Tablas de frecuencia .................................................................................................. 72
4.8.5 Correlaciones ............................................................................................................. 73
4.8.6 Prueba para la media ................................................................................................ 74
4.8.7 Prueba para detectar normalidad ............................................................................. 75
4.8.8 Pruebas para la media: dos muestras independientes ............................................. 75
4.8.9 Comparacin de k medias independientes ............................................................... 76
4.8.10 Exportar tablas .......................................................................................................... 79
4.8.11 Ejercicio ..................................................................................................................... 80
4.9 Comandos usados ................................................................................................................................ 80 4.9.1 Otros comandos recomendados ............................................................................... 81
5. GRAFICAS CON STATA ............................................................................................................... 82
5.1 Histograma ........................................................................................................................................... 84 5.2 Grfico de tortas ................................................................................................................................... 85 5.3 Graficas twoway ................................................................................................................................... 87 5.4 Editor de grficos de Stata ................................................................................................................... 90
5.4.1 Haciendo doble clic sobre el rea de la grafica ......................................................... 91
5.5 Grfico de series de tiempo .................................................................................................................. 92 5.6 Grfico de dispersin ............................................................................................................................ 93 5.7 Grfico de puntos ................................................................................................................................. 95 5.8 Grfico de barras .................................................................................................................................. 96 5.9 Generando Funciones .......................................................................................................................... 98 5.10 Combinando grficas ............................................................................................................................ 98 5.11 Ejemplo aplicado .................................................................................................................................. 99
5.11.1 Transformaciones Tukey ........................................................................................... 99
5.11.2 Grficos de matriz ................................................................................................... 100
5.11.3 Grficos de lneas .................................................................................................... 101
5.11.4 Edicin de grficos .................................................................................................. 101
5.11.5 Grfica de histogramas............................................................................................ 102
5.11.6 Diagramas de dispersin ......................................................................................... 103
5.11.7 Exportar grficos ..................................................................................................... 105
5.12 Comandos usados .............................................................................................................................. 107 6. REGRESIN LINEAL EN STATA ................................................................................................. 108
6.1 Ejercicio .............................................................................................................................................. 108 6.2 Descripcin estadstica de la informacin ........................................................................................... 109 6.3 Relacin lineal entre las variables dependientes e independientes .................................................... 109 6.4 Representacin grfica de las relaciones entre variables ................................................................... 110 6.5 Estimacin del modelo lineal de regresin ......................................................................................... 112
6.5.1 Pruebas de hiptesis lineales .................................................................................. 114
6.5.2 Ejercicio ................................................................................................................... 114
6.6 Comprobacin del cumplimiento de los supuestos de M.C.O. ........................................................... 115 6.6.1 Multicolinealidad (Asociacin lineal entre variables) ............................................. 115
6.6.2 Homocedasticidad ................................................................................................... 115
6.6.3 Normalidad de los residuos ..................................................................................... 117
6.6.4 Exogeneidad de las variables independientes ........................................................ 119
6.6.5 Ejercicio ................................................................................................................... 120
6.7 Pronstico ........................................................................................................................................... 120 6.7.1 Representacin grfica del pronstico de la variable dependiente y su relacin con los regresores .......................................................................................................................... 120
6.7.2 Ejercicio ................................................................................................................... 121
6.8 Exportar tabla de contenido ................................................................................................................ 121 6.9 Ejemplo aplicado ................................................................................................................................ 122
6.9.1 Prueba de hiptesis ................................................................................................. 123
6.9.2 Supuestos para mnimos cuadrados ordinarios ...................................................... 123
6.10 Comandos usados .............................................................................................................................. 127 7. MODELOS DE VARIABLE DEPENDIENTE BINARIA: MODELOS LOGIT Y PROBIT ....................... 128
7.1 Representacin de las relaciones entre variables .............................................................................. 129 7.1.1 Participacin y Gnero ............................................................................................ 129
7.1.2 Participacin y Nivel Educativo ............................................................................... 130
7.1.3 Participacin y Edad ................................................................................................ 131
7.2 El modelo tipo Logit encuesta Casen 2006. ....................................................................................... 131 7.2.1 Interpretacin de resultados ................................................................................... 132
7.2.2 Odds - Ratio (p/q) .................................................................................................... 133
7.2.3 Post estimacin .................................................................................................... 133
7.3 Modelo Lineal de probabilidad y modelo tipo Probit ........................................................................... 135 7.3.1 Modelo Lineal .......................................................................................................... 135
7.3.2 Modelo tipo Probit .................................................................................................. 136
7.3.3 Comprobacin de supuestos ................................................................................... 139
7.3.4 Pronstico ............................................................................................................... 143
7.3.5 Ejercicio ................................................................................................................... 143
7.4 Ejemplo aplicado ................................................................................................................................ 144 7.4.1 Modelos con variable dependiente binaria MLP, Logit y Probit ............................ 144
7.5 Comandos usados .............................................................................................................................. 148 8. MODELOS DE SERIES DE TIEMPO ............................................................................................ 149
8.1 Serie de tiempo en Stata modelos autorregresivos de media movil (arma) ....................................... 149 8.1.1 Generacin de variables con formato de fecha ...................................................... 149
8.1.2 Designando la variable que representa al tiempo .................................................. 150
8.1.3 Variables con rezago ............................................................................................... 151
8.2 Metodologa Box Jenkins (BJ) aplicada al caso de seleccin y estimacin de un modelo arma para pronstico de la inflacin. ................................................................................................................................ 152
8.2.1 Fase de identificacin .............................................................................................. 152
8.2.2 Fase de estimacin .................................................................................................. 154
8.2.3 Fase de verificacin y diagnostico ........................................................................... 155
8.2.4 Pronsticos .............................................................................................................. 156
8.2.5 Ejercicio ................................................................................................................... 157
8.2.6 Ejemplo aplicado: FILTROS, ARIMA, SARIMA. ......................................................... 158
8.3 Modelos ARCH y GARCH, modelo condicional autorregresivo generelazidado con heterocedasticidad 171
8.3.1 Antecedentes .......................................................................................................... 171
8.3.2 El modelo GARCH(1,0) ............................................................................................. 172
8.3.3 Metodologa ARCH EN STATA ................................................................................. 173
8.3.4 Ejemplo aplicado ..................................................................................................... 173
8.4 Comandos usados .............................................................................................................................. 179 9. MODELOS DE DATOS PANEL O LONGITUDINALES .................................................................. 179
9.1 Anlisis de datos panel ....................................................................................................................... 180 9.1.1 Estructura de bases de datos panel ........................................................................ 181
9.2 Ejemplo Prctico El caso de la CASEN ........................................................................................... 182 9.2.1 Grficos de evolucin .............................................................................................. 184
9.2.2 Modelos economtricos para datos de panel ......................................................... 187
9.2.3 Comparacin de modelos ....................................................................................... 192
9.2.4 Interpretacin de los parmetros de efectos fijos. ................................................. 193
9.3 Comandos usados .............................................................................................................................. 193 10. INTRODUCCIN A LA PROGRAMACIN .............................................................................. 195
10.1 Local macros ...................................................................................................................................... 195 10.2 Creando ciclos .................................................................................................................................... 195
10.2.1 Comando IF ............................................................................................................. 195
10.2.2 Comando For ........................................................................................................... 196
10.2.3 Comando Forvalues ................................................................................................. 196
10.2.4 Comando While: ...................................................................................................... 196
10.3 ESCALARES Y MATRICES ............................................................................................................... 196 10.3.1 Ejercicio ................................................................................................................... 199
11. TRUCOS CON STATA ............................................................................................................ 200
11.1 Algunos consejos con Stata ............................................................................................................... 200 11.2 Ejecutando comandos en Stata sin resultados (quietly) ..................................................................... 203 11.3 Herramienta de calificacin de Stata 12 ............................................................................................. 205 11.4 Archivos en PDF de logs y grficas con Stata 12 ............................................................................... 207 11.5 Material de apoyo ............................................................................................................................... 209 12. BIBLIOGRAFIA ...................................................................................................................... 210
1
1. INTRODUCCIN
Hoy en da es comn encontrar diferentes aplicaciones computacionales capaces de realizar sin fin de procedimientos en milsimas de segundo, desde hace varios aos el computador ha sido una herramienta muy til para las diferentes reas del conocimiento y las ciencias econmicas no han sido la excepcin, los grandes avances tericos han llevado a necesitar cada vez ms de las aplicaciones computacionales para poder pasar de la teora a la prctica.
Las ciencias econmicas, sociales y aplicadas se han vinculado desde hace varias dcadas a las ciencias puras para poder por medio de los mtodos cuantitativos verificar los hechos sociales, el uso de la estadstica, la matemtica y la fsica cada da van en incremento; pero de igual forma stos mtodos han necesitado de diferentes recursos para su aplicacin, es en busca de suplir estas necesidades que Stata Corp se ha comprometido da a da en apoyar al desarrollo de la teora con la prctica haciendo uso del total de recursos disponibles.
Se aclara que Stata no es un software libre ni gratuito, para poder acceder a l es necesario adquirir un plan de licenciamiento, para mayor informacin ingresar a www.stata.com. Una de las ventajas del software es la posibilidad de trabajo por ambiente GUI (interactivo) y/o por ambiente de comandos con una programacin bastante potente, incluyendo un lenguaje de programacin para matrices conocido como MATA.
Este material es dirigido a todo tipo de usuario, para el estudiante que se est involucrando al mundo de la estadstica y econometra, el docente que utiliza la herramienta para impartir sus clases usando para ello un software de alto nivel como es Stata y para profesionales e investigadores que da a da requieren una herramienta que les sirva para apoyar sus labores y sus investigaciones.
El documento se ha dividido en 11 captulos, el primero comprende esta introduccin, los cuatro siguientes se podr encontrar informacin sobre la capacidad de manejo de Stata 12, manejo en la bases de datos y manipulacin de datos, estadstica descriptiva, as como la presentacin de resultados por medio de grficas y tablas; en el captulo 6 encontrar el tema de regresin, captulo 7 modelos de regresin con variable discreta, captulo 8 modelos de series de tiempo para tratar los temas de filtros, ARIMA y ARCH, captulo 9 modelos de datos de panel y los ltimos dos captulos es introduccin a la programacin y algunos trucos y recomendaciones.
1.1 Descripcin del libro
Este manual es de carcter acadmico y representa una gua para los usuarios de Stata.
2
El manual contiene 216 pginas, las cuales describe los principales usos para un usuario de diferente nivel y estudios. Para el mejor entendimiento del manual se describe el siguiente cuadro:
Descripcin Caractersticas
Comando Tipo de Letra cursiva, fuente Arial, tamao de letra 11.
Ejemplo del comando Tipo de Letra cursiva, fuente Arial, tamao de letra 9, antecedido de un .
Notas o recomendaciones Resaltado en un cuadro de texto
Rutas de acceso por medio de los mens Se describe el nombre del Men seguido por el smbolo
Mensajes de Error Color de Fuente Rojo
Tabla 1. Descripcin y caractersticas del manual
3
2. MANEJO FUNDAMENTAL DE STATA 12
Stata es un programa estadstico para investigadores de diferentes disciplinas, como bioestadsticos investigadores sociales y econmicos. Los diferentes tipos de anlisis integrados a Stata estn documentados y soportados tericamente por numerosos documentos, publicaciones y revistas. Los manuales de Stata renen en 21 volmenes con ejemplos estadsticos, explicaciones tericas, mtodos, frmulas y documentos de referencia (ver www.stata.com/manuals/). Al tratarse de un programa en ambiente Windows, su interface es similar a la de todos los programas bajo este ambiente.
Nota: Adems del sistema operativo Windows, Stata Corp ha desarrollado la plataforma para los sistemas operativos en Mac y Unix, con sus respectivos manuales de introduccin.
Stata est disponible en 4 tipos de versin.
Small Stata Versin estudiantil de Stata
Intercooled Stata Versin estndar de Stata
Stata/SE Versin especial de Stata para manejo de bases de datos grandes.
Stata/MP Versin especial de Stata diseada para trabajar en equipos con ms de un procesador o ncleo (2 a 32 procesadores)
Tabla 2. Tipos de versin Stata
A continuacin se presentan las principales diferencias entre las versiones Intercooled y SE de Stata1:
Small Stata/IC Stata/MP and Stata/SE
Nmero de observaciones 1,200 2,147,483,647 2,147,483,647
Nmero de Variables 99 2,047 32,767
Tabla 3. Caractersticas de versin la Stata
2.1 Conociendo el entorno de Stata
Una vez que se hace clic en el icono de Stata en el men de inicio, se despliegan los siguientes cuadros de trabajo. Estas ventanas constituyen el cuerpo bsico Stata para llevar a cabo un anlisis de datos, teniendo una interface bastante amigable. 1 Para conocer todas las diferencias entre las versiones de Stata, dirigirse a la ayuda por medio del comando help limits.
4
Figura 1. Ventana de Stata
Ventana de Variables: Muestra el listado de variables de la base de datos activa.
Ventana de Comandos: En este cuadro se escriben y almacenan las lneas de comandos, si se desea recuperar un comando previo puede utilizar las teclas RePg o AvPg y podr autocompletar el nombre de la variable utilizando la tecla TAB.
Ventana de Resultados: Permite visualizar la sintaxis, y los resultados de los procedimientos ejecutados por el usuario. Aqu encontrar el logo de Stata, indicando la versin y el tipo de licencia y el nmero mximo de variables a importar. Una de las caractersticas de sta ventana es que por medio de colores el programa informa si un comando ha sido correctamente ejecutado, si aparece en color negro no hubo problema en la realizacin, rojo indicar error y el azul es un hipervnculo al men de ayuda.
Ventana de Revisin: Bitcora que permite llevar un completo registro de todos los procedimientos ejecutados durante una sesin de Stata ya sea que se ejecutaron por el ambiente GUI, por la ventana de comandos o por un editor .do. Una de las propiedades de la ventana Review es que si se desea repetir un comando simplemente debe hacer doble clic sobre el comando deseado y Stata lo ejecutar de nuevo.
VENTANA DE RESULTADOS
VENTANA DE COMANDOS
VENT
ANA
DE
REVI
SIN
VENTANA DE VARIABLES
VENTANA DE PROPIEDADES DE
VARIABLES
5
Ventana de Propiedades: Presenta la informacin de cada variable, como nombre, tipo de variable, formato, las notas de la base de datos (puede usar el comando notes para verlas en la ventana de resultados), entre otras caractersticas.
2.2 Barras
Figura 2. Men de Stata
Barra de Nombre: Indica la versin de Stata disponible, el nombre y la ruta de la base de datos activa.
Barra de Mens: Es el conjunto de las diferentes herramientas que tiene Stata las cuales le permiten al usuario cargar, transformar, modificar, analizar, graficar y solicitar informacin y ayuda del programa.
Barra de Herramientas: Es el conjunto de conos de acceso rpido a herramientas fundamentales como son abrir, salvar, creacin de un archivo Log, un archivo .do, abrir el editor, el visor y el administrador de variables.
2.3 El men de ayuda
Stata ha incorporado a partir de la versin 11 un conjunto de nuevas opciones en el men de ayuda para facilitarle al usuario la mejor forma de entender cmo funciona el programa. Una de las novedades principales es que se ha agregado la opcin de tener disponibles los manuales de Stata en formato PDF.
Para acceder a los manuales de ayuda debe seguir la ruta Help PDF Documentation
El men de ayuda de Stata le permite:
Ver el ndice de contenidos del programa
Barra de Nombre
Barra de Mens
Barra de Herramientas
6
Buscar informacin sobre algn tema, la rutina que permite ejecutarla en Stata, o el sitio desde donde es posible descargar la macro para alimentar el programa.
Obtener ayuda sobre algn comando de Stata
Listar y descargar las ltimas actualizaciones del programa.
Instalar programas de Stata escritas por otros usuarios, desde el Stata Journal o del boletn tcnico Stata Technical Bulletin.
Acceder a lugares de inters en el sitio Web de Stata.
El sistema de ayuda para los comandos de Stata es una de las herramientas que ms rpidamente puede familiarizar al usuario con el manejo de Stata. Alternativamente al sistema de ventanas, el usuario puede digitar en el cuadro de comandos help seguido del comando del cual desea informacin.
Por ejemplo al digitar en el cuadro de comandos: help describe emerge la siguiente ventana
Figura 3. Ayuda de Stata
7
La ayuda de Stata ofrece informacin sobre:
La sintaxis completa y abreviada de letra(s) subrayadas) de cada comando,
Descripcin del comando,
Opciones adicionales para ejecutar el comando,
Ejemplos sobre cmo usar el comando,
Hipervnculos a otros comandos relacionados y/o similares y,
El manual impreso de Stata en el que puede consultar los detalles sobre el comando.
Con frecuencia, el usuario desconoce el nombre del comando especfico que realiza algn procedimiento en Stata. En estos casos es conveniente realizar una bsqueda temtica por medio del comando search. A travs de este comando Stata realiza una bsqueda en lnea en:
Los ejemplos oficiales de Stata disponibles en su sitio web,
El sitio de preguntas frecuentes Frequently Asked Questions de Stata,
Ejemplos en lnea compilados por la universidad de UCLA,
Las referencias bibliogrficas en Stata Journal y Stata Technical Bulletin.
Por ejemplo, suponga que se quiere calcular en Stata el coeficiente de concentracin gini (procedimiento muy conocido en economa y estadstica), pero no se sabe si Stata realiza este clculo y, adems, si es posible hacerlo, no se conoce el comando para ejecutarlo. En estos casos el comando search resulta de gran ayuda. Por ejemplo al escribir en el cuadro de comandos . search gini Se despliega el siguiente cuadro de ayuda:
8
Figura 4. Comando search
En el cuadro de ayuda aparecen en azul hipervnculos a sitios oficiales (Stata Journal SJ, o Stata Technical Bulletin STB) desde donde se pueden descargar macros relacionadas con el procedimiento que calcula el coeficiente de concentracin gini.
2.3.1 Actualizaciones en Stata: Automticamente Stata hace actualizaciones peridicas del programa. Sin embargo el usuario puede pedir manualmente al programa que se actualice a travs del comando update as:
. update all
. adoupdate, update
2.4 Tipos de archivo
Antes de iniciar una sesin de trabajo es importante tener en cuenta que Stata opera a travs de diferentes tipos de archivos.
9
Tipo de Archivo Extensin
Archivos de datos *.dta
Archivos grficos *.gph
Bitcoras de salida *.smcl
Archivos de comandos *.do
Archivos de programacin *.ado
Tabla 4. Tipos de archivos
2.5 Estructura de comandos
La creacin de las variables se realiza por medio del comando generate, los comandos en Stata no son necesarios escribirlos en su totalidad. La mayora de los comandos pueden ser reducidos en un prefijo, para conocer el prefijo de cada comando escriba help nombre del comando y en la ayuda, aparecer subrayado el nombre hasta cierto carcter indicando que puede usar solamente ese texto para ejecutar el comando, por ejemplo g es igual a generate
[by varlist:] Command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options]
Por ejemplo:
Se debe tener en cuenta que Stata distingue entre letras maysculas y minsculas. Todos los comandos del programa se deben escribir en letras minsculas. De lo contrario el programa no lo reconoce. Los parntesis cuadrados indican que no es un carcter obligatorio dependiendo el comando especfico.
Es posible usar con Stata prefijos para algunos comandos, por ejemplo, el comando regress que permite realizar el procedimiento de regresin se puede ejecutar digitando solamente los tres primeros caracteres, es decir al tener reg ejecuta la misma funcin que al escribir regress.
Para conocer mayor informacin sobre la estructura de los comandos de Stata, busque informacin as: help syntax
10
2.6 Ventana de comandos
Es comn encontrar en las ventanas emergentes de Stata el nombre del comando que permite realizar la instruccin que se le ordenar al programa para que realice, por ejemplo, al seguir la ruta
File Import Text Data created by a spreadsheet
En este caso es el comando insheet. A continuacin se explican algunas caractersticas generales de las ventanas emergentes de Stata para la realizacin de procedimientos, este manual no presentar las ventanas en las cuales se ejecutan las instrucciones sino los comandos y las opciones correspondientes.
Como se menciono anteriormente en la parte superior de cada ventana aparece el nombre del comando correspondiente, si el usuario desea llamar una ventana puede hacerlo desde la ventana de comandos por medio de db nombre_comando.
Comando
Descripcin del comando
Copiar como comando
Ejecutar No Ejecutar
Ayuda de la instruccin
Ejecutar y mantener la ventana
activa
Limpiar la ventana
Figura 5. Caractersticas de una ventana
11
2.7 Configuracin de la memoria de Stata
Stata funciona exclusivamente desde la memoria RAM. El programa nicamente interacta con el disco duro del computador cuando se hacen salvados de bases de datos, grficos, archivos log, o archivos de comandos. En la versin 12, Stata configura automticamente el tamao de la memoria para poder trabajar con bases de datos muy grandes.
Para versiones inferiores a la 12 las versiones SE y MP del programa trabajan con 10 megas de memoria RAM. Sin embargo, cuando se trabaja con bases de datos muy grandes, es posible configurar la cantidad de memoria RAM disponible para una sesin de trabajo a travs del comando set memory.2 Por ejemplo, para trabajar con 100 megas de memoria RAM la sintaxis es3:
set mem 100m
Es muy importante que antes de empezar una sesin de trabajo el usuario configure la cantidad de memoria RAM que necesita de lo contrario emerger el siguiente error:
no room to add more observations r (901);
2.8 Cambiar el directorio de trabajo de Stata
La sintaxis para cargar y salvar datos puede ser muy extensa dependiendo de la ruta de acceso a las bases de datos o el lugar en el disco duro donde se quieran almacenar los resultados. Una forma prctica de abreviar la sintaxis en ambos casos consiste en indicarle a Stata, antes de comenzar la sesin de trabajo, el lugar en el disco duro de donde se desean tomar los datos y donde se quieren almacenar los resultados. Este procedimiento se lleva a cabo a travs del comando cd as: . cd "C:\...." La otra opcin es por medio del Men File Change Working Directory Entre comillas se debe encontrar la direccin o ruta de la carpeta donde se encuentran las bases de datos que sern empleadas en la sesin de trabajo de Stata.
2.9 Bases de datos de ejemplo
En el momento en que Stata se instala en su equipo se incluyen bases de datos de ejemplo las cuales le permitirn trabajar con el software, tenga en cuenta estos archivos 2 Si desea conocer qu versin tiene de Stata y la configuracin de la memoria y la licencia del programa escriba el comando about o creturn list. 3 Se recomienda revisar la ayuda sobre el comando set y el comando memory
12
Continua Ordinal Nominal
dado que la ayuda en muchas ocasiones se referencia a las bases de datos del software, para acceder a ellas siga la ruta File Example Datasets Example datasets installed with Stata o para acceder a todas las bases de datos seleccione Stata 12 manual datasets pero debe tener acceso a internet.
El comando asociado es:
. sysuse dir * para ver el directorio de bases de ejemplo en su equipo
. sysuse auto.dta * cargar la base auto.dta que es una base de ejemplo de Stata
2.10 Tipos de variables
Una de las preguntas comunes en el manejo de un software estadstico es cmo el programa clasifica o categoriza las variables, es decir que formato es posible asignarle a una variable, para ello es necesario primero que el usuario tenga claro el tipo de variable.
Las variables se pueden dividir de acuerdo al siguiente esquema:
F
Stata es case sensitive, es decir, distingue entre maysculas y minsculas, de forma que las variables var1 es diferente a Var1.
Para Stata se manejan los datos cuantitativos por diferentes tipos de variables los cuales se diferencian por el rango de los datos o por el tamao en el nmero de caracteres disponibles a continuacin se presenta una tabla que describa los tipos de datos.
VARIABLE
CUANTITATIVA CUALITATIVA
Discreta
Figura 6. Tipo de variables
13
TIPO DE VARIABLE RANGO
FORMATO MNIMO MXIMO
Byte -127 100 %8.0g
Int -32,767 32,740 %8.0g
Long -2,147,483,647 2,147,483,620 %12.0g
Float -1.70141E+38 1.70141173319*10^38 %9.0g
Double -8.9885E+307 8.9884656743*10^307 %10.0g
Precisin para FLOAT 3.795x10^-8.
Precisin para DOBLE 1.414x10^-16.
Tabla 5. Tipos de Variable
El nmero que aparece despus del smbolo % es el nmero mximo de dgitos enteros o ancho que soporta el formato y el nmero a la derecha ndica el nmero de decimales, posteriormente se encuentra una letra. Donde [f] es aproximacin al entero ms cercano, [e] indica notacin cientfica y [g] indica decimales.
Stata por defecto selecciona el formato FLOAT, el otro tipo de variables son las variables alfanumricas, estas variables en las que se encuentran principalmente las variables cualitativas, Stata define un formato especial para ellas, y es el formato STRING, %str# es la visualizacin de este formato, en el cual el carcter # indica el largo de la cadena.
2.10.1 Formato de las variables: El formato de las variables hace referencias a la forma como son almacenadas y desplegadas las variables en STATA. Para cambiar el formato de una de una variable a travs del lenguaje de sintaxis debe tener en cuenta que el formato de toda variable siempre antecedido por el smbolo %.
Variables de cadena
Variable numrica
% 20 s Variable String
Inicio de un formato nmero de caracteres
14
Si desea cambiar el formato de una variable utilice el comando recast.
. sysuse auto
. describe Price
. recast float price Para mayor informacin: help data_types y help recast
Formato general g, Notacin cientfica e, formato fijo f
% 10. 0 g c opcional, separados de miles por comas Inicio de un formato
Dgitos antes del punto decimal Dgitos despus del punto decimal
15
3. MANEJO DE BASE DE DATOS
Antes de realizar un anlisis de la informacin ya sea de tipo descriptivo o inferencial, se debe contar con toda la informacin que sea pertinente para el anlisis respectivo y las condiciones que deben tener cada una de las variables para poder establecer un entorno eficiente en Stata 12, para ello en esta seccin podr ver como se manipulan las bases de datos en Stata 12, por ejemplo series financieras (precio de activos) y econmicas (inflacin, desempleo, crecimiento econmico, entre otras).
Una de las ventajas de Stata es su fortaleza en el manejo de bases de datos, principalmente porque permite al usuario administrar gran cantidad de variables y de observaciones, adems, es posible realizar manipulacin y transformaciones como son crear, eliminar, modificar, concatenar y tambin permite agregar variables y observaciones a una base de datos con otras bases, entre muchas ms.
Entre opciones avanzadas se encuentran la proteccin de bases de datos, la creacin de firmas y restricciones a usuarios. Stata permite a los usuarios manejar bases de datos de formatos como son MS Excel, texto, SQL, SAS, entre otros, de igual forma permite exportar archivos a dichos formatos.
3.1 Fundamentos de bases de datos
Hay ciertas caractersticas que usted podr aprender para el manejo de la informacin, entre ellas los pasos fundamentales, como son, importar una base de datos, eliminacin, transformacin de bases de datos, entre otros.
3.1.1 Creacin de un archivo log
Un archivo tipo texto con extensin .log o .smcl4, permite guardar todo lo que usted digite y ejecute en la lnea de comandos as como las salidas obtenidas en la ventana de resultados realizadas durante la sesin activa de Stata.
Se recomienda que la extensin sea SMCL, dado que le permite conservar las fuentes y colores de su ventana de resultados y adems podr configurarlo para imprimir.
4 Iniciales de Stata Markup and Control Language.
16
Figura 7. Creacin de un archivo Log
Para la creacin de un archivo log por medio de comandos debe usar
. log using tables.log, replace
3.1.2 Abrir una base de datos El primer paso es cargar una base de datos, para ello depende el formato de la base de datos. Es comn que los usuarios contengan su informacin en archivos tipo Excel, para ello es necesario tener claro que Stata requiere que el separador decimal debe ser el punto (.), para ello se recomienda utilizar la herramienta de buscar-reemplazar de Excel o hacer cambio de la configuracin de Excel o de la configuracin regional de su equipo.
Recuerde que las bases de datos de Stata finalizan con la extensin .dta, cuando se tiene un base tipo Stata para abrirla puede utilizar la ruta File Open o mediante el teclado CTRL+ O y seleccionar el archivo o por el cono abrir de la barra de herramientas, por medio de comandos podr usar la instruccin use
. use "C:\Users\Brayan\Desktop\ipc_raw.dta", clear
Recuerde la seccin 2.8 en donde se indica como activar un directorio de trabajo para no tener que referenciar la ruta o path en donde se encuentra el archivo; si ya tiene un directorio activo la instruccin es:
. use ipc_raw, clear
Dado que la instruccin solo importa bases de datos de formato Stata no se requiere ingresar la extensin .dta.
Finalmente con el comando use podr seleccionar solamente las variables que desea usando la opcin using importar por ejemplo
. use fecha ipc inflacin using ipc_ra, clear
3.1.3 Importar una base de datos .CSV o TXT Uno de los formatos ms comunes en el manejo de informacin estadstica es el formato Separado por Comas (CSV), para importar una base de dato se sigue la ruta:
File Import Text Data created by a spreadsheet
17
En este caso el comando insheet tiene la siguiente estructura
insheet [variables] using ruta, opciones
Por ejemplo:
. insheet using "C:\Users\USER\Documents\Software Shop\Stata\Taller docentes\Docentes_01.csv", delimiter (":") clear
En el caso que el usuario no requiera importar la totalidad de la base de datos debe especificar despus del comando insheet el nombre de las variables; entre las opciones se encuentran, los tipos de formato que separa los datos, como son tabulaciones (tab), comas (comma) o especificado por el usuario (delimiter(x)).
La funcin anterior es similar para archivos con extensin .TXT.
3.1.4 Importar una base de datos .XLS o .XLSX 3.1.4.1 Editor de datos en Stata
Es comn que las bases de datos y los archivos que se usan a diario por las empresas y sus trabajadores sean de hojas de clculo, para facilitar el trabajo de uso de Stata cuando las bases son de una hoja de clculo se puede sin mayor problema copiar los datos de la hoja correspondiente y posteriormente en la ventana edit dar clic derecho y seleccionar pegar o la secuencia CTRL+V, de sta forma Stata reconoce los datos correspondientes. El software abrir una ventana en donde se pregunta si los datos que se encuentran en la primera fila son las etiquetas de los datos o si no lo son, dependiendo de la fuente de los datos se toma la decisin.
Figura 8. Pegar datos desde Excel
Nota: El usuario debe tener sumo cuidado con el formato de la base original dado que Stata trabaja los separadores decimales con el punto y no con la coma como se usa en la configuracin de los computadores con idioma espaol. Para ello se recomienda al usuario cambiar el formato de separador decimal y de miles en su hoja de clculo o directamente desde la configuracin regional
18
de su equipo. De igual forma usar la tcnica de buscar y reemplazar le permite obtener un buen resultado.
Se recomienda ver informacin adicional con help input, infix e infile.
Los datos pueden ser visualizados o introducidos en Stata haciendo clic en el cono de la ventana Data Editor, presionando CTRL+8, o haciendo clic en
Data Data Editor Editor.
Figura 9. Editor de datos.
Snapshots: Permite preservar y restaurar la base de datos a un punto predeterminado por el usuario.
Filter Observations: Mientras est abierto el editor de datos, a travs de esta opcin es posible mantener un filtro sobre la base la base de datos.
Variable Properties: Esta opcin permite renombrar variables, asignar etiquetas a variables y valores de variables categricas, y ajustar los tipos de variables y los formatos de las variables.
Variable Manager: Similar a la opcin anterior, adems permite visualizar simultneamente varias variables y adicionar notas a estas.
3.1.4.2 Asistente de Importacin de Excel files La versin 12 de Stata ha incorporado una nueva herramienta para importar bases de datos tipo .xls o .xlsx, para acceder al asistente siga la ruta File Import Excel spreadsheet (*.xls, *.xlsx) emerger la siguiente ventana:
Edit Mode Browse Mode
Filter Observations
Variables Manager Snapshots
Variable Properties
19
Figura 10. Asistente Importacin Archivos de Excel
Nota: Para poder importar la base de datos debe tener cerrada la base de datos de lo contrario el asistente no realizar la importacin.
La estructura del comando es:
import excel [using] filename [, import_excel_options]
En las opciones podr seleccionar:
sheet("sheetname") Nombre de la hoja a importar cellrange([start][:end]) Rango de celdas a cargar firstrow Tomar la primera fila como los nombres de las variables allstring Importar todas las variables como texto clear Reemplazar los datos en la memoria
Para el ejemplo la instruccin es:
. import excel "C:\Users\Brayan\Desktop\base1.xlsx", sheet("base 1") firstrow
Busque el archivo de Excel
Seleccione la hoja a importar
Active la casilla si en su hoja la primera fila contiene los nombres de las variables
Seleccione el rango de los datos
20
3.1.5 Importar otros tipos de archivo Hay otro tipo de archivos que Stata le permite importar automticamente como archivo para ello se recomienda tener en cuenta las siguientes recomendaciones:
TIPO DE BASE COMANDO ODBC Odbc Archivo de Texto sin diccionario (.raw)
Infile
Archivo de Texto con ancho fijo (.raw)
Infix
Archivo de Texto con diccionario ( infile2 Formatos SAS XPORT o .xpf import sasxport Formato tipo haver Haver XML files Xmlsave
Tabla 6. Otros comandos para importar archivos
Finalmente si tiene otro tipo de archivos se recomienda que adquiera el software Stat/Transfer, para mayor informacin ingrese a www.stata.com/products/stat-transfer/, este programa permite importar archivos tipo SPSS, SAS, R, RATS, Statistics, MATLAB, GAUSS, entre otros
3.2 Salvando una base de datos
Como los datos han sido cargados en la memoria RAM, slo puede modificarse la base de datos original de tres formas
Haciendo clic en el icono de salvado en la barra de herramientas
Haciendo clic en CTRL+S
A travs del cuadro de comandos empleando el comando save, por ejemplo:
. save base1.dta, replace
La opcin replace le permite sobre escribir un archivo que tenga en el mismo directorio de trabajo activo y con el mismo nombre.
Una vez que los datos han sido guardados o abiertos es posible optimizar el espacio que estos ocupan utilizando el comando compress este comando comprime la base de datos. Es muy til cuando se trabaja con bases de datos grandes.
3.3 Descripcin de la base de datos
Una vez se tenga una base de datos cargada, es necesario empezar a revisarla y obtener informacin de ella, para ellos Stata le permite al usuario por medio de diferentes procedimientos entender cada variable y su contenido.
21
Lo primero que debe realizar el usuario una vez importa o abre una base de datos es observar la base, para ello se encuentran diferentes formas de visualizar los datos, entre ellas las opciones de edit y de browse, las cuales abren una ventana con forma de hoja de clculo, la otra opcin es por medio del comando list que permite visualizar la o las variables en la ventana de resultados, se recomienda usar los comandos edit, browse y list con las opciones if in (ver ms informacin en la seccin 3.4).
Adicional a esto el usuario puede recibir informacin especfica de cada variable por medio de las opciones del men Data Describe Data. En ste men las opciones de describe data in memory, describe data contents e inspect variables, le da la posibilidad al usuario de obtener informacin correspondiente al nombre, la etiqueta, el tipo y formato de la variable, notas, etiquetas sobre valores, el nmero de valores perdidos, entre otras. A continuacin se presenta un ejemplo del uso de estos comandos
Cargar una base de datos del programa . sysuse auto
Observar los datos . browse
Figura 11. Comando browse
Describir los datos . describe make rice mpg
22
Tabla 7. Comando describe para algunas variables
Cuando se desea aplicar un comando para todas las variables de la base de datos podr hacerlo ingresando el comando sin incluir ninguna variable de esta forma Stata tomar la instruccin para toda la base de datos, otra alternativa es escribir _all posterior al comando por ejemplo:
. sysuse auto
. describe _all
Tabla 8. Describe de todas las variables en la base de datos
3.4 Creacin de Variables
Por medio del men Data se puede encontrar opciones como crear nuevas variables
Data Create or Change Data Create New Variable:
.
mpg int %8.0g Mileage (mpg)price int %8.0gc Pricemake str18 %-18s Make and Model variable name type format label variable label storage display value
foreign byte %8.0g origin Car typegear_ratio float %6.2f Gear Ratiodisplacement int %8.0g Displacement (cu. in.)turn int %8.0g Turn Circle (ft.)length int %8.0g Length (in.)weight int %8.0gc Weight (lbs.)trunk int %8.0g Trunk space (cu. ft.)headroom float %6.1f Headroom (in.)rep78 int %8.0g Repair Record 1978mpg int %8.0g Mileage (mpg)price int %8.0gc Pricemake str18 %-18s Make and Model variable name type format label variable label storage display value
23
Figura 12. Comando generate
Figura 13. Prefijo de un comando
Algunos ejemplos de creacin de variables:
. generate suma = var1 + var2
. gen resta = var1 var2
. g multiplicacin = var1 * var2 Para la creacin de las variables se recomienda usar el siguiente cuadro
24
Tabla 9. Operadores
En algunas ocasiones se requieren algunos caracteres especiales, uno de ellos son los caracteres _n y _N o denominadas variables del sistema, _n es un contador del nmero de observaciones, y _N indica el total de observaciones de la base de datos.
. gen tendencia = _n
. gen totales = _N Para la creacin de variables con condiciones puede utilizar la opcin de la estructura de comandos [if] [in], estas opciones le permitirn poner restricciones no solo para la creacin de variables si no para la gran mayora de comandos que contiene Stata, debe tener en cuenta que solo debe escribir una vez el carcter if o in, a continuacin algunos ejemplos en el uso de estos caracteres especiales:
. gen dummy = 1 if TV >5 *crea una variable con valores = 1 si TV > 5, perdido en otro caso.
. list make mpg if mpg>25
. list price in 10/20 * crea una lista para las observaciones entre la 10 y 20
. list price in -10/l * crea una lista con las ltimas 10 observaciones
Para la opcin in se puede utilizar las siguientes estructuras:
# Condicin sobre una nica observacin
#/# Condicin sobre un rango de observaciones
#/l Condicin sobre una observacin hasta la ltima (l)
25
f/# Condicin desde la primera observacin (f) hasta una observacin
-#/# Condicin desde las ltimas # observaciones hasta # que puede ser la ltima con l, *L minscula*
A continuacin se listan algunas funciones matemticas, estadsticas y de fecha importantes en la creacin de variables
Funcin Ejemplo Descripcin ln() g lpib = ln(pib) Logaritmo natural
exp() g epib = exp(pib) Exponencial sqrt() g y = sqrt(epib) Raz cuadrada abs() g x = abs(y) Valor absoluto cos() g coseno = cos() Coseno logit() g logit = logit(x) Retorna el logaritmo de los odds ratio de x
runiform() g uniforme = runiform() Genera nmeros aleatorios de una distribucin uniforme [0,1)
rnormal() g normal = rnormal() Genera nmeros aleatorios de una distribucin normal estndar (0,1)
rnormal(m,s) g normal = rnormal(10,2) Genera nmeros aleatorios de una distribucin normal con media m y desviacin estndar s
int() g enteros = int(pib) Convierte una variable o dato en entero invnormal(p) g inversa = invnormal(prob) Genera una variable como la inversa de la
probabilidad de una distribucin normal length(s) g largo = length(nombre) Presenta el nmero de caracteres de una
variable string Tabla 10. Ejemplos Funciones generate
Ejemplo:
. use personas, clear
*Logaritmo natural de los ingresos laborales
. gen lny=ln(i_laboral)
*Logaritmo natural de las horas de trabajo al mes
. gen lnm=ln(htm)
*Aos de experiencia laboral al cuadrado
. gen exp2=exp^2
*Horas de trabajo al mes expresadas en nmeros enteros . gen horas=int(htm)
*Generacin de una variable aleatoria uniforme (0,1) . gen uniforme=uniform()
26
*Horas de trabajo al mes expresadas en nmeros enteros (redondeado)
. gen horasr=round(htm)
* Si cumple la condicin (ser menor de 25 aos) marcar con el nmero 1
. gen men25=1 if e025,1,0)
. gen dummy = (TV>5)
. egen concatenar = concat(variable1 variable2)
FUNCIN EJEMPLO DESCRIPCIN max() egen maximo = max(ingresos) Presenta el mximo de una variable min() egen minimo = min(ingresos) Presenta el mnimo de una variable
mean() egen promedio = mean(ingresos) Presenta el promedio de una variable kurt() egen curtosis = kurt(ingresos) Presenta la curtosis de una variable sd() egen desviacin = sd(ingresos) Presenta la desviacin estndar de una
variable Tabla 11. Funciones generate y egen.
3.5 Ordenar variables y bases de datos
Ordenar datos Data Sort Ascending Sort:
27
Figura 14. Ordenar datos
Para ordenar en forma descendente se recomienda usar el comando gsort de la siguiente forma:
. gsort var1 var2 +var3
El comando anterior produce un ordenamiento descendente primero por la variables VAR1, seguido por la variable VAR2 y de forma ascendente por la variable VAR3, indicando que se debe ubicar un signo (-) para establecer descendente y un signo (+) para orden ascendente, aunque este ltimo no es necesario en el comando.
Existe otro caso y es en el caso que se dese ordenar las variables, es decir cambiar el orden en la base de datos, por medio del comando order es posible realizar esto, de igual forma es posible utilizar aorder para que las variables queden ordenadas en forma alfabtica. Finalmente el comando move permite modificar la ubicacin de las variables, pero a partir de la versin 11, este comando es reemplazado por order.
3.6 Clculos por grupos
En algunas ocasiones el usuario requiere de verificar la informacin por una caracterstica particular, grupales, entre otras, para ellos Stata cuenta con el prefijo by el cual se ubica previo al comando estadstico, grfico o de modelo.
Ejemplo:
. use http://www.Stata-press.com/data/imeus/census2d, clear
. gsort region -pop
. by region: generate totpop = sum(pop)
. by region: list region totpop if _n = = _N
. by region: egen meanpop = mean(pop)
. by region popsize, sort: egen meanpop2 = mean(pop)
. by sex age: regress wage expert expert2 occup
28
El comando by permite generar variables por diversas categoras, adems, permite ordenar de acuerdo a alguna variable. En el ltimo ejemplo hace una regresin por cada categora entre el gnero y la edad.
3.7 Codebook e Inspect
codebook, escribe el contenido de las variables, indicando nmero de observaciones, valores perdidos, percentiles, entre otros.
. codebook foreign
Tabla 12. Comando codebook foreign.
. codebook price
Tabla 13. Comando codebook price
El comando inspect, entrega el nmero de observaciones de una variable identificando los valores positivos, negativos, cero, missing, y si estos corresponden a nmeros enteros o no. Los missing values se sealan en Stata mediante un punto (.). Se considera que un missing value es mayor que cualquier valor.
3 1 Foreign 12 0 Domestic tabulation: Freq. Numeric Label
unique values: 2 missing .: 0/15 range: [0,1] units: 1
label: origin type: numeric (byte)
foreign Car type
3 15906 3 14500 3 13594 3 13466 3 12990 tabulation: Freq. Value
unique values: 5 missing .: 0/15 range: [12990,15906] units: 1
type: numeric (int)
price Price
29
Tabla 14. Comando inspect rep78
3.8 Conservar y recargar bases de datos
Es importante cuidar la base de datos que se est trabajando, por eso se recomienda salvar la base de datos, pero adems, Stata ofrece opciones que le permitirn al usuario guardar la base de datos de forma virtual, por medio de los comandos preserve y snapshot y para recuperar la base con el comando restore
. preserve
. restore
. snapshot save, label("nombre del elemento guardado")
. snapshot restore 1
Figura 15. Opcin snapshot
La diferencia entre el snapshot y el preserve es que este ltimo solo permite guardar una vez la base de datos, mientras el snapshot varias veces.
3.9 Filtros de la base de datos
Ejemplo acerca de la opcin filtros:
. browse if pop > 10000000
. browse if pop > 10000000 & marriage > 100000
. browse if pop > 10000000 & marriage > 100000 & popurban > 10000000
. browse if pop > 10000000 | marriage > 100000 & popurban > 10000000 Uso del in
(5 unique values)1 5 74 . # # # # Missing 5 # # # Total 69 69 - # # # Positive 69 69 - # Zero - - - # Negative - - - Total Integers Nonintegers rep78: Repair Record 1978 Number of Observations
. inspect rep78
Snapshot
Agregar Snapshot
Remover Snapshot
Cambiar el nombre
Restaurar
30
. browse pop in 1/10 . browse pop in f/10 f = FIRST, l = LAST . browse pop in 10/l hasta el ltimo Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep, drop y list.
drop elimina observaciones y/o variables, keep conserva observaciones y/o variables, list presenta variables y/o observaciones en la ventana de resultados, edit permite visualizar los datos en una hoja de datos y podr editar y modificar los datos, browse realiza las mismas opciones de edit pero no se puede modificar la informacin.
El comando keep y drop tienen la misma estructura
keep/drop variables keep/drop if expression
keep/drop in rango Ejemplo:
. sysuse census
. drop death divorce * Elimina las variables death y divorce
. keep state pop medage marriage * Conserva las variables indicadas
. drop if medage > 30 * Elimina las observaciones donde medage sea mayor a 30
. sort popurban
. keep in -10/l * Conserva las ltimas 10 observaciones con mayor popurban
3.10 Administrador de variables
En la versin 11 de Stata se incluy la ventana del administrador de variables, este administrador de variables permite modificar informacin de cada variable, principalmente el cambio de nombre, etiquetas, tipo de variable, formato, notas y creacin de categoras y etiquetas.
. varmanage
31
Figura 16. Administrador de variables.
Para la modificacin de la variable, deber ser seleccionada la variable y una vez modificada la informacin correspondiente debe dar clic en Apply.
En la versin 12, Stata ha incluido una nueva ventana que es la ventana de propiedades en la cual se pueden modificar la informacin de cada variable:
Figura 17. Ventana de Propiedades
Entre los cambios del administrador de variables y la ventana de propiedades se encuentran las siguientes opciones, se describe el comando correspondiente para automatizacin de tareas.
32
3.10.1 Rename Este comando permite cambiar el nombre de una variable. Por ejemplo:
rename nombreviejo nombrenuevo
. rename price precio
3.10.2 Label Variable Para colocar la etiqueta a la variable, con la cual se describe la informacin de la misma:
label var nombrevariable etiqueta variable
. label var precio Precio del auto
3.10.3 Notes Se pueden crear dos tipos de notas, una para las variables o para la base de datos, a continuacin un ejemplo para cada caso:
. notes divorce: 1 si la persona es divorciada, 0 en otro caso * nota para la variable divorce
. notes _dta: Censo 1994 * nota para la base de datos
3.11 Creacin de categoras
La forma ms sencilla de crear categoras de variables es por medio del administrador de variables, la variable que seleccionar debe ser discreta, una vez inicie el administrador debe seleccionar la variable que codificar, luego debe dar clic en Manage que se encuentra a la derecha de la opcin Value label
Figura 18. Manage
La figura 16 presenta el administrador de etiquetas, en el cual podr crear, editar o eliminar etiquetas y para las etiquetas ya creadas puede agregar, editar o eliminar valores que se encuentran en una etiqueta creada.
33
Figura 19. Administrador de Value Labels
Para crear una nueva etiqueta haga clic en Create Label, en la figura 17 podr agregar, eliminar y editar las categoras con su correspondiente descripcin.
Figura 20. Creacin de Labels
Una vez haya creado la etiqueta deber asignarla a la(s) variable(s) que correspondan, para ello en el administrador de variable a la izquierda de Manage seleccione el nombre de la etiqueta.
34
Figura 21. Asignacin de etiquetas
Por medio de comandos
. label define respuestas 1 si 2 no * Creacin de la etiqueta con sus valores
. label values pregunta1 respuestas *Se asigna a la variable pregunta1 la etiqueta respuestas
3.12 Modificacin y transformacin de variables
En la seccin anterior se present la forma de creacin de variables por medio de los comandos gen y egen, de igual forma el comando replace. Pero existen otras formas de modificar variables ya sea en su formato, tipo de variable, codificacin entre otras, a continuacin se presentan las ms importantes.
3.12.1 Recode Este comando permite recodificar algn valor de una variable
. recode x (1=2), gen(nx) *Ejemplo 1
. recode x1 (1=2) (2=1), gen(nx1) *Ejemplo 2
En el ejemplo 1 se recodifica la variable x, cambiando los valores 1 por valores 2, la variable transformada se guarda como nx.
35
Figura 22. Recode
En el ejemplo 2 se cambia de 1 a 2 y de 2 a 1, generando la variable nx1.
3.12.1.1 Variables categricas a partir de variables continuas. Ejemplo:
Suponga que se quiere generar una variable que segmente a la poblacin en grupos de edad (menores de 18 aos, entre 18 y 25 aos, entre 26 y 40 aos, entre 41 y 60 aos, mayores de 60 aos), con un numero distintivo para cada categora. Una opcin es emplear el comando recode y generate (desde el do-file editor ) as: . recode e02 (min/17=1) (18/25=2) (26/40=3) (41/60=4) (61/max=5), gen(gedad) o en forma alternativa
recode e02 (min/17=1 "Menores de edad") (18/25=2 "Entre 18 y 25 aos") (26/40=3 "Entre 26 y 40 aos") (41/60=4 "Entre 41 y 60 aos") (61/max=5 "Mayores de 60 aos"), gen(gedad) La variable gedad es una recodificacin de e02 (edad). Note que se han aplicado etiquetas a cada una de las categoras entre comillas.
. codebook gedad
36
Tabla 15. Comando codebook
3.12.2 Divisin de Variables de texto Split divide una variable texto en nuevas variables por el espacio o un carcter especfico
split var1, parse(,) gen(geog)
3.13 Combinacin de bases de datos
La combinacin de bases de datos es un problema muy comn para el investigador o el analista de informacin, Stata le permite realizar diferentes tipos de fusiones de bases de datos, a continuacin se presentan los dos formatos ms importantes, la adicin vertical (merge) y horizontal (append).
Figura 23. Combinacin de base de datos
3.13.1 Combinacin Vertical Append Este comando agrega filas a la base de datos, las variables deben como regla contener los mismos nombres, el mismo tipo de variable y adems la base de datos sus variables deben estar ordenadas de igual forma. Para combinar conjuntos de datos verticalmente se emplea el comando append.
En nuestro ejemplo, a la base de datos HOMBRES se va adicionar los casos correspondientes la informacin de las mujeres as:
EDUCACION.dta
HOMBRES.dta
Adicin casos: append
No es necesaria variable llave
MUJERES.dta
Adicin de variables: merge
Es necesaria variable llave. Las bases de datos deben estar ordenadas. Revisar la variable _merge
37
. use hombres, clear
. append using MUJERES En la nueva base de datos se ha combinado la informacin hombres y mujeres en una nica base de datos.
. d
Tabla 16. Comando describe
En este punto se deben tener en cuenta dos aspectos.
1. El comando append debe estar acompaado de la palabra using la cual indica que el nombre a continuacin corresponde a la base de datos de datos que ser adicionada verticalmente.
2. Como la base de datos cargada en la memoria RAM ha cambiado es conveniente que el usuario salve la nueva informacin con otro nombre as. . save PERSONAS, replace
3.13.2 Combinacin Horizontal Merge Se usa cuando se quieren traer nuevas variables de una base llamada using a una base de datos ya existente o master, ste comando une dos bases de datos utilizando una variable en comn (generalmente es una ID, llave o cdigo que identifica las observaciones de la base de datos). Las dos bases de datos deben estar guardadas en formato .dta, y deben estar ordenadas de acuerdo a la variable que se va a pegar. El objetivo de este comando es agregar variables (columnas).
Para pegar dos bases de datos (A.dta y B.dta), se deben realizar los siguientes pasos:
1. Ordenar (sort) la base de datos B de acuerdo a las variables con las que se har la unin de las bases, es decir de acuerdo al ID, y guardar.
2. Abrir la base A y ordenarla de acuerdo al paso 1.
38
3. Usar el comando merge 4. Guardar la base de datos (save)
Si la base no est ordenada y contiene datos repetidos emerge el siguiente error:
Using data not sorted Master data not sorted Para verificar que usted tenga un identificador nico se recomienda que lo verifique por medio del comando isid.
. isid id num
Si emerge error es porque el identificador se repite y si va hacer una fusin tendr inconvenientes. Al momento de realizar el merge se crea una variable denominado _merge, que contiene tres valores:
_merge = = 1 Las observaciones son originarias del archivo master o base
_merge = = 2 Las observaciones son originarias del archivo using
_merge = = 3 Las observaciones se encuentran en ambos archivos
Siguiendo con el ejemplo anterior, se va a agregar a la base de datos PERSONAS.dta, nuevas variables con la informacin sobre el nivel educativo y los aos de educacin aprobados de las personas. Esta informacin se encuentra en la base de datos EDUCACION.dta. Los pasos a seguir para realizar este tipo de pegue son:
1. Cargar la base using (EDUCACION.dta) de donde se quiere traer las nuevas variables, la ordenamos de acuerdo con la(s) variable(s) identificadora(s) numero y e01 y salvamos los cambios. El comando para ordenar las observaciones es sort as:
. use EDUCACION . sort numero e01 . d . save EDUCACION, replace
En este caso, el comando save est acompaado de la opcin replace la cual denota que se est sobrescribiendo en la base EDUCACION original.
2. Cargar la base master (PERSONAS.dta), se ordenan por el mismo criterio anterior y se guardan los cambios.
. use PERSONAS . sort numero e01 . d
39
. save PERSONAS, replace
3. Se aplica el comando merge para pegar horizontalmente las dos bases as:
La base de datos PERSONAS.dta contiene ahora las variables de la base de datos EDUCACION.dta, creando automticamente la variable _merge.
3.14 Cambio en la organizacin de los datos
Cuando una base de datos tiene ms de una observacin por unidad de estudio (individuo, pas, empresa, etc.) nos puede interesar slo trabajar con una observacin por unidad (collapse) o mantener las observaciones distintas para cada individuo pero que se creen como variables o columnas distintas (reshape)
3.14.1 Collapse Si se tiene una base de datos de hogares, cada observacin es un miembro del hogar. Si cada hogar dispone de un identificador nico, entonces se puede formar una base de datos alternativa que contenga una sola observacin por hogar (en lugar de una observacin por individuo) para cada una de las variables deseadas. Esta observacin puede contener la media, desviacin estndar, suma u otro estadstico. Ejemplo:
. collapse (mean) edad (max) educacin (p50) ingreso, by(hogar)
Lo anterior crea una base de datos con cuatro variables, hogar, edad, ingreso y educacin.
Con frecuencia, la informacin estadstica tiene algn grado de reserva o confidencialidad que la hace no accesible al pblico en su forma original. La mayor parte de la informacin proveniente de bases de datos grandes, por ejemplo las encuestas (de personas, de hogares, de empresas de la industria manufacturera, etc.) o los censos (de poblacin, de instituciones educativas, de edificaciones, etc.) suele ser presentada en tablas resumen y en bases de datos colapsadas o agregadas.
En Stata es posible colapsar bases de datos a travs del comando collapse. Debe tenerse en cuenta:
1. La(s) variable(s) de agregacin: Variable(s) que definen las nuevas unidades de observacin u observaciones agregadas.
40
2. El(Los) criterio(s) de agregacin: Es la(s) operacin(es) matemtica(s) que ser(n) aplicados a la base de datos original para obtener las nuevas unidades de observacin colapsadas: suma, media, mediana, cuenta, percentil, etc.
3. La base de datos original ha sido modificada. Debera salvarse con un nuevo nombre.
Por ejemplo, a partir de la base personas.dta, se puede obtener una base de datos agregada por localidad y sexo as:
. collapse (mean) edu007, by(localid e03)
Tabla 17. Collapse
La variable edu007 corresponde a los aos de educacin promedio y jefe a la suma de los jefes de hogar, en ambos casos, por localidad y sexo.
3.14.2 Reshape En algunas ocasiones dependiendo del estudio muestral y de la construccin de la base de datos, usted encontrar su informacin en dos formatos, ancho (wide) y largo (long), el formato ancho es aquel en el cual usted tiene un conjunto i de individuos y un nmero j de variables, donde j es generalmente una variable con informacin para diferentes perodos de tiempo.
Para mostrar un ejemplo, se utilizar la base de datos reshapeState descrita en el libro [1]:
. use http://www.Stata-press.com/data/imeus/reshapeState, clear
. list
41
Tabla 18. Comando list
En este caso se encuentran seis cdigos de estados de nueva Inglaterra, y aparece la informacin de la poblacin desde 1970 hasta el 2000 calculada cada dcada, a continuacin se transforma la base de datos de formato wide a long por medio del comando reshape, la estructura de este comando es:
reshape long variable_j, i(variable_individuos) j(nombre nueva variable) reshape wide variable_j, i(variable_individuos) j(variable_temporal)
Con la base de datos actual se pasa de wide a long
. reshape long pop, i(state) j(ao)
Tabla 19. Reshape long
. list
6. VT .1086679 .0445188 .5644092 .7219492 .6759487 5. RI .684176 .2551499 .2110077 .4079702 .0580662 4. NH .6047949 .8714491 .8414094 .1180158 .8944746 3. ME .5578017 .5552388 .5219247 .2769154 .4216726 2. MA .6432207 .0610638 .8983462 .9477426 .4611429 1. CT .1369841 .6184582 .4241557 .2648021 .871691 state pop1970 pop1980 pop1990 pop2000 area
pop1970 pop1980 ... pop2000 -> popxij variables:j variable (4 values) -> aoNumber of variables 6 -> 4Number of obs. 6 -> 24 > Data wide -> long
42
Tabla 20. Comando list despus de Reshape long
Si se encuentra usted con una base de datos similar a la generada con el comando reshape, podr pasarla a formato wide, en nuestro caso se usar la siguiente sintaxis
reshape wide pop, i(state) j(year)
Continuando con el ejemplo de la encuesta de hogares. Se puede hablar de orientacin vertical u horizontal cuando a cada una de las observaciones i en una base de datos, se las segmenta por algn criterio j (v.g., diferentes periodos de tiempo). En nuestro ejemplo, cada una de las localidades i, ha sido segmentada por sexo j, mientras que la base de datos en conjunto ha sido desplegada de forma vertical. En este caso sin embargo, puede resultar ms cmodo emplear una base de datos orientada horizontalmente, en particular si se quieren hacer comparaciones para cada una de las localidades entre hombres y mujeres. Se puede emplear el comando reshape, acompaado de las opciones wide (despliegue horizontal) o long (despliegue vertical), para cambiar la orientacin de la base de datos colapsada as:
. reshape wide edu007, i(localid) j(e03)
24. VT 2