Fundamentos conceptuales de estadística - Oscar F soto B

download Fundamentos conceptuales de estadística  - Oscar F soto B

If you can't read please download the document

Transcript of Fundamentos conceptuales de estadística - Oscar F soto B

  1. 1. Fundamentos Conceptuales de Estadstica
  2. 2. Fundamentos Conceptuales de Estadstica Oscar F. Soto Bocanegra Universidad Nacional de Colombia Facultad de Ciencias Departamento de Estadstica Sede Bogota
  3. 3. Indice general 1 Introduccion 1 1.1 Formas del saber . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 Saber Cotidiano . . . . . . . . . . . . . . . . . . . . . . 1 1.1.2 Saber Cientco . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Metodo cientco e investigacion . . . . . . . . . . . . . . . . . 2 1.2.1 Caractersticas de un Metodo Cientco . . . . . . . . . 3 1.2.2 Investigacion y su Procedimiento . . . . . . . . . . . . . 3 1.3 La Estadstica y la Investigacion . . . . . . . . . . . . . . . . . 4 1.4 Resena historica de la Estadstica . . . . . . . . . . . . . . . . . 5 2 Conceptos fundamentales de Estadstica 9 2.1 Deniciones de Estadstica . . . . . . . . . . . . . . . . . . . . . 9 2.2 Caractersticas del metodo estadstico . . . . . . . . . . . . . . 10 2.3 Clasicacion de los metodos estadsticos . . . . . . . . . . . . . 11 2.4 Sistema conceptual basico . . . . . . . . . . . . . . . . . . . . . 11 2.4.1 El Colectivo, Agregado, Poblacion, Universo . . . . . . . 11 2.4.2 Las Variables . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4.3 Escalas de Medicion o Clasicacion . . . . . . . . . . . . 12 2.4.4 El Censo o Enumeracion Completa . . . . . . . . . . . . 19 iv
  4. 4. INDICE GENERAL v 2.4.5 El Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4.6 Los Parametros y las Estadsticas . . . . . . . . . . . . . 21 3 Metodologa de la Estadstica 22 3.1 Denicion de Objetivos . . . . . . . . . . . . . . . . . . . . . . 22 3.2 Denicion del colectivo o poblacion . . . . . . . . . . . . . . . . 23 3.3 Determinacion de la cobertura . . . . . . . . . . . . . . . . . . 23 3.4 Determinacion del marco de muestreo . . . . . . . . . . . . . . 23 3.4.1 Denicion . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.4.2 Problemas del Marco . . . . . . . . . . . . . . . . . . . . 24 3.4.3 Soluciones Generales . . . . . . . . . . . . . . . . . . . . 24 3.5 Denicion de unidades . . . . . . . . . . . . . . . . . . . . . . . 25 3.5.1 Unidad Poblacional . . . . . . . . . . . . . . . . . . . . 25 3.5.2 Unidad Muestral . . . . . . . . . . . . . . . . . . . . . . 25 3.5.3 Unidades de Observacion . . . . . . . . . . . . . . . . . 25 3.6 Determinacion del diseno muestral . . . . . . . . . . . . . . . . 26 3.6.1 Muestreo No Probabilstico . . . . . . . . . . . . . . . . 26 3.6.2 Muestreo Probabilstico . . . . . . . . . . . . . . . . . . 27 3.7 Recoleccion de informacion . . . . . . . . . . . . . . . . . . . . 27 3.8 Tratamiento de la informacion . . . . . . . . . . . . . . . . . . 28 3.8.1 Distribuciones de Frecuencias . . . . . . . . . . . . . . . 28 3.8.2 Clasicacion Unidimensional . . . . . . . . . . . . . . . 29 3.8.3 Clasicacion Bi y Pluridimensional . . . . . . . . . . . . 31 3.9 Analisis e Interpretacion . . . . . . . . . . . . . . . . . . . . . . 33 4 Analisis de variables no cuantitativas 35 4.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.2 Analisis basico en tablas 2 x 2 . . . . . . . . . . . . . . . . . . . 35 4.2.1 Notacion y Consistencia . . . . . . . . . . . . . . . . . . 35 4.2.2 Independencia y Correspondencia . . . . . . . . . . . . . 36 4.2.3 Clasicacion Multivariada Dicotomica . . . . . . . . . . 41 4.3 Clasicacion multiple . . . . . . . . . . . . . . . . . . . . . . . . 42
  5. 5. vi INDICE GENERAL 5 Analisis descriptivo de una variable cuantitativa 44 5.1 Medidas caractersticas unidimensionales . . . . . . . . . . . . . 44 5.1.1 La Media Aritmetica . . . . . . . . . . . . . . . . . . . . 44 5.1.2 La Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.1.3 La desviacion estandar y el coeciente de variacion . . . 48 5.1.4 Los Percentiles . . . . . . . . . . . . . . . . . . . . . . . 49 5.1.5 La Moda . . . . . . . . . . . . . . . . . . . . . . . . . . 49 6 Estudios de relacion entre variables cuantitativas 51 6.1 La regresion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 6.2 La explicacion de la variacion del modelo . . . . . . . . . . . . 53 7 Algunos conceptos de Probabilidad 55 7.1 Teoremas basicos de Probabilidad . . . . . . . . . . . . . . . . . 55 7.1.1 Denicion clasica . . . . . . . . . . . . . . . . . . . . . . 55 7.1.2 Teoremas basicos . . . . . . . . . . . . . . . . . . . . . . 55 7.2 Funcion de probabilidades . . . . . . . . . . . . . . . . . . . . . 56 7.3 Funcion de distribucion . . . . . . . . . . . . . . . . . . . . . . 57 7.4 Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 7.5 La varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 7.6 Funciones especiales de probabilidad . . . . . . . . . . . . . . . 59 7.6.1 Bernoulli o bipuntual . . . . . . . . . . . . . . . . . . . 59 7.6.2 Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . 59 7.6.3 Binomial negativa . . . . . . . . . . . . . . . . . . . . . 60 7.6.4 Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . 60 7.6.5 Hipergeometrica . . . . . . . . . . . . . . . . . . . . . . 60 7.6.6 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 7.6.7 La multinomial . . . . . . . . . . . . . . . . . . . . . . . 62 7.6.8 Hipergeometrica generalizada . . . . . . . . . . . . . . . 62 7.6.9 La normal . . . . . . . . . . . . . . . . . . . . . . . . . . 63 7.6.10 La normal estandarizada o tipicada o reducida . . . . . 63 8 Conceptos de inferencia estadstica 64
  6. 6. INDICE GENERAL vii 8.1 Generalidades acerca de inferencia . . . . . . . . . . . . . . . . 64 8.1.1 Inferencia Matematica . . . . . . . . . . . . . . . . . . . 65 8.1.2 Inferencia factica . . . . . . . . . . . . . . . . . . . . . . 65 8.1.3 Inferencia Estadstica . . . . . . . . . . . . . . . . . . . 65 8.1.4 Inferencia Reductiva . . . . . . . . . . . . . . . . . . . . 66 8.2 Inferencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . 66 8.2.1 Inferencia Clasica . . . . . . . . . . . . . . . . . . . . . . 67 8.2.2 Inferencia bayesiana . . . . . . . . . . . . . . . . . . . . 67 8.3 Distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . 67 9 La estimacion estadstica 72 9.1 Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 9.2 Algunas propiedades de un buen estimador . . . . . . . . . . . 73 9.2.1 Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . 73 9.2.2 Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 74 9.2.3 Eciencia relativa . . . . . . . . . . . . . . . . . . . . . . 74 9.2.4 Suciencia . . . . . . . . . . . . . . . . . . . . . . . . . . 75 9.3 Formas de hacer estimaciones . . . . . . . . . . . . . . . . . . . 75 10 Pruebas de hipotesis estadsticas 78 10.1 Hipotesis nula Hipotesis alternativa . . . . . . . . . . . . . . . 78 10.2 Error tipo I Error tipo II . . . . . . . . . . . . . . . . . . . . 79 10.3 Proceso general de prueba . . . . . . . . . . . . . . . . . . . . . 81
  7. 7. viii INDICE GENERAL
  8. 8. CAPITULO 1 Introduccion 1.1. Formas del saber Los seres humanos poseen mayores o menores conocimientos, segun el modo y grado de participacion en la totalidad de la cultura, pero las formas y tipos de conocimientos generan dos modos principales del saber que son el Saber Cotidiano y el Saber Cientco. Se sabe de manera natural por el solo hecho de vivir, y se sabe cientcamente cuando existe disposicion de conocer con arreglo a ciertos procedimientos. 1.1.1. Saber Cotidiano Es el saber o conocimiento que se adquiere en la experiencia cotidiana. Se trata de conocimientos inconexos entre si, a veces superciales, constituidos por una yuxtaposicion de casos y hechos. Es el modo comun y corriente, espontaneo de conocer. Este saber cotidiano, tambien llamado el conocimiento vulgar, se caracteriza por ser supercial, en el sentido de que se conforma con lo aparente, con lo que comprueba al pasar junto a las cosas. Ademas es no sistematico, tanto en el proceso de adquisicion y vinculacion, como en el modo de establecer canones de validacion; se limita a percibir lo inmediato a traves de experiencias, vivencias, estados de animo y emociones de la vida diaria, permaneciendo a nivel de certeza sensorial. 1
  9. 9. 2 CAPITULO 1. INTRODUCCION Otra caracterstica propia de este saber es la de ser acrtico puesto que esta apoyado solo en la evidencia inmediata y solo percibe entonces la epidermis de la realidad; puede decir acerca de lo que pasa, pero no porque pasa lo que pasa. 1.1.2. Saber Cientco Se acepta actualmente como denicion de conocimiento cientco o en general Ciencia, a un conjunto de conocimientos racionales, ciertos o probables, que obtenidos de manera metodica y vericados empricamente, se sistematizan organicamente, haciendo referencia a objetos de una misma naturaleza, cuyos contenidos son susceptibles de ser transmitidos. Es racional puesto que exige el uso de la razon y ello tiene exigencias metodicas que conforman una serie de elementos basicos, tales como un sistema conceptual, hipotesis, deniciones, etc. Es cierto o probable; en la ciencia no existe la certeza absoluta, sino solo la probabilidad inductiva; se trata de verdades parciales, sujetas a correccion cuando nuevos datos o experiencias demuestran la necesidad de recticacion. Los conocimientos de la ciencia no se adquieren al azar o en la vida cotidiana, sino mediante reglas logicas que acompanadas de procedimientos tecnicos se organizan segun ciertas convenciones cientcas; por esto la ciencia es metodica. Tambien requiere la confrontacion con la realidad y la sistematizacion organica, ya que no se trata de conocimientos inconexos sino de un saber ordenado logicamente constituyendo un sistema de generalizaciones y principios que relacionan los hechos entre s, deduciendo leyes y teoras. Lo anterior implica que el saber cientco se reera a objetos de una misma naturaleza, objetos pertenecientes a un determinado ambito de la realidad, que guardan entre s caracteres de homogeneidad, acerca de los cuales se arma algo de sus propiedades estructurales y relaciones. Finalmente, los conocimientos de una ciencia deben ser transmisibles por medio, de un lenguaje que le es propio y que debe responder a todas las exigencias de claridad y precision. 1.2. Metodo cientco e investigacion Entre un tipo del saber y otro existe una separacion que no es cualitativa sino de grado; lo diferenciador no esta dado por la naturaleza del objeto de estudio, ni por la veracidad de lo conocido sino por la forma de su adquisicion y los instrumentos del conocer. En tanto que el saber vulgar no es sistematico,
  10. 10. 1.2. METODO CIENTIFICO E INVESTIGACION 3 el cientco lo es, requiere de un proceso formal es decir de un METODO. Se entiende por un Metodo Cientco un camino a seguir mediante una serie de operaciones, reglas y procedimientos jados de antemano de manera voluntaria y reexiva, para alcanzar un determinado n que puede ser material o conceptual. 1.2.1. Caractersticas de un Metodo Cientco Es FACTICO, en el sentido de que los hechos son fuente de informacion y de respuesta. Se dice que un Metodo Cientco parte de la observacion de los hechos, esta basado en los hechos, tiene un referencial emprico. TRASCIENDE LOS HECHOS; si bien un Metodo Cientco parte de los hechos particulares no se detiene en ellos, sino que mediante un salto del nivel observacional al teorico los trasciende, los problematiza y establece leyes, teoras, etc. La interpretacion de los hechos se realiza desde un determinado marco de referencia teorico que, a su vez, se apoya en supuestos meta teoricos. Se atiene a REGLAS METODOLOGICAS formalizadas (operaciones, procedimientos establecidos de antemano), pero no por eso deshecha la intuicion y la imaginacion. Se vale de la VERIFICACION EMPIRICA para formular respuestas a los problemas planteados y para apoyar sus propias armaciones, exigiendo una constante confrontacion con la realidad que lleva a la problematizacion de lo ya adquirido y admitido. Esta permanente confrontacion hace que un Metodo Cientco sea AUTOCORRECTIVO Y PROGRESIVO. Es autocorrectivo en cuanto va rechazando, corrigiendo o ajustando las propias conclusiones en la medida que algunos hechos demuestren la existencia de algun error u omision. Es progresivo ya que, al no tomar sus conclusiones como infalibles o nales, esta abierto a nuevos aportes y a la utilizacion de nuevas tecnicas y procedimientos. Es GENERALIZANTE. La cosa en particular o el hecho individual o singular interesa en la medida en que es miembro de una ley o clase. No es que se ignore la cosa individual o el hecho irrepetible, lo que ignora es el hecho aislado, puesto que sus enunciados son universales y expresan el comportamiento o relacion que guardan determinados fenomenos de una manera regular. Es OBJETIVO ya que busca alcanzar la verdad que los hechos muestran, independientemente de la escala de valores y creencias del cientco. 1.2.2. Investigacion y su Procedimiento El proceso especco para aplicar un Metodo Cientco es llamado en terminos generales, INVESTIGACION. Formalmente se dene como un
  11. 11. 4 CAPITULO 1. INTRODUCCION procedimiento reexivo, sistematico, controlado y crtico que tiene por nalidad descubrir o interpretar los hechos y fenomenos, relaciones y leyes en un determinado ambito de la realidad. El procedimiento implica una serie de etapas o fases ordenadas logicamente, que pueden ser resumidas de la siguiente forma: Formulacion correcta del problema a investigar. Denicion concreta de los objetivos que se persiguen. Eleccion de los procedimientos metodologicos para realizar la investigacion. Obtencion de la informacion necesaria para el estudio. Tratamiento de tal informacion. Analisis e interpretacion de la informacion. Conclusiones del proceso investigativo. 1.3. La Estadstica y la Investigacion Aunque no siempre los estudios o investigaciones lo requieren, en un gran numero de ellos la cuanticacion y medicion de hechos numerosos es imprescindible para la obtencion de los objetivos planteados. Es en estos casos, cuando la Estadstica aparece como una valiosa ciencia auxiliar de procesos de investigacion y estudio. La formulacion correcta de un problema a investigar, solo se puede lograr en muchos casos, con base en el analisis, a veces simplemente exploratorio, de datos referentes al problema. La denicion de objetivos, la determinacion de procedimientos metodologicos, en n, practicamente todas las etapas de un proceso investigativo, requieren para su mejor desarrollo de la Estadstica, en las circunstancias anotadas anteriormente. Los metodos propios de la Estadstica estan ntimamente relacionados con las caractersticas de un Metodo Cientco. La Estadstica con sus metodos descriptivos, permite la observacion de los hechos y con sus metodos inferenciales colabora con el proceso de transcenderlos, de generalizar el comportamiento o relacion de fenomenos, aportando ademas formas de medir la conanza y validez de tales generalizaciones, con base en su soporte probabilstico. Se puede entonces ubicar a la Estadstica como un valioso auxiliar de un Metodo Cientco, ubicacion esta que implica una visualizacion de esta Ciencia en el aspecto de su aplicacion practica, sin considerar su ubicacion formal, el
  12. 12. 1.4. RESENA HISTORICA DE LA ESTADISTICA 5 objeto formal de su conocimiento desde el punto de vista losoco y por ende epistemologico. 1.4. Resena historica de la Estadstica Como toda tecnica, toda disciplina y toda ciencia, la Estadstica tuvo como principio el ser un medio de satisfacer alguna necesidad del ser humano. Ahora bien, desde sus orgenes, este ha sentido la necesidad de cualicar hechos numerosos, unica forma en muchos casos, de tener alguna idea acerca del comportamiento generalizado de tales hechos, objetivo este que solo se logra por medio de procesos de sntesis, de reduccion, de compendio de la informacion numerica que la citada clasicacion produce. Las estadsticas son tan antiguas como las sociedades humanas, arma Cansado y continua anotando que desde que ellas existen se han producido censos, relaciones, catastros, etc., con informacion sobre recursos humanos, economicos o de otra ndole. Se tienen referencias historicas acerca de los datos recogidos por los israelitas y egipcios en relacion con la medida de la poblacion. Parece ser que los datos mas antiguos son los censos ordenados por el emperador Tao, 2.200 a.C. Tambien tuvieron importancia los censos romanos hacia el ano 555 a.C., de sumo interes dada la organizacion eminentemente poltica y guerrera de Roma; unos cien anos despues fueron implantados los censores. El Breviarium de Carlomagno, el Digest Book de Guillermo de Orange, Descripciones de Espana mandadas por el Califato de Cordoba al de Bagdad, Actividades demogracas de la Republica veneciana, son ejemplos de bosquejos de procesos estadsticos, obviamente rudimentarios, pero que muestran la necesidad de, por lo menos, describir numericamente fenomenos colectivos. Se puede concluir entonces que la Estadstica, se origina como un medio para ayudar al ser humano a comprender en forma sencilla y abreviada grandes masas de informacion numerica, sin que esto quiera decir que la Estadstica como ciencia, se limite hoy en da a tan elemental proceso. En realidad la Estadstica como ciencia organizada y formalizada, aparece en epocas menos remotas, aproximadamente a nales del siglo XVII y durante el XVIII, con sus principales exponentes en Alemania, donde existe en la universidad de Gottinga una catedra y curso de Estadstica. En ella se ensenan y se ponen en practica una serie de metodos numericos para hacer descripciones de hechos relacionados con el funcionamiento del Estado. Estos metodos despues de recibir la aceptacion academica del encuadramiento sistematico, empiezan a gozar del favor del publico. Su objeto es la descripcion cuantitativa de las cosas del estado, pero aun le faltaba el contenido cientco mas formal de la busqueda de leyes generales del fenomeno colectivo estudiado, que es el objeto de la disciplina, razon por la cual algunos tratadistas
  13. 13. 6 CAPITULO 1. INTRODUCCION la consideraban como disciplina descriptiva y no como ciencia. El hecho de estar los metodos asociados a hechos del estado y simplemente describir el status quo, parece originar la palabra Estadstica, a partir de la raz latina status o de la griega statera o de la palabra alemana staat, todas relativas al concepto de Estado como ente gubernamental. Esta acepcion de la palabra Estadstica, desafortunadamente la unica que tiene un gran porcentaje de opinion publica en nuestro medio acerca de lo que es esta ciencia, aparece recalcada en el prefacio de Una vision poltica del estado actual de Europa, por E. A. W. Zimmermann, publicada en 1787, donde anota: Hace cerca de cuarenta anos que esta rama del conocimiento poltico, que tiene como objeto estudiar la potencia real y relativa de los distintos estados modernos, la capacidad derivada de sus condiciones naturales, la industria y la civilizacion de sus habitantes y la sabidura de sus gobernantes, se ha constituido, principalmente por obra de escritores alemanes, en una ciencia independiente... Por la forma mas conveniente que ahora ha tomado, esta ciencia, conocida por el recien inventado nombre de Estadstica, ha llegado a ser un estudio favorito en Alemania. Las tecnicas descriptivas en boga, se diversican a fenomenos no necesariamente estatales, como la industria, la economa, etc. por lo que, se dene entonces a la Estadstica como un Metodo para describir numericamente, caractersticas de fenomenos colectivos. Hoy en da los procesos descriptivos de la Estadstica, son una parte esencial de tal ciencia, pero no los unicos; corresponderan al proceso inicial del Metodo Cientco, anteriormente citado, o sea a la observacion de los hechos. Aproximadamente, por la misma epoca en que se presenta la citada acepcion de Estadstica, esta en auge una rama de las Matematicas, con sus principales exponentes en Francia e Inglaterra, que trata de controlar el comportamiento de los juegos de azar y por ende de todo fenomeno afectado por este, dando origen al Calculo de Probabilidades, que se constituira en un gran aporte para el mayor desarrollo de la Estadstica. Se requiere de un procedimiento estructurado, sistematizado, formalizado, es decir cientco, para manejar la incertidumbre, que ademas permita cuanticar los diversos niveles de esta. Filosocamente no se esta descubriendo o desarrollando la probabilidad, pues ella es inherente al ser humano, sino que se la esta cuanticando. Al respecto es conveniente considerar dos tipos de fenomenos a los que se enfrenta el ser humano en su vida comun y corriente y por consiguiente en su vida tecnica y cientca. Ellos son los llamados fenomenos determinsticos y los fenomenos aleatorios, caracterizados los primeros por ser de naturaleza tal que, al observados o realizarlos bajo las mismas condiciones generales, presentan siempre el mismo resultado, en tanto que los segundos no presentan tal caracterizacion. La distincion la origina el determinismo causal, que implica para los fenomenos determinsticos un conocimiento y control absoluto de todos los
  14. 14. 1.4. RESENA HISTORICA DE LA ESTADISTICA 7 factores que determinan el comportamiento del fenomeno, lo cual no sucede en el caso aleatorio, donde se supone que adicionalmente actuan factores de casualidad o del azar, debidos a conocimiento de factores causales pero con la imposibilidad de controlarlos o desconocimiento de algunas de las causas. Ciertos losofos aseguran que todo fenomeno esta constituido por factores de causalidad y factores de casualidad, solo que en algunos casos la inuencia de estos ultimos es tan poca, que se puede despreciar y se acepta entonces el concepto de determinismo absoluto. Frecuentemente se diferencian los dos tipos de fenomenos, anotando que en los determinsticos se conocen los posibles resultados y en los aleatorios no. Esto no es cierto, pues en general en las dos situaciones se conocen los posibles resultados, lo que sucede es que en el caso determinstico se puede predecir o determinar con certeza cual resultado se presentara o como se comportara el fenomeno, mientras que en el caso aleatorio solo se puede predecir con incertidumbre lo que ocurrira. Por consiguiente, el ser humano siempre ha tratado de medir su nivel de incertidumbre, es decir siempre ha convivido con la probabilidad, en su sentido conceptual de ser una medida de la verosimilitud de los resultados de fenomenos aleatorios. La palabra verosimilitud es sinonima de potencia, fuerza, posibilidad (siendo un poco circular) de ocurrencia o suceso. Palabras, frases y actitudes, han sido utilizadas por el ser humano para referirse a, o manejar lo incierto, constituyendose aquellas en formas elementales de medida (logicamente no numerica) de la verosimilitud. Quien, en situaciones inciertas, no ha dicho o ha odo decir: yo creo que..., a lo mejor..., posiblemente..., inclusive un muy usual lo mas seguro es que...? Pues bien, estas formas de medir son poco formales, muy inciertas, no sistematizadas, nada cientcas y se requiere un proceso que si posea estas cualidades; es lo que se empieza a desarrollar en la Matematica, especialmente en Francia e Inglaterra, como se anoto anteriormente. La idea es cuanticar la probabilidad. Simultaneamente, con este desarrollo matematico de la probabilidad, se empiezan a detectar en las estadsticas descriptivas, comportamientos regularizados, tendenciosos, generalizados de los fenomenos que se describen. Se detecta la regularidad estadstica, que se enunciara posteriormente, dando lugar los dos procesos al nacimiento de una serie de metodos que permiten, siempre con incertidumbre, predecir, proyectar, estimar, inferir fenomenos en diferentes campos de la actividad humana corriente y sobretodo tecnica y cientca. Aparece entonces el concepto Estadstica, para referirse a una Rama de las matematicas, que permite realizar inferencias en situaciones de incertidumbre, lo que constituye hoy una parte esencial de la Estadstica, llamada la Inferencia Estadstica, pero que no corresponde exactamente a una denicion de lo que es esta ciencia.
  15. 15. 8 CAPITULO 1. INTRODUCCION Una tercera acepcion de la palabra Estadstica se encuentra, mas o menos en las mismas epocas citadas anteriormente, en Suecia e Inglaterra para hacer referencia a tecnicas de Estudio numerico de sociedades humanas, lo que hoy llamamos Demografa, pero que es erroneamente conocido en muchos crculos, como denicion unica y exhaustiva, de Estadstica. Como origen de la Estadstica formalizada y debido a estas tres acepciones de la palabra, nos cita Cansado tres nucleos o corrientes diferentes: La escuela administrativa, alemana, que considera los problemas de informacion del estado; sus principales representantes son: Vito de Seckendor, Herman Conring y Godofredo de Achenwall. La escuela probabilstica, originalmente italiana, aunque primordialmente francesa, que estudia problemas relacionados con los juegos de azar, sus principales exponentes son: Pascal, Fermat, Laplace, Poisson, los Bernoulli y Gauss. La escuela demograca, inglesa sueca, preocupada con problemas actuariales; sus principales integrantes son Petty, Halley, King, Davenant y John Graunt. Finalmente y solo a principios del siglo XX, una segunda escuela inglesa, principalmente preocupada con problemas de estudio e investigacion en agronoma y biometra, inicia y pone los cimientos de la ciencia a la que nos referimos actualmente con la palabra Estadstica. Son sus principales componentes: Galton, Karl Pearson, W. Gosset (Student), R. A. Fisher.
  16. 16. CAPITULO 2 Conceptos fundamentales de Estadstica 2.1. Deniciones de Estadstica Alexander M. Mood profesor universitario norteamericano, dene a la Estadstica como la tecnologa del Metodo Cientco, ya que le proporciona instrumentos para la toma de decisiones cuando prevalecen condiciones de incertidumbre. Debera adoptarse esta denicion, mas que como de Estadstica, de Estadstica Aplicada. El profesor escandinavo, Harald Cramer, presenta la siguiente denicion: La Estadstica es una Ciencia basada en el calculo de probabilidades, cuyo objetivo fundamental consiste en investigar la posibilidad de extraer de los datos estadsticos, inferencias validas, elaborando los metodos mediante los cuales puedan ser obtenidas dichas inferencias. Leo Dugue de Bernonville, profesor frances, la dene como La ciencia que se aplica al estudio numerico de fenomenos colectivos. Estudio que comprende la observacion de los hechos, su correcta ordenacion y adecuada clasicacion y su analisis y tiene como n principal el descubrimiento de caractersticas o propiedades de tipo general, para la mayora del colectivo, pero no necesariamente a todos y cada uno de los casos. Como es deducible, estas deniciones y otras similares, no se contradicen, por el contrario se complementan y permiten apreciar la gran relacion entre esta ciencia y el Metodo Cientco. As, se hace referencia a la observacion de los hechos, observacion que por ser numerica genera los datos estadsticos y que esta asociada con el referencial factico del Metodo Cientco; pero al igual que en este, en la Estadstica se pretende inferir, generalizar, es decir trascender los 9
  17. 17. 10 CAPITULO 2. CONCEPTOS FUNDAMENTALES DE ESTADISTICA hechos. 2.2. Caractersticas del metodo estadstico A partir de las deniciones anteriores, se pueden colegir las siguientes caractersticas del metodo estadstico: Es LOGICO y su logica esta basada en la llamada ley de los grandes numeros, la cual, expresada en terminos no formales, dice que entre mayor sea el numero de hechos que se observan, mas exactas seran las conclusiones que se obtengan y en la llamada ley de regularidad de frecuencias referida al hecho de que si se realizan repeticiones u observaciones sucesivas e incrementadas de un fenomeno, la frecuencia relativa de algun suceso de interes, tiende a estabilizarse alrededor de un valor, el cual correspondera a la probabilidad de tal suceso. Es conveniente anotar, a proposito de esta caracterstica, que la Estadstica no es exacta y como sucede en este tipo de ciencias, trata de lograr la mayor exactitud posible o sea el mayor acercamiento a la verdad. El proceso de razonamiento que utiliza la Estadstica para alcanzar sus objetivos de aplicabilidad es el INDUCTIVO y para su desarrollo propio el DEDUCTIVO. Por su misma naturaleza, el metodo estadstico es NUMERICO. Todo estudio estadstico siempre conlleva algun tratamiento numerico de la informacion, as sea el elemental de contar. Esta referido siempre a FENOMENOS COLECTIVOS o como algunos autores sugieren, a AGREGADOS; como en un Metodo Cientco, solo le interesa el hecho individual como componente de un hecho numeroso, los resultados que se obtienen no se pueden aplicar en forma particular o individual; siempre es GENERALIZANTE. Naturalmente el metodo estadstico es OBJETIVO, en la misma forma en que se habla de objetividad en un Metodo Cientco. Es esta una caracterstica que algunos usuarios de supuestos procesos estadsticos, han desacreditado al manipular, en el peor sentido de la palabra, informacion numerica para comprobar o demostrar as, verdades predeterminadas o mostrar realidades distorsionadas. Como conclusion de esta caracterizacion de la Estadstica y siguiendo a Mood, es conveniente tener presente que el n ultimo de la Estadstica, su objetivo mediato, es colaborar con el Metodo Cientco en procesos de TOMA DE DECISIONES, cuando prevalecen condiciones de RIESGO Y/O INCERTTDUMBRE.
  18. 18. 2.3. CLASIFICACION DE LOS METODOS ESTADISTICOS 11 2.3. Clasicacion de los metodos estadsticos Para su desarrollo y aplicacion la Estadstica utiliza diversos procedimientos, los cuales pueden clasicarse de la siguiente manera, no exhaustiva ni necesariamente excluyente: METODOS DESCRIPTIVOS: cuando las conclusiones que se obtienen de las experiencias o datos en estudio, no rebasan los lmites de los mismos. Tienen como objetivo fundamental su presentacion y analisis como paso previo a los procesos inferenciales. METODOS INDUCTIVOS O INFERENCIA ESTADISTICA: cuando las conclusiones que se obtienen de los datos en estudio, rebasan los lmites de los mismos. Implica en general, el tomar decisiones en el caso mas universal del cual forman parte los datos. El proceso de tomar decisiones en situaciones generales, sobre la base de una informacion incompleta contenida en algunos datos, es arriesgado y no puede realizarse con certeza absoluta sino con incertidumbre. Sin embargo esta ultima no es total, pueden controlarse sus niveles, puede medirse su magnitud, lo cual se lleva a cabo con base en el CALCULO DE PROBABILIDADES. METODOS TEORICOS O TEORIA ESTADISTICA: se esta ante la misma cuando se aborda el estudio de los fenomenos estadsticos, utilizando los metodos matematicos en toda su plenitud. Esto no supone, sin embargo, que la Estadstica sea una rama de las Matematicas, sino que al igual que otras ciencias (Fsica, Economa, Qumica, etc.), la utiliza como instrumento, y as mientras en la Matematica Pura se permanece en el terreno de lo conceptual, en estas ciencias es preciso que las conclusiones se ajusten a la realidad, pues de lo contrario no sirven. 2.4. Sistema conceptual basico 2.4.1. El Colectivo, Agregado, Poblacion, Universo El objeto de estudio de la Estadstica son los llamados fenomenos colectivos para los cuales, el comportamiento de una serie de caractersticas, esta afectado por la casualidad o la aleatoriedad; tambien se les conoce con el nombre de agregados, poblaciones o universos. Como COLECTIVO o AGREGADO deben entenderse no solo los colectivos humanos, sino cualquier conjunto de hechos numerosos de la misma naturaleza, cualquiera que ella sea, que presentan ciertas caractersticas o modalidades distintivas, cuyo comportamiento generalizado y/o posible relacion son objeto de estudio. Como POBLACION, se dene a un conjunto de medidas obtenidas al
  19. 19. 12 CAPITULO 2. CONCEPTOS FUNDAMENTALES DE ESTADISTICA observar alguna caracterstica de interes en los elementos del colectivo, lo que indica que con un mismo colectivo pueden, en general, estar asociadas varias poblaciones. Algunos autores denen el concepto de UNIVERSO, como un colectivo teorico, basico para el desarrollo de la Teora Estadstica. Es necesario anotar que casi siempre se utilizan los terminos citados como sinonimos, sin que se tenga un consenso aceptado en general, sobre el uso de los mismos. 2.4.2. Las Variables Se dene como una VARIABLE, a una caracterstica observable o a un aspecto discernible en un objeto de estudio, que puede adoptar diferentes valores o expresarse en varias categoras, o a una caracterstica observable ligada, con una relacion determinada, a otros aspectos observables. Desde el punto de vista de su naturaleza, se habla de variables CUALITATIVAS para referirse a aquellas cuyos elementos de variacion tienen un caracter cualitativo, no susceptible de observacion medible numericamente y de variables CUANTITATIVAS como aquellas cuyas propiedades pueden presentarse en diversos grados o intensidades de caracter numerico. De acuerdo con su naturaleza matematica, se diferencian las variables cuantitativas en DISCRETAS y CONTINUAS, siendo las primeras aquellas que estan denidas sobre recorridos nitos o innitos numerables; no pueden tomar valores intermedios entre dos valores dados. Las continuas son aquellas denidas sobre recorridos innitos no numerables; pueden tomar cualquier valor dentro de un recorrido dado. Para clasicar o categorizar variables, se utilizan diferentes tipos de escalan, siendo las mas comunes las NOMINALES, las ORDINALES, las DE INTERVALO, y las DE RAZON, cuyo uso depende basicamente de los objetivos del estudio y de la naturaleza de la variable. 2.4.3. Escalas de Medicion o Clasicacion 2.4.3.1. La Medicion El papel que desempenan la medida y la cantidad en la Ciencia es muy grande, pero creo que a veces se ha exagerado. La tecnica matematica es poderosa, y los hombres de ciencia estan naturalmente ansiosos de aplicarla siempre que sea posible; pero una ley puede ser muy cientca sin ser cuantitativa: Russell, Dorta, and Serna. La generalizacion cientca es siempre y necesariamente cuantitativa:
  20. 20. 2.4. SISTEMA CONCEPTUAL BASICO 13 Lundberg Cuando uno puede medir y expresar numericamente lo que dice, conoce algo de ello; pero mientras no pueda uno medir ni expresarse en numeros, su conocimiento es escaso y poco satisfactorio: Lord Kelvin Contar hechos observables es la operacion basica de la medicion. Contar o computar es establecer una correspondencia biunvoca entre el conjunto de objetos que hay que contar y un subconjunto de los enteros positivos... Para que una coleccion de hechos sea empricamente contable, tiene que consistir en miembros empricamente distinguibles: (Bunge 1972) Las citas anteriores, algunas de ellas demasiado extremas, son evidencia de la importancia que para los tratadistas de la ciencia, la metodologa cientca y la investigacion, tienen la medicion y la cuanticacion. Pero es conveniente tratar de responder a la inquietud relativa a si estos conceptos signican lo mismo, si tienen la misma acepcion y aplicacion. En el sentido mas corriente y elemental, el concepto de medir es utilizado para signicar la asignacion de valores numericos o dimensiones a un objeto u objetos mediante la utilizacion de determinados procedimientos. En terminos mas estrictamente metodologicos, la medicion consiste sustancialmente en una observacion cuantitativa, atribuyendo un numero a determinadas caractersticas o rasgos del hecho o fenomeno observado. Esto no presenta mayores inconvenientes si se trata de medir aspectos materiales y morfologicos de los objetos de estudio; la dicultad aparece cuando se desean expresar numericamente aspectos mas evanescentes e intangibles. Cuando un fsico habla acerca de la medicion, se reere generalmente a la asignacion de numeros a observaciones, de modo que los numeros sean susceptibles de analisis por medio de manipulaciones u operaciones de acuerdo con ciertas reglas. Este analisis por manipulacion, en el mejor sentido de la palabra, dara nuevas informaciones de los objetos que se estan midiendo. En otras palabras, la relacion entre los objetos que se estan observando y los numeros, es tan directa que mediante la manipulacion de los numeros el fsico obtiene nueva informacion acerca de los objetos. Por ejemplo, puede determinar el peso de una masa de material homogeneo que haya sido partida por la mitad, dividiendo su peso por dos. En las ciencias sociales, el cientco social, que toma al fsico como modelo, suele intentar algo parecido a la calicacion o medicion de las variables sociales; pero, en sus escalas, el investigador social muy a menudo menosprecia un fundamento de la teora de la medicion. Pasa por alto que, para hacer ciertas operaciones con los numeros que ha asignado a las observaciones, la estructura del metodo de correspondencia de los numeros (puntajes) a las observaciones debe ser isomorca con respecto a alguna estructura numerica que incluya estas operaciones. Si los dos sistemas son isomorcos, sus estructuras son las mismas en las relaciones y operaciones
  21. 21. 14 CAPITULO 2. CONCEPTOS FUNDAMENTALES DE ESTADISTICA que permiten. Por ejemplo, si un investigador recoge datos compuestos de puntajes numericos y luego manipula estos puntajes por adicion y division (que son operaciones necesarias para obtener medias y varianzas), supone que la estructura de su medicion es isomorca a la estructura numerica conocida como aritmetica. Es decir, supone que ha logrado un alto nivel de medida. La teora de la medicion esta formada por un conjunto de teoras separadas y distintas, cada una referida a un nivel diferente de medicion. Las operaciones permitidas con un conjunto de puntajes dado, dependen del nivel de medida que se logre. Parece ser que el problema radica esencialmente en la experiencia que se tenga de los numeros y el concepto que de ellos se posea. Haber, Runyon, and Mozo, en su texto de Estadstica General, presentan como elemento de cuestionamiento la siguiente discusion: Al preguntar a un nino y quizas, agregaramos nosotros, a muchos adultos, que es un numero, la posible respuesta es que los numeros son smbolos que representan cantidades de cosas y que pueden sumarse, restarse, multiplicarse y dividirse. Los anteriores son conceptos aritmeticos conocidos, pero expresan en realidad todos los posibles usos de los numeros? Al respecto se podra preguntar: El smbolo 10 colocado en la espalda de la camiseta de un jugador de futbol, es un numero como el que acaba de denir? Que puede decir acerca del numero de su casa? Que opina de la programacion del canal 7 de television? Estos numeros indican cantidades de cosas? Pueden ser sumados, restados, multiplicados y divididos? Es logico multiplicar el numero de la camiseta de un jugador, por cualquier otro numero y obtener un resultado que tenga algun signicado? Si se analiza cuidadosamente el empleo de los numeros en la vida cotidiana se descubre un hecho muy importante: La mayora de los numeros que se emplean no poseen las propiedades aritmeticas que ordinariamente se les atribuyen. Por esta razon, vale la pena diferenciar dos terminos, numero y numeral. Los numerales son smbolos como Y, 10, IX, $. Los numeros son tipos de numerales especcos que guardan una relacion ja con otros numerales. De este modo, dos numerales, como 4 y 7 son numeros si, y solo si pueden sumarse, restarse, multiplicarse y dividirse, con resultados signicantes. As, siguiendo a Wehl, el unico aspecto decisivo de la medicion es la representacion simbolica, los numeros no son de ninguna manera los unicos smbolos utilizables, aplicables a objetos de acuerdo con normas. Partiendo de esta concepcion podra armarse que lo cualitativo puede expresarse por smbolos y que, por tanto, los fenomenos que no admiten la expresion numerica pueden ser mesurables en forma simbolica. En general, la medicion puede denirse como un proceso mediante el cual se asignan de un modo sistematico smbolos a las observaciones, entre los cuales se denen, con base en alguna convencion, como legtimas ciertas relaciones determinadas. As los procedimientos de medicion consisten siempre en la comparacion de una observacion con una serie de smbolos abstractos
  22. 22. 2.4. SISTEMA CONCEPTUAL BASICO 15 (tales como palabras, numeros, letras, colores, sonidos, etc.) y en la asignacion a la observacion de uno o mas de tales smbolos, de acuerdo con una regla previa, segun lo anota Walter Wallace. Con este alcance, la medicion no es otra cosa que una forma de observacion; en otras palabras, la ciencia es cuantitativa porque se basa en observaciones registradas y representadas en smbolos. En consecuencia, medicion y cuanticacion no es lo mismo; la cuanticacion es una de las modalidades de la medicion. Lo que debe interesar acerca de los numerales o smbolos es la manera como pueden ser utilizados para alcanzar diferentes objetivos. En la mayora de los casos, estas metas no incluyen la representacion de una cantidad o importe. De hecho, existen tres modos fundamentales de utilizar numerales o smbolos: Para nombrar (numerales nominales) Para representar posicion (numerales ordinales) Para representar numericamente una cantidad o magnitud (numerales cardinales). Como conclusion, aceptemos la denicion que presenta Stevens sobre lo que es medir, la cual precisa sucientemente esta cuestion: Medir es algo relativo. Vara en grado y genero, en tipo y precision. En su sentido mas amplio medir es asignar numerales a objetos o acontecimientos de acuerdo con ciertas reglas. El hecho de que se lo puede hacer de acuerdo con diferentes reglas origina diferentes tipos de escalas y diferentes tipos de medicion. Las reglas mismas se relacionan en parte con las operaciones empricas concretas de nuestros procedimientos experimentales los que, mediante sus diversos grados de precision, ayudan a determinar cuan adecuado es el ajuste entre el modelo matematico y aquello que representa. (Bunge 1972) distingue cuatro elementos necesarios de toda medicion: El mesurandum, o propiedad del sistema concreto que se ha de medir. El concepto cuantitativo (metrico) del mesurandum, o sea, la magnitud que se supone representa la propiedad objetiva; en la medida de lo posible este concepto debe estar sumido en alguna teora cientca y debe analizarse logicamente con base en variable(s) numerica(s), con objeto de no perder de vista algun aspecto relevante. Una escala conceptual y una escala material sobre las cuales puede registrarse o medirse la magnitud, Una unidad de medicion que pertenezca a algun sistema de unidades coherente.
  23. 23. 16 CAPITULO 2. CONCEPTOS FUNDAMENTALES DE ESTADISTICA Aunque se acepta que los elementos presentados por (Bunge 1972) son necesarios, sin embargo no son sucientes para emprender una operacion de medicion y consecuentemente tratar de establecer las diferentes escalas o niveles de medicion, concepto este que se adoptara, mas como proceso de observacion, que como proceso de analisis. El proceso de medicion tiene como proposito inicial distinguir y por ende clasicar objetos, casos, fenomenos y debe responder a una serie de principios o requisitos que se enuncian a continuacion. En primer lugar el proceso de medicion debe ser valido, entendiendose que cumple este requisito cuando mide de alguna manera demostrable aquello que trata de medir, libre de distorsiones sistematicas. Cabe anotar que existen diferentes metodos de validacion, a saber: La validez pragmatica, consistente en encontrar un criterio exterior al instrumento de medida, para relacionarlo con las puntuaciones obtenidas. La validez predictiva, que se comprueba por los resultados obtenidos en el futuro, y la validez concurrente, que contrasta resultados de otros elementos de juicio, con tipos de validez pragmatica. Otro procedimiento de validacion es el analisis factorial, aunque su aplicacion se limita principalmente a los aspectos psicosociales. El segundo principio deseable en la medicion es la abilidad. Una medicion es conable o segura cuando aplicada repetidamente a un mismo individuo o grupo, o al mismo tiempo por investigadores diferentes, proporciona resultados iguales o por lo menos parecidos. La determinacion de la conabilidad consiste pues, en establecer si las diferencias de resultados se deben a inconsistencias en la medida. El problema de la abilidad se presenta en el instrumental que se utiliza, cuando la validez de las mediciones ofrece dudas en relacion con lo que se quiere medir. Los procedimientos mas usuales para la determinacion de la abilidad son el analisis de la estabilidad de los resultados, mediante la aplicacion de mediciones repetidas y la equivalencia de los resultados cuando los instrumentos son administrados por diferentes personas. Finalmente se tiene el principio de la precision. Se puede decir que una medicion es precisa cuando localiza con exactitud satisfactoria, en relacion con el proposito que se busca, la posicion del fenomeno que se estudia. El nivel de medida o escala de medida, expresiones aceptadas casi universalmente, esta formado por un conjunto de numerales distintos y un conjunto de modalidades distintas relacionadas biunvocamente. Se suelen distinguir cuatro niveles de medicion que dan lugar a cuatro niveles de escalas: nominal ordinal o de orden jerarquico, de intervalos y de razon o cociente. Ahora bien, el tipo de escala estara dado, segun sea vericable uno u otro tipo de relacion.
  24. 24. 2.4. SISTEMA CONCEPTUAL BASICO 17 2.4.3.2. La Escala Nominal Consiste en clasicar objetos o fenomenos, segun ciertas caractersticas, tipologas o nombres, dandoles una denominacion o smbolo, sin que implique ninguna relacion de orden, distancia o proporcion entre los objetos o fenomenos. La medicion se da a un nivel elemental cuando los numeros u otros smbolos se usan para la distincion y clasicacion de objetos, persona o caractersticas. Cuando se utilizan numeros para representar las diferentes clases de una escala nominal, estos no poseen propiedades cuantitativas y sirven solamente para identicar las clases. Todas las escalas tienen ciertas propiedades formales. De estas propiedades se deducen, deniciones exactas de las caractersticas de la escala mas precisas de lo que pueden darse en terminos verbales. Estas propiedades pueden formularse en forma mas abstracta de lo que aqu se ha hecho, mediante un conjunto de axiomas que delinean las operaciones para elaborar las escalas y las relaciones entre los objetos a que se aplican. En una escala nominal, la operacion de escalamiento consiste en partir de una caracterstica dada y formar un subconjunto de clases que se excluyen mutuamente. La unica relacion implicada es la de equivalencia. Esto es, los miembros de cualquier clase deben ser equivalentes en la propiedad medida. La relacion de equivalencia es reexiva (x = x para todo x), simetrica (x = y luego y = x) y transitiva (x = y y y = z luego x = z). Puesto que en una escala nominal la clasicacion puede presentarse igualmente por cualquier conjunto de smbolos, se dice que es unica hasta una transformacion de uno a uno. Los smbolos que representan a las diversas clases de la escala pueden intercambiarse, llevando esto a cabo en forma consistente y completa. Tales transformaciones son llamadas a veces grupos simetricos de transformaciones. Los smbolos que designan a los diferentes grupos en una escala nominal pueden intercambiarse sin alterar la informacion esencial de la escala; debido a esto, las estadsticas de tipo descriptivo admisibles son aquellas que no se alteran por este proceso: el modo, la frecuencia, el conteo, la proporcion, etc. Se pueden desarrollar procesos analticos acerca de la distribucion de las categoras, as como la posible relacion entre dos o mas caractersticas clasicadas mediante este tipo de escala que llamaremos variables no cuantitativas. 2.4.3.3. La Escala Ordinal Llamada tambien escala de orden jerarquico, con ella se establecen posiciones relativas de los objetos o fenomenos en estudio, respecto a alguna caracterstica de interes, sin que se reejen distancias entre ellos. Puede suceder que los objetos de una categora de las escala no sean precisamente diferentes a los objetos de otra categora de la escala, sino que estan relacionados entre
  25. 25. 18 CAPITULO 2. CONCEPTOS FUNDAMENTALES DE ESTADISTICA s. Los numerales empleados en las escalas ordinales no son cuantitativos, sino que indican exclusivamente la posicion en la serie ordenada y no cual es la diferencia entre posiciones sucesivas de la escala. Las relaciones entre los elementos en clasicacion, pueden formularse con el signo >, mayor que, o sea que axiomaticamente la diferencia fundamental entre una escala nominal y una ordinal es que esta ultima incorpora no solamente la relacion de equivalencia (=) sino tambien la relacion mas grande que (>). Esta relacion es irreexiva (no es verdad para ninguna x tal que x > x), asimetrica (x > y luego x < y) y transitiva (x > y y y > z luego x > z). Puesto que cualquier transformacion tendiente a conservar el orden no altera la informacion contenida en una escala ordinal, se dice que la escala es unica hasta una transformacion monotonica. Esto es, no importa que numeros se den a una pareja de clases o a los miembros de esas clases, siempre que el numero mayor sea dado a los miembros de la clase mayor o mas preferida. Por supuesto, pueden usarse numeros menores para grados mas preferidos (...de primera clase, de segunda clase, etc.); en tanto se sea consecuente, es indiferente el uso del numero mayor o menor para denotar mayor o mas preferido. Fundamentalmente, las escalas ordinales se estudian en Estadstica, con base en las llamadas estadsticas de orden o estadsticas de rango. 2.4.3.4. La Escala de Intervalo Representa un nivel de medicion mas preciso, matematicamente hablando, que las anteriores; no solo se establece un orden en las posiciones relativas de los objetos o individuos, sino que se mide tambien la distancia entre los intervalos o las diferentes categoras o clases. En este caso, la medicion se ejecuta en el sentido de una escala de intervalo; esto es, si la asignacion de numeros a varias clases de objetos es tan precisa que se sabe la magnitud de los intervalos (distancias) entre todos los objetos de la escala, se ha obtenido una medida de intervalo. Una escala de intervalo esta caracterizada por una unidad de medida comun y constante que asigna un numero real a todos bs pares de objetos en un conjunto ordenado. En esta clase de medida, la proporcion de dos intervalos cualesquiera es independiente de la unidad de medida y del punto cero. En una escala de intervalo, el punto cero y la unidad de medida son arbitrarios. Axiomaticamente se puede ver que las operaciones y las relaciones en que se origina la estructura de una escala de intervalo son tales que las diferencias en la escala son isomorcas a la estructura de la aritmetica. Los numeros pueden asociarse con las posiciones de los objetos de tal manera que las operaciones de la aritmetica puedan realizarse signicativamente con las diferencias entre los numeros. La consecuencia de cualquier cambio de los numeros asociados con los objetos medidos en una escala de intervalo debe preservar no solamente el orden de los objetos sino tambien las diferencias relativas entre ellos. Esto es,
  26. 26. 2.4. SISTEMA CONCEPTUAL BASICO 19 la escala de intervalo es unica hasta una transformacion linea1. La escala de intervalo es la primera escala verdaderamente cuantitativa. Las estadsticas parametricas, son las aplicables a estudios en estas escalas. 2.4.3.5. La Escala de Razon Cuando una escala tiene todas las caractersticas de una escala de intervalo y ademas un punto cero real en su origen, se llama escala de razon. Ademas de distincion, orden y distancia, esta es una escala que permite establecer en que proporcion es mayor una categora de una escala que otra. El cero absoluto o natural representa la nulidad de lo que se estudia. Las operaciones y relaciones hechas con los valores numericos en una escala de razon son correspondientes a una escala isomorca de la estructura de la aritmetica. Por consiguiente las operaciones de la aritmetica son permisibles en los valores numericos asignados a los objetos mismos, as como tambien en los intervalos entre los numeros como sucede en las escalas de intervalo. Implican que las relaciones de equivalencia, relacion de mayor a menor, proporcion conocida de dos intervalos y proporcion conocida de dos valores de la escala, sean posibles de obtener operacionalmente. Los numeros asociados con los valores de la escala de razon son verdaderos numeros con un verdadero cero; solo la unidad de medida es arbitraria. As la escala de razon es unica hasta la multiplicacion por una constante positiva. Ademas de los procesos parametricos basicos de las escalas de intervalo, en las de razon pueden utilizarse estadsticas como la media geometrica, el coeciente de variacion, las que requieren el conocimiento del verdadero valor cero. 2.4.4. El Censo o Enumeracion Completa Un censo o enumeracion completa consiste en desarrollar los estudios estadsticos, identicando y ubicando a TODOS los elementos del colectivo o agregado, para obtener de ellos la informacion necesaria sobre las variables de interes, con el n de analizarla e interpretarla. Este metodo presenta las siguientes caractersticas: No requiere de procesos de inferencia estadstica Sus resultados sirven de marco muestral a otros estudios Facilita la realizacion de estudios en subcolectivos Produce costos demasiado altos, en todo tipo de recursos Implica un complicado proceso de planeacion, organizacion y control
  27. 27. 20 CAPITULO 2. CONCEPTOS FUNDAMENTALES DE ESTADISTICA En general los resultados se obtienen a mediano o largo plazo, perdiendo oportunidad y actualidad No permite la realizacion de estudios con altos niveles de especicidad y desagregacion En algunos casos, la naturaleza del estudio impide la realizacion del censo, por requerir procesos de observacion de caractersticas de estudio, mediante metodos parcial o totalmente destructivos de los elementos del agregado. Las desventajas del metodo censal, no implican necesariamente que nunca se puedan realizar estudios censales, por el contrario cuando las circunstancias lo permitan por existir objetivos de tipo muy global, agregados relativamente pequenos y facilmente ubicables, recursos sucientes, etc., se debe utilizar este tipo de enumeracion. 2.4.5. El Muestreo Para resolver los problemas que en general se presentan para realizar censos, se ha desarrollado el metodo de muestreo, el cual de manera sencilla puede denirse como un metodo cientco que pone en practica principios estadstico matematicos, que permiten obtener informacion de una PARTE de los elementos del agregado y hacer inferencias acerca de las caractersticas estudiadas, para todo el colectivo de origen. Las principales caractersticas del metodo son: Costos en general mas bajos que en el censo Planeacion, organizacion y control mas sencillos y detallados Resultados a corto plazo y oportunos Posibilidad de realizar estudios mas detallados, al permitir la obtencion de informacion a nivel mas especco Solucion de los problemas ocasionados por procesos de medicion destructivos Flexibilidad, que permite utilizar diferentes formas de medicion, analisis e inferencia Requiere de procesos de inferencia estadstica Diculta, en algunos casos, los estudios desagregados en subcolectivos No es aceptado, en algunas instancias, sobre todo por la falta de conocimiento de sus bondades.
  28. 28. 2.4. SISTEMA CONCEPTUAL BASICO 21 La parte de elementos que es seleccionada para el estudio, es conocida como LA MUESTRA y para que el proceso tenga validez, esta debe tener caractersticas de conabilidad con respecto al agregado del cual procede. En procura de tal conabilidad, se han desarrollado diferentes tipos de DISE NO MUESTRAL, que consiste en: Determinar el tamano de la muestra Determinar el proceso de seleccion de la misma Determinar los procesos de inferencia 2.4.6. Los Parametros y las Estadsticas Los resultados de estudios y analisis estadsticos, se reejan basicamente en un conjunto de diversas medidas de diferente ndole y naturaleza. Cuando tales medidas son resultado de una enumeracion completa o sea que se reeren a todo el agregado, reciben el nombre de PARAMETROS y cuando son de nivel muestral se les conoce como ESTADISTICAS o ESTADIGRAFOS. Por ser las muestras seleccionadas en general por metodos de azar, las estadsticas o estadgrafos se constituyen en variables aleatorias, para cuyo manejo sera necesario conocer o deducir, el comportamiento probabilstico de las mismas. Constituyen los anteriores conceptos, el conjunto basico del lexico estadstico, especialmente relativos a lo que debe ser una introduccion a cualquier curso Inicial de Estadstica. Conceptos mas especcos, van apareciendo en la medida en que se presenten otros metodos, tecnicas y procesos analticos de esta ciencia.
  29. 29. CAPITULO 3 Metodologa de la Estadstica Sin pretender ser exhaustivo, se esbozaran a continuacion las fases generales que se deben llevar a cabo para realizar un estudio utilizando las tecnicas estadsticas. 3.1. Denicion de Objetivos Indudablemente esta etapa constituye el punto de partida de todo estudio y su importancia y trascendencia, para las fases posteriores, son innegables. Lo esencial en este momento, es responder a preguntas como Que?, Para que?, Por que? y las respuestas a las mismas deben ser presentadas de manera clara, concreta, concisa y unicada. Cabe distinguir en este aspecto, al objetivo (u objetivos) general, que corresponde a una denicion a grandes rasgos del problema o tema de estudio, de los objetivos especcos, que son deniciones en detalle y altamente desagregadas de los nes del mismo. Los objetivos especcos, son subtemas en que se divide el objetivo general y que una vez alcanzados, llevan en conjunto al logro de este. Desde el punto de vista estadstico, la denicion de los objetivos especcos es de gran importancia, ya que ellos permiten claricar el tipo de variables a considerar, la informacion que se requiere sobre ellas y los procedimientos de muestreo y analisis necesarios. 22
  30. 30. 3.2. DEFINICION DEL COLECTIVO O POBLACION 23 3.2. Denicion del colectivo o poblacion Tan fundamental para lograr buenos resultados del estudio, como la fase anterior, lo es la de denicion del colectivo o poblacion, la cual, a ser realizada en forma clara, concreta, concisa y unicada, debe hacer referencia al contenido, las unidades, la extension y momento de consideracion de la misma. La naturaleza de los elementos que forman el colectivo, su estructura y conguracion temporo espacial, son aspectos que determinan hasta cierto punto, el tipo de muestreo mas conveniente a utilizar, el marco adecuado, los metodos de obtencion de la informacion y otros conceptos similares. En multiples ocasiones se diferencia la Poblacion Objetivo, que es aquella a la cual se reere en terminos generales la investigacion, de la Poblacion de Estudio, Maestreo o Analisis, denida como la poblacion objetivo con una serie de restricciones, generadas por la misma naturaleza del estudio, falta de cobertura del marco de muestreo, problemas de no respuesta, etc. En sentido estricto, solo queda representada en la muestra la poblacion de estudio o de encuesta, pero su descripcion puede ser difcil si se quiere hacerlo especcamente, por lo que es mas frecuente hacer referencia a la poblacion objetivo denida. 3.3. Determinacion de la cobertura Teniendo en cuenta los objetivos del estudio, la estructura poblacional, los recursos disponibles y las caractersticas de los metodos de enumeracion completa (censo) o parcial (muestreo) se determina cual de los dos se debera utilizar. Considerando que en general los estudios se realizan mediante muestreo, se enunciaran a continuacion las fases siguientes, bajo el supuesto de que el estudio se realizara utilizando el metodo de muestreo. 3.4. Determinacion del marco de muestreo 3.4.1. Denicion Se entiende por Marco de Muestreo o Marco Muestral, todo articio o conjunto de articios, que permita la identicacion y ubicacion de todos y cada uno de los elementos de la poblacion o en su defecto, de todas y cada una de las unidades muestrales, ya que es la base del proceso de seleccion de la muestra. Los factores relevantes de la naturaleza del marco disponible o factible,
  31. 31. 24 CAPITULO 3. METODOLOGIA DE LA ESTADISTICA incluyen los tipos de unidades muestrales que contenga, la extension de la cobertura, la exactitud y completez del mismo, la cantidad y calidad de informacion auxiliar en el y es determinante para el diseno de la muestra. Algunos ejemplos de marcos son listas de elementos, archivos, mapas, cartogramas, kardex, dispositivos de entrada salida en sistemas de computacion, etc. Lo ideal es que el marco a utilizar sea ACTUALIZADO, lo que equivale a que tenga una cobertura completa, no contenga elementos repetidos, ni blancos, ni extranos. Todos y cada uno de los elementos del marco deben representar a una y solo una unidad muestral y cada unidad muestral debe estar representada por uno y solamente uno de los elementos del marco. Sin embargo, en la mayora de los casos practicos, estas caractersticas son bastante difciles de encontrar, lo cual genera uno de los problemas ms complejos de solucionar en este tipo de estudios. 3.4.2. Problemas del Marco Los problemas mas comunes en la determinacion del marco muestral son: Unidades vacas, llamado tambien elementos faltantes, falta de cobertura o marco incompleto y que consiste en que algunos elementos del agregado, no aparecen en el marco Blancos y extranos, corresponde este problema a situaciones en las cuales el marco contiene elementos que ya no pertenecen a la poblacion por haber cambiado su estructura o porque denitivamente desaparecieron de la misma. Conglomerados de unidades muestrales, pueden aparecer juntas asociadas con un listado aislado. Un elemento del marco representa a mas de una unidad muestral Unidades duplicadas, problema que se presenta cuando una unidad aparece mas de una vez en el marco. 3.4.3. Soluciones Generales Aunque para cada problema del marco se requieren soluciones especcas, que dependen en gran parte de la situacion particular en que se encuentre el investigador, se mencionan tres soluciones generales para tratar de solucionar problemas:
  32. 32. 3.5. DEFINICION DE UNIDADES 25 Ignorarlos, si son relativamente pequenos comparados con otros errores y el costo de solucion es muy alto. Se debera en este caso, referenciar la circunstancia bajo la cual se esta utilizando el marco. Redenir la poblacion con base en el marco, si el error que se comete es despreciable y si no cambia el sentido de los objetivos del estudio. Se debe tambien comentar la situacion. Corregir el marco, solucion que es la ideal, pero en ocasiones la menos factible. 3.5. Denicion de unidades En terminos generales son normas o patrones de conteo, medicion, seleccion u observacion y su denicion es fundamental en el estudio, por lo cual deber hacerse tambien muy clara, concreta y unicadamente. Se distinguen y es necesario denirlas en los correspondientes casos, los tipos de unidades que a continuacion se presentan. 3.5.1. Unidad Poblacional Tambien conocidas como las unidades elementales, corresponden al elemento o hecho individual que se cuenta y/o mide y que unido a los demas de su misma naturaleza, forma el colectivo que se estudia. Su naturaleza y caractersticas se determinan segun los objetivos del estudio. 3.5.2. Unidad Muestral Se constituye en el elemento basico para la seleccion de la muestra de unidades poblacionales. Pueden ser estas mismas o grupos de ellas, como sucede en el muestreo por conglomerados. Deben estar denidas en forma tal que cada unidad poblacional pertenezca a una y solo una unidad de muestreo. Se subdividen en unidades parciales, que son aquellas que aparecen en razon del proceso de seleccion y constituyen siempre subdivisiones de la poblacion a traves de las cuales ha de pasarse, antes de llegar a las unidades nales, denidas estas ultimas como aquellas que tienen caractersticas denidas de permanencia y son facilmente distinguibles en perodos mas o menos largos de tiempo. 3.5.3. Unidades de Observacion Son aquellos elementos de los cuales se obtiene la informacion, por lo cual se les conoce tambien con los nombres de fuentes de informacion. Pueden coincidir
  33. 33. 26 CAPITULO 3. METODOLOGIA DE LA ESTADISTICA o no con la unidad poblacional y son determinantes para la calidad de la informacion y para el proceso de recoleccion de la misma. 3.6. Determinacion del diseno muestral Denidos claramente los objetivos del estudio y la poblacion, determinado el marco muestral y los recursos disponibles y denidas as mismo las diversas unidades del proceso, se puede pasar a la fase de seleccion del tipo de diseno muestral a utilizar, aunque en la practica todas estas etapas se desarrollan paralelamente. Para determinar el tipo de seleccion se tienen en cuenta principalmente, los objetivos del estudio, la estructura de la poblacion, el marco y los recursos disponibles (humanos, nancieros, materiales, de disponibilidad de tiempo, etc.). Para el tamano de la muestra se deben considerar los siguientes aspectos: tipo de seleccion, grado de conabilidad de los procesos inferenciales, errores de muestreo, recursos disponibles, caractersticas basicas a analizar y tamano de la poblacion. Se suele hacer una gran clasicacion de los tipos de diseno muestral, en dos categoras que son el Muestreo No Probabilstico y el Muestreo Probabilstico. 3.6.1. Muestreo No Probabilstico Se caracteriza porque el diseno se realiza en forma subjetiva, arbitraria, segun el criterio del investigador o del entrevistador de campo. No existe una oportunidad real de que un elemento en particular de la poblacion, sea seleccionado. No es posible, por lo tanto, calcular error de muestreo, ni la conabilidad de las inferencias. Se esta simplemente en el campo de las especulaciones y las suposiciones. Algunas modalidades de este tipo de muestreo son: El muestreo de conveniencia, que se caracteriza porque en general la unidad de muestreo se auto selecciona o se ha seleccionado debido a su facil disponibilidad. En estos casos no se especica claramente la poblacion de la cual se ha tomado la muestra, por lo cual se desconoce la diferencia entre el valor de interes de la poblacion y el valor de la muestra, en terminos de tamano y direccion. Desafortunadamente es un muestreo utilizado extensivamente en la practica. Muestreo de comparacion, para el cual los elementos son seleccionados con base en lo que algun experto piensa acerca de lo que esas unidades pueden aportar a la investigacion, por lo cual se les conoce tambien como
  34. 34. 3.7. RECOLECCION DE INFORMACION 27 muestras por expertos. En este caso se desconoce tambien el error de muestreo y la conanza, pero si el criterio y etica del experto son validos, la muestra puede resultar mejor que la de conveniencia. Se utiliza este tipo de muestreo moderadamente en la practica. El muestreo por cuotas, que puede considerarse mas un metodo de seleccion que un tipo de diseno. El tamano de la muestra y los procesos de inferencia se realizan en forma tecnica, pero los elementos para la muestra son seleccionados en forma subjetiva, pero con arreglo a ciertas caractersticas de control previamente determinadas. Es un metodo de seleccion muy util en las etapas previas de la investigacion y si se elabora con cuidado, puede suministrar informacion mas denitiva. Se utiliza muy extensamente en la practica. 3.6.2. Muestreo Probabilstico Se fundamenta en la probabilidad que tiene cada elemento del agregado para hacer parte de la muestra. Dadas ciertas condiciones de conabilidad, error maximo admisible y tamano poblacional, se deja al azar el diseno de la muestra. El muestreo se realiza mediante reglas estadsticas que no permiten ningun elemento de juicio al investigador, generando muestras mas objetivas. Permite medir la conabilidad de los procesos de inferencia y el error de muestreo que por su naturaleza conlleva. Presenta tambien diversas modalidades, siendo las mas clasicas el muestreo aleatorio simple, el muestreo estraticado y el muestreo por conglomerados. 3.7. Recoleccion de informacion Se dene como el proceso estadstico mediante el cual se obtiene toda la informacion pertinente a un problema dado. Para llevar a cabo esta tarea de recopilacion de datos e informacion, existen multiples procedimientos y la utilizacion de uno u otro, depende de la naturaleza del problema a estudiar, del equipo de investigacion disponible y de la estructura y caractersticas de las unidades de observacion. En terminos globales se consideran dos situaciones basicas, que dependen del estado de la informacion y que implican dos tipos de tareas diferentes a saber: Recopilacion de datos sobre el terreno (informacion primaria) Identicacion y recoleccion de datos ya disponibles para ulterior utilizacion (informacion secundaria).
  35. 35. 28 CAPITULO 3. METODOLOGIA DE LA ESTADISTICA En el primer caso el procedimiento se basa en la utilizacion de formularios estadsticos, denidos como un instrumento de recopilacion de datos, rigurosamente estructurado, que traduce y operacionaliza determinados problemas que son objeto de estudio. Aunque existen diferentes formas de aplicarlo, estas se pueden resumir fundamentalmente en dos que son: la entrevista personal y el formulario postal; modicaciones de estas dos formas basicas, generan otras. En la segunda situacion, el proceso se reduce a la llamada recopilacion documental, para lo cual lo importante es la determinacion de la calidad y conabilidad de la informacion a ser utilizada en estudio. Al igual que todas las anteriores, esta fase es de gran importancia para la investigacion, pues ella va a generar la materia prima para su desarrollo, cual son los datos. Existen diversas tecnicas y recomendaciones respecto a la manera de realizar este proceso, que hacen referencia desde la forma y tipos de preguntas, hasta la presentacion personal del encuestador en el caso de la entrevista personal. 3.8. Tratamiento de la informacion Cuando un investigador conduce un estudio, de ordinario reune una gran cantidad de informacion numerica o datos acerca del problema en cuestion. Los datos podran tener variedad de formas y su expresion original, tal cual son recopilados, son usualmente un enredo de recuentos, mediciones, etc. Al realizar la funcion descriptiva, la Estadstica formula reglas y procedimientos para la depuracion, clasicacion, presentacion y reduccion de los datos, de tal manera que sean utiles para su analisis e interpretacion. Es necesario depurar los datos, ordenarlos, clasicarlos y reducirlos a cifras relativas como los porcentajes, los promedios, los coecientes estadsticos y en general las medidas basicas de interes. 3.8.1. Distribuciones de Frecuencias Suponiendo que se han realizado n observaciones de las variables en estudio, el proceso que genera un conjunto de n resultados observacionales, denominado datos originales, que seran de igual dimension al numero de variables consideradas. Esta masa o acopio de informacion es difcil de manejar e interpretar y no permite detectar, en primera instancia, hechos relevantes acerca del comportamiento generalizado de las variables, en los n casos observados. Un primer paso en logro de este ultimo objetivo, consiste en agrupar la informacion, clasicando los datos segun los diferentes valores que puedan
  36. 36. 3.8. TRATAMIENTO DE LA INFORMACION 29 presentar una o un conjunto de caractersticas, valores que constituiran las diferentes categoras o clases para la clasicacion. Dependiendo de la naturaleza de las variables y de los objetivos propuestos, se utilizaran adecuadamente las diferentes escalas de clasicacion ya enunciadas. El proceso continua con el conteo (o recuento como lo llaman popularmente) del numero de observaciones o casos que se presentan en cada clase, generandose de esta manera las llamadas frecuencias de clase, lo que da inicio al proceso conocido como la reduccion del dato. De acuerdo con el numero de variables que se tengan en cuenta cada vez para la clasicacion, se presentan fundamentalmente las clasicaciones simples o unidimensionales, las de doble entrada o bidimensionales y la clasicacion multiple, segun que se consideren simultaneamente una dos o mas variables para el proceso, respectivamente. 3.8.2. Clasicacion Unidimensional Considerada cada variable por separado, se establecen adecuadamente las diferentes clases o categoras para ella; simbolizando alguna de las clases como Cj , se supone que se han generado m clases; entonces: j = 1, 2, 3, 4, . . ., m. Los numeros que resultan directamente del proceso de conteo de casos en cada clase, o sea la frecuencia, se acostumbra denominarlo mas especcamente la frecuencia absoluta, la cual se simboliza por nj y presenta las propiedades siguientes: a. nj 0 b. nj n c. m j=1 nj = n En la mayora de estudios, mas que saber el numero de casos por clase, interesa mucho mas su proporcion respecto al total de casos considerados, pues en general las cifras relativas son mas analticas que los datos absolutos. Se denen as las llamadas frecuencias relativas o simplemente frecuencias, como el cociente entre la frecuencia absoluta de cada clase y el total de casos, simbolicamente: fj = nj n El estudio del comportamiento de las frecuencias relativas, ha sido fundamental en el desarrollo del calculo de probabilidades y es trascendental para el establecimiento de la relacion existente entre los metodos
  37. 37. 30 CAPITULO 3. METODOLOGIA DE LA ESTADISTICA observacionales de la Estadstica y los inductivos y el soporte probabilstico de tal relacion. Las frecuencias relativas son medidas empricas de probabilidad. Considerando las siguientes propiedades logicas de estas frecuencias, se establece un claro paralelo con aquellas asociadas con la medida de probabilidad: a. fj 0 b. fj 1 c. m j=1 fj = 1 Para el analisis de topicos importantes dentro de los procesos estadsticos, es necesario, especialmente en el caso de variables cuantitativas, adicionar clase por clase, las frecuencias tanto absolutas como relativas. El resultado de tal operacion es conocido como las frecuencias acumuladas, las cuales en el caso relativo corresponden a la imagen emprica de la Funcion de Distribucion de una variable aleatoria. Estas frecuencias, se representan generalmente por Nj y Fj , absolutas y relativas respectivamente y dada alguna clase de la variable, por ejemplo la p esima, se tendra: Np = p j=1 nj ; Fp = p j=1 fj Tabular y simbolicamente el proceso la siguiente forma: CLASES FRECUENCIAS FRECUENCIAS ABSOLUTAS RELATIVAS C1 n1 f1 C2 n2 f2 ... ... ... Cj nj fj ... ... ... Cm nm fm TOTAL N 1 El agrupamiento de la informacion permite ir detectando propiedades o comportamientos regularizados de los datos, si existen, y como se anoto, es fundamental para visualizar la relacion entre la probabilidad y los metodos estadsticos.
  38. 38. 3.8. TRATAMIENTO DE LA INFORMACION 31 Los cuatro tipos de frecuencias citados, son susceptibles de representaciones gracas, algunas de las cuales son de naturaleza analtica y otras de caracter simplemente de presentacion. 3.8.3. Clasicacion Bi y Pluridimensional Son multiples los estudios en los cuales interesa analizar el comportamiento conjunto de dos o mas variables, especialmente con miras a tratar de establecer la posible relacion existente entre ellas y primer paso tras tal objetivo, es clasicar los datos con relacion a dos (o mas) variables simultaneamente. Las siguientes anotaciones del caso bidimensional, se pueden facilmente hacer extensibles para mas de dos variables. Determinadas las clases para cada una de las dos variables, estas se disponen en una tabla de doble entrada en la cual las las y columnas principales se destinan para presentar dichas clases. Las casillas al interior de la tabla, constituyen las clases bidimensionales o clases conjuntas, correspondiendo a la interseccion de una clase de alguna de las variables, con una clase de la otra. Es usual, sobretodo en computacion, referirse en estos casos a clases o tablas cruzadas. Las frecuencias, resultado del conteo del total de casos en cada clase conjunta, se llaman por extension logica frecuencias bidimensionales y las de tipo relativo se asocian, a nivel emprico, con el concepto de probabilidad conjunta o probabilidad de la interseccion de dos eventos. Si se denota por Cj alguna de las m clases de una de las caractersticas, generalmente la ubicada en la columna, y por Bk algo similar para alguna de las w clases de la otra variable, las frecuencias absolutas bidimensionales presentan las siguientes caractersticas y propiedades: njk =frecuencia de casos en la clase j esima de C y la k esima de B. nj = frecuencia de casos en la j esima clase de C, sin tener en cuenta a la variable B (marginales de C) nk = frecuencia de casos en la k esima clase de B, sin tener en cuenta a la variable C (marginales de B) con las siguientes propiedades logicas: a. njk 0 b. njk n c. njk nj d. njk nk e. m j=1 w k=1 njk = n
  39. 39. 32 CAPITULO 3. METODOLOGIA DE LA ESTADISTICA f. w k=1 njk = nj g. m j=1 njk = nk Las dos ultimas propiedades indican que al sumar las frecuencias bidimensionales, sobre el recorrido de una de las variables, se obtienen las unidimensionales de la otra, conocidas comunmente como frecuencias marginales. Los puntos en la notacion simbolica de estas ultimas se reeren a la variable que no se esta considerando. Las frecuencias relativas, tienen las siguientes propiedades logicas: fjk = njk n = P(Cj Bk ) a. fjk 0 b. fjk 1 c. m j=1 w k=1 fjk = 1 d. w k=1 fjk = nj e. m j=1 fjk = nk Con base en las frecuencias absolutas marginales de cada una de las variables (totales por las y columnas), es factible tener una primera idea del comportamiento de una de ellas en las diferentes clases de la otra. Para esto, por ejemplo, se dividen las frecuencias absolutas de cada la, por el total de la misma, obteniendo de esta forma los porcentajes de cada casilla, con respecto al total de la correspondiente la. Estos porcentajes indican como se distribuyen los casos de Cj con respecto a cada una de las clases de B. Una discusion similar se presenta trabajando por columnas. Este procedimiento equivale a nivel observacional, al concepto de las probabilidades condicionales y es fundamental en los estudios estadsticos sobre relacion entre variables, especialmente cuando estas son de naturaleza no cuantitativa. Simbolicamente el resultado sera el siguiente, considerando la j esima clase de C y la k esima de B: fk|j = njk nj = P(Bk |Cj )
  40. 40. 3.9. ANALISIS E INTERPRETACION 33 La presentacion tabular de las frecuencias absolutas, tendra la siguiente forma: CLASES B1 B2 . . . Bk . . . Bw TOTAL C1 n11 n12 . . . n1k . . . n1w n1 C2 n21 n22 . . . n2k . . . n2w n2 ... ... ... ... ... ... ... ... Cj nj1 nj2 . . . njk . . . njw nj ... ... ... ... ... ... ... ... Cm nm1 nm2 . . . nmk . . . nmw nm TOTAL n1 n2 . . . nk . . . nw n Cuando se consideran mas de dos variables simultaneamente, el proceso se denomina clasicacion multiple o pluridimensional y a partir de la consideracion conjunta de todas las variables, es posible deducir todas las situaciones de orden menor. No es muy comun presentar cuadros conjuntos para mas de tres o cuatro variables, pero los aspectos conceptuales se pueden desarrollar por partes, de una manera relativamente sencilla. 3.9. Analisis e Interpretacion Obtenida, depurada y clasicada la informacion, siguen en orden metodologico las aplicaciones de las tecnicas estadsticas correspondientes para su analisis y solo el conocimiento del soporte conceptual de estas, permitira la interpretacion de los resultados. Considerando que los metodos estadsticos aplicados y el desarrollo de la Estadstica en s misma, tienen una fuerte fundamentacion probabilstica, es necesario el conocimiento de los conceptos metodos del calculo de probabilidades, de las variables aleatorias, de las funciones y distribuciones de probabilidad, tanto generales como especiales, as como de las medidas caractersticas de una variable aleatoria. Los llamados metodos descriptivos, que quizas se deberan llamar empricos u observacionales, son as mismo importantes y se deberan presentar siempre, en relacion con los teoricos. Las tecnicas de estudio de asociacion entre variables, sean estas cuantitativas o no, se han constituido en los ultimos tiempos en valiosos auxiliares para la practica y desarrollo de otras ciencias; algo similar sucede con el analisis de series de tiempo, con el diseno de experimentos, los metodos no parametricos, el analisis multivariado, en n, con todos los procedimientos de analisis estadstico.
  41. 41. 34 CAPITULO 3. METODOLOGIA DE LA ESTADISTICA Es de destacar el hecho de que, en los tiempos modernos, la inferencia estadstica, con sus procesos basicos de estimacion y pruebas de hipotesis, constituye elemento fundamental no solo para la aplicacion del Metodo Cientco, sino para su desarrollo y como consecuencia logica, para la aplicacion y desarrollo de practicamente todas las disciplinas y ciencias en el diario transcurrir del ser humano. De all la gran importancia que actualmente ha adquirido y seguira adquiriendo la Estadstica, importancia que sera mejor apreciada en tanto que los docentes en esta ciencia, nos interesemos en darle enfasis a la presentacion conceptual de la misma, mas que a sus procesos operacionales.
  42. 42. CAPITULO 4 Analisis de variables no cuantitativas 4.1. Introduccion En general cuando se observan variables no cuantitativas en los elementos de una poblacion o de una muestra, el interes posterior a este proceso se centra no solo en analizar comportamientos generalizados de las mismas, sino, mas comunmente, en establecer si existen relaciones de correspondencia, coligacion o asociacion entre dos o mas de tales variables. Las variables no cuantitativas se generan por escalas de medicion nominal u ordinal, a diferencia de las variables cuantitativas generadas por escalas de intervalo o de razon. Los metodos para analizar las variables no cuantitativas son de diversa ndole, siendo los mas preponderantes hoy en da el Analisis de Correspondencias, la Clasicacion Automatica, la Estadstica Textual, metodos que superan los alcances de estas notas, en las cuales solo se presentan fundamentos de tipo esencialmente descriptivo, para el tratamiento de tales variables. 4.2. Analisis basico en tablas 2 x 2 4.2.1. Notacion y Consistencia En esta seccion se presenta el caso en que se consideran dos variables clasicadas cada una dicotomicamente (dos categoras mutuamente excluyentes), produciendo cuatro clases conjuntas, como en la siguiente tabla: 35
  43. 43. 36 CAPITULO 4. ANALISIS DE VARIABLES NO CUANTITATIVAS CLASES B1 B2 TOTAL A1 n11 n11 n1 A2 n21 n21 n2 TOTAL n1 n2 n En esta tabla donde cada entrada en el cuerpo de la misma es llamada una celda, es conveniente tener en cuenta la notacion. Simbolicamente, A1 y A2 representan las dos clases de una de las variables y B1 y B2 las de la otra. Es costumbre llamar primera variable a aquella en la vertical y segunda a la ubicada en la horizontal. La primera clase de cada una de las variables corresponde, generalmente, a una de sus modalidades de especial interes en un estudio y la segunda clase a la negacion de tal modalidad por lo que algunos autores se reeren a la clase positiva y a la negativa de cada variable. Las frecuencias, tanto conjuntas o bidimensionales como marginales, son un caso particular de las discutidas en el Captulo 3 y poseen entonces las propiedades logicas, que permiten en un primer analisis determinar la consistencia de los datos y la condicion necesaria y suciente es que ninguna frecuencia es negativa. A partir de esta condicion basica, se deducen otras formas del criterio de consistencia, de las cuales se presentan a continuacion algunos casos: a. n12 0 b. n12 n2 c. n12 n1 d. n11 + n12 + n21 + n22 = n e. n12 n1 + n2 n Formas similares se pueden deducir para las otras frecuencias y, en general, es conveniente hacer antes de todo proceso una comprobacion de la consistencia de las mismas. 4.2.2. Independencia y Correspondencia Para el analisis basico de los datos, desde el punto de vista de la posible existencia de relacion entre las caractersticas, el punto de partida consiste en suponer que tal relacion no existe, lo cual en el caso absoluto, implica que no existe relacion alguna entre cada una de las clases de una de las variables y cada una de las de la otra. La no existencia de algun tipo de relacion o correspondencia de comportamiento entre las dos variables se conoce como INDEPENDENCIA.
  44. 44. 4.2. ANALISIS BASICO EN TABLAS 2 X 2 37 El supuesto o Hipotesis de independencia se puede plantear para las dos variables en su conjunto o solamente entre algunas de las clases, situacion esta ultima en la cual, el supuesto implica que la distribucion de casos en alguna clase de una de las variables, debe presentar la misma proporcion en las dos clases de la otra. Simbolicamente este criterio de independencia, se expresa de la siguiente forma para el caso de la clase A1 con respecto a las clases B1 y B2 : n11 n1 = n12 n2 De esta relacion se deducen inmediatamente las similares: n21 n1 = n22 n2 ; n12 n1 = n22 n2 ; n11 n1 = n21 n2 Existen otras formas del criterio de independencia que son mas utiles, desde el punto de vista teorico. As, a partir de la primera forma expuesta anteriormente, se tiene: n11 n1 = n1 n11 n n1 por tanto: n n1 n1 = n1 n12 n12 y nalmente: n12 n1 = n2 n De manera similar. n12 n2 = n1 n n12 = n1 n2 n n12 n = n1 n n2 n Esta ultima forma obtenida aqu descriptivamente, corresponde al criterio de independencia probabilstica entre dos eventos cualesquiera, que para el caso de la interseccion de los mismos expresa que: P(A1 B2 ) = P(A1 )P(B2 ) lo cual equivale a que si entre dos clases de dos variables existe independencia, la proporcion de casos en la clase conjunta, con respecto al total de casos, es igual al producto entre las proporciones de casos, con respecto al total, de cada clase. Si la anterior relacion se verica, relaciones analogas se vericaran para las otras tres clases conjuntas y por tanto se puede encontrar otra forma del criterio de independencia, considerando que: n12 n21 = n1 n2 n2 n1 n2
  45. 45. 38 CAPITULO 4. ANALISIS DE VARIABLES NO CUANTITATIVAS obviamente n11 n22 es igual a la misma fraccion, por consiguiente: n11 n21 = n12 n22 n11 n12 = n21 n22 Estas ultimas formas indican que, en el caso de independencia, la razon de los A1 a los A2 entre los B1 , es igual a la razon entre las dos clases de A en los B2 y analogamente para la razon de las clases de B entre las de A. Esta manera de expresar el criterio de independencia permite reconocer con las solas frecuencias bidimensionales, si las dos variables en estudio son o no independientes. Todas las igualdades anteriores son rgidas a nivel de la teora, pero en la practica se asumen como aproximadamente o relativamente iguales o lo que es equivalente, como no signicativamente diferentes, conceptos que implican la utilizacion de los metodos estadsticos inferenciales, para determinar cuando las diferencias pueden considerarse signicativas o no. Si las anteriores igualdades no se cumplen, en el sentido relativo expresado antes, las clases o variables correspondientes, seran independientes, lo que implica por lo menos la sospecha de la existencia de algun tipo de relacion, que se llama en algunos casos asociacion, pero que corresponde mas al concepto de concordancia o correspondencia entre las clases o variables. La concordancia o correspondencia es a menudo considerada como una forma especial de asociacion, pero en realidad existen diferencias entre los conceptos. En general, con respecto a la correspondencia, lo mas importante es la similitud de comportamiento (en un sentido amplio) entre clases, con el objetivo de determinar el grado de identidad de tal comportamiento. En el caso de la asociacion, se investiga la intensidad y forma de la relacion, con el n de predecir valores de una variable, con base en los de otra, proposito que en general no se persigue en el analisis de correspondencias. La posible existencia de concordancia entre clases, se puede entonces expresar de la siguiente manera: n11 > n1 n1 n lo que indica que son mas los casos obtenidos en la clase conjunta A1 B1 que los esperados si existiera independencia. Para los usuarios de los terminos clases positivas y negativas, esto indicara que generalmente la clase positiva de una variable concuerda mas con la positiva de la otra, razon por la cual se habla de asociacion positiva o simplemente asociacion. Si por el contrario: n11 < n1 n1 n los casos de la clase conjunta son menos de los esperados, situacion que lleva a hablar de asociacion negativa o disociacion, en el sentido de que las clases positivas tienden a no concordar. De acuerdo con lo anotado, se debe hablar mas bien en terminos de clases correspondientes o no correspondientes.
  46. 46. 4.2. ANALISIS BASICO EN TABLAS 2 X 2 39 El caso extremo, llamado correspondencia absoluta o completa, imp