Post on 02-Aug-2022
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
EL MENSAJE EDUCATIVO EN ESTADÍSTICA BÁSICA: QUÉ
TRANSMITIR Y QUÉ NO TRANSMITIR
CARLOS ARAÚJO
Pontificia Universidad Católica de Chile
araujo@uc.cl
RESUMEN
La causa principal de la incultura estadística, que se observa en los países de América Latina a
todo nivel educacional, tiene su origen en la mala calidad de la enseñanza de la Estadística en
los distintos grados de la educación formal.
La coexistencia de múltiples definiciones de Estadística es la causa básica de los confusos y a
veces contradictorios esfuerzos para mejores la enseñanza de esta disciplina. Por ello el
documento presenta definición de los propósitos de Estadística que es completa (en el sentido
de que incluye a todas las demás “definiciones”) y única (en el sentido de que sólo la
Estadística tiene tales propósitos).
A base de dicha definición, se proponen distintas recomendaciones sobre la enseñanza de
conceptos básicos en Estadística Descriptiva y en Inferencia Estadística que modifican el
tratamiento tradicional de la mayoría de los libros de texto.
Mayores antecedentes se encuentran en: http://www.mat.puc.cl/articulo268.html.
PALABRAS CLAVE: datos, inferencia inductiva, definición de Estadística, enseñanza,
Estadística Descriptiva, Inferencia Estadística.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
1. INTRODUCCIÓN
Los mayores problemas que enfrenta la orientación y el desarrollo de la Estadística en
América Latina y el Caribe tienen su origen en el escaso avance de la Educación
Estadística que no ha logrado dar a conocer a profesionales (estadísticos y no
estadísticos), a connotados usuarios públicos y al público en general qué es o qué hace
la Estadística.
En efecto, en el público en general (incluye a profesionales y autoridades públicas)
existe una percepción generalizada respecto de que las estadísticas “mienten”; “son
frías” y “no son confiable o seguras”, esto último porque “siempre hay margen para
errores”. Siendo la Estadística una disciplina cuyo avance está íntimamente ligado a su
capacidad de servicio, ¿ésta puede desarrollarse adecuadamente si sus potenciales
usuarios perciben que “miente”, “es fría” o “no es confiable” o “no es segura”?
En el ámbito profesional el usuario escoge a su criterio el valor de un parámetro
porque se encuentra en un intervalo confidencia; otros aplican indicadores de
confiabilidad a sabiendas de que no corresponden al modelo probabilístico utilizado;
y otros confunden los errores de registro con “errores estadísticos” estadísticos. Y
éstos no son los únicos casos.
La forma como se ha desarrollado hasta hoy la enseñanza impartida en cursos
introductorios en esta disciplina es la principal responsable de la pobre o confusa
percepción que la sociedad tiene respecto de esta disciplina.
Es por ello que el mejoramiento de la enseñanza básica de la Estadística tanto a nivel
primario como secundario y universitario debería tener muy alta prioridad como
política de impulso al desarrollo estadístico en la región.
Conviene destacar que la situación descrita anteriormente es de exclusiva
responsabilidad de los estadísticos profesionales, quienes no han sabido transmitir
adecuadamente la naturaleza y objetivos de la Estadística y consecuentemente los
propósitos de sus servicios y que, con raras excepciones, mantienen una actitud pasiva
ante las referidas manifestaciones de ignorancia en materia estadística por parte de
importantes actores sociales.
2. NECESIDAD DE UNA VISIÓN CONSENSUADA DE LA ESTADÍSTICA
La principal causa del estancamiento en la enseñanza de la Estadística es la falta de
una visión consensuada respecto de los objetivos y propósitos de esta disciplina.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
El autor clasifican las diferentes definiciones, caracterizaciones o visiones de
Estadística presentadas hasta el momento, en las siguientes categorías:
a) Las que consideran la Estadística como “una rama de las Matemáticas” Como
se indica en el Artículo 03 al igual que la Física. y muchas otras disciplinas que
utilizan la Matemática, la Estadística tiene objetivos propios distintos de la
Matemática.
La afirmación de que la Estadística es una rama de las Matemáticas no es correcta. Las
Comunidades Científicas que trabajan en Matemática y las que trabajan en Estadística
saben que los propósitos que persiguen son diferentes como lo muestra el hecho de
que es poco común que un artículo sobre Estadística sea aceptado en una revista
científica matemática al igual que un artículo sobre Matemática sea siquiera enviado a
consideración a revistas de estadísticas. Además esta visión de la Estadística presenta
importantes inconvenientes para la enseñanza de la Estadística entre los cuales se
pueden mencionar:
Transforma la enseñanza de la Estadística en ejercicios de aritmética o cálculo y en
demostraciones de teoremas matemáticos, con poca o ninguna conexión en el
razonamiento estadístico (que es distinto del matemático).
Condiciona la enseñanza de temas estadísticos a la enseñanza previa de los temas
matemáticos en los que aquellos se basan. Por ejemplo, enseñar Métodos
Multivariados sólo después de, al menos, un curso de Álgebra de Matrices. De esta
forma se impide o limita muchas veces la formación de usuarios inteligentes de
Estadística los cuales son fundamentales para promover un buen uso de esta
disciplina.
Algunas “soluciones” o definiciones “matemáticas” resultan contraproducentes
para la buena imagen de la Estadística, como ocurre, por ejemplo, con la “definición”
de la Media o Promedio en Estadística Descriptiva que se verá más adelante.
b) Las que describen acciones que realiza la Estadística (por ejemplo: “la
Estadística recoge datos los procesa, los analiza y obtiene conclusiones”). Siempre
resultan incompletas y cualquiera de estos enunciados sólo se refieren a actividades
comunes a toda ciencia disciplina científica o técnica aplicada y por lo tanto no
caracterizan a la Estadística. Así por ejemplo estas actividades son comunes a la
Agronomía, la Astronomía, la Economía, la Química, la Contabilidad, la
Meteorología, el Transporte, y muchas otras.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
El principal inconveniente de esta visión de la Estadística es que los especialistas del
área de la cual provienen los datos en sus investigaciones o consultorías, presenten sus
conclusiones, esencialmente basadas en sus particulares conocimientos y experiencias,
como si fueran inferencias “estadísticas”. Esta situación es uno de los principales
motivos de descrédito de la Estadística en el público en general Como ejemplo, basta
observar la pobre percepción que tiene la ciudadanía respecto de las llamadas
“estadísticas” de pobreza o laborales en América Latina.
c) Las caracterizaciones que, por su vaguedad, no conducen a principios específicos
y concretos sobre la naturaleza de la Estadística y sus aplicaciones y
consecuentemente sobre la enseñanza de esta disciplina (por ejemplo: “the technology
of scientific thinking”; ”a bridge between mathematical models and real problems”;
“interface between Mathematics, computing and data analysis” y varias otras).
Su principal inconveniente es precisamente que, debido a la vaguedad, estas
definiciones no identifican objetivos específicos para la Estadística y por lo tanto
resultan estériles para la orientación de la enseñanza de esta disciplina.
Se debe agregar además que, por la generalidad de estas “definiciones”, es fácil
identificar otras disciplinas que también cumplen con lo indicado en la respectiva
“definición”, lo cual contribuye a confundir el rol de la Estadística y por lo tanto, de la
materia que se pretende enseñar.
3. UNA CARACTERIZACIÓN COMPLETA Y ÚNICA DE LA ESTADÍSTICA
Para contar con una caracterización de la Estadística que sea completa, (compatible
con todos los intentos de caracterizaciones conocidos), y única, (ninguna otra
disciplina tiene los propósitos que se indican en dicha caracterización), se propone la
siguiente definición de la Estadística.
La Estadística es una disciplina científica cuyo propósito es apoyar, favorecer o
facilitar la realización de inferencias inductivas basadas en datos mediante: i) el
resumen de la información contenida en los datos (a efectos de que los usuarios
puedan realizar sus inferencias a base de tal resumen), y ii) el dimensionamiento o
cuantificación o control del error inherente a toda inferencia inductiva.
Para cumplir con estos objetivos los métodos, técnicas y procedimientos estadísticos
pueden ser clasificados en:
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
a) Estadística Pre-Inferencial, que corresponde a los métodos técnicas y
procedimientos generales1 de la llamada “Estadística Descriptiva” o “Análisis de
Datos” o “Minería de Datos (Data Mining)” y que tienen como propósito resumir la
información contenida en el conjunto de datos sin perder información relevante para
las inferencias inductivas que el usuario del resumen pueda o quiera realizar.
b) La Estadística Inferencial o Inferencia Estadística que comprende los
métodos, técnicas y procedimientos destinados a cuantificar o valorar o dimensionar
y, en lo posible controlar, el inevitable error inherente a toda inferencia inductiva
(error inferencial).
Los elementos claves de la caracterización propuesta son
Los datos o las observaciones2
La existencia de datos u observaciones es condición necesaria para el trabajo de la
Estadística. Los datos u observaciones pueden provenir de las más diversas áreas y
fuentes. En ocasiones específicas los métodos, técnicas y procedimientos estadísticos
también se ocupan de captarlos de manera que cumplan ciertas condiciones de
aleatoriedad a efectos de poder controlar el error inferencial.
La inferencia inductiva
La presencia efectiva o potencial de la inferencia inductiva basada en datos es otra
condición necesaria para el trabajo estadístico. Así, por ejemplo, el sólo registro de
datos (civiles, de comercio, etc.) no constituye una actividad estadística
El resumen de información
La palabra “resumir” debe ser considerada en un sentido amplio para incluir en ella
todas las operaciones que conducen a tal resumen como por ejemplo, recolectar,
suprimir, organizar, analizar, interpretar, procesar, difundir o presentar la información
contenida en el conjunto de datos u observaciones etc. Este resumen tiene como
propósito servir a los usuarios a efectos de que puedan formular más fácilmente
inferencias inductivas basadas en tal resumen. Por lo tanto la elaboración del resumen
debe ser realizada con conocimiento de las necesidades de los usuarios.
En tal sentido es necesario conocer, tanto por parte del estadístico como del usuario, la
forma como se obtuvieron los datos u observaciones, a efectos de una adecuada
1 En el sentido de que se pueden aplicar a datos provenientes de las más diversas áreas. Se basan principalmente en conceptos matemáticos de orden, frecuencia, dependencia y de proximidad. 2 La palabra “observaciones” tiene el mismo alcance que el utilizado para referirse a las componentes de una muestra proveniente de una población.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
interpretación del alcance del resumen y, consecuentemente, para una apropiada
formulación sus respectivas inferencias inductivas.
La cuantificación y control del error inherente a toda inferencia inductiva
La Inferencia Estadística se distingue de cualquier otro procedimiento de realización
de inferencias inductivas porque su propósito es realizar inferencias dimensionando o
controlando la inevitable posibilidad de error asociado a toda inferencia inductiva
(error inferencial). De esta forma si no existe cuantificación del error inferencial no es
un trabajo de Inferencia Estadística. Así, por ejemplo, la estimación de parámetros sin
indicadores de confiabilidad (coeficiente de variación, intervalo de confianza, margen
de error con indicación de su respectiva confianza u otros) no es un trabajo estadístico
al igual que no lo es la selección de una de dos hipótesis si no se conoce la o las
probabilidades asociadas cometer error frente a la particular selección (función de
potencia).
Las principales ventajas de la caracterización propuesta son:
Cubre y complementa los propósitos esenciales de las caracterizaciones más
usuales de la Estadística.
Una revisión de los propósitos asociados a otras caracterizaciones de la Estadística
muestra que los mismos se encuentran directa o indirectamente incorporados en la
caracterización propuesta. Pero además la caracterización propuesta corrige
vaguedades y limitaciones de las otras. En efecto, la caracterización propuesta define
con mayor precisión los propósitos de la Estadística.
Por otra parte no considera aspectos limitantes de algunas caracterizaciones. Por
ejemplo, al identificar su propio objetivo, la Estadística no limita su desarrollo a la
aplicación de la Matemática ni de cualquier otra disciplina. Asimismo las operaciones
estadísticas de resumen de información deben considerar los posibles propósitos
inferenciales (lo cual la distingue de otras disciplinas o técnicas tales como la
Contabilidad).
Es la que el público adopta cuando se refiere a una “información estadística”
En efecto, cuando al concluir una jornada deportiva, la prensa informa sobre los
distintos resultados obtenidos por los equipos de fútbol. Esta información, que es
expresada en forma cuantitativa (número de goles), a nadie se le ocurriría llamarla
“información estadística”. Su propósito es mantener informado al público sobre
aspectos que le interesan. Sin embargo, esta misma información ofrecida como
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
antecedentes históricos para pronosticar resultados de futuros partidos de fútbol es
comúnmente llamada “información estadística” o “estadísticas del fútbol”.
¿Cuál es la diferencia? La diferencia consiste en el propósito para el cual se ofrece la
información. En el primer caso sólo da a conocer resultados; en el segundo caso estos
mismos resultados son ofrecidos con el fin de que los interesados puedan sacar
conclusiones (realizar inferencias) y eventualmente tomar decisiones (por ejemplo
apostar).
En la actividad del Estado los Registros Administrativos recopilan información con
propósitos de registrar derechos y obligaciones (registro civil); de recolectar impuestos
(Servicio de Impuestos Internos, Aduanas); control de ejecución de actividades
(educación, salud). El registro de esta información no es considerada una actividad
estadística ni la información registrada se llama “estadística”.
Sin embargo esta misma información de los Registros constituye la base de las
llamadas “Estadísticas Vitales” “Estadísticas Comercio Exterior”; “Estadísticas
Educativas”; “Estadísticas de Salud”, etc. las cuales no son otra cosa que la misma
información contenida en los respectivos registros procesada de tal forma que
permitan formular conclusiones o tomar decisiones (inferencias inductivas).
Identifica claramente la unicidad de su servicio a las demás ciencias y a la
toma de decisiones.
Al situar a la Inferencia Estadística como la (única) disciplina que permite tratar
científicamente el proceso de inferir propiedades generales a partir de observaciones o
datos sobre aspectos parciales, es claro que distingue sus propósitos de los de
cualquier otra disciplina.
Así, por ejemplo, dentro de la Matemática, la rama de Probabilidad es la que más
elementos comunes presenta con la Inferencia Estadística por cuanto ésta se vincula
con las inferencias inductivas al ofrecer una medida para la incertidumbre asociada a
dichas inferencias. Pero se debe notar, que si bien la Estadística usa Probabilidades
para dimensionar el error inferencial, la Teoría de Probabilidad no facilita la
formulación de inferencias inductivas ni tiene como propósito realizar inferencias
inductivas a base de datos controlando la incertidumbre de dicha inferencia.
Otra disciplina que a veces se asimila a la Estadística Pre-Inferencial es la Informática,
aunque es interesante notar que la Informática, si bien trata con los datos, sus métodos
y procedimientos no tienen una finalidad inferencial.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
En particular, el apoyo de la Informática a la Estadística ha permitido llevar a la
práctica métodos estadísticos que sólo podían ser tratados teóricamente como es el
caso de todos los métodos estadísticos multivariados, entre otros. Pero estos métodos
seguirán siendo estadísticos aunque se encuentren escritos, mediante métodos y
técnicas informáticas, en “lenguaje binario” a efectos de incrementar
espectacularmente el volumen de datos a manejar y la velocidad de la aplicación de las
normas y procedimientos estadísticos de procesamiento de dichos datos.
Explica el motivo por el cual la Estadística está presente en las más diversas
áreas del conocimiento y en la toma de decisiones.
En general las caracterizaciones de la Estadística destacan, mediante ejemplos, sus
aplicaciones en distintos y muy variados campos aunque no se identifica la causa de
esta múltiple capacidad de servicios. En la caracterización propuesta la causa está
claramente identificada en el apoyo a las inferencias inductivas basadas en
observaciones o datos.
En efecto, donde existan datos e interés en obtener inferencias inductivas a partir de
los mismos, existe la posibilidad de contar con el apoyo de la Estadística. Este interés
está en todas las ciencias disciplinas y técnicas de carácter aplicado y también está
presente en la toma de decisiones a base de información contenida en datos.
Basado en esta caracterización de la Estadística se presentan a continuación algunas
recomendaciones sobre qué transmitir y que no transmitir en el mensaje educativo
sobre Estadística y una breve consideración respecto de quienes deben transmitirlo.
4. RECOMENDACIONES SOBRE LA ENSEÑANZA DE ESTADÍSTICA
DESCRIPTIVA O ANÁLISIS DE DATOS
a) La Estadística Descriptiva no formula inferencias a partir del resumen de la
información.
Tal vez para hacer más “interesante” la presentación de la Estadística Descriptiva o
bien para avanzar más rápidamente en la presentación de la conceptos de Inferencia
Estadística, en la mayoría de los textos básicos de Estadística muy tempranamente se
introducen los conceptos de “población” y “muestra”.
De esta forma. la Estadística Descriptiva se asume como un conjunto de métodos para
el resumen de la información en la muestra a efectos de sacar conclusiones referidas a
la población, dejando la duda sobre tales conclusiones forman parte de la Estadística
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Descriptiva o bien constituyen una “inferencia estadística” porque está basada en un
resumen estadístico.
Es el usuario de estos servicios estadísticos (no la Estadística Descriptiva) quien
formula las inferencias a partir del resumen facilitado por la Estadística Descriptiva la
cual no tiene ni la capacidad ni la intención de establecer o formular tales inferencias.
Como veremos más adelante, tampoco la Inferencia Estadística es origen de las
inferencias inductivas, las cuales siempre estarán a cargo del usuario de la Estadística
Por lo tanto, en la enseñanza de la Estadística Descriptiva es de fundamental
importancia transmitir que sus métodos no “validan” o “controlan” la veracidad de
inferencia alguna basada en el resumen de la información. Toda inferencia o
conclusión referida al campo del cual provienen los datos es de exclusiva
responsabilidad del usuario de dicho resumen estadístico. Este es un principio
generalmente olvidado por los que adoptan la definición de que “la Estadística recoge
datos los procesa, los analiza y obtiene conclusiones”. En textos y documentos
técnicos se llega a decir que la Estadística obtiene conclusiones “válidas”.
Suponer que la Estadística (Descriptiva o Inferencial) puede formular hipótesis u
obtener conclusiones referidas a los distintos campos de los cuales pueden provenir los
datos, conduce a la absurda pretensión de que la Estadística puede establecer
conclusiones sobre las más diversas áreas, sin conocimiento científico alguno de tales
áreas. Esto puede generar consecuencias y prácticas perjudiciales para percepción de
la Estadística tales como:
Dar origen a recelos profesionales y legítimas desconfianzas respecto de la
seriedad del trabajo estadístico. ¿Puede argumentar un estadístico profesional que
está simultáneamente capacitado para obtener conclusiones sobre aspectos del
medioambiente, la energía, el turismo, la medicina, la economía, el transporte y
muchas otras áreas, sin contar con conocimiento de las mismas?
Promover o “justificar” que especialistas de las áreas de aplicación presenten
conclusiones, basadas en sus particulares conocimientos y experiencias, como si
fueran inferencias “estadísticas”. En efecto animados por el uso de las facilidades
computacionales, los especialistas del área de la cual provienen los datos revierten
el problema y cometen el mismo error que el estadístico en el punto anterior, es
decir, formulan conclusiones “estadísticas” con poco o ningún conocimiento en esta
materia.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Esta situación es uno de los principales motivos de descrédito de la Estadística en el
público en general y causa principal por la que profesionales de otras áreas formulen
conclusiones “estadísticas” y hasta dirijan técnicamente Unidades de “Estadística” en
instituciones públicas e internacionales. Siendo la Estadística una disciplina de
servicio, las situaciones indicadas en i) y ii) comprometen grave y directamente su
desarrollo.
Todo lo anterior no significa que cuando se enseñan los métodos de Estadística
Descriptiva no se estimulen a los alumnos a formular conclusiones basadas en los
resultados de tales métodos. Sólo se debe aclarar que tales conclusiones no forman
parte de los referidos métodos sino que se formulan bajo la exclusiva responsabilidad
de quien las emite.
b) La Estadística Descriptiva no distingue entre muestra y población.
Es una consecuencia directa del punto anterior. Los métodos de resumen de
información de la Estadística Descriptiva se aplican de igual manera si los datos
corresponden a una muestra o a un censo. En ambos casos los métodos de la
Estadística Descriptiva resumirán la información para facilitar la formulación de
inferencias inductivas de parte del usuario del respectivo resumen.
c) La Media no “es” la suma de los valores dividida por la cantidad de sumandos
La mayoría de los textos que tratan la Media como indicador descriptivo de un
conjunto finito de datos cuantitativos, la “definen” como la suma de los números de
dicho conjunto dividida por la cardinalidad del conjunto. Esta “definición” no indica
qué significa o cómo se interpreta una Media sino cómo se calcula.
Se observa además que ésta no es la situación en los demás indicadores clásicos
(Moda, Percentil etc.) donde la definición se refiere al significado o interpretación del
respectivo indicador para posteriormente referirse su cálculo.
Por otra parte, si la Estadística Descriptiva tiene como propósito resumir la
información contenida en el conjunto de números para favorecer la realización de
inferencias inductivas, resulta de fundamental importancia conocer la interpretación o
significado de los todos indicadores de resumen y en particular el de la Media.
Con la “definición” presentada ¿cuál es la interpretación de la Media más plausible
para un usuario? La respuesta está dada en los primeros cursos de aritmética: la Media
es lo que le corresponde a cada elemento del conjunto de números si a todos los
elementos le correspondiera el mismo valor.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Mediante esta interpretación se ridiculiza a la Estadística en general diciendo que es
una disciplina poco seria (o bien que miente) por cuanto afirma, por ejemplo, que: “si
una persona come dos pollos y la otra no come alimento alguno, en promedio están
bien alimentadas porque cada una come un pollo”.
Esta “definición” de la Media tan difundida y que tan pobre imagen ha dado a la
Estadística, tiene su origen en la creencia de que “la Estadística es una rama de las
Matemáticas”. En efecto, la siguiente proposición matemática es válida:
Sea: , 1, 2,...,i iX x x R i n Entonces:
2 2
1 1 1
1 n n n
i i ii i i
x x x x x k k Rn
(1.1)
Debido a la doble implicación, desde un punto de vista matemático es lo mismo
definir la Media de un conjunto finito de números usando cualquiera de las
expresiones que figuran a los costados de la doble implicación.
En consecuencia desde el punto de vista matemático se escoge la expresión de la
izquierda para definir la Media porque es más fácil de decir en palabras y por otra
parte es la forma como se calcula (prueba su existencia).
Pero como ya se explicó, esta definición de Media conduce a explicables errores en su
interpretación. La correcta definición de esta indicador se origina en la parte derecha
de la doble implicación observando primeramente que la Media no pretende describir
alguna propiedad del conjunto de números sino que pretende representar al conjunto
de números.
Para ello, se recurre a una temprana utilización del principio de mínimo cuadrados que
establece elegir como mejor representante del conjunto X es el número 0k que
verifica la segunda parte de la implicación (1.1)
En otras palabras el principio de mínimo cuadrados establece como representante del
conjunto X el número k que minimiza 21
n
ii
x k
. Utilizando o bien el álgebra
elemental o bien el cálculo diferencial, es fácil demostrar que este mínimo se obtiene
para 1
1 n
ii
k x xn
.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
La Media es entonces el mejor representante mínimo cuadrático de un conjunto de
números y consecuentemente sólo pretende representar dichos números y no explicar
algún tipo de comportamiento de los mismos.
Se hace notar que usando las actuales facilidades computacionales (hoja de cálculo) es
posible enseñar esta definición de la Media a alumnos del segundo ciclo de la
enseñanza formal.
Inseparabilidad de Media y Varianza. Debido a que el mejor representante mínimo
cuadrático no es necesariamente un buen representante, la correcta interpretación de la
Media requiere conocer cuán bien dicha Media representa al conjunto de datos
numéricos, es decir, se requiere definir un indicador de la representatividad de la
Media.
Para ello si 2
ix x es un indicador de la representación de x respecto del punto ix se
usa nuevamente el principio de mínimo cuadrado en la búsqueda del mejor
representante del conjunto 2
1, 2,...,ix x i n que es la Media de este conjunto de
números y que se define como la Varianza del conjunto X original es decir:
2
1
1 n
ii
V X x xn
. Se observa que en este contexto, resulta además incoherente
definir la Cuasi-Varianza dentro de Estadística Descriptiva.
A efectos de interpretar su valor, este indicador puede ser expresado en otras unidades
de medida mediante la Desviación Estándar (DE) o, mejor aún, el Coeficiente de
Variación (CV). Usando la conocida regla práctica de que si 0,1CV X la Media no
representa adecuadamente a los datos, es fácil mostrar que si una persona come dos
pollos y la otra no come, el Coeficiente de Variación es 1.0, es decir 10 veces mayor
que el máximo aceptable y por lo tanto, en esta situación, la Media es un mal
representante de lo que come cada una de las dos persona (y se recuerda que, bajo el
principio de mínimo cuadrado, no hay mejor).
Como conclusión final de este punto podemos señalar que, siendo el propósito de la
Estadística Descriptiva resumir la información contenida en un conjunto de datos, para
que el usuario de estos resúmenes pueda formulas inferencias inductivas con mayor
comodidad, es imperativo que dicho usuario tenga una correcta interpretación de todos
y cada una de los elementos de este resumen. En el caso de la Media resulta altamente
insatisfactorio definirla mediante su fórmula de cálculo puesto que la única
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
interpretación posible lleva a conclusiones ridículas aunque divertidas. Asimismo la
correcta definición de la Media como el representante mínimo cuadrático del conjunto
de datos, muestra que, para su apropiada interpretación, resulta inevitable el
conocimiento de la Varianza del referido conjunta de datos.
d) En Estadística Descriptiva no existe la Cuasi-Varianza
Una consecuencia inmediata de los dos puntos anteriores, es que en Estadística
Descriptiva carece de sentido la definición de la llamada Cuasi-varianza
22
1
1
1
n
ii
s x Xn
o como equivocadamente lo expresa el programa Excel “la
varianza de una muestra”.
Peor aún es la solución tanto de Excel como del programa computacional “R” que
llaman varianza (“var”) a la Cuasi-Varianza y designa con “varp” (¿varianza de la
población?) a la varianza propiamente tal.
El concepto de Cuasi-Varianza sólo tiene cabida en Inferencia Estadística y se refiere
a una estimación insesgada de la varianza de una población obtenida a base de una
muestra aleatoria proveniente de dicha población.
También en Inferencia Estadística aplicada al Muestreo Aleatorio Simple en
Poblaciones Finitas surge la conveniencia de definir y trabajar con Cuasi-Varianza
Poblacional a efectos de aplicar el llamado “principio de copia” para proponer un
estimador de dicha Cuasi Varianza Poblacional. Pero obsérvese que en este caso la
Cuasi Varianza es de la población (no de una muestra) y que la Cuasi Varianza de la
muestra resulta ser un estimador insesgado de la Cuasi Varianza de la Población, y no
de la Varianza de la población.
e) Resumen Mediante Intervalos de Clase: ¿Cuántos y cuáles seleccionar?
En casi todos los textos de Estadística Descriptiva se proponen fórmulas para
determinar cuántos intervalos de igual longitud se deben seleccionar dado el número
de observaciones. ( Sturges (1926) y otras).
Estas fórmulas están hoy en un claro desuso en las aplicaciones debido a que las
facilidades computacionales permiten, en cada caso, y a muy bajo o ningún costo,
agrupar los datos mediante intervalos construidos de común acuerdo con cada uno de
los respectivos usuarios del resumen.
Agrupar los datos en consulta con el usuario es la única forma de asegurar que en
dicho resumen no se perderá información relevante. Por ejemplo el resumen por
intervalos etarios es distinto para el Ministerio de Educación que para el del Trabajo.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
f) Resumen Mediante Intervalos: Cálculos de Indicadores
Hace algún tiempo, el cálculo aproximado de Indicadores Descriptivos usando
intervalos de clase y su frecuencia, se presentaba dentro del tema: “métodos
abreviados del cálculo de…”. Y en verdad cumplían este propósito cuando los
cálculos se realizaban “a mano”. Sin embargo actualmente, debido a las facilidades
computacionales, es más fácil, más riguroso y más rápido calcular indicadores de
resumen (Moda, Percentiles, Media, Varianza Covarianza etc.) usando los datos
originales que utilizando la referida información sobre Intervalos de Clase.
Por lo tanto en las aplicaciones reales, carecen de interés todas las fórmulas sugeridas
para el cálculo, siempre aproximado, de estos indicadores utilizando la información de
una Tabla de Frecuencia agrupada por intervalos. Su uso sólo pude ser justificado con
fines docentes para revisar los conceptos utilizados en la construcción de estas Tablas
en los casos de Media, Varianza y Covarianza con la aclaración de que son sólo
valores aproximados y no corresponden a los verdaderos valores de los respectivos
indicadores.
Hay casos de claro abuso como ocurre con la fórmula que registran algunos textos
para el cálculo de la Moda donde una solución dada por una fórmula es presentada al
usuario como el “valor más frecuente” lo cual carece de sentido estadístico porque
dicho valor casi seguramente tiene frecuencia cero.
g) Sugerencia para la Interpretación de la Moda
Debida al sesgo introducido por la visión de la Estadística como “parte de la
Matemática”, la mayoría de los textos de Estadística Básica, se preocupan más por el
cálculo que por la interpretación de los resultados. De esta forma (definen la Moda
como “el valor más frecuente”, aunque poco o nada dicen de su interpretación, la cual
está claramente vinculada a cuán frecuente es el valor más frecuente.
Por ello, así como no es posible interpretar la Media sin la Varianza, no es posible
interpretar adecuadamente la Moda sin conocer la frecuencia relativa de la misma. Por
lo tanto la recomendación es que frente al valor de la Moda se debe agregar siempre el
valor de su frecuencia relativa para una adecuada interpretación de este indicador.
h) Métodos Multivariados: Inter e Intravarianza
El Análisis de la Varianza ( 2 ) ocupa un aspecto fundamental en diferentes métodos
estadísticos por lo que resulta altamente recomendable introducir tempranamente los
conceptos de Intervarianza ( 2b ) e Intravarianza ( 2
w ) de una Partición ( P ) de un
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
conjunto de datos referidos a una particular variable en estudio, como forma de
introducir conceptos “homogeneidad “ o “variabilidad” entre y dentro de los grupos
de datos.
En este contexto, lo se recomienda además definir el Coeficiente de Determinación de
la Partición mediante 2
2
2
bPR y presentar, a través de este indicador características
de la Partición.
i) Métodos Multivariados: Asociación o Correlación Estadística Simple
Para una adecuada interpretación del concepto de asociación o correlación en
Estadística es fundamental independizar su definición de cualquier sugerencia sobre la
relación causa-efecto.
Para ello se debe precisar en qué sentido se dice que dos variables cuantitativas están
asociadas o correlacionadas estadísticamente. Al respecto se sugiere utilizar la
siguiente caracterización:
En Estadística Descriptiva se dice que dos variables cuantitativas “están asociadas”,
“son dependientes”, o “están correlacionadas” si cuando se aumentan los valores de
una variable, los valores de la otra tienden a:
O bien a aumentar (y se dice que la asociación o dependencia es directa o que la
correlación es positiva)
O bien a disminuir (y se dice que la asociación o dependencia es inversa o que la
correlación es negativa)
Cuando no se presenta esta tendencia se dice que las variables no están asociadas o no
son dependientes o no están correlacionadas.
Los indicadores de Asociación o Correlación pretenden medir el “sentido” (directo e
inverso) mediante el signo del indicador y la “intensidad o fuerza” de esta tendencia
mediante el valor absoluto del indicador, entendiendo por tendencia el grado de
creencia respecto a que el incremento del valor de una variable conduzca al
incremento (o disminución) de la otra.
También es conveniente notar que todo indicador de correlación es sólo entre dos
variables. Si estas dos variables corresponden a un par de las variables originales bajo
estudio, la correlación se llama simple, cuando la correlación es entre dos particulares
funciones lineales de las variables originales, la correlación puede ser parcial o bien
múltiple.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
j) Métodos Multivariados: Ajuste de una Recta a una Nube de Puntos
Cuando se presenta este tema en Estadística Descriptiva, muchas veces se comete el
error de incluir aspectos de inferencia estadística tales como la interpolación y la
predicción de valores de una variable en función de la otra (regresión) como “parte”
de los problemas que puede resolver este ajuste.
El principio de mínimos cuadrados utilizado para identificar la recta de ajuste tiene el
mismo propósito que su aplicación para definir la Media. En esa oportunidad dado un
conjunto de datos numéricos se pretendía obtener un número que represente los
referidos datos. En este caso, la Recta Mínimo Cuadrática es para la nube de puntos, lo
mismo que la Media es para el conjunto finito de datos y el Coeficiente de
Determinación de dicha recta mínimo cuadrática cumple el mismo propósito que el
que cumple la Varianza para la Media.
Se debería enfatizar siempre que las deducciones o conclusiones sobre el
comportamiento de las variables (no de los particulares valores observados) basadas
en el estudio del comportamiento de la recta mínimo cuadrática, son de exclusiva
responsabilidad del usuario que formula dichas deducciones o conclusiones. Si se
desea controlar el inevitable error asociado a la inferencia implícita en dichas
conclusiones, se requieren hipótesis sobre modelos aleatorios asociados a una
población de la cual provienen estos datos y ese tema, conocido como Análisis de
Regresión o Modelos Lineales, corresponde a la Inferencia Estadística.
5. RECOMENDACIONES SOBRE LA ENSEÑANZA DE LA INFERENCIA
ESTADÍSTICA
a) El Control o Cuantificación del Error Inherente a la Inferencia Inductiva
En la enseñanza de los métodos de Inferencia Estadística se debe recordar siempre que
el propósito de la Inferencia Estadística es el control del Error Inferencial. En tal
sentido toda inferencia obtenida a través de una muestra (inclusive seleccionada
aleatoriamente) no necesariamente es inferencia estadística.
Para ello es necesario que la particular inferencia inductiva, asociada a un problema de
estimación o dócima o test de hipótesis, se encuentre siempre acompañada de algún
indicador referido a la “credibilidad” de dicha inferencia (Coeficiente de Variación,
Nivel de Significación o Función de Potencia). Por ejemplo, si en un ejercicio de
estimación sólo se identifica el estimador y se calcula su valor para la respectiva
muestra obtenida, aún no se ha realizado una inferencia estadística.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
b) Condición Necesaria para realizar Inferencia Estadística: Conjunto de Muestras
Posible y Familia de Distribuciones de Probabilidad
Se debe destacar que la condición necesaria para realizar inferencias estadísticas (es
decir controlar el error asociado a cada una de dichas inferencias) es contar con un
Conjunto de Muestras Posible y Distribuciones de Probabilidad definidas en dicho
conjunto.
Veamos dos ejemplos clásicos. Cuando se trata de Muestreo en Poblaciones Finitas, el
mecanismo de selección de las unidades de la Población, define el conjunto de
Muestras Posibles y las respectivas probabilidades definidas en dicho conjunto.
Si en cambio la población en estudio es una variable aleatoria X con recorrido X y
función de probabilidad P se considera una muestra aleatoria 1 2, ,..., nX X X ,
el conjunto de Muestras Posibles será 1
nXii
M y 1
,i
nX
i
P
la familia de
distribuciones de probabilidad definidas en M .
Estos conceptos se pueden presentar en forma sencilla en cursos de nivel secundario
recurriendo a ejemplos en poblaciones finitas (muestreo simple al azar, muestreo
sistemático etc.) o bien a ejemplos en que la variable aleatoria X es una Bernoulli. En
estos casos resulta fácil determinar el conjunto de muestras posibles así como las
probabilidades definidas en dicho conjunto.
c) Desterrar el concepto de “muestra representativa” para realizar Inferencia
Estadística.
Una de las más nefastas consecuencias de considerar a la Estadística bajo la
perspectiva de que “recoge y organiza datos para luego sacar conclusiones”, es que se
concluya, por simplificación o por ignorancia, en que el trabajo estadístico consiste en
seleccionar una muestra representativa cuyo procesamiento permitiría llegar a
“conclusiones válidas”. Según esta “visión”, no hay un conjunto de Muestras Posibles
sino una única muestra “cuidadosamente” seleccionada por un “especialista” para que
sea “representativa”.
Desde el punto de vista de Inferencia Estadística, la hipótesis de existencia de esta
muestra “representativa” es absurda (no es posible saber si algo representa “bien” a lo
que se desconoce) y es perversa por cuanto hace posible la inclusión de aspectos
subjetivos en la selección de la muestra.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
A lo anterior se une el hecho de que esta falsa visión promueve que especialistas en el
área a la cual se refieren los datos se consideren en mejores condiciones para definir el
diseño “estadístico” de selección de la muestra. Al fin y al cabo, ¿quién mejor que
dicho especialista para conocer la “representatividad” de una muestra?
En la enseñanza de Inferencia Estadística se recomienda enfáticamente no utilizar el
término “muestra representativa” y si es necesario hacerlo, indicar claramente respecto
de qué característica poblacional (por supuesto conocida y por lo tanto no investigada)
se considera representativa una particular muestra.
d) Sobre Estimador, Estimación, Confiabilidad e Intervalo o Margen de Error
Confidencial
En el caso de la llamada “estimación puntual” siendo el Estimador de un parámetro
poblacional una función con dominio en el Conjunto de Muestras Posibles y recorrido
en el espacio paramétrico, el Estimador es claramente una variable aleatoria. La
Estimación es el valor del Estimador para una particular muestra. Una Estimación es
confiable si el Estimador de la cual proviene es confiable y la confiabilidad de un
Estimador depende de su Error Cuadrático Medio cuya interpretación práctica resulta
poco clara y además depende de parámetros poblacionales por lo cual debe ser
estimado mediante un nuevo Estimador generando de esta forma un círculo vicioso
Para una mejor interpretación de la confiabilidad del Estimador que produce la
Estimación se utiliza el Intervalo Confidencial, que consiste en obtener dos
estimadores del extremo inferior y del extremo superior del intervalo respectivamente
para los cuales, dado un nivel de confianza expresado en % se pueda afirmar que, si
,A B son los respectivos estimadores, entonces y es el parámetro:
100P A B (1.2)
Por ejemplo una forma de transmitir la confiabilidad que merece un intervalo
con % de confianza es explicar al usuario que esta confianza es equivalente a la que
tiene un intervalo extraído al azar de una urna con 100 intervalos de los cuales
contienen al verdadero valor del parámetro. En este caso, la urna hace las veces del
Intervalo aleatorio
Un caso particular se presenta cuando es posible suponer que .N V . En estos
casos, se utiliza la expresión t V para la construcción de Intervalos
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Confidenciales. En tales casos se recomienda presentar la estimación puntual y utilizar
el Margen de Error absoluto ( t V ) o relativo ( t CV ) como indicador de la
confiabilidad del estimador que produje la respectiva estimación puntual.
Todos los conceptos mencionados en este acápite sobre estimación puntual, pueden
ser presentados en enseñanza secundaria trabajando con Muestro en Poblaciones
Finitas o con Variables Aleatorias Discretas (por ejemplo, Bernoulli).
En lo referente los intervalos confidenciales se pueden introducir los conceptos
mencionados en este acápite mediante experimentación numérica.
e) Los Intervalos Confidenciales no estiman al parámetro
Como se indicó en el punto anterior, el propósito del Intervalo Confidencial es
calificar la confiabilidad del Estimador del cual provino la Estimación.
La frase de que “el parámetro se encuentra en el intervalo con 95% de confianza“, se
presta a confusiones y permite que el usuario justifique “estadísticamente” escoger un
valor a sus gusto dentro del intervalo, como la estimación estadística del parámetro.
En realidad se debería decir que el intervalo contiene al parámetro con 95% de
confianza. Quien tiene la confianza es el intervalo y no un valor dentro del intervalo.
A manera de ejemplo, en un país en el cual se construyó un intervalo confidencial para
el IPC, el Ministro de turno se disponía a escoger el extremo inferior del intervalo
como el valor de la inflación del mes respectivo. Según lo que generalmente se enseña
en clase, no es fácil decirle al Ministro dónde está su error.
f) Sobre Dócima o Test de Hipótesis
Puesto que existen dos hipótesis 0:oH y 1 1:H de las cuales una y sólo una es
verdadera, sólo pueden presentarse dos errores: Error Tipo I (rechazar oH cuando es
cierta) y Error Tipo II (aceptar oH cuando es falsa). La cuantificación de la
probabilidad de cometer cualquiera de estos dos errores, es el principal propósito de la
Inferencia Estadística.
El procedimiento establecido en la Inferencia Estadística Clásica consiste en
seleccionar un subconjunto C del Conjunto de Muestras Posibles que se llama Región
Crítica. Si una particular muestra seleccionada pertenece a la Región Crítica se
rechaza oH ; en otro caso se acepta3oH . La probabilidad de cometer Error Tipo I será
3 La frase “no existe evidencia para rechazar oH ”intenta vanamente eludir el problema de dócima o test de hipótesis que consiste precisamente en seleccionar una de las dos.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
0
P C y la probabilidad de cometer Error Tipo II será 1cP C . El
principio para escoger una Región Crítica consiste en fijar la máxima probabilidad de
Error Tipo I que el usuario está dispuesto a aceptar (llamada nivel de significación y
representada por ) y entre todas las Regiones Críticas que cumplen que
seleccionar aquella que, si es posible tenga uniformemente menores , y si no es
posible buscar regiones cuyos sean, en general, pequeños.
La “bondad” de una Región Crítica C se puede medir entonces mediante la Función
de Potencia definida por 1oC P C . Se nota que si 0C es una “buena”
Región Crítica para un nivel de significación entonces 0C y
11C
El control de ambos errores inferenciales posibles en un problema de Dócima de
Hipótesis, es imprescindible para cumplir con el propósito de la Inferencia Estadística.
Sin embargo la mayoría de los textos parecen referirse exclusivamente al control del
Error Tipo I mediante el nivel de significación, descuidando los demás valores de la
Función de Potencia.
Esto tiene el inconveniente de que, en el caso en que la particular muestra
seleccionada no pertenece a la Región Crítica, el único error inferencial que se puede
cometer es el de Tipo II, el cual está controlado por 1C y no guarda una
vinculación establecida con . En algunos textos inclusive se puede leer: “Se acepta
0H (o bien no hay evidencias para rechazar 0H ) con un nivel de significación del 5%”
frase que podría formar parte del guión de una obra del teatro del absurdo.
Como en d) todos los conceptos presentados en este acápite pueden ser fácilmente
introducidos en cursos de enseñanza secundaria utilizando como ejemplo población
una variable de Bernoulli.
g) Los Intervalos Confidenciales no “resuelven” Dócimas de Hipótesis
Es frecuente encontrar en textos la resolución de Dócimas de Hipótesis mediante el
uso de Intervalos Confidenciales. Esto es un error y a continuación se presentan
algunas razones:
En primer lugar, los problemas son de naturaleza distinta: en el caso de Dócima de
Hipótesis se establece una partición en el espacio paramétrico y el problema es
escoger el elemento de la partición al cual pertenece pa población de la cual provino la
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
muestre. Intervalo Confidencial se carece absolutamente de información adicional
sobre el espacio paramétrico.
Además, si el objetivo de la Inferencias Estadística es el control o cuantificación del
error inferencial, es claro que un “nivel de confianza” y una “probabilidad” no son
indicadores de igual naturaleza. Por ejemplo, no es lo mismo decir que se tiene una
confianza de 95% de no cometer el Error Tipo I a decir que tengo una probabilidad de
95% de no cometerlo. La confianza es un concepto derivado de la probabilidad. Por lo
anterior no es posible que un 95% de confianza pueda convertirse, por magia, en un
5% de probabilidad
Por otra parte, se puede usar un intervalo confidencial con 100 % de confianza para
definir un subconjunto de las muestras posibles (Región Crítica) con 1 .
Pero la “bondad” de la Región Crítica así definida, debe ser analizada mediante su
Función de Potencia. Es fácil ver que en casos de dócimas “unilaterales” la Región
Crítica derivada de un intervalo confidencial no es una buena Región Crítica en el
sentido de que fácilmente se identifican mejores Regiones con igual nivel de
significación).
En resumen la propuesta de uso del intervalo confidencial para dócimas de hipótesis:
i) se refiere a otro tipo de problema estadístico, ii) está basada exclusivamente en la
probabilidad del Error Tipo I y por lo tanto no controla la probabilidad del error
inferencial cuando el valor del parámetro en la hipótesis nula pertenece al particular
intervalo; iii) sirve sólo para las llamadas dócimas bilaterales por lo que no permite la
obtención de dócimas PUM, y iv) confunde probabilidad con la confianza ambos
conceptos utilizados para indicadores de confiabilidad de una inferencia inductiva,
pero de naturaleza diferente.
h) Modelos Lineales ”Multivariados”: El Modelo de Regresión Lineal
En la enseñanza de Modelos de Regresión o Modelos Lineales, la mayoría de los
textos destinan uno o más capítulos a la presentación de los Modelos Lineales
llamados “en dos variables” (una variable respuesta y una explicativa). En el caso
particular de los textos de Introducción a la Inferencia Estadística, sólo se refieren a
estos.
Esta presentación resulta poco interesante (difícilmente en las aplicaciones se
considera una sola variable explicativa). Además independiente del número de
variables explicativas en un Modelo Lineal, el término de perturbación (o ruido) es
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
univariado y por lo tanto, desde el punto de vista estadístico, todos los métodos de
inferencia estadística que se utilizan, corresponde a los métodos de inferencia
estadística sobre poblaciones univariadas.
No es necesario entonces aguardar a que el alumno conozca Álgebra Lineal para
presentar el Modelo Lineal con varias variables explicativas. Las facilidades
computacionales actualmente disponibles permiten presentar los conceptos
estadísticos relevantes de un Modelo Lineal “con varias variables”.
De esta forma se contribuye a la formación de “usuarios” inteligentes a lo cual se hace
referencia un poco más adelante.
i) Modelo de Regresión Lineal: El R2 corregido
El Coeficiente de Determinación Corregido 2R definido mediante:
2 2( ) 11 1 1
( )
CM Residuo nR R
CM Total n k
(1.3)
presenta las siguientes desventajas:
Su origen está en considerar un “defecto” del 2R lo que en realidad es una “virtud”
(para procedimientos de estimación recomendables más variables explicativas deben
“explicar” igual o mejor a la variable dependiente)
No tiene interpretación práctica, lo cual es un claro defecto para el usuario, quien
es el objetivo final del trabajo estadístico.
Como permanentemente se advierte, “R2 Corregido” puede resultar negativo con
lo que no sólo se refuerza lo indicado en el punto 2. sino su notación es contradictoria
(usa supra índice 2).
Los defensores del 2R sostienen que el 2R (sin corregir) puede dar una visión más
optimista del “ajuste” de la regresión que el que indicaría el “R2 Corregido”
Sin embargo este posible exceso de optimismo no se corrige con deterioros al
indicador R2 sino con un serio y completo análisis estadístico del modelo que debe
incluir el estudio de la validez de las hipótesis del modelo y de la confiabilidad de las
estimaciones de sus parámetros (estudio de efecto de agregación y problema de
multicolinealidad).
j) Sobre las Propiedades Asintóticas
Conviene recordar que las propiedades asintóticas se refieren al método pero no a un
particular resultado del método. Es decir, si un método no tiene buenas propiedades
asintóticas no debería ser utilizado.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Si por otra parte se utiliza un método que tiene buenas propiedades asintóticas, la
“bondad” de un resultado en un estudio particular (tamaño de nuestra dado) se debe
medir de acuerdo con los indicadores de confiabilidad específicos (Error Cuadrático
Medio; Intervalo Confidencial, Función de Potencia)
6. RECOMENDACIONES GENERALES EN LA ENSEÑANZA DE LA
ESTADÍSTICA
Se presentan ahora algunas recomendaciones generales para la enseñanza de la
Estadística las cuales se continúan basándose en la definición de Estadística propuesta
al inicio de este trabajo.
a) Sobre los profesores de Estadística Básica
Es obvio que la enseñanza de esta disciplina debería estar a cargo de los estadísticos.
Donde esto no sea posible, el docente de Estadística además de un conocimiento
razonable de los métodos matemáticos implícitos en los temas estadísticos que debe
abordar, debería mostrar como principal requisito alguna familiaridad con la
formulación de inferencias inductivas basadas en datos.
¿Por qué si se acepta que el razonamiento estadístico es diferente del matemático se
insiste entonces en que la Estadística Básica sea enseñada por profesores de
matemática, los cuales, profesionalmente, carecen de experiencias (y muchas veces de
interés) en el tratamiento de inferencias inductivas?
Existen varias razones todas ellas originadas por la confusión creada por las distintas
visiones de Estadística lo cual, como ya se indicó, es de exclusiva responsabilidad de
los estadísticos. Entre tales razones se encuentran:
Aceptar que la Estadística es una “rama de las Matemáticas”
La necesidad que ocasionalmente podría tener la Matemática de mostrar su
utilidad.
La existencia de una infraestructura docente en Matemáticas, en todas las
instancias de educación formal (incluida la universitaria).
Estas razones no son suficientes para confiar la enseñanza de Estadística a los
profesores de Matemáticas. Los profesores a cargo de la enseñanza de esta disciplina,
deben ser profesores con real interés en capacitar a los alumnos en métodos, técnicas y
procedimientos de apoyo a la formulación de inferencias inductivas basadas en datos.
Es posible que varios profesores de matemáticas tengan interés en esta área, pero
seguramente lo tendrán también profesores de ciencias naturales y sociales.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Como se indicó al inicio de este acápite, la Estadística debe ser enseñada por personas
que demuestren conocimientos de esta disciplina. Para comenzar a tomar medidas en
este importante asunto se sugiere organizar un curso a distancia para profesores
interesados en enseñar el uso de métodos, técnicas y procedimientos estadísticos en la
enseñanza básica formal (primaria y secundaria)
b) Trabajar ejemplos con datos “reales”
No hay Estadística si no hay datos (reales o potenciales). Un alumno estará siempre
más interesado en la enseñanza de la Estadística si las aplicaciones se refieren a datos
en áreas de su conocimiento. De esta forma el alumno se transforma en un usuario de
de la Estadística y es más fácil conseguir su activa participación en el aprendizaje.
c) Uso de facilidades computacionales
El punto anterior está íntimamente ligado con el uso de facilidades computacionales
las cuales se encuentran disponibles actualmente a muy bajo costo. Es hora de que la
enseñanza de Estadística deje de ser un repaso de aritmética y se destine el tiempo de
enseñanza fundamentalmente a la correcta interpretación de sus resultados.
d) Formación de usarios “inteligentes” de Estadística
Sin usuarios “inteligentes” no hay demanda de servicios estadísticos y sin ella el
desarrollo estadístico pierde orientación, interés y consecuentemente, recursos para su
financiamiento
Se entiende por un usuario inteligente de Estadística a una persona que no dedica su
actividad técnica o profesional al estudio y aplicación de la Estadística pero es capaz
de:
reconocer en su ámbito de estudio o de decisiones, tipos de problemas que pueden
ser atendidos por tales métodos o instrumentos estadísticos;
analizar las implicaciones de las hipótesis de los métodos utilizados e interpretar
sus resultados en el contexto de las aplicaciones y
conocer las posibilidades y limitaciones de programas computacionales de uso
frecuente en las aplicaciones de tales métodos.
Se observa que debido fundamentalmente a las facilidades computacionales de hoy
día, para llevar a cabo este propósito, en algunas circunstancias no resultará
conveniente aguardar la presentación de las bases matemáticas para enseñar
determinados métodos estadísticos que se apoyan en dichas bases matemáticas. Este
comportamiento, bastante usual en la actualidad, es consecuencia directa de considerar
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
a la Estadística como una rama de la Matemática y ha contribuido al poco
conocimiento de las potencialidades que la Estadística ofrece a los profesionales y
público en general, en las actividades asociadas a todas las ciencias aplicadas y en la
toma de decisiones.
Por otra parte una enseñanza de la Estadística a profesionales de otras áreas orientada
a la formación de usuarios inteligentes permitirá contar en el futuro con una mayor y
mejor informada demanda de servicios estadísticos, cuya presencia, como ya se
indicó, resulta fundamental para alcanzar un desarrollo estadístico acorde con las
necesidades de la sociedad.
7. REFERENCIAS
Araújo, C. (2006), “Statistical Illiteracy in Latin America: A Consequence of the Different
Visions about the Meaning of Statistics”. In A. Rossman & B. Chance (Eds.) Proceedings of
the Seventh International Conference on Teaching Statistics. CD ROM. Salvador (Bahia),
Brazil: IASE and ISI.