MED Binomial
Transcript of MED Binomial
Segundo ejercicio del concurso público para la provisión de la plaza nº42, de Profesor Titular de Universidad en el área de Fundamentos deAnálisis Económico con perfil Econometría
ECONOMETRÍA III
4º Curso
Licenciatura de Economía
TEMA 4
Modelos de variable dependiente limitada
ANA MARÍA ANGULO GARIJO
ZARAGOZA, 21 DE FEBRERO DE 2003
2
ÍNDICE
PRESENTACIÓN DE LA LECCIÓN........................................................................................3
Modelos de variable dependiente limitada....................................................................6
1. Introducción...........................................................................................................6
2. Los modelos de elección discreta..........................................................................8
2.1. Modelos de elección binaria....................................... ...................................8
2.1.1. El modelo de probabilidad lineal: Formulación,
estimación y problemas......................................................................10
2.1.2. Los modelos probit y logit: Formulación, estimación y validación..17
2.1.2.1. Formulación de los modelos probit y logit.................................17
2.1.2.2. Estimación de los modelos probit y logit...................................22
2.1.2.3. Validación de los modelos probit y logit....................................27
Ejercicio empírico............................................................................................................39
Referencias bibliográficas...............................................................................................66
3
PRESENTACIÓN DE LA LECCIÓN
La lección que voy a presentar corresponde al tema titulado modelos de variable
dependiente limitada, perteneciente a la asignatura de Econometría III. Como ya
comenté en el proyecto docente, esta asignatura se imparte en el primer cuatrimestre de
4º curso de la Licenciatura de Economía y dispone de una asignación de 6 créditos (4
horas semanales).
El tema que nos ocupa es el primero de un bloque temático titulado otros
modelos de interés y, en él se presenta, tras una introducción al tema, los modelos de
elección discreta, distinguiendo entre modelos de elección binaria y múltiple. Los dos
últimos puntos del tema se refieren a los modelos de variable dependiente truncada y
censurada, respectivamente.
No obstante, en esta lección, abordaré simplemente, el primer punto referente a
la introducción así como los modelos de elección discreta de tipo binario, siguiendo el
desarrollo presentado en el proyecto docente que es el que se detalla a continuación:
TEMA 4. Modelos de variable dependiente limitada
1. Introducción
2. Los modelos de elección discreta
2.1. Modelos de elección binaria
2.1.1. El modelo de probabilidad lineal: Formulación, estimación y
problemas.
2.1.2. Los modelos probit y logit: Formulación, estimación y validación
2.1.2.1. Formulación de los modelos probit y logit
2.1.2.2. Estimación de los modelos probit y logit
2.1.2.3. Validación de los modelos probit y logit
4
Planificación de la lección
Teniendo en cuenta que la asignatura de Econometría III debe impartirse en
aproximadamente 15 semanas y, que comprende 5 temas, se podría dedicar
aproximadamente tres semanas (12 horas) al tema en el cual se ubica esta lección. Por
su parte, el fragmento del tema que voy a explicar en esta sesión se impartiría en
aproximadamente 6 horas de clase.
En primer lugar, presentaré los conocimientos teóricos del mismo y, a
continuación, mostraré un ejercicio empírico para ilustrar la vertiente más práctica de la
materia. Este ejercicio se resolverá con la ayuda del ordenador y utilizando el programa
TSP, que el alumno ha venido utilizando en cursos anteriores.
Bibliografía recomendada
Bibliografía básica: Johnston J. y Dinardo, J. (1997), cap. 13; Martín, G. et al. (1997), cap. 5;
Pindyck, R. S. y Rubinfeld, D. L. (1998), cap. 11; Gujarati, D. N. (1997), cap. 16; Greene, W.
H. (1999), cap. 19; Novales, A. (1993), cap. 16; Baltagi, B. H. (1998), cap. 13; Verbeek, M.
(2000), cap. 7; Davidson, R. y MacKinnon, J. G. (1993), cap. 15.
Bibliografía complementaria: Franses, P.H. y Paap, R. (2001), cap. 4; Aparicio, M. T. y
Villanúa, I. (1999); Dhrymes, P. J. (1984), cap. 7; Goldberger, A. S. (1998), cap. 17; Fomby, T.
B. et al. (1984), cap. 16; Judge, G. R. et al. (1988), cap. 18;
Conocimientos previos necesarios
Dado que este tema se imparte en la última asignatura de la licenciatura de
Economía, los alumnos ya presentan una sólida formación que les permitirá comprender
el tema aquí propuesto sin problemas. Concretamente, los conceptos previos necesarios
para seguir de forma correcta el tema de variables dependientes limitadas son los
siguientes:
5
Variables cualitativas (ficticias o variables dummy)
Modelo de regresión lineal y su estimación
Método de estimación por Mínimos Cuadradros Generalizados (MCG) y estimación
por Máxima Verosimilitud (MV)
Contrastes de validación del modelo y contrastes de hipótesis
Nociones básicas sobre el concepto de probabilidad, función de distribución y
función de densidad
De este modo, este tema tiene el atractivo añadido de requerir y mostrar la utilidad
de algunos de los conceptos ya estudiados en unas circunstancias distintas a aquellas en
las que se habían planteado, ofreciendo una perspectiva global de los pasos a seguir en
el análisis. Además, de ello, por supuesto, este tema presenta un importante valor
añadido, dado que con él se ofrece el tratamiento de ciertos modelos peculiares y,
además muy comunes en economía, caracterizados por presentar una variable
dependiente de diferente naturaleza a la de los modelos utilizados hasta este momento
en las distintas asignaturas de econometría.
6
MODELOS DE VARIABLE DEPENDIENTE LIMITADA
1. INTRODUCCIÓN
Hasta este momento hemos estudiado los modelos de regresión, en los que
hemos supuesto que existe una relación lineal de causalidad entre una variable que
llamamos dependiente y un conjunto de variables que explican su comportamiento, a
partir de información relativa a consumo, renta, etc. de una muestra de individuos (corte
transversal) o de la evolución agregada (serie temporal). En cualquier caso, siempre se
ha considerado que el valor de las observaciones de la variable dependiente representa
una cantidad (de euros, de toneladas, etc. ) y varía en un rango suficientemente amplio
como para considerar que tiene un comportamiento similar a una variable aleatoria con
distribución normal.
Sin embargo, en economía se plantean numerosos problemas y cuestiones de
interés en los que tal supuesto no se cumple. En estos casos, se dice genéricamente que
nos encontramos en el caso de variables dependientes limitadas. Sin embargo, entre
ellas, puede diferenciarse claramente tres tipos de variables: variable dependiente
cualitativa, truncada y censurada. Al análisis de las mismas nos ocuparemos a lo largo
del presente tema.
En Econometría I se consideró el tratamiento de las variables cualitativas o
variables ficticias con objeto de incorporar en un Modelo Lineal General (MLG)
variables explicativas cualitativas tales como el sexo del individuo, lugar de residencia,
etc. En el presente tema consideramos la explicación de dichas variables; es decir, ahora
constituyen la variable a explicar. El planteamiento más habitual se refiere al análisis de
problemas de elección de los distintos agentes económicos entre un conjunto limitado
de alternativas mutuamente excluyentes.
Indudablemente, al hablar de elección, debemos distinguir entre si se elige entre
dos o más alternativas. Aunque el número de ejemplos posibles es elevadísimo,
podemos citar, entre los primeros, el análisis de decisión entre comprar el artículo A o el
B, tener en propiedad o en alquiler la vivienda habitual, participar o no en la población
activa, ir a un colegio público o a una privado, devolver o no un préstamo, etc.
7
Al hablar de elección entre varias alternativas, es necesario distinguir los casos
en los que las alternativas estén reflejando un rango de ordenación natural y los que no.
Hablaremos de alternativas ordenadas cuando, por ejemplo, nos refiramos a las
alternativas ofrecidas a ciertos agentes encuestados en relación a su grado de
conformidad con cierta afirmación: muy en desacuerdo, en desacuerdo, indiferente, de
acuerdo, muy de acuerdo. Por el contrario, un ejemplo de alternativas no ordenadas
vendría dado por la selección del medio de transporte que elige un individuo para
desplazarse hasta su lugar de trabajo: utilizar coche, ferrocarril, autobús u otro medio de
transporte.
En cualquier caso, se tratará de formular modelos econométricos que permitan
explicar la elección de los agentes económicos utilizando como variables explicativas
tanto variables que identifican las características propias del decisor como variables que
caracterizan el conjunto de elección. A partir de una muestra de datos se estimaría un
modelo que nos permitiría efectuar inferencias estadísticas acerca del comportamiento
medio de la población. Los modelos de elección así planteados reciben el nombre
genérico de Modelos de Variable Dependiente Cualitativa o Modelos de Elección
Discreta (MED). Si se representa la elección entre dos alternativas se habla de modelos
MED dicotómicos (o binarios), o modelos de elección binaria. Por el contrario, si se
representa la elección entre más de dos alternativas se habla de MED múltiples o
generales, los cuales se clasifican entre ordenados, cuando entre las alternativas existe
un orden natural, y o no ordenados, en caso contrario.
Al igual que en el caso de los modelos de variable dependiente continua, los
resultados obtenidos de este proceso de estimación serán de utilidad para el análisis
estructural, la simulación o la predicción. Por ejemplo, con relación a los casos
formulados, es de esperar que si una empresa conoce cómo afecta a la decisión de
compra de su producto factores tales como el precio o la publicidad, será capaz de
decidir más eficazmente qué estrategia seguir en relación a los mismos con objeto de
incrementar su cuota de mercado; en relación a la elección entre devolver o no el
préstamo, si el director de una sucursal bancaria dispone de un MED estimado, podrá
decidir con más garantías de éxito la concesión de un determinado préstamo a un nuevo
cliente. Finalmente, en el resto de ejemplos formulados, el gobierno puede ser uno los
8
beneficiarios de la información, ya que podrá conocer a qué tipo de población debe
incentivar si quiere facilitar la adquisición de una vivienda, la participación en el
mercado laboral, o la utilización del transporte público para ir al trabajo.
Finalmente, las variables dependientes truncadas y censuradas siguen variando
en un rango suficientemente amplio como para considerar que siguen distribuciones
normales, pero presentan algún tipo de limitación. Una muestra ha sido truncada si ha
sido extraída de un subconjunto de una población mayor. De esta forma, un ejemplo
común de variable dependiente truncada sería un análisis del nivel de ingresos sobre la
base de datos de ingresos por encima o por debajo de un determinado umbral. En este
tipo de casos, la solución consiste en definir la función máximo verosímil asociada al
problema en cuestión.
Por otra parte, una muestra ha sido censurada si, aunque no se ha excluido
sistemáticamente ningún tipo de observación, se ha suprimido parte de la información
de la muestra (por desconocimiento o no). Continuando con el ejemplo anterior, se
obtendría una muestra censurada si, en lugar de no observar los ingresos por encima o
por debajo del umbral, éstos aparecen en la muestra como si fueran iguales al umbral.
La solución a este planteamiento se analizará a partir del modelo tobit.
2. MODELOS DE ELECCIÓN DISCRETA
En este apartado comenzaremos exponiendo la especificación y estimación de
tres modelos de elección binaria: el modelo lineal de probabilidad, el modelo probit y el
modelo logit. Posteriormente expondremos una breve introducción a los modelos de
elección múltiple.
2.1. Modelos de elección binaria
Tal y como hemos indicado, en este epígrafe se tratará de explicar una variable
cualitativa que, normalmente, reflejará un proceso de decisión entre dos alternativas, a
partir de ciertos determinantes de decisión. Dichos determinantes serán las variables
explicativas del modelo y reflejarán tanto características propias del problema de
9
elección como del propio individuo. Por ejemplo, nos centraremos en el análisis de los
factores determinantes en la elección entre dos productos A y B. Para ello,
dispondremos de una muestra de individuos, parte de los cuales habrán elegido el
producto A y, el resto el producto B (alternativas mutuamente excluyentes). Como
variables explicativas del problema puede incluirse algún tipo de variable que permita
comparar los precios de los dos productos, cierto tipo de variables que reflejen el nivel o
gasto en marketing invertido en cada uno de los productos, así como determinadas
características sociodemográficas de los individuos (renta, edad, educación, etc.).
Al igual que cuando se trataba la consideración de aspectos cualitativos como
variables explicativas de un modelo, se debe comenzar cuantificando la variable
cualitativa objeto de análisis, variable dependiente, iy . Al igual que entonces, se utiliza
la notación 0/1, adoptando, por ejemplo, el siguiente criterio:
=B artículo elcomprar a,alternativ segunda la elige individuo el si0
A artículo elcomprar ejemplo,por a,alternativ primera la elige individuo el si1ii
yi
Si, para plantear gráficamente el problema, nos planteamos inicialmente
considerar únicamente la variable definida como el ratio entre los precios de ambos
productos, BdeprecioAdeprecio , se obtiene la nube de puntos representada en el Gráfico 1. En él
se observa como, aunque mayoritariamente, se compra el producto A, éste siempre es el
adquirido cuando el ratio entre precios es menor que la unidad, es decir, cuando el
producto B es más caro. En caso, contrario, (ratio entre precios mayor a la unidad),
aparece un importante grupo de consumidores que pasa a adquirir el producto B.
Gráfico 1. Nube de puntos asociada al problema de decisión
0
0.2
0.4
0.6
0.8
1
1.2
0.00 0.50 1.00 1.50 2.00
Ratio de precios (Precio de A / Precio de B)
yi: C
ompr
a el
pro
duct
o A
10
Veamos cómo formulamos y estimamos el/los modelo/s que nos permitan analizar este
problema de elección.
2.1.1. El Modelo de Probabilidad Lineal: Formulación, estimación y problemas
El Modelo de Probabilidad Lineal (MPL) es el modelo más sencillo para
abordar el problema objeto de estudio. Se plantea al suponer que la variable dependiente
iy se relaciona linealmente con las variables explicativas del modelo. Es decir, en el
caso más sencillo planteado anteriormente con una única variable explicativa, el MPL
se especificaría en los siguientes términos:
iii uxy ++= 21 ββ Ni ,...,2,1= (1)
donde la iy es la variable dicotómica que toma el valor 1 o 0 según se compre el
producto A o el B; i
ix
=
BdePrecioAdePrecio ; 1β y 2β son los parámetros del modelo; y,
donde iu es una variable aleatoria distribuida independientemente con esperanza
matemática cero, que conforma la parte aleatoria del modelo (conjunto de factores que
se suponen individualmente irrelevantes). Además, supondremos, el caso más general
relativo a una muestra de corte transversal referida a un total de N individuos
pertenecientes a la misma población.
La estimación del modelo (1) se representa en el Gráfico 2. Lógicamente, la
pendiente negativa de la recta de regresión recoge el hecho observado de que si aumenta
el ratio de precios disminuye la compra del producto A.
Gráfico 2. Ajuste lineal del modelo de probabilidad lineal
0
0.5
1
1.5
0.00 0.50 1.00 1.50 2.00
Ratio de precios (Precio de A / Precio de B)
yi: C
ompr
a el
pro
duct
o A
iy^
11
La generalización del modelo lineal simple al caso general se representaría
lógicamente a partir de la siguiente expresión:
iiikikii u'βxuxβ...xββy +=++++= 221 Ni ,...,2,1= (2)
donde ),...,,( 21'
kiiii xxxx = representa el vector fila compuesto por un término
independiente ( 11 =ix ), y 1−k variables explicativas ix2 , ix3 ,.. kix para el individuo i
que se suponen fijas en el muestreo (deterministas); kβββ ,..., 21 , son los parámetros
desconocidos; y, donde iu es el término de perturbación, de nuevo, variable aleatoria
distribuida independientemente con esperanza matemática cero.
En notación matricial, (2) vendría dado por: uXY += β , siendo Y el vector de
observaciones de la variable dependiente ( N x1); X , la matriz de variables explicativas
( N x k ); β , el vector de parámetros desconocidos ( k x1): y, u , el vector de
perturbaciones ( N x1).
La denominación del modelo así formulado como MPL se debe a que la
esperanza condicionada de la variable dependiente, o parte sistemática del modelo
β'ix , representa la probabilidad de que un determinado individuo elija la alternativa
denotada por la unidad (en nuestro caso, comprar el producto A), dado su vector de
características ix . En efecto, si en la expresión (2) calculamos el valor esperado de cada
observación de la variable dependiente iy , dado el vector de características ix :
β'iii xxyE = (3)
y, por otro lado, teniendo en cuenta que iy es una variable discreta, su valor esperado,
dado el vector de características ix , es la suma de los dos valores que toma esta variable
multiplicados por la probabilidad de que tome cada uno de los mismos, es decir:
iiiiiiiii PxyPxyPxyPxyE ====⋅+=⋅= 10011 (4)
Igualando ambas expresiones se obtiene:
12
ββββ '...221 ikikii xxxP =+++= (5)
Por lo tanto, el MPL describe la probabilidad de que un individuo i elija la
alternativa denotada por la unidad en función del valor de los determinantes del
problema de elección (variables explicativas). En consecuencia, una estimación de
dicha probabilidad, ^
iP , se obtendría a partir de la estimación de los parámetros del
modelo por Mínimos Cuadrados Ordinarios (MCO):^^
'βii xP = (6)
lo cual nos lleva a una precisión esencial en este tipo de modelos consistente en que las
estimaciones de la variable dependiente ^
iy se pueden interpretar como las estimaciones
de la probabilidad de que 1=iy y no como la estimación de un valor concreto de iy .
Asimismo, para interpretar el vector de parámetros se distinguirá el caso de
variables continuas y discretas (variables ficticias):
• Si la variable hx es continua, hhi
i
xP
β=∂∂ (7)
• Si la variable hx es discreta, hhiihii xPxP β==−= 01
En el caso de variables continuas, el parámetro indica la variación en la
probabilidad de que el individuo elija la alternativa denotada por la unidad ante
variaciones unitarias en la respectiva variable explicativa. En el caso de las variables
discretas, el parámetro respectivo mide el cambio en la misma probabilidad como
consecuencia del paso del valor 0 a 1 en dicha variable.
Pese a la sencillez en la especificación del MPL, éste presenta una serie de
problemas que es necesario considerar:
1. La perturbación aleatoria del MPL iu no es una variable aleatoria normal. En
efecto, dados los dos únicos valores que toma la variable dependiente iy , el término de
13
perturbación toma dos únicos valores con probabilidades idénticas a las de los valores
de iy :
Valor de iy Prob iy Valor de ii yu Prob ii yu
1 iP β'1 ix− iP
0 1- iP β'ix− 1- iP
En consecuencia, la distribución de probabilidad presenta dos puntos de
acumulación de frecuencias, por lo que no es una distribución continua y, por tanto, no
se distribuirá según una normal. Como ya se estudió en Econometría I, este hecho no
afecta a la estimación de los parámetros del modelo por Mínimos Cuadrados Ordinarios
(MCO) pero sí invalida la etapa de inferencia del modelo. No obstante, este último
punto tampoco representa un importante problema dado que si se dispone de un tamaño
muestral suficientemente grande, los estimadores MCO tenderán a la distribución
normal1 y, en consecuencia, la inferencia se realizará mediante los estadísticos ya
conocidos.
2. El MPL sufre un problema de heteroscedasticidad. En efecto, puede
comprobarse como:
( ) ( ) ( )( ) ( ) ( )( )( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )iiiiii
iiiiiiii
iiiiiiii
iiii
PPPPPP
PPPPPxPx
yuyuyuyu
uEuEuEuVar
−=+−−=
=−−+−=−−+−=
===+===
==−=
111
111''1
0prob0valor1prob1valor2222
22
22
ββ (8)
y, por tanto, la varianza del término de perturbación del modelo es una función de las
probabilidades, las cuales son función de cada una de las observaciones de las variables
ix . En consecuencia, la varianza de iu no es constante a lo largo de la muestra2 y, por lo
tanto, el MPL es heteroscedástico. Concretamente, a partir de la expresión anterior y,
1 La prueba está basada en el Teorema Central del Límite y puede encontrarse en Malinvaud (1966).
2 Puede deducirse como para las observaciones con probabilidad de que se elija la primera alternativa(denotada por la unidad) cercana a 0 o a 1 la varianza será relativamente baja, mientras que para aquellas
cuya probabilidad está más cerca de 21 la varianza será mayor.
14
teniendo en cuenta la hipótesis de independencia de las perturbaciones, se obtiene la
siguiente matriz de varianzas y covarianzas del vector de perturbaciones del modelo:
Ω=
−
−−
=
)1(...00.........0...)1(00...0)1(
22
11
NN PP
PPPP
uVar (9)
Ante este problema, como ya se comentó en Econometría I, los estimadores
Mínimos Cuadrados Ordinarios (MCO), aunque insesgados y consistentes, serán
ineficientes. Como solución al problema se ofrecerá la estimación por Mínimos
Cuadrados Generalizados (MCG).
Ahora bien, la estimación por MCG no es aplicable, en general en este caso,
debido al desconocimiento de la matriz Ω . En consecuencia, es necesario, en primer
lugar, proceder a su estimación, a partir de la cual se derivarán los correspondientes
estimadores Mínimo Cuadrados Generalizados Factibles (MCGF). El procedimiento de
estimación, por tanto, se descompone en dos etapas:
1) En primer lugar, a partir de los estimadores ^β obtenidos de la estimación
MCO del modelo (2), se estiman los elementos desconocidos de Ω ,
mediante la expresión:
−=
−=
^^^^^'1'1 ββ iiiii xxPPuVar (10)
No obstante, aquí surge un problema, dado que en la estimación MCO
aplicada al MPL (ver gráfico 2) nada permite asegurar que la estimación de la
probabilidad, ^
iP , quede circunscrita al intervalo [0,1]. En el caso de que caiga
fuera de dicho intervalo, la matriz ^Ω tiene elementos negativos sobre su
diagonal. La solución consiste en llevar a cabo la modificación de dicha matriz,
bien mediante la eliminación de las observaciones para las que ocurre el
15
problema o bien estableciendo el valor de las probabilidades estimadas negativas
y superiores a la unidad en, por ejemplo, 0.01 ó 0.99, respectivamente.
2) En la segunda etapa, tras haber obtenido la estimación de la matriz de
varianzas y covarianzas (^Ω ), la estimación de los parámetros de posición del
modelo vendría dada por la expresión:
Ω
Ω= −
−
− YXXXGF1
^1
1^^
''β (11)
O, lo que es lo mismo, se podría efectuar una regresión MCO sobre las variables
resultantes al dividir las variables originales correspondientes a cada individuo
i -ésimo entre su respectiva desviación típica estimada
−
^^1 ii PP :
−
+
−
++
−
+
−
=
−
^^^^^^
22^^1^^
1
1
1...
11
1
1 ii
i
ii
kik
ii
i
iiii
i
PPu
PP
x
PP
x
PPPP
yβββ
3. Un problema mucho más grave, se debe al hecho de que se continúa sin poder
garantizar que las probabilidades estimadas mediante los estimadores MCGF
calculados, ^
^^
' GFii xP β= no puedan ser negativas o superiores a la unidad.
Ante este importante problema, se han planteado en la literatura diversas
soluciones. Una de ellas ha consistido en llevar a cabo la estimación restringiendo la
parte sistemática del modelo al intervalo [0,1]. Sin embargo, un importante problema
inherente a esta alternativa es que no puede garantizarse que tal acotación se mantenga a
la hora de predecir, dado cualquier vector futuro de características. La solución
normalmente adoptada, en este caso, ha consistido en establecer otro conjunto de
restricciones adicionales sobre la información postmuestral y, sobre todo, sobre los
valores extremos de ix . Sin embargo, esta solución también ha acarreado problemas en
cuanto que no resulta clara la asociación de valores extremos de la predicción de la
16
parte sistemática con los valores extremos de ix , ya que tales predicciones también
dependen de los propios parámetros de la relación. En consecuencia, puede decirse que
esta alternativa no ha sido aplicada con carácter general.
Otra solución adoptada ha consistido en fijar las probabilidades en 0 o 1 para
aquellos casos en que β'ix excedía el límite inferior o superior, respectivamente. Esta
solución ha dado lugar a hablar del modelo de probabilidad lineal restringido. Sin
embargo, esta solución plantea problemas debido a que podríamos predecir una
ocurrencia con una probabilidad de 1 cuando es posible que pueda no ocurrir, o con una
probabilidad de 0 cuando en verdad podría ocurrir.
4. Finalmente, un último importante problema asociado a este modelo viene
dado por la propia linealidad del MPL. Como hemos comprobado a partir de la
interpretación de los parámetros, el efecto marginal de una determinada variable sobre
la probabilidad es constante a lo largo de la muestra y, por tanto, independiente de la
situación inicial del individuo. Esto implica que, suponiendo que en nuestro ejemplo se
mide la renta en miles de euros, ante una variación unitaria (1000 euros) en el nivel de
renta la probabilidad de comprar el producto A variará en una misma cantidad hβ ,
independientemente de estar hablando de niveles iniciales de renta de 6000, 12000,
24000 o 48000 euros. Esta implicación no parece realista, ya que lo que se esperaría es
que a ambos extremos de la distribución de renta, la probabilidad de comprar el
producto no se viera afectada por un pequeño incremento en la renta. Con respecto a los
precios o a cualquier otra variable el razonamiento es análogo.
Ante los problemas mencionados, aparece en la literatura otro tipo de modelos
alternativos, que garantizan que las probabilidades estimadas se encuentren entre los
límites lógicos 0 y 1, a la vez que definen a las mismas como funciones no lineales de
las variables explicativas. A ellos nos referiremos a continuación.
17
2.1.2. Los modelos probit y logit: Formulación, estimación y validación
2.1.2.1. Formulación de los modelos probit y logit
Una forma de solucionar el problema asociado a la linealidad del MPL y, a su vez,
garantizar que la probabilidad estimada pertenezca al intervalo [0,1] es mediante la
utilización de las funciones de distribución de las variables aleatorias, (.)F . Aunque
cualquier función de distribución sería adecuada, las más utilizadas son la distribución
normal estándar y la logística, cuyas expresiones generales son las siguientes:
a) Función de distribución normal estándar:
( ) dteztiz
i2
2
21 −
∞−∫=Φ
π(12)
donde t es una variable aleatoria normal tipificada, )1,0(N .
b) Función de distribución logística:
( )iziz
iz
i eeez −+
=+
=Λ1
11
(13)
Estas dos funciones son muy similares. Ambas son continuas, toman valores
acotados entre 0 y 1 y son monótonas crecientes respecto a iz (Gráfico 3). Recordar
además, que dichas funciones de distribución son las integrales (y por tanto, se obtienen
a partir del área existente bajo la función desde ∞− hasta un determinado punto) de sus
respectivas funciones de densidad, representadas en el Gráfico 4. Como se observa en el
mismo, ambas se representan como campanas de gauss, simétricas en torno a cero. En
consecuencia, tales funciones de densidad son la derivada de las respectivas funciones
de distribución.
Gráfico 3. Funciones de distribución normal estándar y logística
0
0.5
1
Normal Logíst icaiz0
18
Gráfico 4. Funciones de densidad normal estándar y logística
No obstante, la siguiente pregunta que debemos formularnos es ¿tiene
realmente sentido utilizar una función de distribución para especificar el modelo?
A este respecto, podemos interpretar la especificación de estos modelos a partir del
establecimiento del comportamiento subyacente del agente decisor. Concretamente, se
asume que cuando un agente económico debe elegir entre dos alternativas, establece la
utilidad que le reporta cada una de ellas, dadas una serie de características relevantes
recogidas en ix , y elige aquella alternativa que le reporta una utilidad mayor.
En base a ello, bajo este planteamiento, se define una variable *iy que representa
la diferencia entre las utilidades proporcionadas por la primera y la segunda alternativa,1iU y 0
iU , respectivamente (en nuestro ejemplo, la utilidad que le reporta al individuo
comprar el artículo A menos la utilidad que le reporta comprar el artículo B). Al igual
que las utilidades, la nueva variable *iy no será observable y, por este motivo y dada su
definición, recibe el nombre de variable latente o índice subjetivo de utilidad:
( ) ( ) ( )iiiiii xyxUxU *01 =− (14)
De esta forma, se supone que un individuo i elegirá la primera opción cuando la
diferencia de utilidad supera un determinado umbral o punto crítico, que se establece en
cero sin pérdida de generalidad3. En consecuencia, teniendo en cuenta que iy es la
observación de la elección efectuada por el agente i -ésimo, resulta que:
3 Dado que la variable *
iy no se puede medir y, por tanto, el modelo de regresión especificado no sepodría estimar, el valor 0 es arbitrario.
0.00
0.20
0.40Normal Logística
iz0∞− ∞
19
≤⇒≤
>⇒>=
0si0
0si1*01
*01
iii
iiii yUU
yUUy (15)
Asumiendo una relación lineal entre las variables, la especificación de *iy viene
dada por la siguiente expresión:
iiikikii xxxy εβεβββ +=++++= '221
* ... o matricialmente εβ += XY * (16)
donde el término de perturbación iε recoge la posibilidad de que dos individuos en las
mismas circunstancias escojan alternativas distintas por elementos no controlables como
los gustos, etc.
A partir de las expresiones anteriores, iP puede expresarse formalmente a través
de la siguiente expresión:
)(11
001'''
'*
ββεβε
εβ
iiiii
iiiiii
xFxPxP
xPyPxyPP
−−=−≤−=−>=
=>+=>===(17)
De forma que la relación entre la probabilidad de que el individuo i elija la
alternativa denotada por la unidad (el producto A) y las variables explicativas de la
elección se establece a partir de la función de distribución de probabilidad del término
de perturbación, ( )..F Si ésta se determina a partir de una función de densidad simétrica
alrededor de cero se cumple ( ) ( )ββ '' 1 ii xFxF −=− y, por tanto, se obtiene:
)(1 'βiiii xFxyPP === (18)
En consecuencia, se considera a la probabilidad iP como la ordenada de una
función de distribución (.)F y, por lo tanto, estará acotada entre 0 y 1. Si se identifica a
dicha función (.)F con la distribución acumulada de una normal estándar (es decir, la
distribución de iε es una normal estándar), se obtiene el modelo probit o, menos
frecuentemente, modelo normit:
( ) dtexxyPPtx
iiii
i
2'2'
211
−
∞−∫=Φ===β
πβ (19)
20
Si (.)F es ahora la distribución acumulada logística (la distribución de iε es una
logística) se obtiene el modelo logit:
( )ββ
β
β ''
'
11
11 '
ii
i
xx
x
iiiiee
exxyPP−+
=+
=Λ=== (20)
Ambas especificaciones resultantes proporcionan valores de la probabilidad
comprendidos entre los valores extremos 0 (cuando −∞→β'ix ) y 1 (cuando +∞→β'ix )
y, a su vez, representan especificaciones no lineales con respecto a la probabilidad iP .
Sobre la base de los modelos especificados en (19) y (20), resulta directo
concretar tres resultados generales que posibilita el presente marco de trabajo:
a) Estimar/predecir la probabilidad de que el individuo i-ésimo elija una
alternativa determinada. Para ello, simplemente es necesario sustituir en (18) el vector
de parámetros β por su correspondiente vector de estimadores:
)(1^
'^
βiiii xFxyPP ===
b) Obtener una aproximación al valor medio del índice subjetivo de utilidad.
Una vez estimados los parámetros, la inversa de la función de distribución (.)F ,
(.)1−F , permite que dada una ordenada )(^
' βixF , se pueda hallar la abscisa
correspondiente ^
' βix , obteniendo, por tanto, una estimación del valor medio de tal
índice subjetivo. Operando así, se obtiene:
• En el caso del modelo probit:^
'^
'1 ββ ii xx =
Φ− (21)
• Y, para el modelo logit:^
'^
^
1ln βi
i
i xP
P=
− (22)
c) Estimar el efecto de un cambio unitario en cada una de las variables
explicativas sobre la probabilidad de que se elija la alternativa denotada por la unidad.
21
Distinguiremos entre los efectos de las variables explicativas continuas y discretas
(ficticias).
c1) En el caso de que la variable hx sea continua, los efectos vienen dados por
las siguientes expresiones4:
• En el caso del modelo probit:
( ) ( ) hih
ix
hi
i
hi
i xexx
xP
ββφβπ
ββ
'2
2''
21
==∂Φ∂
=∂∂
− (23)
donde ( ).φ denota la función de densidad de la distribución normal estándar.
• En el caso del modelo logit:
( )( ) [ ] ( ) hihiih
x
x
hi
x
hi
i
hi
i xPPe
exe
xx
xP
i
ii
ββλβββ
β
ββ'
2
'
11
11
'
''
=−=+
=∂
+∂
=∂Λ∂
=∂∂
−
−−
(24)
donde ( ).λ denota la función de densidad de la distribución logística.
Por tanto, el efecto de un cambio en hix depende, no sólo de los coeficientes
estimados, sino también, de los valores adoptados por las variables explicativas
contenidas en ix . Por este motivo, para interpretar el modelo estimado, resulta útil
calcular los efectos marginales para varios valores de las variables explicativas, por
ejemplo, para los valores medios de los regresores5 o en otros puntos que puedan
4 En estos modelos, los coeficientes miden la relación lineal entre el índice subjetivo *
iy y lasvariables explicativas. En consecuencia, las expresiones (21) y (22) reflejan el efecto de uncambio unitario de la variable explicativa sobre la inversa de las respectivas funciones dedistribución.
5 A este respecto, hay dos posibilidades. Una de ellas consiste en evaluar las expresionesobtenidas tomando como valores de las variables explicativas las medias muestrales de losdatos. La otra, consiste en evaluar los efectos marginales en cada observación y calcular despuésla media muestral de los efectos marginales individuales. Con muestras grandes, se obtendránlos mismos resultados en los dos casos, pero no en el caso de tamaños muestrales pequeños o
22
resultar de interés. Además, estas expresiones permiten que, suponiendo todo lo demás
constante, la variación de la probabilidad ante la variación unitaria en hix sea diferente
en función del nivel inicial del regresor. Este hecho puede observarse a partir del
Gráfico 4, en el que se representaba las funciones de densidad de las distribuciones
normal estándar y logística, estableciendo β'ii xz = .
Por otro lado, como se aprecia en las expresiones anteriores, en ambos modelos,
el signo del efecto de un cambio en hix corresponde al signo de su coeficiente hβ (ya
que el otro término de las derivadas parciales es siempre positivo). Por lo tanto, en estos
modelos se puede interpretar la dirección del cambio en la probabilidad (pero no su
magnitud) como consecuencia de un cambio unitario en las variables explicativas a
partir del signo del correspondiente parámetro.
c2) Finalmente, en el caso de las variables ficticias del modelo, el interés radica
en analizar las diferencias en la probabilidad de que 1=iy bajo las dos situaciones que
caracteriza el regresor. Por ejemplo, ¿cuál sería la probabilidad de comprar el producto
si ha sido expuesto a publicidad o no?. También puede ser interesante calcular el
cómputo de las derivadas parciales a partir del efecto marginal del cambio en una
unidad de la/s variable/s continua/s para ambos valores de la variable ficticia (0/1).
2.1.2.2. Estimación de los modelos probit y logit
La estimación de los modelos probit y logit se realiza mediante el método de
máxima verosimilitud (MV). Es decir, se trata de obtener aquellos valores de los
parámetros que maximizan la función de verosimilitud de la muestra. Para establecer la
función de verosimilitud hay que tener en cuenta que la variable aleatoria iy sólo puede
adoptar dos valores, 1 y 0, con probabilidades respectivas iP y (1- iP ). En consecuencia,
la función de probabilidad de una respuesta iy cualquiera vendrá dada por:
moderados. Lo más habitual es utilizar el segundo procedimiento, es decir, calcular la media delos efectos marginales individuales.
23
( ) ( ) iiy
iy
ii PPyP −−=
11 (25)
Puesto que se supone que los datos de Y provienen de una muestra aleatoria
simple de tamaño N (lo que requiere que el conjunto de observaciones sean
estadísticamente independientes), la función de verosimilitud, que dependerá de los
parámetros poblacionales β , se obtendrá como producto de las N probabilidades
individuales. Por tanto,
( ) ( ) ( )∏∏=
−
=
−==N
i
yi
yi
N
ii
ii PPyPL1
1
1
1β (26)
No obstante, dado que es preferible trabajar con las funciones del logaritmo de la
función de verosimilitud y, teniendo en cuenta que, con carácter general, ( )β'ii xFP = , se
obtiene:
( ) ( ) ( ) ( )( )( ) ( )( )∑ ∑
∑∑
= =
==
−+=
=−−+==
1 0
''1
'
1
'
1lnln
1ln1lnln
i iy yii
N
iii
N
iii
xFxF
xFyxFyLl
ββ
βββ(27)
A partir de las expresiones generales (26) o (27), la especificación concreta de
( )β'ixF de acuerdo con la distribución normal estándar o logística, según expresiones
(12) y (13), respectivamente, permite establecer las respectivas funciones de
verosimilitud o su logaritmo para los modelos probit y logit.
De acuerdo con la definición de los estimadores MV, la condición necesaria de
máximo exige igualar a cero el vector gradiente, o en otros términos, igualar a cero el
vector de primeras derivadas obtenido derivando (27) con respecto a β :
( ) ( )( ) ( )( ) ( )
( )( ) ( )( ) ( ) 0
1
11ln
1
'''
'
1
'''
=
−
−=
=
−−
−=∂
∂=
∑
∑
=
=
N
iii
ii
ii
N
iii
i
i
i
i
xxfxFxF
xFy
xxfxFy
xFyLS
βββ
β
ββββ
ββ
(28)
donde ( ) ( ).. 'Ff = es la derivada de la función de distribución, es decir, la función de
densidad (φ , para la distribución normal estándar yλ , para la logística).
24
El sistema a resolver, dado por (28), está constituido por funciones no lineales de
los parámetros y, por tanto, el estimador deberá obtenerse mediante algún algoritmo de
optimización numérico. Los métodos más indicados son los englobados bajo la
denominación general de “métodos del gradiente de segundo orden”, los cuales se
caracterizan por la utilización de la matriz hessiana o matriz de segundas derivadas de la
función objetivo para especificar la dirección de búsqueda en cada iteración. En general,
se sigue la siguiente secuencia de iteraciones:
( )mmmm S ββββ ⋅+=+ búsquedadedirección1 (29)
donde ( )mS β es el vector gradiente evaluado en mβ . El proceso se repite hasta alcanzar
la convergencia.
Los diferentes algoritmos existentes se diferencian en la dirección de búsqueda
utilizada:
i) El método de Newton-Raphson se obtiene al utilizar como dirección de
búsqueda menos la inversa de la matriz matriz hessiana, ( )β1−− H .
ii) El método de Scoring utiliza como dirección de búsqueda la inversa de la
matriz de información, ( )β1−I .
iii) El tercer método, es el sugerido por Berndt, Hall, Hall y Hausman (1974),
BHHH y, utiliza como dirección de búsqueda el inverso del producto exterior del
gradiente (Outer Product Gradient, OPG), ( ) ( ) ( )[ ] 1'1 −− = βββ SSG .
El algoritmo utilizado por defecto por el paquete TSP es el primero, el de
Newton-Raphson. En cualquiera de los tres casos, a medida que el proceso converge
hacia el vector de estimadores MV la distancia mm ββ −+1 se hace más pequeña. El
proceso se detiene cuando esta distancia se aproxima lo suficiente a cero, lo que ocurrirá
cuando el gradiente de la función esté muy próximo a cero.
25
Derivando (28) respecto al vector de parámetros obtenemos las condiciones de
segundo orden (hessiano) del problema:
( )( )( ) ( )( )
( )
( )( ) ( )( )
( )∑
∑
=
=
∂∂
−
−+
+
−
−+−=
∂∂∂
=
N
iii
i
ii
ii
N
iiii
i
i
i
i
xxxfxFxF
xFy
xxxfxFy
xFylH
1
''
''
'
1
''22'2'
2
1
11
'ln
ββ
βββ
βββββ
β
(30)
Expresión que, para el modelo logit se simplifica a:
( ) ( ) ( )[ ] '
1
''2
1'
lnii
N
iii xxxxlH ∑
=
Λ−Λ−=∂∂
∂= ββ
βββ (31)
A partir de la expresión anterior resulta muy claro que, en el caso del modelo
logit, la matriz Hessiana es definida negativa para cualquier valor de β . En
consecuencia, la verosimilitud logarítmica es globalmente cóncava y el vector de
estimadores máximo verosímiles será único. Lo mismo sucede en el caso del probit,
aunque la demostración no es tan evidente6. Los estimadores MV resultantes serán
consistentes, asintóticamente eficientes y se distribuyen asintóticamente como variables
normales. Además, la matriz de varianzas y covarianzas asintótica de los estimadores
coincide con la inversa de la matriz de información, es decir, con la inversa de la
esperanza del hessiano.
A partir de la expresión (30) y, teniendo en cuenta que ( ) ( )β'iii xFPyE == , se
obtiene la siguiente expresión para la matriz de información:
( ) ( )( ) ( )( )∑
= −=
∂∂
∂−=
N
i ii
iii
xFxFxxxflEI
1''
'2'2
1'ln
βββ
βββ (32)
Y, por tanto, la matriz de varianzas y covarianzas asintótica de los estimadores
MV viene dada por la expresión:
( ) ( )( ) ( )( )
1
1''
'2'1
^
asint 1Var
−
=
−
−==
∑
N
i ii
iii
xFxFxxxfIββ
βββ (33)
6 Vease Amemiya (1985, pág. 273-274) o Drymes (1984, pág. 342-345).
26
Las probabilidades estimadas en los dos modelos, logit y probit, son muy
parecidas, dado que ambas funciones también lo son, sobre todo para los valores
centrales de β'ix . En consecuencia, excepto en aquellas situaciones en las cuales existan
bastantes observaciones en las colas, los modelos probit y logit resultantes deben
conducir a resultados muy similares.
Sin embargo, los parámetros estimados en ambos modelos no son directamente
comparables. Amemiya (1981) sugirió efectuar las siguientes transformaciones para
realizar comparaciones entre las pendientes de las distintas estimaciones:
Probit
^
Logit
^6.1 ββ ≅ (34)
No obstante, esta comparación será adecuada si el número de veces que la
variable dependiente toma valores 0 y 1 es similar. Sin embargo, si el número de ceros y
unos es diferente, el factor de proporcionalidad tenderá a ser mayor que 1.6.
Concretamente, considerando que la varianza de la distribución normal es uno y la de la
logística 3
2π , deberán multiplicarse las estimaciones obtenidas en el modelo probit por
3π para hacerlos comparables con los coeficientes logit:
Probit
^
Logit
^
3βπβ ≅ (35)
aproximaciones a las que se sumaría 0.5 para el término constante de los modelos7.
7 La comparación de los parámetros de ambos modelos, probit y logit, con el modelo de
probabilidad lineal (MPL) es: para las pendientes, Probit
^
MPL
^4.0 ββ ≅ y
Logit
^
MPL
^25.0 ββ ≅ ; para el término constante, como en el caso anterior, es necesario
sumar a dichas aproximaciones 0.5.
27
2.1.2.3. Validación de los modelos probit y logit
En este apartado, distinguiremos entre los estadísticos a emplear para diversos
contrastes de especificación y ciertas medidas de bondad del ajuste utilizadas en este
tipo de modelos.
A) Contrastes de especificación
Comenzaremos planteando el contraste de dos supuestos establecidos a priori en
el modelo: el supuesto relativo a la distribución de probabilidad del término de
perturbación del modelo latente y la constancia en la varianza de dicha perturbación
(homoscedasticidad). El incumplimiento de cualquiera de dichos supuestos provoca
problemas de inconsistencia de los estimadores y, por lo tanto, es muy importante
contrastar su mantenimiento8. Seguidamente, plantearemos la estrategia de contraste de
cualquier tipo de hipótesis sobre los parámetros del modelo.
Comenzamos presentando el contraste general denominado contraste de la
matriz de información (MI) de White (White, 1982). Mediante el mismo se contrasta
H0: modelo correctamente especificado, frente a la alternativa H1: errores de
especificación asociados a heteroscedasticidad y/o mala especificación del término de
error en la distribución de la perturbación del modelo latente. En consecuencia, si no
puede rechazarse la hipótesis nula, el modelo estará correctamente especificado desde
ambos puntos de vista; sin embargo, si se rechaza la hipótesis nula es necesario
establecer otro tipo de contrastes específicos que nos orienten sobre la naturaleza del
problema, heteroscedasticidad y/o error en la distribución del error. En este sentido, se
ofrecerán contrastes específicos de heteroscedasticidad ya que, por un lado, es el
supuesto más comúnmente incumplido y, por otro, se soluciona fácilmente en el marco
de trabajo que nos ocupa. De esta forma, si se rechaza la H0: modelo correctamente
especificado, el siguiente paso consistirá en contrastar la posible presencia de
8 Otros supuestos establecidos a priori han sido la nulidad de las covarianzas de la perturbacióndel modelo latente (no autocorrelación) así como el carácter determinista de las variables delmodelo. El incumplimiento de ambos supuestos también genera inconsistencia. Sin embargo, suincumplimiento no es frecuente y, por tanto, no son habitualmente contrastados en la literaturaempírica.
28
heteroscedasticidad. Lo habitual será detectarla y corregirla utilizando, en primer lugar,
especificaciones alternativas del modelo y, en último término, utilizando el patrón de
heteroscedasticidad obtenido. Sobre dicho modelo final en el que se ha corregido dicho
problema, se procederá a calcular, de nuevo, el contraste de la MI para asegurarnos de
que el modelo está correctamente especificado. En el caso hipotético que no lo fuera, la
solución vendría dada por plantear otro tipo de distribución del error diferente a la
normal o la logística9 o por adoptar otro tipo de soluciones de tipo semiparamétrico o no
paramétrico que superan el objetivo de este curso. Esta última solución también será la
adoptada en el caso de que no se rechace la hipótesis nula de homocedasticidad,
habiendo rechazado que el modelo estaba correctamente especificado.
A1) Test general de la Matriz de Información
Como ya se ha comentado con anterioridad, a través de este contraste se
pretende contrastar la H0: modelo correctamente especificado, frente a la alternativa H1:
errores de especificación asociados a heteroscedasticidad y/o mala especificación del
término de error en la distribución de la perturbación del modelo latente.
La base de este contraste reside en la igualdad fundamental relativa a la matriz
de información, que se mantiene cuando el modelo está correctamente especificado:
( )
∂∂
∂∂
=
∂∂
∂−=
'2
'lnln
'ln
βββββ llElEI (36)
A partir de dicho principio, el estadístico de contraste se calcula como la suma
explicada no centrada de una regresión auxiliar cuyo regresando es:
−
−
^'
^'
^'
1 ββ
β
ii
ii
xFxF
xFy(37)
y los regresores:
9 Dado que ambas distribuciones son muy similares, lo habitual, será adoptar otro tipo dedistribuciones, Poisson, Exponencial, Laplace..., etc.
29
−
^'
^'
'^
'
1 ββ
β
ii
ii
xFxF
xxf y
−
^'
^'
'^
'
^'
1 ββ
β
β
ii
i
i
i
xFxF
vxd
xfd
(38)
siendo iv un vector columna que recoge los elementos diferentes (no repetidos) de la
matriz simétrica ii xx ' .
Para calcular el segundo regresor indicado en (38) en el modelo probit, es
necesario conocer que
−=
=
^'
^'
^'
^'
^'
^'
βφββ
βφ
β
βii
i
i
i
i
xxxd
xd
xd
xfd (39)
Para el caso del modelo logit, el cálculo es directo siendo igual a:
Λ−
Λ−
Λ=
=
Λ−
Λ
=
=
^'
^'
^'
^'
^'
^'
^'
^'
^'
^'
211
1
βββ
β
ββ
β
βλ
β
β
iii
i
ii
i
i
i
i
xxx
xd
xxd
xd
xd
xd
xfd
(40)
En consecuencia, los regresores para la regresión auxiliar del modelo logit
pueden simplificarse sustancialmente y son iguales a:
iii xxx '^
'^
' 1
Λ−
Λ ββ y '
^'
^'
^' 211 iiii vxxx
Λ−
Λ−
Λ βββ (41)
El estadístico MI resultante se distribuye asintóticamente como una 2χ con
( )2
1+kk grados de libertad, siendo k el número de parámetros del modelo de elección
binaria considerado.
30
No obstante, como ya se ha indicado con anterioridad, si se rechaza la hipótesis
nula de este contraste es necesario formular contrastes más específicos que nos revelen
la causa concreta del problema. En este sentido, se formula a continuación, cómo
contrastar la hipótesis nula de homoscedasticidad frente a un patrón concreto de
heteroscedasticidad.
A2) Contrastes específicos de heteroscedasticidad
Con carácter general, el patrón supuesto de comportamiento de la varianza del
término de error de la ecuación latente, iε , podría formularse como una función ( ).h de
q variables exógenas recogidas en iz 10, que pueden aparecer o no como explicativas
del modelo binario. La formulación de la hipótesis nula de homocedasticidad vendría
dada por:
( ) 1:0 =iVarH ε y ( )3
:2
0πε =iVarH (42)
para los modelos probit y logit, respectivamente, frente a:
( ) ( )αε '1 : ii zhVarH = y ( ) ( )απε '
2
1 3: ii zhVarH =
respectivamente, imponiendo la condición ( ) 10 =h , de tal forma que cuando el vector de
parámetros sea cero, la varianza sea constante y nos situemos en la hipótesis nula.
De este modo, contrastar homocedasticidad es equivalente a verificar:
0:0 =αH frente a 0:1 ≠αH (43)
y, por tanto, el planteamiento se reduce a un contraste de restricciones
paramétricas, el cual puede resolverse a partir de cualquiera de los tests clásicos
10 Las variables determinantes de la varianza de iε se formulan teniendo en cuenta que en elmodelo se describe la probabilidad de iy = 1.
31
asociados al principio de máxima verosimilitud: Wald (W), Razón de Verosimilitud
(LR) o Multiplicadores de Lagrange (LM).
Ante el mencionado patrón de heteroscedasticiad, el modelo latente (16) debe
transformarse del siguiente modo:
( ) ( ) ( )αε
αβ
α ''
'
'
*
i
i
i
i
i
i
zhzhx
zhy
+= (44)
A partir del cual, el modelo binario vendría dado por la siguiente expresión:
( ) ( )( )θαβ
ii
ii xF
zhxFP =
=
'
'
(45)
donde ( )''' ,αβθ =
El logaritmo de la función máximo verosímil se generalizaría a:
( ) ( ) ( ) ( )∑∑==
−−+
=
N
i i
ii
N
i i
ii
zhxFy
zhxFyL
1'
'
1'
'
1ln1ln,lnαβ
αβαβ (46)
Como ya se ha mencionado, el contraste propuesto puede realizarse a partir de
cualquiera de los principios W, LR y LM. Como se recordará, entre ellos, el único
estadístico que no requiere la estimación del modelo no restringido es el LM. El
estadístico de W sólo requiere la estimación de dicho modelo no restringido
(heterocedástico), mientras que el LR requiere la estimación de ambos.
RECORDATORIO:
• Wald:
−
−=
−
rRRVarRrRW^
1
'
^^'^
θθθ (47)
donde
^^
θVar es el estimador de la matriz de covarianzas evaluada en los
estimadores ^θ obtenidos en la última iteración del proceso de estimación del
modelo sin restringir.
32
• Razón de verosimilitud:
−−= LLnlLR R ln2 (48)
donde RLln y Lln denotan los logaritmos de la función de verosimilitud
evaluadas en los estimadores restringidos y no restringidos, respectivamente.
• Multiplicadores de Lagrange:
=
^^
^^'
RRR SVarSLM θθθ (49)
donde
^
'RS θ es el vector gradiente del modelo no restringido, evaluado en los
estimadores restringidos y,
^^
RVar θ es el estimador de la matriz de covarianzas
asintótica del estimador máximo verosímil, evaluado en los estimadores
restringidos. Este tipo de contraste está basado, por lo tanto, en las condiciones de
primer orden del modelo más general especificado bajo la hipótesis alternativa,
determinándose si son violadas en caso de que las evaluásemos en las estimaciones
de los parámetros del modelo restringido.
Los tres estadísticos anteriores son asintóticamente equivalentes y se distribuyen como
una 2qχ , donde q es el número de restricciones.
En el caso que nos ocupa, si se consigue estimar el modelo no restringido
expresado en (45), lo más sencillo es emplear el estadístico LR. En caso contrario, es
necesario utilizar el estadístico LM, el cual, como en otras ocasiones, puede calcularse a
partir de la estimación de una regresión auxiliar. Concretamente, coincide con N veces
el 2R no centrado de la regresión auxiliar de la variable dependiente:
−
−
^^
^
1 RiRi
Rii
xFxF
xFy
θθ
θ(50)
sobre las siguientes variables explicativas:
33
−
^
^^
^
1Rhi
RiRi
Ri
x
xFxF
xfθ
θθ
θkhNi ,...,2,1;,...,2,1 == (51)
donde ( )θhix representa la derivada de ( )θix con respecto a cada parámetro.
El estadístico se distribuye asintóticamente como una 2χ con q grados de
libertad (la dimensión de iz ).
Respecto a la forma concreta que toma la función ( ).h , algunos autores, como
Davidson y Mackinnon (1984), Lechner (1991) y Greene (1999), la asimilan a una
función de tipo exponencial, en concreto, ( ) ( )αα '' 2exp ii zzh = . Por otra parte, otros
autores como Pagan y Pak (1993) y Maddala (1994) consideran un patrón de
heteroscedasticidad de la forma ( ) ( )2'' 1 αα ii zzh += .
A3) Contrastes individuales sobre los parámetros del modelo.
En este caso, se trata de contrastar la hipótesis nula bh =β:H0 frente a la
alternativa bh ≠β:H1 , siendo lo más habitual contrastar la igualdad a 0, es decir, la
significatividad individual de los parámetros del modelo.
El método más sencillo de contraste se basa en el tradicional contraste de la t si
bien empleando en su definición la desviación típica estimada a partir de la matriz de
varianzas y covarianzas asintótica (inversa de la matriz de información). A partir de la
distribución asintóticamente normal de los estimadores, se utiliza la distribución normal
estándar para establecer los valores críticos:
34
)1,0(Var
^^
asint
^
Nb
A
h
h →
−
β
β(52)
A4) Contrastes de hipótesis conjuntas sobre los parámetros de posición del
modelo
Para contrastar hipótesis conjuntas o restricciones lineales sobre los parámetros
de posición del modelo (genéricamente denotados mediante la expresión rR =β ), se
pueden utilizar cualquiera de los estadísticos clásicos W, LR y LM.
Uno de los contrastes más habituales que se suelen realizar es el contraste de
nulidad de todos los coeficientes asociados a las variables explicativas del modelo o
contraste de significatividad global del modelo, es decir, contrastar si todos los
parámetros del modelo, excepto el término independiente, son cero:
0...:H 320 ==== kβββ
cerosontodosno:H1
Este contraste suele realizarse a partir del estadístico LR y, por tanto,
comparando el valor de la función de verosimilitud del modelo sin restringir (modelo
completo) ( Lln ) y el valor de la función de verosimilitud que se obtiene en un modelo
restringido bajo 0H ( RLln ). El estadístico LR se calcula como:
21lnln2 −→
−−= kAR LLLR χ (53)
B) Medidas de bondad del ajuste
Una medida de la bondad del ajuste es un estadístico resumen que indica la
precisión con la cual el modelo se aproxima a los datos observados, al igual que el
coeficiente de determinación 2R en el modelo de regresión lineal. Sin embargo, en el
35
marco de trabajo que nos ocupa, los valores del convencional 2R serán muy pequeños,
dado que los valores predichos son probabilidades y los valores reales de la variable
endógena son 0 o 1. En consecuencia, en este tipo de modelos, la precisión suele
juzgarse a partir de ciertas medidas alternativas que tratan de evitar el problema
señalado que, en muchos casos, se denotan como pseudo- 2R .
B1) Una de las medidas más utilizadas es el denominado Pseudo- 2R de
McFadden (1974), definido a partir de la comparación del logaritmo de las funciones de
verosimilitud de dos modelos, uno de ellos el que se quiere evaluar: 1ln L , y el otro que
únicamente contiene un término independiente: 0ln L . Se define a partir de la siguiente
expresión:
0
12
lnln1Pseudo
LLRMF −= (54)
y es una medida ofrecida por el TSP bajo el título 2R de Kullback-Leibler.
Si todos los coeficientes estimados para las variables explicativas del modelo
fueran iguales a cero, se obtendría que 01 lnln LL = , y el valor del 2R sería igual a cero.
En el caso opuesto, si todas las probabilidades de la función log-verosímil fueran
iguales a uno, el valor de la misma sería exactamente igual a cero, 0ln 1 =L , y se
alcanzaría el límite superior de la unidad.
En consecuencia, la interpretación de esta medida es similar a la del coeficiente
de determinación. Si está cerca de uno diremos que el ajuste es bastante bueno y, si está
cerca de cero el ajuste será malo.
B2) Pseudo- 2R propuesto por McKelvey y Zavoina (1975) es ligeramente
diferente ya que trata de medir la variación del índice subjetivo subyacente ( iy* ) que el
modelo es capaz de explicar. Adopta la siguiente expresión:
36
∑
∑
=
=
+
−
−
=N
iii
N
iii
MZ
Nyy
yyR
1
22_
*^*
1
2_*
^*
2Pseudo
σ
(55)
donde ^
'^* βii xy = ;
_*iy es su valor medio; N es el tamaño muestral; y 12 =σ , en el
modelo probit y 3
22 πσ = , en el modelo logit.
Esta medida no es ofrecida directamente por el TSP, pero merece la pena
calcularla por cuanto, al igual que la anterior, es una medida fiable en el sentido de ser
menos dependiente del número de observaciones con 1=iy (Windmeijer, 1995, entre
otros).
B3) Una forma alternativa de evaluar la bondad del ajuste consiste en evaluar la
capacidad del modelo para predecir las respuestas observadas.
Se parte del establecimiento de la predicción del modelo a partir de la
probabilidad estimada del modelo:
Se predice 1=iy si CxFP ii >
=
^'
^β (56)
Se predice 0=iy si CxFP ii ≤
=
^'
^β
Donde C es un umbral que, habitualmente se ha establecido en 0.5 y, es la
opción por defecto en muchos paquetes estadísticos. No obstante, autores como Philip
Hans Franses y Richard Paap en su libro “Quantitative Models in Marketing Research”,
editado por Cambridge University Press en 2001, utilizan el umbral definido como la
proporción de observaciones con 1=iy , es decir, N
yC
N
ii∑
=
== 1
1.
37
A partir de ahí, se elaboran tablas de clasificación en las que se recoge el
resultado de la comparación entre las observaciones de la variable dependiente y la
predicción efectuada a partir de los resultados obtenidos en la estimación del modelo y
la regla de actuación anterior.
TABLA DE CLASIFICACIÓN DE LAS PREDICCIONES
Predicción del modelo
CPi >^
Predicción: 1=iy
CPi ≤^
Predicción: 0=iy
1=iyN
P aciertosdenº11 = N
P erroresdenº10 = .1P
Observaciones0=iy
NP erroresdenº
01 = NP aciertosdenº
00 = .0P
1.P 0.P 1
A partir de esta tabla de clasificación, una medida de bondad del ajuste
comúnmente empleada ha sido la proporción de aciertos, conocida como Pseudo- 2R de
predicción:
espredicciondetotalaciertosdetotalnºPseudo 0011
2 =+= PPRp (57)
La medida anterior es proporcionada directamente por el paquete TSP bajo el
título fracción de predicciones correctas (Fraction of Correct Predictions). Sin embargo,
este sencillo estadístico tiene una validez limitada por cuanto puede no tener suficiente
poder discriminante. Por ejemplo, cuando la proporción de unos (ceros) en la muestra es
muy elevada, una regla de predicción tan ingenua como predecir para todos los
individuos unos (ceros) puede llevar asociada un 2Pseudo pR mayor que el asociado a
partir de la regla de decisión (56).
38
Ante este problema, Veall y Zimmermann (1992) recomiendan, a partir de
experimentos de simulación, el uso de la siguiente medida sugerida por McFadden y
otros (1977):
20.
21.
20.
21.0011
1 1 PPPPPPF
−−−−+
= (58)
Aunque no existe un límite inferior para 1F , las predicciones perfectas se obtendrán
para 11 =F . En consecuencia, el modelo que tenga el mayor valor de 1F será el modelo
de mejor capacidad predictiva.
Finalmente, surge el interrogante de qué especificación utilizar: modelo logit o
probit. En la práctica las dos estimaciones dan resultados similares por lo que
generalmente se estiman los dos modelos eligiéndose aquella especificación que
implique el mejor modelo de acuerdo con los criterios basados en la función de
verosimilitud estimada: el logaritmo de la función de verosimilitud y el criterio de
información de SBIC, que el alumno ya conoce y, que se calcula a partir de la siguiente
expresión:
( )N
NkxFyxFyN
SBICN
iii
N
iii
ln2
1ln1ln11
^'
1
^' +
−−+
−= ∑∑
==
ββ (59)
39
EJERCICIO EMPÍRICO: MPL, PROBIT Y LOGIT BINOMIALES
Este ejemplo, tiene como objetivo analizar los aspectos prácticos de la
estimación, validación e interpretación de los modelos de probabilidad lineal (MPL),
probit y logit, formulados teóricamente con anterioridad. En el ejemplo se trata de
explicar la selección por parte del consumidor entre dos marcas de tomate ketchup,
Heinz y Hunts. Los datos proceden de una investigación de mercados llevada a cabo a
través de escáner óptico, están disponibles en internet en la página web
http://www.few.eur.nl/few/people/paap y, constituye el ejemplo empírico que proponen
los autores Philip Hans Franses y Richard Paap en el libro titulado “Quantitative Models
in Marketing Research” (2001). El paquete econométrico elegido para llevar a cabo el
análisis es el conocido Time Series Processor (TSP).
Los datos utilizados se refieren a la decisión de compra entre las dos alternativas
de elección por parte de un total de 2798 hogares de Springfield y Missouri. Además de
la decisión de compra, se dispone de información referente al precio de mercado de
ambos productos en el momento de la compra y a si en el momento de la misma se
ofrecía algún tipo de publicidad para dichos productos. Algunas características de los
datos utilizados se recogen en el Cuadro 1.
Cuadro 1. Características de la muestra utilizada para explicar la elección entre el
tomate Heinz y Hunts.
Variables Heinz Hunts
Porcentaje de elección 89.03 10.97
Precio Medio ($ por onza) 0.0348 0.0336
% de Publicidad 28.45 7.18
A partir de los datos observados, se observa como sólo un porcentaje minoritario
de hogares prefieren el tomate Hunts, (10.97%, frente a un 89.03% que seleccionan el
tomate Heinz). Con respecto a los valores de las variables explicativas consideradas, se
observa como, en media, el precio de ambos productos es prácticamente el mismo. No
obstante, es una apreciación exclusivamente del valor medio, pues de hecho, sí que
existen diferencias sustanciales de precio en ocasiones de compra específicas. Con
40
respecto a las variables de publicidad, el Cuadro 1 muestra como el tomate Heinz se
promociona con una mayor frecuencia que el tomate Hunts.
Analizaremos, a continuación, el procedimiento a seguir con objeto de investigar
si dichas variables poseen un importante poder explicativo sobre la decisión de elección
de un tipo de producto u otro, utilizando los modelos estudiados MPL, probit y logit. No
obstante, como es habitual en el trabajo empírico, se reserva una pequeña parte de las
observaciones para comprobar el comportamiento predictivo de los modelos para el
caso de observaciones postmuestrales. Concretamente, reservaremos las 300 últimas
observaciones para este fin y, por lo tanto, se estimará con las primeras 2498
observaciones.
Por otra parte, mencionar que, aunque el programa TSP contiene sus propios
comandos para poder estimar los tres tipos de modelos indicados, en la medida de lo
posible, ofreceré información sobre la programación de los mismos con objeto de, por
un lado, comprobar que efectivamente el programa realiza lo que yo deseo y, por otro,
con objeto de sentar las bases para la programación de otros modelos más complejos.
Cada uno de los modelos se ha especificado considerando como variable
dependiente la variable HEINZ, que toma el valor 1 si la familia elige dicha marca y, 0
en caso contrario. La información sobre precios se ha introducido como el logaritmo
neperiano del ratio entre los precios de ambos productos. Es decir, se ha creado la
variable
HuntsdeprecioHeinzdeprecioln que, lógicamente, es igual a la diferencia de los precios
en logaritmos neperianos. La información relativa a la publicidad se ha introducido
mediante variables ficticias. Concretamente, se introducen las variables PUHEINZ y
PUHUNTS que toman el valor unitario para aquellos hogares que han recibido
publicidad sobre el respectivo producto y, 0 en caso contrario.
A continuación, presentaré el programa de TSP que me permite realizar todo lo
que se ha explicado en este tema así como los resultados obtenidos, si bien lo dividiré
en diversos fragmentos para una exposición más clara.
41
Comenzaremos presentando los comandos necesarios para llevar a cabo la
lectura de los datos y la estimación del MPL (Fragmento 1º). El programa TSP
empleado para ello ha sido el siguiente:
Fragmento 1º?LECTURA DE LOS DATOS
FREQ N;SMPL 1 2798;READ (FILE= 'C:\PLAZA\TEMA\EJER2.DAT') OBS HEINZ HUNTS PRHEINZ PRHUNTSPUHEINZ PUHUNTS;
?CREACION DE LAS VARIABLES
GENR Y = HEINZ;GENR LPRR=LOG (PRHEINZ/PRHUNTS);
SMPL 1 2498;
?ESTIMACIÓN DEL MODELO DE PROBABILIDAD LINEAL
OLSQ Y C LPRR PUHEINZ PUHUNTS ;GENR PH=@FIT;
SMPL 1 2498;SMPLIF PH>=1;GENR PH=0.99;
?SMPL 1 2498;?SMPLIF PH<=0;?GENR PH=0.01;
SMPL 1 2498;GENR VARE =PH* (1-PH);GENR IVARE =1/VARE;
OLSQ (WEIGHT=IVARE, WTYPE=HET) Y C LPRR PUHEINZ PUHUNTS ;
? O equivalentemente
?YT=Y/SQRT(VARE);?CT = C/SQRT(VARE);?LPRRT=LPRR/SQRT(VARE);?PUHEINZT=PUHEINZ/SQRT(VARE);?PUHUNTST=PUHUNTS/SQRT(VARE);
?OLSQ YT CT LPRRT PUHEINZT PUHUNTST ;
WRITE (FILE='C:\PLAZA\TEMA\GRAFPMPL.XLS') LPRR @FIT;
42
donde se introduce el signo de interrogación “?” delante de aquellas líneas de programa
que constituyen mera información y, por tanto, no se desea que las lea el programa.
La primera parte del programa Fragmento 1º se dedica a definir y leer los datos
de todas las variables que intervienen en el análisis, así como crear la variable que
recoge el diferencial de precios a partir de los precios originalmente introducidos. A
continuación, para la estimación del MPL se requiere la estimación de un modelo lineal
mediante el método de Mínimos Cuadrados Generalizados Factibles (MCGF). Tal y
como se conoce, dicha estimación es equivalente a la estimación MCO de una regresión
sobre las variables originales transformadas mediante su división entre la desviación
típica de la perturbación. Por tanto, la estimación del modelo se llevará a cabo a partir
del comando OLSQ que permite la estimación de un modelo por MCO.
Para llevar a cabo la estimación es necesario comenzar estimando la varianza de
la perturbación. Como ya se ha explicado en la sección teórica, se lleva a cabo a partir
de los resultados obtenidos de las probabilidades estimadas calculadas mediante la
estimación inicial del MPL por MCO. La única cuestión a tener en cuenta es reemplazar
las posibles probabilidades estimadas que sean mayores o iguales a la unidad por (a
modo de ejemplo) 0.99 y, las menores o iguales a cero, por 0.01. A partir de las
probabilidades resultantes, se procede a la creación de la varianza estimada de la
perturbación.
A partir de aquí, existen dos posibilidades. La primera consiste en utilizar los
propios comandos de TSP para estimar mediante MCGF o programar nosotros
directamente el modelo a estimar. Ambas opciones se muestran en el programa
Fragmento 1º, si bien, para no duplicar resultados, se ha introducido el signo ? al
comienzo de las líneas del programa relativas a la versión más elaborada (que utiliza
menos comandos propios de TSP).
Como se aprecia en el programa Fragmento 1º, la opción que utiliza
mayoritariamente los comandos propios de TSP es la siguiente:OLSQ (WEIGHT=IVARE, WTYPE=HET) endógena lista de explicativas;
43
donde las opciones entre paréntesis indican que se desea ponderar mediante la
ponderación IVARE (inversa de la varianza) debido a un problema de
heteroscedasticidad. A partir de estos comandos, TSP entiende que debe multiplicar
todas las variables del modelo por la raíz cuadrada de la variables IVARE y, a partir de
ellas, efectuar la regresión MCO. Esto mismo, es lo que se lleva a cabo manualmente en
las siguientes líneas del programa y, lógicamente, los resultados obtenidos son los
mismos.
Finalmente, la última sentencia:WRITE (FILE='C:\PLAZA\TEMA\GRAFPMPL.XLS') LPRR @FIT
permite trasladar a un fichero Excel tanto los datos de la variable diferencial de precios
como las probabilidades estimadas con el modelo, con objeto de observar su
comportamiento.
Los resultados obtenidos en la estimación del MPL se recogen el Cuadro 2 y, el
gráfico de probabilidades estimadas mediante este modelo aparece en el Gráfico 5.
Cuadro 2. Modelo de Probabilidad Lineal estimado por MCGF correspondiente al
programa Fragmento 1º.
Equation 2 ============ Method of estimation = Weighted Regression
Weight: IVARE
Dependent variable: Y Current sample: 1 to 2498 Number of observations: 2498
(Statistics based on transformed data) (Statistics based on original data) Mean of dep. var. = .980997 Mean of dep. var. = .891113 Std. dev. of dep. var. = .136562 Std. dev. of dep. var. = .311560 Sum of squared residuals = 42.1483 Sum of squared residuals = 223.197 Variance of residuals = .016900 Variance of residuals = .089493 Std. error of regression = .130000 Std. error of regression = .299155 R-squared = .094891 R-squared = .139560 Adjusted R-squared = .093803 Adjusted R-squared = .138525 Durbin-Watson = 1.41764 Durbin-Watson = 1.37410 Sum of weights = 2498.00 F (zero slopes) = 87.1568 [.000] Schwarz B.I.C. = -4.06952 Log likelihood = 437.175
44
Estimated Standard Variable Coefficient Error t-statistic P-value C .942096 .407879E-02 230.974 [.000] LPRR -.116862 .776950E-02 -15.0412 [.000] PUHEINZ .223281E-02 .563477E-02 .396255 [.692] PUHUNTS -.102474 .018515 -5.53466 [.000]
Gráfico 5. Probabilidades estimadas mediante el MPL
A partir del Cuadro 2 y, considerando que el tamaño muestral es
considerablemente elevado como para poder efectuar inferencia en el modelo, se puede
concluir lo siguiente. Un aumento en el diferencial de precios (conforme el tomate
Heinz es más caro que el tomate Hunts) afecta negativa y significativamente (el valor
del t-ratio es mayor que 1.96, punto crítico asociado a la N0.025(0,1)) a la probabilidad de
elegir tomate Heinz. La probabilidad de compra de Heinz disminuye en,
aproximadamente, 0.12 unidades, por cada unidad de aumento del diferencial. La
publicidad ejercida sobre Heinz afecta positivamente a la probabilidad de ser
seleccionado, mientras que sucede lo contrario en el caso de que exista publicidad sobre
Hunts.
No obstante, el Gráfico 5 muestra las dos grandes debilidades de este modelo. Se
obtiene un importante número de probabilidades estimadas que superan la unidad, por
lo que no es posible interpretar tales valores ajustados como probabilidades y, además,
lógicamente se observa claramente la tendencia lineal inherente en las mismas. En
consecuencia, en las siguientes líneas del programa se procede a plantear los modelos
alternativos probit y logit.
00.20.40.60.8
11.21.4
-4 -2 0 2 4Diferencia entre el logaritmo neperiano del precio del producto A y el B
iP^
45
En primer lugar, se lleva a cabo la estimación del modelo probit que, como ya he
comentado con anterioridad, puede llevarse a cabo tanto a partir del comando propio de
TSP como mediante la programación manual de la función log-verosímil. Los
respectivos comandos aparecen recogidos a continuación, en lo que sería el fragmento
2º del programa total:
Fragmento 2º?PROBIT
?ESTIMACIÓN PROBIT
?1. Mediante comandos
PROBIT Y C LPRR PUHEINZ PUHUNTS;SET LVP=@LOGL;GENR PAP=@FIT;UNMAKE @COEF A0 A1 A2 A3;GENR XBP = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS;
?2. Equivalentemente, podría especificarse directamente las respectivas funciones de verosimilitud
?SET A0=0;?SET A1=0;?SET A2=0;?SET A3=0;?FRML EQ1 LOGL= Y*LCNORM(XBP) +(1-Y)*LOG(1-CNORM(XBP));?FRML EQXB XBP = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS ;?EQSUB (NAME=EP) EQ1 EQXB;?PARAM A0 A1 A2 A3;?ML EP;
WRITE (FILE='C:\PLAZA\TEMA\GRAFPP.XLS') LPRR @FIT;
Como se observa en el programa Fragmento 2, tras la estimación, se procede a
conservar tanto el valor máximo del logaritmo de verosimilitud obtenido (SET
LVP=@LOGL), como el valor de la variable ajustada que, como ya se sabe, coincide
con la probabilidad de comprar tomate Heinz por parte de cada individuo según este
modelo (GENR PAP=@FIT). Además, dichas probabilidades se transportan a un
fichero Excel para proceder a su representación gráfica.
Los resultados obtenidos en la estimación del modelo se recogen en el Cuadro 3
y la representación gráfica de dichas probabilidades, en el Gráfico 6.
46
Cuadro 3. Modelo Probit estimado por MV correspondiente al programa Fragmento 2º
PROBIT ESTIMATION Working space used: 27559 STARTING VALUES
C LPRR PUHEINZ PUHUNTS VALUE 0.00000 0.00000 0.00000 0.00000
F= 1731.5 FNEW= 775.78 ISQZ= 0 STEP= 1.0000 CRIT= 1673.0 F= 775.78 FNEW= 646.09 ISQZ= 0 STEP= 1.0000 CRIT= 210.25 F= 646.09 FNEW= 611.21 ISQZ= 0 STEP= 1.0000 CRIT= 58.795 F= 611.21 FNEW= 607.10 ISQZ= 0 STEP= 1.0000 CRIT= 7.5937 F= 607.10 FNEW= 607.03 ISQZ= 0 STEP= 1.0000 CRIT= 0.13833 F= 607.03 FNEW= 607.03 ISQZ= 0 STEP= 1.0000 CRIT= 0.45603E-04
CONVERGENCE ACHIEVED AFTER 6 ITERATIONS
12 FUNCTION EVALUATIONS.
DEPENDENT VARIABLE: Y
Number of observations = 2498.00 R-squared = .236470 Number of positive obs. = 2226.00 Kullback-Leibler R-sq = .293960 Mean of dep. var. = .891113 Log likelihood = -607.030 Sum of squared residuals = 185.104 Fraction of Correct Predictions = 0.905524
Standard Parameter Estimate Error t-statistic P-value C 1.84031 .074433 24.7244 [.000] LPRR -3.32173 .213078 -15.5893 [.000] PUHEINZ .235591 .104169 2.26161 [.024] PUHUNTS -.423743 .122671 -3.45431 [.001]
Standard Errors computed from analytic second derivatives (Newton)
dP/dX
0 1 C -0.24439 0.24439 LPRR 0.44113 -0.44113 PUHEINZ -0.031287 0.031287 PUHUNTS 0.056273 -0.056273
Gráfico 6. Probabilidades estimadas mediante el modelo probit
00.20.40.60.8
11.21.4
-4 -2 0 2 4Diferencia entre el logaritmo neperiano del precio del producto A y el B
iP^
47
No obstante, antes de proceder a la interpretación del modelo es necesario
proceder a su validación. En este sentido, comenzaremos realizando el contraste general
de especificación de la matriz de información que, como ya se conoce, permite
contrastar la hipótesis nula de especificación correcta del modelo, frente a errores
asociados a heteroscedasticidad y/o mala especificación de la distribución de la
perturbación del modelo latente. La programación del mismo se lleva a cabo mediante
las siguientes líneas de programa recogidas bajo el título Fragmento 3º:
Fragmento 3º
?VALIDACIÓN PROBIT
?Test de la matriz de información
GENR FDP=CNORM(XBP);GENR FDDP=NORM(XBP);
GENR VENDP=(Y-FDP)/(SQRT ( FDP*(1-FDP)));
GENR VEP0=FDDP/(SQRT(FDP*(1-FDP) ) );GENR VEP1=(FDDP/(SQRT(FDP*(1-FDP) ) ))* LPRR;GENR VEP2=(FDDP/(SQRT(FDP*(1-FDP) ) ))* PUHEINZ;GENR VEP3=(FDDP/(SQRT(FDP*(1-FDP) ) ))* PUHUNTS;
V1=1^2;V2= LPRR^2;V3= PUHEINZ^2;V4= PUHUNTS ^2;V5= LPRR;V6= PUHEINZ;V7= PUHUNTS;V8= LPRR*PUHEINZ;V9= LPRR*PUHUNTS;V10= PUHEINZ*PUHUNTS;
DOT 1-10;GENR VEPR2.= -(XBP* FDDP*V.)/(SQRT(FDP*(1-FDP) ) );ENDDOT;
OLSQ VENDP VEP0 VEP1 VEP2 VEP3VEPR21 VEPR22 VEPR23 VEPR24 VEPR25 VEPR26 VEPR27VEPR28 VEPR29 VEPR210;
MAT MIP=@FIT'@FIT; PRINT MIP;CDF (CHISQ, INVERSE, DF=10) 0.05;
48
Que dan como resultado:
MIP = 8.48141CHISQ(10) Critical Value: 18.30704, Upper tail area: .05000
Y, por tanto, se obtiene evidencia a favor de la correcta especificación del modelo en
cuando a los mencionados errores en la parte aleatoria del término de perturbación del
modelo latente.
Aunque, lógicamente, no es necesario plantear ningún tipo de contraste
específico adicional, se ofrece el programa Fragmento 4º en el que se muestra cómo
efectuar un contraste específico de heteroscedaticidad a partir de los estadísticos LR y
LM y, suponiendo el siguiente esquema de generación de la misma:
( )
=
HuntsdeprecioHeinzdepreciolog2exp:1 αε iVH
Fragmento 4º?Contraste de heroscedasticidad
?Con estadístico LR: Problema, el modelo no restringido no converge?FRML EQ1 LOGL= Y*LCNORM(XBPDDT) +(1-Y)*LOG(1-CNORM(XBP));?FRML EQXB XBPDDT = A0 *1/(SQRT(EXP(2*ALPHA*LPRR)))+A1*LPRR*1/(SQRT(EXP(2*ALPHA*LPRR)))? + A2*PUHEINZ*1/(SQRT(EXP(2*ALPHA*LPRR))) + A3*PUHUNTS*1/(SQRT(EXP(2*ALPHA*LPRR))) ;?EQSUB (NAME=EP) EQ1 EQXB;?PARAM A0 A1 A2 A3 ALPHA;?ML EP;
?SET LOGNR=@LOGL;?SET LRH=-2*(LVP-LOGNR);?PRINT LRH;?CDF (CHISQ, INVERSE, DF=1) 0.05;
?Con LM
GENR VEP4=(FDDP/(SQRT(FDP*(1-FDP) ) ))* (- XBP*LPRR);
OLSQ VENDP VEP0 VEP1 VEP2 VEP3 VEP4;MAT R2NC=(@FIT'@FIT)/(VENDP'VENDP);
SET HETP=@NOB*R2NC; PRINT HETP;CDF (CHISQ, INVERSE, DF=1) 0.05;
49
Y como resultado se ha obtenido que, dada la no convergencia en la estimación del
modelo no restringido planteado a partir del esquema de heteroscedasticidad (modelo
heterocedástico), es necesario plantear el estadístico LM. Por otro lado, los resultados
ofrecidos por este último ofrecen, lógicamente, evidencia acerca del no rechazo de la
hipótesis nula de homocedasticidad:
HETP = 0.52565CHISQ(1) Critical Value: 3.841459, Upper tail area: .05000
A partir de estos resultados, podemos continuar con la validación del modelo a
partir del análisis de la significatividad individual y conjunta de los parámetros. En el
primer caso, dado que los t-ratios de los cuatro parámetros del modelo ofrecidos en el
Cuadro 3 son mayores que 1.96 (valor crítico de la ( ) ( )1,0025.0025.0 Nt =∞ ) se concluye
que todas las variables son significativas individualmente, al nivel de significación del
5%.
A continuación, se contrasta la significación conjunta de todas las variables
explicativas; es decir, se contrata la nulidad de todos los parámetros asociados a las
variables explicativas del modelo. Las órdenes del programa necesarias para llevar a
cabo este contraste son las siguientes (Fragmento 5º):
Fragmento 5º?Contraste LR de nulidad de las pendientes
PROBIT Y C;SET LVSC= @LOGL;
SET LRP= -2*( LVSC-LVP); PRINT LRP;CDF (CHISQ, INVERSE, DF=3) 0.05;
Y el resultado del contraste:LRP = 505.47409CHISQ(3) Critical Value: 7.814728, Upper tail area: .05000
Por lo que se rechaza la hipótesis de que todos los parámetros asociados a las variables
explicativas son nulos y, por lo tanto las variables explicativas del modelo son
conjuntamente significativas.
50
A continuación, se analiza la bondad del ajuste. En primer lugar, se obtiene el
Pseudo- 2R de McFadden, que como se puede comprobar coincide con el ofrecido por
el TSP bajo el nombre “Kullback-Leibler R-sq”. Los comandos necesarios son los
siguientes (Fragmento 6º):
Fragmento 6º
?MEDIDAS DE BONDAD DEL AJUSTE
?R2 de McFaddenSET R2MFP=1-( LVP/LVSC);PRINT R2MFP;
Y el resultado obtenido: R2MFP = 0.29396
Seguidamente, obtenemos el Pseudo- 2R propuesto por McKelvey y Zavoina
mediante las siguientes órdenes ((Fragmento 7º):
Fragmento 7º
?R2 de McKelvey y ZavoinaMSD (NOPRINT) XBP;SET XBPM=@MEAN;MAT NUM=(XBP-XBPM)'(XBP-XBPM);SET DEN=NUM+@NOB;SET R2MZP=NUM/DEN; PRINT R2MZP;
Obteniendo como resultado: R2MZP = 0.60903
En general, puede considerarse que los resultados obtenidos son bastante
satisfactorios considerando que se trabaja con datos de corte transversal.
Finalmente, en relación con la evaluación de la capacidad predictiva nos
centramos en el cálculo del estadístico 1F sugerido por McFadden y otros (1977)
utilizando como umbral de clasificación de las predicciones, al igual que Philip Hans
Franses y Richard Paap, la fracción de observaciones con 1=iy (N
yC
N
ii∑
=
== 1
1), que en
51
nuestro caso es igual a 0.891 (2226/2498). Dicho cálculo se efectúa tanto para la
predicción de los individuos que componen la información muestral como para los 300
individuos reservados para el análisis del comportamiento predictivo en observaciones
postmuestrales.
Las órdenes correspondientes a las observaciones muestrales son las siguientes
(Fragmento 8º):
Fragmento 8º
?F de McFadden y otros
?Dentro de la muestraSMPL 1 2498;SELECT PAP>0.891 .AND. Y=1;SET P11=@NOB/2498;PRINT P11;
SMPL 1 2498;SELECT PAP<=0.891 .AND. Y=1;SET P10=@NOB/2498;PRINT P10;
SMPL 1 2498;SELECT PAP>0.891 .AND. Y=0;SET P01=@NOB/2498;PRINT P01;
SMPL 1 2498;SELECT PAP<=0.891 .AND. Y=0;SET P00=@NOB/2498;PRINT P00;
SET PP1=P11+P01; PRINT PP1;SET PP0=P10+P00; PRINT PP0;
SET FP= (P11+P00-PP1^2-PP0^2)/(1-PP1^2-PP0^2);PRINT FP;
Y los resultados obtenidos:
TABLA DE CLASIFICACIÓN DE LAS PREDICCIONES MUESTRALES
Predicción del modelo
CPi >^
Predicción: 1=iy
CPi ≤^
Predicción: 0=iy
1=iy 0.67134 0.21978.1P
Observaciones 0=iy 0.016813 0.092074.0P
0.68815 0.31185 1
Por lo que: 1F = 0.44877
52
Análogamente, con respecto a la información postmuestral, se programa
mediante los comandos (Fragmento 9º):
Fragmento 9º
?Fuera de la muestraSMPL 2499 2798;GENR PAP= CNORM (A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS );
SMPL 2499 2798;SELECT PAP>0.891 .AND. Y=1;SET P11=@NOB/300;PRINT P11;
SMPL 2499 2798;SELECT PAP<=0.891 .AND. Y=1;SET P10=@NOB/300;PRINT P10;
SMPL 2499 2798;SELECT PAP>0.891 .AND. Y=0;SET P01=@NOB/300;PRINT P01;
SMPL 2499 2798;SELECT PAP<=0.891 .AND. Y=0;SET P00=@NOB/300;PRINT P00;
SET PP1=P11+P01; PRINT PP1;SET PP0=P10+P00; PRINT PP0;
SET FP= (P11+P00-PP1^2-PP0^2)/(1-PP1^2-PP0^2);PRINT FP;
Y se obtienen los siguientes resultados:
TABLA DE CLASIFICACIÓN DE LAS PREDICCIONES POSTMUESTRALES
Predicción del modelo
CPi >^
Predicción: 1=iy
CPi ≤^
Predicción: 0=iy
1=iy 0.66333 0.22000.1P
Observaciones 0=iy 0.020000 0.096667.0P
0.68333 0.31667 1
1F = 0.44544
Los valores obtenidos para 1F son bastante elevados y, por tanto, el
comportamiento predictivo es bastante bueno y, a su vez, muy semejante dentro y fuera
de la muestra.
53
Finalmente, dado que el modelo es muy aceptable, se procedería a interpretar los
resultados obtenidos. Del análisis de los signos de los parámetros individuales,
recogidos en el Cuadro 3, y teniendo en cuenta que dichos parámetros son
significativos, se deduce lo siguiente. El parámetro relativo a la publicidad ejercida
sobre el tomate Heinz es positivo y, por tanto, dicha variable ejerce un efecto positivo
sobre la decisión de compra del producto. Contrariamente, tanto la publicidad ejercida
sobre el tomate Hunts como el diferencial de precios ejercen un efecto negativo sobre la
probabilidad de compra del tomate Heinz y, por tanto, positivo sobre la del tomate
Hunts. Lógicamente, conforme el tomate Heinz es comparativamente más caro que el
tomate Hunts, disminuye su probabilidad de compra.
Adicionalmente, puede calcularse el índice subjetivo de utilidad y la
probabilidad de compra de los dos productos en cualquier situación. Por ejemplo, con
relación al valor medio del diferencial de precios en logaritmos neperianos, que es igual
a 0.039) y, suponiendo que existe publicidad para ambos tipos de productos, se emplean
los siguientes comandos (Fragmento 10º):
Fragmento 10º
SET LPRRI= 0.039;SET PUHEINZI=1;SET PUHUNTSI =1;SET XBPI = A0 + A1*LPRRI + A2*PUHEINZI + A3* PUHUNTSI ; PRINT XBPI;
SET PEPI= CNORM(XBPI);PRINT PEPI;
Y los resultados obtenidos son los siguientes:
• Indice subjetivo de utilidad:
=^
' βix 1.84031 -3.32173 *0.039 + .235591 *1 + -.423743 * 1= 1.523
• Probabilidad de comprar el tomate Heinz:
( ) 936.021523.1 2
2523.1^'
^==Φ=
Φ=
−
∞−∫ dtexP
t
ii πβ
• Probabilidad de comprar el tomate Hunts:
064.0936.011^
=−=− iP
54
Por último, pueden calcularse los efectos sobre las probabilidades de compra de
ambos productos ante cambios unitarios en las distintas variables. Dichos efectos son
ofrecidos por el programa, calculados a partir del valor medio de los efectos sobre todos
los individuos (Cuadro 3). El cálculo es el mismo para todo tipo de variables y se
corresponde con el procedimiento a emplear para el caso de variables continuas. En
consecuencia, el resultado es correcto sólo para dicho tipo de variables mientras que
para el caso de variables discretas sólo constituye una mera aproximación.
Si quisiéramos programar en TSP dichos efectos, por ejemplo, en relación a la
variable precios, se trataría de calcular la media de los efectos calculados para los
distintos individuos:
)32173.3(^
'
^'^
−
=
∂
Φ∂
=∂∂
βφβ
ii
i
i
i xLPRR
x
LPRRP
Y, para ello, se escribiría (Fragmento 11º):
Fragmento 11º
SMPL 1 2498;GENR XBP = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS ;GENR EP= NORM(XBP)*A1;MSD(NOPRINT) EP; SET EPM=@MEAN; PRINT EPM;
El resultado que se obtiene es: EPM= -0.44113, que coincide con el valor ofrecido
en el Cuadro 3.
Por su parte, los efectos de las variables ficticias relativas a publicidad se
calculan mediante la diferencia en la probabilidad de que 1=iy bajo las dos situaciones
que caracteriza el regresor (0/1). Por lo tanto, en el caso del efecto sobre la probabilidad
de comprar Heinz de la publicidad ejercida sobre dicho producto se calcularía a partir de
los siguientes comandos (Fragmento 12º):
55
Fragmento 12º
?variables de publicidad
?HeinzSMPL 1 2498;SELECT PUHEINZ=1;GENR XBPHE1 = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS ;PHE1=CNORM(XBPHE1);MSD (NOPRINT) PHE1;SET PHE1M=@MEAN;PRINT PHE1M;
SMPL 1 2498;SELECT PUHEINZ=0;GENR XBPHE0 = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS;PHE0=CNORM(XBPHE0);MSD (NOPRINT) PHE0;SET PHE0M=@MEAN;PRINT PHE0M;
SET EPHE= PHE1M-PHE0M; PRINT EPHE;
Obteniéndose como resultado:
Prob ( )11 == PUHEINZyi -Prob ( )01 == PUHEINZyi = 0.94929-0.86710= 0.082194
Finalmente el efecto sobre la probabilidad de comprar HEINZ de la publicidad
sobre Hunts, se calcularía a partir de los comandos (Fragmento 13º):
Fragmento 13º
?HuntsSMPL 1 2498;SELECT PUHUNTS=1;GENR XBPHU1 = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS;PHU1=CNORM(XBPHU1);MSD (NOPRINT) PHU1;SET PHU1M=@MEAN;PRINT PHU1M;
SMPL 1 2498;SELECT PUHUNTS=0;GENR XBPHU0 = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS;PHU0=CNORM(XBPHU0);MSD (NOPRINT) PHU0;SET PHU0M=@MEAN;PRINT PHU0M;
SET EPHU= PHU1M-PHU0M;PRINT EPHU;
Obteniéndose como resultado:
Prob ( )11 == PUHUNTSyi -Prob ( )01 == PUHUNTSyi =0.72946-0.90428=- 0.17482
56
En estos dos últimos casos, se observa que los resultados obtenidos son
ligeramente diferentes a las aproximaciones ofrecidas por el programa.
Finalmente, apuntar el carácter no lineal de las probabilidades estimadas
mediante este modelo que fueron representadas en el Gráfico 6.
57
El programa para la obtención de todos los resultados análogos a los
comentados, pero referidos al modelo logit, es el siguiente:
?LOGIT
¿ESTIMACIÓN
SMPL 1 2498;
?1. Mediante comandos
LOGIT Y C LPRR PUHEINZ PUHUNTS;SET LVL=@LOGL;GENR PAL=@FIT;UNMAKE @COEF B0 B1 B2 B3 ;GENR XBL = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS;
WRITE (FILE='C:\PLAZA\TEMA\GRAFPL.XLS') LPRR @FIT;
?2. Equivalentemente, podría especificarse directamente las respectivas funciones de verosimilitud
?FRML EQ2 LOGL= Y*LOG (EXP(XBL)/(1+EXP(XBL))) +(1-Y)*LOG(1-(EXP(XBL)/(1+EXP(XBL))));?FRML EQXB XBL = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;?EQSUB (NAME=EL) EQ2 EQXB;?PARAM B0,0.01 B1,0.01 B2,0.01 B3,0.01 B4,0.01 B5,0.01 B6,0.01 B7,0.01 ;?ML EL;
?VALIDACIÓN
?Contrastes de especificación
GENR FDL=EXP(XBL)/(1+EXP(XBL));GENR FDDL=FDL*(1-FDL);
?Test de la matriz de información
GENR VENDL=(Y-FDL)/(SQRT (FDL*(1-FDL)));
GENR VEL0=SQRT(FDL*(1-FDL));GENR VEL1=(SQRT(FDL*(1-FDL)))* LPRR;GENR VEL2=(SQRT(FDL*(1-FDL)))* PUHEINZ;GENR VEL3=(SQRT(FDL*(1-FDL)))* PUHUNTS;
V1=1^2;V2= LPRR^2;V3= PUHEINZ^2;V4= PUHUNTS ^2;V5= LPRR;V6= PUHEINZ;V7= PUHUNTS;V8= LPRR*PUHEINZ;V9= LPRR*PUHUNTS;
58
V10= PUHEINZ*PUHUNTS;
DOT 1-10;GENR VELR2.= (SQRT(FDL*(1-FDL) ) )* (1-2*FDL ) *V.;ENDDOT;
OLSQ VENDL VEL0 VEL1 VEL2 VEL3 VELR21 VELR22 VELR23 VELR24 VELR25 VELR26VELR27VELR28 VELR29 VELR210;
MAT MIP=@FIT'@FIT; PRINT MIP;CDF (CHISQ, INVERSE, DF=10) 0.05;
?Contraste de heroscedasticidad
?Con estadístico LR: Problema, el modelo no restringido no convergeFRML EQ2 LOGL= Y*LOG (EXP(XBLDDT)/(1+EXP(XBLDDY))) +(1-Y)*LOG(1-(EXP(XBLDDT)/(1+EXP(XBLDDT))));?FRML EQXB XBLDDT = B0 *1/(SQRT(EXP(2*ALPHA*LPRR)))+B1*LPRR*1/(SQRT(EXP(2*ALPHA*LPRR)))? + B2*PUHEINZ*1/(SQRT(EXP(2*ALPHA*LPRR))) + B3*PUHUNTS*1/(SQRT(EXP(2*ALPHA*LPRR))) ;?EQSUB (NAME=EL) EQ2 EQXB;?PARAM B0 B1 B2 BA3 ALPHA;?ML EL;?SET LOGNR=@LOGL;?SET LRH=-2*(LVL-LOGNR);?PRINT LRH;?CDF (CHISQ, INVERSE, DF=1) 0.05;
?Con LM
GENR VEL4=(SQRT(FDL*(1-FDL)))*(FDL*(1-FDL) )* (- XBP*LPRR);
OLSQ VENDL VEL0 VEL1 VEL2 VEL3 VEL4;MAT R2NC=(@FIT'@FIT)/(VENDL'VENDL);
SET HETL=@NOB*R2NC; PRINT HETL;CDF (CHISQ, INVERSE, DF=1) 0.05;
?Contraste LR de nulidad de las pendientes
LOGIT Y C;SET LVSC= @LOGL;
SET LRL= -2*( LVSC-LVL); PRINT LRL;
? Bondad del ajuste
?R2 de McFaddenSET R2MFL=1-( LVL/LVSC);
59
PRINT R2MFL;
?R2 de McKelvey y ZavoinaMSD (NOPRINT) XBL;SET XBLM=@MEAN;MAT NUM=(XBL-XBLM)'(XBL-XBLM);SET DEN=NUM+@NOB*((3.1416^2)/3);SET R2MZL=NUM/DEN; PRINT R2MZL;
?F de McFadden y otros
?Dentro de la muestraSMPL 1 2498;SELECT PAL>0.891 .AND. Y=1;SET P11=@NOB/2498;PRINT P11;
SMPL 1 2498;SELECT PAL<=0.891 .AND. Y=1;SET P10=@NOB/2498;PRINT P10;
SMPL 1 2498;SELECT PAL>0.891 .AND. Y=0;SET P01=@NOB/2498;PRINT P01;
SMPL 1 2498;SELECT PAL<=0.891 .AND. Y=0;SET P00=@NOB/2498;PRINT P00;
SET PP1=P11+P01; PRINT PP1;SET PP0=P10+P00; PRINT PP0;
SET FL= (P11+P00-PP1^2-PP0^2)/(1-PP1^2-PP0^2);PRINT FL;
?Fuera de la muestraSMPL 2499 2798;GENR XBL = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS;GENR PAL=EXP(XBL)/(1+EXP(XBL));
SMPL 2499 2798;SELECT PAL>0.891 .AND. Y=1;SET P11=@NOB/300;PRINT P11;
SMPL 2499 2798;SELECT PAL<=0.891 .AND. Y=1;SET P10=@NOB/300;PRINT P10;
SMPL 2499 2798;SELECT PAL>0.891 .AND. Y=0;SET P01=@NOB/300;PRINT P01;
SMPL 2499 2798;SELECT PAL<=0.891 .AND. Y=0;SET P00=@NOB/300;PRINT P00;
SET PP1=P11+P01; PRINT PP1;SET PP0=P10+P00; PRINT PP0;
SET FL= (P11+P00-PP1^2-PP0^2)/(1-PP1^2-PP0^2);PRINT FL;
SMPL 1 2498;
?INTERPRETACION DE LOS RESULTADOS
60
?calculo de probabilidadesSET LPRRI= 0.039;SET PUHEINZI=1;SET PUHUNTSI =1;
SET XBLI = B0 + B1*LPRRI + B2*PUHEINZI + B3* PUHUNTSI;PRINT XBLI;SET PELI=EXP(XBLI)/(1+EXP(XBLI));PRINT PELI;
?calculo de efectos
?variable precioGENR XBL = B0 +B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;GENR PAL=EXP(XBL)/(1+EXP(XBL));GENR EL= PAL* (1-PAL)*B1;MSD(NOPRINT) EL; SET ELM=@MEAN; PRINT ELM;
?variables de publicidad
?HeinzSMPL 1 2498;SELECT PUHEINZ=1;GENR XBLHE1 = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;PHE1=EXP(XBLHE1)/(1+EXP(XBLHE1));MSD (NOPRINT) PHE1;SET PHE1M=@MEAN;PRINT PHE1M;
SMPL 1 2498;SELECT PUHEINZ=0;GENR XBLHE0 = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;PHE0=EXP(XBLHE0)/(1+EXP(XBLHE0));MSD (NOPRINT) PHE0;SET PHE0M=@MEAN;PRINT PHE0M;
SET EPHE= PHE1M-PHE0M; PRINT EPHE;
?HuntsSMPL 1 2498;SELECT PUHUNTS=1;GENR XBLHU1 = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;PHU1=EXP(XBLHU1)/(1+EXP(XBLHU1));MSD (NOPRINT) PHU1;SET PHU1M=@MEAN;PRINT PHU1M;
SMPL 1 2498;SELECT PUHUNTS=0;GENR XBLHU0 = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;PHU0=EXP(XBLHU0)/(1+EXP(XBLHU0));MSD (NOPRINT) PHU0;SET PHU0M=@MEAN;PRINT PHU0M;
SET EPHU= PHU1M-PHU0M; PRINT EPHU;
61
Los resultados obtenidos en la estimación del modelo se presentan en el Cuadro
4. Sin embargo, como en el caso del modelo probit, es necesario, en primer lugar,
contrastar la validez del modelo antes de proceder a su interpretación. Las
probabilidades estimadas se representan en el Gráfico 7 y, como se puede comprobar,
son muy similares a las obtenidas para el caso del modelo probit.
Cuadro 4. Modelo Logit estimado por MV MULTINOMIAL LOGIT ESTIMATION
Choice Frequency Fraction 0 272 0.1089 (coefficients normalized to zero) 1 2226 0.8911 Working space used: 32595 STARTING VALUES
C1 LPRR1 PUHEINZ1 PUHUNTS1 VALUE 0.00000 0.00000 0.00000 0.00000
F= 1731.5 FNEW= 795.88 ISQZ= 0 STEP= 1.0000 CRIT= 1673.0 F= 795.88 FNEW= 662.19 ISQZ= 0 STEP= 1.0000 CRIT= 212.15 F= 662.19 FNEW= 617.87 ISQZ= 0 STEP= 1.0000 CRIT= 73.332 F= 617.87 FNEW= 610.74 ISQZ= 0 STEP= 1.0000 CRIT= 12.808 F= 610.74 FNEW= 610.48 ISQZ= 0 STEP= 1.0000 CRIT= 0.49515 F= 610.48 FNEW= 610.48 ISQZ= 0 STEP= 1.0000 CRIT= 0.82839E-03 F= 610.48 FNEW= 610.48 ISQZ= 0 STEP= 1.0000 CRIT= 0.23824E-08
CONVERGENCE ACHIEVED AFTER 7 ITERATIONS
14 FUNCTION EVALUATIONS.
DEPENDENT VARIABLE: Y
Number of observations = 2498.00 R-squared = .235222 Number of positive obs. = 2226.00 Kullback-Leibler R-sq = .289942 Mean of dep. var. = .891113 Log likelihood = -610.484 Sum of squared residuals = 185.449 Number of Choices = 4996 Fraction of Correct Predictions = 0.907126
Standard Parameter Estimate Error t-statistic P-value C1 3.26804 .146756 22.2686 [.000] LPRR1 -6.04988 .394129 -15.3500 [.000] PUHEINZ1 .494468 .205285 2.40869 [.016] PUHUNTS1 -.721330 .214934 -3.35605 [.001]
Standard Errors computed from analytic second derivatives (Newton)
dP/dX 0 1 C -0.23683 0.23683 LPRR 0.43842 -0.43842 PUHEINZ -0.035833 0.035833 PUHUNTS 0.052273 -0.052273
62
Gráfico 7. Probabilidades estimadas mediante el modelo logit
El resultado del contraste de la matriz de información fue igual, en este caso, a:
MIP = 17.06383CHISQ(10) Critical Value: 18.30704, Upper tail area: .05000
Por lo que, de nuevo, no se rechaza la hipótesis nula de especificación correcta.
A pesar de ello, y por motivos meramente didácticos, se ofrece el resultado del
contraste específico de heteroscedasticidad, suponiendo el mismo patrón de varianza
que en el caso del modelo probit. El resultado obtenido muestra evidencia a favor de la
ausencia de un problema de heteroscedasticidad:
HETL = 0.23739CHISQ(1) Critical Value: 3.841459, Upper tail area: .05000
Los t-ratios asociados a todas las variables explicativas superan, como el caso
del modelo probit, el valor de 1.96, por lo que todas las variables son individualmente
significativas.
El estadístico LR para contrastar la nulidad de todos los parámetros asociados a
las variables explicativas del modelo es igual a:
LRL = 498.56550CHISQ(3) Critical Value: 7.814728, Upper tail area: .05000
Y, por tanto, las variables explicativas son también conjuntamente significativas.
00.20.40.60.8
11.21.4
-4 -2 0 2 4
iP^
Diferencia entre el logaritmo neperiano del precio del producto A y el B
63
Los resultados relativos a la bondad del ajuste fueron los siguientes:
• Pseudo- 2R de McFadden: R2MFL = 0.28994
• Pseudo- 2R de McKelvey y Zavoina: R2MZL = 0.60325
• Los estadísticos 1F de McFadden y otros (1977) referidos a la información
muestral y postmuestral resultaron ser iguales a 0.44964 y 0.45001,
respectivamente. De nuevo, considerablemente elevados y muy similares.
Finalmente, dado que el modelo es muy aceptable, se procede a interpretar los
resultados obtenidos. De forma análoga al modelo probit, la publicidad ejercida sobre el
tomate Heinz ejerce un efecto positivo sobre la decisión de compra del producto,
mientras que el efecto ejercido por la publicidad del tomate Hunts y el diferencial de
precios es negativo y significativo. Lógicamente, si se incentiva la compra del tomate
Hunts o el tomate Heinz es más caro que el tomate Hunts, disminuye la probabilidad de
compra del tomate Heinz.
Adicionalmente, puede calcularse el índice subjetivo de utilidad y la
probabilidad de compra de los dos productos en cualquier situación. Si, al igual que
para el modelo probit, se toman los valores medios de precio, Precio Heinz = 0.0348 y
Precio Hunts = 0.0336 (a los que corresponde un diferencial de precios en logaritmos
neperianos = 0.039) y, suponiendo que existe publicidad para ambos tipos de productos,
se obtienen los siguientes resultados:
• Indice subjetivo de utilidad:
=^
' βix 3.2680 -6.04988*0.039 + 0.494468*1 + -0.721330* 1= 2.80524
• Probabilidad de comprar el tomate Heinz:
( ) 0.942961
12.80524
^'
^=
+=
Λ= −e
xP ii β
• Probabilidad de comprar el tomate Hunts:
05704.094296.011^
=−=− iP
64
Los efectos de cambios unitarios en las variables sobre las probabilidades de
compra ofrecidos por el programa son los siguientes (final del cuadro 4):dP/dX
0 1 C -0.23683 0.23683 LPRR 0.43842 -0.43842 PUHEINZ -0.035833 0.035833 PUHUNTS 0.052273 -0.052273
De forma análoga a lo realizado para el modelo probit, se comprueba el efecto
ofrecido para la variable continua, LPRR. Se obtiene, lógicamente, ELM= -0.43842, que
coincide con lo ofrecido por el programa y, que como en el caso anterior, se calcula
como la media de los efectos sobre los distintos individuos:
)04988.6(1^
'^
'
^'^
−
Λ−
Λ=
∂
Λ∂
=∂∂
βββ
iii
i
i
i xxLPRR
x
LPRRP
Por último, el efecto sobre la probabilidad de comprar HEINZ de la publicidad
ejercida sobre dicho producto es igual a:
Prob ( )11 == PUHEINZyi -Prob ( )01 == PUHEINZyi = 0.95055-0.86667 = 0.083883
Y el efecto de la publicidad sobre el tomate Hunts:
Prob ( )11 == PUHUNTSyi -Prob ( )01 == PUHUNTSyi =0.73016-0.90429=-0.17413
Observándose, de nuevo, que los resultados obtenidos son diferentes a las
aproximaciones ofrecidas por el programa.
Finalmente, quedaría plantearse la selección entre los dos modelos, probit o
logit. Del desarrollo realizado hasta el momento, se ha podido comprobar que, al igual
que en casi todas las aplicaciones, los resultados obtenidos mediante ambos modelos
65
son muy similares. Comprobaremos como, efectivamente, se produce la aproximación
entre los parámetros de ambos modelos. Según las aproximaciones propuestas:
Probit
^
Logit
^6.1 ββ ≅ =1.6 (-3.32173)= -5.31477
Probit
^
Logit
^
3βπβ ≅ = 1.81380 (-3.32173)=-6.02496
y, dado que el número de ceros y unos que toma la variable dependiente es diferente,
1=iy en 2226 individuos e 0=iy en 272, como era de esperar, es más precisa la
segunda aproximación (la estimación resultante es igual a -6.04988, ver Cuadro 4).
Finalmente, la selección entre ambos modelos se realizará a partir de los criterios
basados en la función de verosimilitud estimada: el logaritmo de la función de
verosimilitud y el criterio de información SBIC. Los comandos necesarios para el
cálculo de este último, en los respectivos modelos, son los siguientes:
Probit:
SET SBICP= -(1/2498)*LVP+2*(LOG (2498))/2498;PRINT SBICP;
Logit:
SET SBICL= -(1/2498)*LVL+2*(LOG (2498))/2498;PRINT SBICL;
Y, a partir de los resultados obtenidos:
PROBIT LOGIT
SBIC 0.24927 0.25065
Log-Likelihood -607.030 -610.484
se seleccionaría el modelo probit, dado que es el que presenta el mayor valor de
la función de log-verosimilitud y el menor valor del criterio SBIC.
66
Referencias bibliográficas
Amemiya, T. (1981). “Qualitative Response Models: A Survey”. Journal of EconomicLiterature 19, 1481-1536.
Amemiya, T. (1985). Advanced Econometrics. Cambridge: Harvard University Press.
Aparicio, M. T. y Villanúa, I. (1999). “Etapa de Validación en Modelos de Elección Discreta”.Cuadernos Aragoneses de Economía 9 (2), 349-373.
Baltagi, B. H. (1998). Econometrics. Springer. Barcelona.
Baltagi, B. H. (1998). Solutions Manual for Econometrics. Springer. Barcelona.
Berndt, E., Hall, B., Hall, R. y Hausman, J. (1974). “Estimation and Inference in NonlinearStructural Models”. Annals of Economic and Social Measurement 3/4, 653-665.
Davidson, R. y MacKinnon, J. (1984). “Convenient Specification Tests for Logit and ProbitModels”. Journal of Econometrics 25, 241-262.
Davidson, R. y MacKinnon, J. G. (1993). Estimation and Inference in Econometrics. OxfordUniversity Press. New York.
Dhrymes, P. J. (1984). Econometría. Editorial AC. Madrid
Fomby, T. B., Hill, R. C. y Johnson, S. R. (1984). Advanced Econometric Methods. Springer-Verlag. New York.
Franses, P. H. y Paap, R. (2001). Quantitative Models in Marketing Research. CambridgeUniversity Press.
Goldberger, A. S. (1998). Introducción a la Econometría. Ariel Economía. Barcelona.
Greene, W. H. (1999). Análisis Econométrico. Tercera edición. Madrid. Prentice Hall.
Gujarati, D. N. (1997). Econometría. Tercera edición. Mc Graw Hill.
Johnston, J. y Dinardo, J. (1997). Métodos de Econometría. Vicens Vives, Barcelona.
Judge, G. R., Hill, C., Griffiths, W. E., Lee, T. y Lütkepohl, H. (1988). An Introduction to theTheory and Practice of Econometrics, 2nd Ed., New York, John Wiley & Sons.
Lechner, M. (1991). “Testing Logit Models in Practice”. Empirical Economics 16, 177-198.
Maddala, G.S. (1994). “Specification Test in Limited Dependent Variable Models”. WorkingPaper Department of Economics, The Ohio State University.
Malinvaud, E. (1966). Statistical Methods of Econometrics. Rand McNally & Company,Chicago, pp. 195-197.
Martín, G., Labeaga, J. M. y Mochón, F. (1997). Introducción a la Econometría. Prentice Hall.Madrid.
67
McFadden, D.F. (1974). “Conditional Logit Analysis of Qualitative Choice Behavior”. En: P.Zaremba, ed., Frontiers in Econometrics, Academic Press, New York, 105-142.
McFadden, D., Puig, C. y Kirschner, D. (1977). “Determinants of the Long-run Demand forElectricity”. Proceedings of the American Statistical Association (Business andEconomics Section), 109-117.
McKelvey, R. D. y Zavoina, W. (1975). “A Statistical Model for the Analysis of Ordinal LevelDependent Variables”. Journal of Mathematical Sociology 4, 103-120.
Novales, A. (1993). Econometría. Segunda Edición. Editorial Mc Graw Hill. Madrid.
Pagan, A.R. y Pak, Y. (1993). “Testing for Heteroscedasticity”. Handbook of Statistics 11, 489-518.
Pindyck, R. S. y Rubinfeld, D. L. (1998). Econometría. Modelos y Pronósticos. Mc Graw Hill.Cuarta Edición. México.
Veall, M. R. y Zimmermann, K. F. (1992). “Performance Measures from Prediction-RealizationTables”. Economics Letters 39, 129-134.
Verbeek, M. (2000). A Guide to Modern Econometrics. John Wiley & Sons. Chichester. UK.
White, H. (1982). “Maximum Likelihood Estimation of Misspecification Model”.Econometrica, 50 (1), 1-25.
Windmeijer, F.A.G. (1995). “Goodness-of-Fit Measures in Binary Response Models”.Econometric Reviews 14, 101-116.