MED Binomial

Segundo ejercicio del concurso público para la provisión de la plaza nº42, de Profesor Titular de Universidad en el área de Fundamentos deAnálisis Económico con perfil Econometría

ECONOMETRÍA III

4º Curso

Licenciatura de Economía

TEMA 4

Modelos de variable dependiente limitada

ANA MARÍA ANGULO GARIJO

ZARAGOZA, 21 DE FEBRERO DE 2003

2

ÍNDICE

PRESENTACIÓN DE LA LECCIÓN........................................................................................3

Modelos de variable dependiente limitada....................................................................6

1. Introducción...........................................................................................................6

2. Los modelos de elección discreta..........................................................................8

2.1. Modelos de elección binaria....................................... ...................................8

2.1.1. El modelo de probabilidad lineal: Formulación,

estimación y problemas......................................................................10

2.1.2. Los modelos probit y logit: Formulación, estimación y validación..17

2.1.2.1. Formulación de los modelos probit y logit.................................17

2.1.2.2. Estimación de los modelos probit y logit...................................22

2.1.2.3. Validación de los modelos probit y logit....................................27

Ejercicio empírico............................................................................................................39

Referencias bibliográficas...............................................................................................66

3

PRESENTACIÓN DE LA LECCIÓN

La lección que voy a presentar corresponde al tema titulado modelos de variable

dependiente limitada, perteneciente a la asignatura de Econometría III. Como ya

comenté en el proyecto docente, esta asignatura se imparte en el primer cuatrimestre de

4º curso de la Licenciatura de Economía y dispone de una asignación de 6 créditos (4

horas semanales).

El tema que nos ocupa es el primero de un bloque temático titulado otros

modelos de interés y, en él se presenta, tras una introducción al tema, los modelos de

elección discreta, distinguiendo entre modelos de elección binaria y múltiple. Los dos

últimos puntos del tema se refieren a los modelos de variable dependiente truncada y

censurada, respectivamente.

No obstante, en esta lección, abordaré simplemente, el primer punto referente a

la introducción así como los modelos de elección discreta de tipo binario, siguiendo el

desarrollo presentado en el proyecto docente que es el que se detalla a continuación:

TEMA 4. Modelos de variable dependiente limitada

1. Introducción

2. Los modelos de elección discreta

2.1. Modelos de elección binaria

2.1.1. El modelo de probabilidad lineal: Formulación, estimación y

problemas.

2.1.2. Los modelos probit y logit: Formulación, estimación y validación

2.1.2.1. Formulación de los modelos probit y logit

2.1.2.2. Estimación de los modelos probit y logit

2.1.2.3. Validación de los modelos probit y logit

4

Planificación de la lección

Teniendo en cuenta que la asignatura de Econometría III debe impartirse en

aproximadamente 15 semanas y, que comprende 5 temas, se podría dedicar

aproximadamente tres semanas (12 horas) al tema en el cual se ubica esta lección. Por

su parte, el fragmento del tema que voy a explicar en esta sesión se impartiría en

aproximadamente 6 horas de clase.

En primer lugar, presentaré los conocimientos teóricos del mismo y, a

continuación, mostraré un ejercicio empírico para ilustrar la vertiente más práctica de la

materia. Este ejercicio se resolverá con la ayuda del ordenador y utilizando el programa

TSP, que el alumno ha venido utilizando en cursos anteriores.

Bibliografía recomendada

Bibliografía básica: Johnston J. y Dinardo, J. (1997), cap. 13; Martín, G. et al. (1997), cap. 5;

Pindyck, R. S. y Rubinfeld, D. L. (1998), cap. 11; Gujarati, D. N. (1997), cap. 16; Greene, W.

H. (1999), cap. 19; Novales, A. (1993), cap. 16; Baltagi, B. H. (1998), cap. 13; Verbeek, M.

(2000), cap. 7; Davidson, R. y MacKinnon, J. G. (1993), cap. 15.

Bibliografía complementaria: Franses, P.H. y Paap, R. (2001), cap. 4; Aparicio, M. T. y

Villanúa, I. (1999); Dhrymes, P. J. (1984), cap. 7; Goldberger, A. S. (1998), cap. 17; Fomby, T.

B. et al. (1984), cap. 16; Judge, G. R. et al. (1988), cap. 18;

Conocimientos previos necesarios

Dado que este tema se imparte en la última asignatura de la licenciatura de

Economía, los alumnos ya presentan una sólida formación que les permitirá comprender

el tema aquí propuesto sin problemas. Concretamente, los conceptos previos necesarios

para seguir de forma correcta el tema de variables dependientes limitadas son los

siguientes:

5

Variables cualitativas (ficticias o variables dummy)

Modelo de regresión lineal y su estimación

Método de estimación por Mínimos Cuadradros Generalizados (MCG) y estimación

por Máxima Verosimilitud (MV)

Contrastes de validación del modelo y contrastes de hipótesis

Nociones básicas sobre el concepto de probabilidad, función de distribución y

función de densidad

De este modo, este tema tiene el atractivo añadido de requerir y mostrar la utilidad

de algunos de los conceptos ya estudiados en unas circunstancias distintas a aquellas en

las que se habían planteado, ofreciendo una perspectiva global de los pasos a seguir en

el análisis. Además, de ello, por supuesto, este tema presenta un importante valor

añadido, dado que con él se ofrece el tratamiento de ciertos modelos peculiares y,

además muy comunes en economía, caracterizados por presentar una variable

dependiente de diferente naturaleza a la de los modelos utilizados hasta este momento

en las distintas asignaturas de econometría.

6

MODELOS DE VARIABLE DEPENDIENTE LIMITADA

1. INTRODUCCIÓN

Hasta este momento hemos estudiado los modelos de regresión, en los que

hemos supuesto que existe una relación lineal de causalidad entre una variable que

llamamos dependiente y un conjunto de variables que explican su comportamiento, a

partir de información relativa a consumo, renta, etc. de una muestra de individuos (corte

transversal) o de la evolución agregada (serie temporal). En cualquier caso, siempre se

ha considerado que el valor de las observaciones de la variable dependiente representa

una cantidad (de euros, de toneladas, etc. ) y varía en un rango suficientemente amplio

como para considerar que tiene un comportamiento similar a una variable aleatoria con

distribución normal.

Sin embargo, en economía se plantean numerosos problemas y cuestiones de

interés en los que tal supuesto no se cumple. En estos casos, se dice genéricamente que

nos encontramos en el caso de variables dependientes limitadas. Sin embargo, entre

ellas, puede diferenciarse claramente tres tipos de variables: variable dependiente

cualitativa, truncada y censurada. Al análisis de las mismas nos ocuparemos a lo largo

del presente tema.

En Econometría I se consideró el tratamiento de las variables cualitativas o

variables ficticias con objeto de incorporar en un Modelo Lineal General (MLG)

variables explicativas cualitativas tales como el sexo del individuo, lugar de residencia,

etc. En el presente tema consideramos la explicación de dichas variables; es decir, ahora

constituyen la variable a explicar. El planteamiento más habitual se refiere al análisis de

problemas de elección de los distintos agentes económicos entre un conjunto limitado

de alternativas mutuamente excluyentes.

Indudablemente, al hablar de elección, debemos distinguir entre si se elige entre

dos o más alternativas. Aunque el número de ejemplos posibles es elevadísimo,

podemos citar, entre los primeros, el análisis de decisión entre comprar el artículo A o el

B, tener en propiedad o en alquiler la vivienda habitual, participar o no en la población

activa, ir a un colegio público o a una privado, devolver o no un préstamo, etc.

7

Al hablar de elección entre varias alternativas, es necesario distinguir los casos

en los que las alternativas estén reflejando un rango de ordenación natural y los que no.

Hablaremos de alternativas ordenadas cuando, por ejemplo, nos refiramos a las

alternativas ofrecidas a ciertos agentes encuestados en relación a su grado de

conformidad con cierta afirmación: muy en desacuerdo, en desacuerdo, indiferente, de

acuerdo, muy de acuerdo. Por el contrario, un ejemplo de alternativas no ordenadas

vendría dado por la selección del medio de transporte que elige un individuo para

desplazarse hasta su lugar de trabajo: utilizar coche, ferrocarril, autobús u otro medio de

transporte.

En cualquier caso, se tratará de formular modelos econométricos que permitan

explicar la elección de los agentes económicos utilizando como variables explicativas

tanto variables que identifican las características propias del decisor como variables que

caracterizan el conjunto de elección. A partir de una muestra de datos se estimaría un

modelo que nos permitiría efectuar inferencias estadísticas acerca del comportamiento

medio de la población. Los modelos de elección así planteados reciben el nombre

genérico de Modelos de Variable Dependiente Cualitativa o Modelos de Elección

Discreta (MED). Si se representa la elección entre dos alternativas se habla de modelos

MED dicotómicos (o binarios), o modelos de elección binaria. Por el contrario, si se

representa la elección entre más de dos alternativas se habla de MED múltiples o

generales, los cuales se clasifican entre ordenados, cuando entre las alternativas existe

un orden natural, y o no ordenados, en caso contrario.

Al igual que en el caso de los modelos de variable dependiente continua, los

resultados obtenidos de este proceso de estimación serán de utilidad para el análisis

estructural, la simulación o la predicción. Por ejemplo, con relación a los casos

formulados, es de esperar que si una empresa conoce cómo afecta a la decisión de

compra de su producto factores tales como el precio o la publicidad, será capaz de

decidir más eficazmente qué estrategia seguir en relación a los mismos con objeto de

incrementar su cuota de mercado; en relación a la elección entre devolver o no el

préstamo, si el director de una sucursal bancaria dispone de un MED estimado, podrá

decidir con más garantías de éxito la concesión de un determinado préstamo a un nuevo

cliente. Finalmente, en el resto de ejemplos formulados, el gobierno puede ser uno los

8

beneficiarios de la información, ya que podrá conocer a qué tipo de población debe

incentivar si quiere facilitar la adquisición de una vivienda, la participación en el

mercado laboral, o la utilización del transporte público para ir al trabajo.

Finalmente, las variables dependientes truncadas y censuradas siguen variando

en un rango suficientemente amplio como para considerar que siguen distribuciones

normales, pero presentan algún tipo de limitación. Una muestra ha sido truncada si ha

sido extraída de un subconjunto de una población mayor. De esta forma, un ejemplo

común de variable dependiente truncada sería un análisis del nivel de ingresos sobre la

base de datos de ingresos por encima o por debajo de un determinado umbral. En este

tipo de casos, la solución consiste en definir la función máximo verosímil asociada al

problema en cuestión.

Por otra parte, una muestra ha sido censurada si, aunque no se ha excluido

sistemáticamente ningún tipo de observación, se ha suprimido parte de la información

de la muestra (por desconocimiento o no). Continuando con el ejemplo anterior, se

obtendría una muestra censurada si, en lugar de no observar los ingresos por encima o

por debajo del umbral, éstos aparecen en la muestra como si fueran iguales al umbral.

La solución a este planteamiento se analizará a partir del modelo tobit.

2. MODELOS DE ELECCIÓN DISCRETA

En este apartado comenzaremos exponiendo la especificación y estimación de

tres modelos de elección binaria: el modelo lineal de probabilidad, el modelo probit y el

modelo logit. Posteriormente expondremos una breve introducción a los modelos de

elección múltiple.

2.1. Modelos de elección binaria

Tal y como hemos indicado, en este epígrafe se tratará de explicar una variable

cualitativa que, normalmente, reflejará un proceso de decisión entre dos alternativas, a

partir de ciertos determinantes de decisión. Dichos determinantes serán las variables

explicativas del modelo y reflejarán tanto características propias del problema de

9

elección como del propio individuo. Por ejemplo, nos centraremos en el análisis de los

factores determinantes en la elección entre dos productos A y B. Para ello,

dispondremos de una muestra de individuos, parte de los cuales habrán elegido el

producto A y, el resto el producto B (alternativas mutuamente excluyentes). Como

variables explicativas del problema puede incluirse algún tipo de variable que permita

comparar los precios de los dos productos, cierto tipo de variables que reflejen el nivel o

gasto en marketing invertido en cada uno de los productos, así como determinadas

características sociodemográficas de los individuos (renta, edad, educación, etc.).

Al igual que cuando se trataba la consideración de aspectos cualitativos como

variables explicativas de un modelo, se debe comenzar cuantificando la variable

cualitativa objeto de análisis, variable dependiente, iy . Al igual que entonces, se utiliza

la notación 0/1, adoptando, por ejemplo, el siguiente criterio:

=B artículo elcomprar a,alternativ segunda la elige individuo el si0

A artículo elcomprar ejemplo,por a,alternativ primera la elige individuo el si1ii

yi

Si, para plantear gráficamente el problema, nos planteamos inicialmente

considerar únicamente la variable definida como el ratio entre los precios de ambos

productos, BdeprecioAdeprecio , se obtiene la nube de puntos representada en el Gráfico 1. En él

se observa como, aunque mayoritariamente, se compra el producto A, éste siempre es el

adquirido cuando el ratio entre precios es menor que la unidad, es decir, cuando el

producto B es más caro. En caso, contrario, (ratio entre precios mayor a la unidad),

aparece un importante grupo de consumidores que pasa a adquirir el producto B.

Gráfico 1. Nube de puntos asociada al problema de decisión

0

0.2

0.4

0.6

0.8

1

1.2

0.00 0.50 1.00 1.50 2.00

Ratio de precios (Precio de A / Precio de B)

yi: C

ompr

a el

pro

duct

o A

10

Veamos cómo formulamos y estimamos el/los modelo/s que nos permitan analizar este

problema de elección.

2.1.1. El Modelo de Probabilidad Lineal: Formulación, estimación y problemas

El Modelo de Probabilidad Lineal (MPL) es el modelo más sencillo para

abordar el problema objeto de estudio. Se plantea al suponer que la variable dependiente

iy se relaciona linealmente con las variables explicativas del modelo. Es decir, en el

caso más sencillo planteado anteriormente con una única variable explicativa, el MPL

se especificaría en los siguientes términos:

iii uxy ++= 21 ββ Ni ,...,2,1= (1)

donde la iy es la variable dicotómica que toma el valor 1 o 0 según se compre el

producto A o el B; i

ix

=

BdePrecioAdePrecio ; 1β y 2β son los parámetros del modelo; y,

donde iu es una variable aleatoria distribuida independientemente con esperanza

matemática cero, que conforma la parte aleatoria del modelo (conjunto de factores que

se suponen individualmente irrelevantes). Además, supondremos, el caso más general

relativo a una muestra de corte transversal referida a un total de N individuos

pertenecientes a la misma población.

La estimación del modelo (1) se representa en el Gráfico 2. Lógicamente, la

pendiente negativa de la recta de regresión recoge el hecho observado de que si aumenta

el ratio de precios disminuye la compra del producto A.

Gráfico 2. Ajuste lineal del modelo de probabilidad lineal

0

0.5

1

1.5

0.00 0.50 1.00 1.50 2.00

Ratio de precios (Precio de A / Precio de B)

yi: C

ompr

a el

pro

duct

o A

iy^

11

La generalización del modelo lineal simple al caso general se representaría

lógicamente a partir de la siguiente expresión:

iiikikii u'βxuxβ...xββy +=++++= 221 Ni ,...,2,1= (2)

donde ),...,,( 21'

kiiii xxxx = representa el vector fila compuesto por un término

independiente ( 11 =ix ), y 1−k variables explicativas ix2 , ix3 ,.. kix para el individuo i

que se suponen fijas en el muestreo (deterministas); kβββ ,..., 21 , son los parámetros

desconocidos; y, donde iu es el término de perturbación, de nuevo, variable aleatoria

distribuida independientemente con esperanza matemática cero.

En notación matricial, (2) vendría dado por: uXY += β , siendo Y el vector de

observaciones de la variable dependiente ( N x1); X , la matriz de variables explicativas

( N x k ); β , el vector de parámetros desconocidos ( k x1): y, u , el vector de

perturbaciones ( N x1).

La denominación del modelo así formulado como MPL se debe a que la

esperanza condicionada de la variable dependiente, o parte sistemática del modelo

β'ix , representa la probabilidad de que un determinado individuo elija la alternativa

denotada por la unidad (en nuestro caso, comprar el producto A), dado su vector de

características ix . En efecto, si en la expresión (2) calculamos el valor esperado de cada

observación de la variable dependiente iy , dado el vector de características ix :

β'iii xxyE = (3)

y, por otro lado, teniendo en cuenta que iy es una variable discreta, su valor esperado,

dado el vector de características ix , es la suma de los dos valores que toma esta variable

multiplicados por la probabilidad de que tome cada uno de los mismos, es decir:

iiiiiiiii PxyPxyPxyPxyE ====⋅+=⋅= 10011 (4)

Igualando ambas expresiones se obtiene:

12

ββββ '...221 ikikii xxxP =+++= (5)

Por lo tanto, el MPL describe la probabilidad de que un individuo i elija la

alternativa denotada por la unidad en función del valor de los determinantes del

problema de elección (variables explicativas). En consecuencia, una estimación de

dicha probabilidad, ^

iP , se obtendría a partir de la estimación de los parámetros del

modelo por Mínimos Cuadrados Ordinarios (MCO):^^

'βii xP = (6)

lo cual nos lleva a una precisión esencial en este tipo de modelos consistente en que las

estimaciones de la variable dependiente ^

iy se pueden interpretar como las estimaciones

de la probabilidad de que 1=iy y no como la estimación de un valor concreto de iy .

Asimismo, para interpretar el vector de parámetros se distinguirá el caso de

variables continuas y discretas (variables ficticias):

• Si la variable hx es continua, hhi

i

xP

β=∂∂ (7)

• Si la variable hx es discreta, hhiihii xPxP β==−= 01

En el caso de variables continuas, el parámetro indica la variación en la

probabilidad de que el individuo elija la alternativa denotada por la unidad ante

variaciones unitarias en la respectiva variable explicativa. En el caso de las variables

discretas, el parámetro respectivo mide el cambio en la misma probabilidad como

consecuencia del paso del valor 0 a 1 en dicha variable.

Pese a la sencillez en la especificación del MPL, éste presenta una serie de

problemas que es necesario considerar:

1. La perturbación aleatoria del MPL iu no es una variable aleatoria normal. En

efecto, dados los dos únicos valores que toma la variable dependiente iy , el término de

13

perturbación toma dos únicos valores con probabilidades idénticas a las de los valores

de iy :

Valor de iy Prob iy Valor de ii yu Prob ii yu

1 iP β'1 ix− iP

0 1- iP β'ix− 1- iP

En consecuencia, la distribución de probabilidad presenta dos puntos de

acumulación de frecuencias, por lo que no es una distribución continua y, por tanto, no

se distribuirá según una normal. Como ya se estudió en Econometría I, este hecho no

afecta a la estimación de los parámetros del modelo por Mínimos Cuadrados Ordinarios

(MCO) pero sí invalida la etapa de inferencia del modelo. No obstante, este último

punto tampoco representa un importante problema dado que si se dispone de un tamaño

muestral suficientemente grande, los estimadores MCO tenderán a la distribución

normal1 y, en consecuencia, la inferencia se realizará mediante los estadísticos ya

conocidos.

2. El MPL sufre un problema de heteroscedasticidad. En efecto, puede

comprobarse como:

( ) ( ) ( )( ) ( ) ( )( )( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )iiiiii

iiiiiiii

iiiiiiii

iiii

PPPPPP

PPPPPxPx

yuyuyuyu

uEuEuEuVar

−=+−−=

=−−+−=−−+−=

===+===

==−=

111

111''1

0prob0valor1prob1valor2222

22

22

ββ (8)

y, por tanto, la varianza del término de perturbación del modelo es una función de las

probabilidades, las cuales son función de cada una de las observaciones de las variables

ix . En consecuencia, la varianza de iu no es constante a lo largo de la muestra2 y, por lo

tanto, el MPL es heteroscedástico. Concretamente, a partir de la expresión anterior y,

1 La prueba está basada en el Teorema Central del Límite y puede encontrarse en Malinvaud (1966).

2 Puede deducirse como para las observaciones con probabilidad de que se elija la primera alternativa(denotada por la unidad) cercana a 0 o a 1 la varianza será relativamente baja, mientras que para aquellas

cuya probabilidad está más cerca de 21 la varianza será mayor.

14

teniendo en cuenta la hipótesis de independencia de las perturbaciones, se obtiene la

siguiente matriz de varianzas y covarianzas del vector de perturbaciones del modelo:

Ω=

−

−−

=

)1(...00.........0...)1(00...0)1(

22

11

NN PP

PPPP

uVar (9)

Ante este problema, como ya se comentó en Econometría I, los estimadores

Mínimos Cuadrados Ordinarios (MCO), aunque insesgados y consistentes, serán

ineficientes. Como solución al problema se ofrecerá la estimación por Mínimos

Cuadrados Generalizados (MCG).

Ahora bien, la estimación por MCG no es aplicable, en general en este caso,

debido al desconocimiento de la matriz Ω . En consecuencia, es necesario, en primer

lugar, proceder a su estimación, a partir de la cual se derivarán los correspondientes

estimadores Mínimo Cuadrados Generalizados Factibles (MCGF). El procedimiento de

estimación, por tanto, se descompone en dos etapas:

1) En primer lugar, a partir de los estimadores ^β obtenidos de la estimación

MCO del modelo (2), se estiman los elementos desconocidos de Ω ,

mediante la expresión:

−=

−=

^^^^^'1'1 ββ iiiii xxPPuVar (10)

No obstante, aquí surge un problema, dado que en la estimación MCO

aplicada al MPL (ver gráfico 2) nada permite asegurar que la estimación de la

probabilidad, ^

iP , quede circunscrita al intervalo [0,1]. En el caso de que caiga

fuera de dicho intervalo, la matriz ^Ω tiene elementos negativos sobre su

diagonal. La solución consiste en llevar a cabo la modificación de dicha matriz,

bien mediante la eliminación de las observaciones para las que ocurre el

15

problema o bien estableciendo el valor de las probabilidades estimadas negativas

y superiores a la unidad en, por ejemplo, 0.01 ó 0.99, respectivamente.

2) En la segunda etapa, tras haber obtenido la estimación de la matriz de

varianzas y covarianzas (^Ω ), la estimación de los parámetros de posición del

modelo vendría dada por la expresión:

Ω

Ω= −

−

− YXXXGF1

^1

1^^

''β (11)

O, lo que es lo mismo, se podría efectuar una regresión MCO sobre las variables

resultantes al dividir las variables originales correspondientes a cada individuo

i -ésimo entre su respectiva desviación típica estimada

−

^^1 ii PP :

−

+

−

++

−

+

−

=

−

^^^^^^

22^^1^^

1

1

1...

11

1

1 ii

i

ii

kik

ii

i

iiii

i

PPu

PP

x

PP

x

PPPP

yβββ

3. Un problema mucho más grave, se debe al hecho de que se continúa sin poder

garantizar que las probabilidades estimadas mediante los estimadores MCGF

calculados, ^

^^

' GFii xP β= no puedan ser negativas o superiores a la unidad.

Ante este importante problema, se han planteado en la literatura diversas

soluciones. Una de ellas ha consistido en llevar a cabo la estimación restringiendo la

parte sistemática del modelo al intervalo [0,1]. Sin embargo, un importante problema

inherente a esta alternativa es que no puede garantizarse que tal acotación se mantenga a

la hora de predecir, dado cualquier vector futuro de características. La solución

normalmente adoptada, en este caso, ha consistido en establecer otro conjunto de

restricciones adicionales sobre la información postmuestral y, sobre todo, sobre los

valores extremos de ix . Sin embargo, esta solución también ha acarreado problemas en

cuanto que no resulta clara la asociación de valores extremos de la predicción de la

16

parte sistemática con los valores extremos de ix , ya que tales predicciones también

dependen de los propios parámetros de la relación. En consecuencia, puede decirse que

esta alternativa no ha sido aplicada con carácter general.

Otra solución adoptada ha consistido en fijar las probabilidades en 0 o 1 para

aquellos casos en que β'ix excedía el límite inferior o superior, respectivamente. Esta

solución ha dado lugar a hablar del modelo de probabilidad lineal restringido. Sin

embargo, esta solución plantea problemas debido a que podríamos predecir una

ocurrencia con una probabilidad de 1 cuando es posible que pueda no ocurrir, o con una

probabilidad de 0 cuando en verdad podría ocurrir.

4. Finalmente, un último importante problema asociado a este modelo viene

dado por la propia linealidad del MPL. Como hemos comprobado a partir de la

interpretación de los parámetros, el efecto marginal de una determinada variable sobre

la probabilidad es constante a lo largo de la muestra y, por tanto, independiente de la

situación inicial del individuo. Esto implica que, suponiendo que en nuestro ejemplo se

mide la renta en miles de euros, ante una variación unitaria (1000 euros) en el nivel de

renta la probabilidad de comprar el producto A variará en una misma cantidad hβ ,

independientemente de estar hablando de niveles iniciales de renta de 6000, 12000,

24000 o 48000 euros. Esta implicación no parece realista, ya que lo que se esperaría es

que a ambos extremos de la distribución de renta, la probabilidad de comprar el

producto no se viera afectada por un pequeño incremento en la renta. Con respecto a los

precios o a cualquier otra variable el razonamiento es análogo.

Ante los problemas mencionados, aparece en la literatura otro tipo de modelos

alternativos, que garantizan que las probabilidades estimadas se encuentren entre los

límites lógicos 0 y 1, a la vez que definen a las mismas como funciones no lineales de

las variables explicativas. A ellos nos referiremos a continuación.

17

2.1.2. Los modelos probit y logit: Formulación, estimación y validación

2.1.2.1. Formulación de los modelos probit y logit

Una forma de solucionar el problema asociado a la linealidad del MPL y, a su vez,

garantizar que la probabilidad estimada pertenezca al intervalo [0,1] es mediante la

utilización de las funciones de distribución de las variables aleatorias, (.)F . Aunque

cualquier función de distribución sería adecuada, las más utilizadas son la distribución

normal estándar y la logística, cuyas expresiones generales son las siguientes:

a) Función de distribución normal estándar:

( ) dteztiz

i2

2

21 −

∞−∫=Φ

π(12)

donde t es una variable aleatoria normal tipificada, )1,0(N .

b) Función de distribución logística:

( )iziz

iz

i eeez −+

=+

=Λ1

11

(13)

Estas dos funciones son muy similares. Ambas son continuas, toman valores

acotados entre 0 y 1 y son monótonas crecientes respecto a iz (Gráfico 3). Recordar

además, que dichas funciones de distribución son las integrales (y por tanto, se obtienen

a partir del área existente bajo la función desde ∞− hasta un determinado punto) de sus

respectivas funciones de densidad, representadas en el Gráfico 4. Como se observa en el

mismo, ambas se representan como campanas de gauss, simétricas en torno a cero. En

consecuencia, tales funciones de densidad son la derivada de las respectivas funciones

de distribución.

Gráfico 3. Funciones de distribución normal estándar y logística

0

0.5

1

Normal Logíst icaiz0

18

Gráfico 4. Funciones de densidad normal estándar y logística

No obstante, la siguiente pregunta que debemos formularnos es ¿tiene

realmente sentido utilizar una función de distribución para especificar el modelo?

A este respecto, podemos interpretar la especificación de estos modelos a partir del

establecimiento del comportamiento subyacente del agente decisor. Concretamente, se

asume que cuando un agente económico debe elegir entre dos alternativas, establece la

utilidad que le reporta cada una de ellas, dadas una serie de características relevantes

recogidas en ix , y elige aquella alternativa que le reporta una utilidad mayor.

En base a ello, bajo este planteamiento, se define una variable *iy que representa

la diferencia entre las utilidades proporcionadas por la primera y la segunda alternativa,1iU y 0

iU , respectivamente (en nuestro ejemplo, la utilidad que le reporta al individuo

comprar el artículo A menos la utilidad que le reporta comprar el artículo B). Al igual

que las utilidades, la nueva variable *iy no será observable y, por este motivo y dada su

definición, recibe el nombre de variable latente o índice subjetivo de utilidad:

( ) ( ) ( )iiiiii xyxUxU *01 =− (14)

De esta forma, se supone que un individuo i elegirá la primera opción cuando la

diferencia de utilidad supera un determinado umbral o punto crítico, que se establece en

cero sin pérdida de generalidad3. En consecuencia, teniendo en cuenta que iy es la

observación de la elección efectuada por el agente i -ésimo, resulta que:

3 Dado que la variable *

iy no se puede medir y, por tanto, el modelo de regresión especificado no sepodría estimar, el valor 0 es arbitrario.

0.00

0.20

0.40Normal Logística

iz0∞− ∞

19

≤⇒≤

>⇒>=

0si0

0si1*01

*01

iii

iiii yUU

yUUy (15)

Asumiendo una relación lineal entre las variables, la especificación de *iy viene

dada por la siguiente expresión:

iiikikii xxxy εβεβββ +=++++= '221

* ... o matricialmente εβ += XY * (16)

donde el término de perturbación iε recoge la posibilidad de que dos individuos en las

mismas circunstancias escojan alternativas distintas por elementos no controlables como

los gustos, etc.

A partir de las expresiones anteriores, iP puede expresarse formalmente a través

de la siguiente expresión:

)(11

001'''

'*

ββεβε

εβ

iiiii

iiiiii

xFxPxP

xPyPxyPP

−−=−≤−=−>=

=>+=>===(17)

De forma que la relación entre la probabilidad de que el individuo i elija la

alternativa denotada por la unidad (el producto A) y las variables explicativas de la

elección se establece a partir de la función de distribución de probabilidad del término

de perturbación, ( )..F Si ésta se determina a partir de una función de densidad simétrica

alrededor de cero se cumple ( ) ( )ββ '' 1 ii xFxF −=− y, por tanto, se obtiene:

)(1 'βiiii xFxyPP === (18)

En consecuencia, se considera a la probabilidad iP como la ordenada de una

función de distribución (.)F y, por lo tanto, estará acotada entre 0 y 1. Si se identifica a

dicha función (.)F con la distribución acumulada de una normal estándar (es decir, la

distribución de iε es una normal estándar), se obtiene el modelo probit o, menos

frecuentemente, modelo normit:

( ) dtexxyPPtx

iiii

i

2'2'

211

−

∞−∫=Φ===β

πβ (19)

20

Si (.)F es ahora la distribución acumulada logística (la distribución de iε es una

logística) se obtiene el modelo logit:

( )ββ

β

β ''

'

11

11 '

ii

i

xx

x

iiiiee

exxyPP−+

=+

=Λ=== (20)

Ambas especificaciones resultantes proporcionan valores de la probabilidad

comprendidos entre los valores extremos 0 (cuando −∞→β'ix ) y 1 (cuando +∞→β'ix )

y, a su vez, representan especificaciones no lineales con respecto a la probabilidad iP .

Sobre la base de los modelos especificados en (19) y (20), resulta directo

concretar tres resultados generales que posibilita el presente marco de trabajo:

a) Estimar/predecir la probabilidad de que el individuo i-ésimo elija una

alternativa determinada. Para ello, simplemente es necesario sustituir en (18) el vector

de parámetros β por su correspondiente vector de estimadores:

)(1^

'^

βiiii xFxyPP ===

b) Obtener una aproximación al valor medio del índice subjetivo de utilidad.

Una vez estimados los parámetros, la inversa de la función de distribución (.)F ,

(.)1−F , permite que dada una ordenada )(^

' βixF , se pueda hallar la abscisa

correspondiente ^

' βix , obteniendo, por tanto, una estimación del valor medio de tal

índice subjetivo. Operando así, se obtiene:

• En el caso del modelo probit:^

'^

'1 ββ ii xx =

Φ− (21)

• Y, para el modelo logit:^

'^

^

1ln βi

i

i xP

P=

− (22)

c) Estimar el efecto de un cambio unitario en cada una de las variables

explicativas sobre la probabilidad de que se elija la alternativa denotada por la unidad.

21

Distinguiremos entre los efectos de las variables explicativas continuas y discretas

(ficticias).

c1) En el caso de que la variable hx sea continua, los efectos vienen dados por

las siguientes expresiones4:

• En el caso del modelo probit:

( ) ( ) hih

ix

hi

i

hi

i xexx

xP

ββφβπ

ββ

'2

2''

21

==∂Φ∂

=∂∂

− (23)

donde ( ).φ denota la función de densidad de la distribución normal estándar.

• En el caso del modelo logit:

( )( ) [ ] ( ) hihiih

x

x

hi

x

hi

i

hi

i xPPe

exe

xx

xP

i

ii

ββλβββ

β

ββ'

2

'

11

11

'

''

=−=+

=∂

+∂

=∂Λ∂

=∂∂

−

−−

(24)

donde ( ).λ denota la función de densidad de la distribución logística.

Por tanto, el efecto de un cambio en hix depende, no sólo de los coeficientes

estimados, sino también, de los valores adoptados por las variables explicativas

contenidas en ix . Por este motivo, para interpretar el modelo estimado, resulta útil

calcular los efectos marginales para varios valores de las variables explicativas, por

ejemplo, para los valores medios de los regresores5 o en otros puntos que puedan

4 En estos modelos, los coeficientes miden la relación lineal entre el índice subjetivo *

iy y lasvariables explicativas. En consecuencia, las expresiones (21) y (22) reflejan el efecto de uncambio unitario de la variable explicativa sobre la inversa de las respectivas funciones dedistribución.

5 A este respecto, hay dos posibilidades. Una de ellas consiste en evaluar las expresionesobtenidas tomando como valores de las variables explicativas las medias muestrales de losdatos. La otra, consiste en evaluar los efectos marginales en cada observación y calcular despuésla media muestral de los efectos marginales individuales. Con muestras grandes, se obtendránlos mismos resultados en los dos casos, pero no en el caso de tamaños muestrales pequeños o

22

resultar de interés. Además, estas expresiones permiten que, suponiendo todo lo demás

constante, la variación de la probabilidad ante la variación unitaria en hix sea diferente

en función del nivel inicial del regresor. Este hecho puede observarse a partir del

Gráfico 4, en el que se representaba las funciones de densidad de las distribuciones

normal estándar y logística, estableciendo β'ii xz = .

Por otro lado, como se aprecia en las expresiones anteriores, en ambos modelos,

el signo del efecto de un cambio en hix corresponde al signo de su coeficiente hβ (ya

que el otro término de las derivadas parciales es siempre positivo). Por lo tanto, en estos

modelos se puede interpretar la dirección del cambio en la probabilidad (pero no su

magnitud) como consecuencia de un cambio unitario en las variables explicativas a

partir del signo del correspondiente parámetro.

c2) Finalmente, en el caso de las variables ficticias del modelo, el interés radica

en analizar las diferencias en la probabilidad de que 1=iy bajo las dos situaciones que

caracteriza el regresor. Por ejemplo, ¿cuál sería la probabilidad de comprar el producto

si ha sido expuesto a publicidad o no?. También puede ser interesante calcular el

cómputo de las derivadas parciales a partir del efecto marginal del cambio en una

unidad de la/s variable/s continua/s para ambos valores de la variable ficticia (0/1).

2.1.2.2. Estimación de los modelos probit y logit

La estimación de los modelos probit y logit se realiza mediante el método de

máxima verosimilitud (MV). Es decir, se trata de obtener aquellos valores de los

parámetros que maximizan la función de verosimilitud de la muestra. Para establecer la

función de verosimilitud hay que tener en cuenta que la variable aleatoria iy sólo puede

adoptar dos valores, 1 y 0, con probabilidades respectivas iP y (1- iP ). En consecuencia,

la función de probabilidad de una respuesta iy cualquiera vendrá dada por:

moderados. Lo más habitual es utilizar el segundo procedimiento, es decir, calcular la media delos efectos marginales individuales.

23

( ) ( ) iiy

iy

ii PPyP −−=

11 (25)

Puesto que se supone que los datos de Y provienen de una muestra aleatoria

simple de tamaño N (lo que requiere que el conjunto de observaciones sean

estadísticamente independientes), la función de verosimilitud, que dependerá de los

parámetros poblacionales β , se obtendrá como producto de las N probabilidades

individuales. Por tanto,

( ) ( ) ( )∏∏=

−

=

−==N

i

yi

yi

N

ii

ii PPyPL1

1

1

1β (26)

No obstante, dado que es preferible trabajar con las funciones del logaritmo de la

función de verosimilitud y, teniendo en cuenta que, con carácter general, ( )β'ii xFP = , se

obtiene:

( ) ( ) ( ) ( )( )( ) ( )( )∑ ∑

∑∑

= =

==

−+=

=−−+==

1 0

''1

'

1

'

1lnln

1ln1lnln

i iy yii

N

iii

N

iii

xFxF

xFyxFyLl

ββ

βββ(27)

A partir de las expresiones generales (26) o (27), la especificación concreta de

( )β'ixF de acuerdo con la distribución normal estándar o logística, según expresiones

(12) y (13), respectivamente, permite establecer las respectivas funciones de

verosimilitud o su logaritmo para los modelos probit y logit.

De acuerdo con la definición de los estimadores MV, la condición necesaria de

máximo exige igualar a cero el vector gradiente, o en otros términos, igualar a cero el

vector de primeras derivadas obtenido derivando (27) con respecto a β :

( ) ( )( ) ( )( ) ( )

( )( ) ( )( ) ( ) 0

1

11ln

1

'''

'

1

'''

=

−

−=

=

−−

−=∂

∂=

∑

∑

=

=

N

iii

ii

ii

N

iii

i

i

i

i

xxfxFxF

xFy

xxfxFy

xFyLS

βββ

β

ββββ

ββ

(28)

donde ( ) ( ).. 'Ff = es la derivada de la función de distribución, es decir, la función de

densidad (φ , para la distribución normal estándar yλ , para la logística).

24

El sistema a resolver, dado por (28), está constituido por funciones no lineales de

los parámetros y, por tanto, el estimador deberá obtenerse mediante algún algoritmo de

optimización numérico. Los métodos más indicados son los englobados bajo la

denominación general de “métodos del gradiente de segundo orden”, los cuales se

caracterizan por la utilización de la matriz hessiana o matriz de segundas derivadas de la

función objetivo para especificar la dirección de búsqueda en cada iteración. En general,

se sigue la siguiente secuencia de iteraciones:

( )mmmm S ββββ ⋅+=+ búsquedadedirección1 (29)

donde ( )mS β es el vector gradiente evaluado en mβ . El proceso se repite hasta alcanzar

la convergencia.

Los diferentes algoritmos existentes se diferencian en la dirección de búsqueda

utilizada:

i) El método de Newton-Raphson se obtiene al utilizar como dirección de

búsqueda menos la inversa de la matriz matriz hessiana, ( )β1−− H .

ii) El método de Scoring utiliza como dirección de búsqueda la inversa de la

matriz de información, ( )β1−I .

iii) El tercer método, es el sugerido por Berndt, Hall, Hall y Hausman (1974),

BHHH y, utiliza como dirección de búsqueda el inverso del producto exterior del

gradiente (Outer Product Gradient, OPG), ( ) ( ) ( )[ ] 1'1 −− = βββ SSG .

El algoritmo utilizado por defecto por el paquete TSP es el primero, el de

Newton-Raphson. En cualquiera de los tres casos, a medida que el proceso converge

hacia el vector de estimadores MV la distancia mm ββ −+1 se hace más pequeña. El

proceso se detiene cuando esta distancia se aproxima lo suficiente a cero, lo que ocurrirá

cuando el gradiente de la función esté muy próximo a cero.

25

Derivando (28) respecto al vector de parámetros obtenemos las condiciones de

segundo orden (hessiano) del problema:

( )( )( ) ( )( )

( )

( )( ) ( )( )

( )∑

∑

=

=

∂∂

−

−+

+

−

−+−=

∂∂∂

=

N

iii

i

ii

ii

N

iiii

i

i

i

i

xxxfxFxF

xFy

xxxfxFy

xFylH

1

''

''

'

1

''22'2'

2

1

11

'ln

ββ

βββ

βββββ

β

(30)

Expresión que, para el modelo logit se simplifica a:

( ) ( ) ( )[ ] '

1

''2

1'

lnii

N

iii xxxxlH ∑

=

Λ−Λ−=∂∂

∂= ββ

βββ (31)

A partir de la expresión anterior resulta muy claro que, en el caso del modelo

logit, la matriz Hessiana es definida negativa para cualquier valor de β . En

consecuencia, la verosimilitud logarítmica es globalmente cóncava y el vector de

estimadores máximo verosímiles será único. Lo mismo sucede en el caso del probit,

aunque la demostración no es tan evidente6. Los estimadores MV resultantes serán

consistentes, asintóticamente eficientes y se distribuyen asintóticamente como variables

normales. Además, la matriz de varianzas y covarianzas asintótica de los estimadores

coincide con la inversa de la matriz de información, es decir, con la inversa de la

esperanza del hessiano.

A partir de la expresión (30) y, teniendo en cuenta que ( ) ( )β'iii xFPyE == , se

obtiene la siguiente expresión para la matriz de información:

( ) ( )( ) ( )( )∑

= −=

∂∂

∂−=

N

i ii

iii

xFxFxxxflEI

1''

'2'2

1'ln

βββ

βββ (32)

Y, por tanto, la matriz de varianzas y covarianzas asintótica de los estimadores

MV viene dada por la expresión:

( ) ( )( ) ( )( )

1

1''

'2'1

^

asint 1Var

−

=

−

−==

∑

N

i ii

iii

xFxFxxxfIββ

βββ (33)

6 Vease Amemiya (1985, pág. 273-274) o Drymes (1984, pág. 342-345).

26

Las probabilidades estimadas en los dos modelos, logit y probit, son muy

parecidas, dado que ambas funciones también lo son, sobre todo para los valores

centrales de β'ix . En consecuencia, excepto en aquellas situaciones en las cuales existan

bastantes observaciones en las colas, los modelos probit y logit resultantes deben

conducir a resultados muy similares.

Sin embargo, los parámetros estimados en ambos modelos no son directamente

comparables. Amemiya (1981) sugirió efectuar las siguientes transformaciones para

realizar comparaciones entre las pendientes de las distintas estimaciones:

Probit

^

Logit

^6.1 ββ ≅ (34)

No obstante, esta comparación será adecuada si el número de veces que la

variable dependiente toma valores 0 y 1 es similar. Sin embargo, si el número de ceros y

unos es diferente, el factor de proporcionalidad tenderá a ser mayor que 1.6.

Concretamente, considerando que la varianza de la distribución normal es uno y la de la

logística 3

2π , deberán multiplicarse las estimaciones obtenidas en el modelo probit por

3π para hacerlos comparables con los coeficientes logit:

Probit

^

Logit

^

3βπβ ≅ (35)

aproximaciones a las que se sumaría 0.5 para el término constante de los modelos7.

7 La comparación de los parámetros de ambos modelos, probit y logit, con el modelo de

probabilidad lineal (MPL) es: para las pendientes, Probit

^

MPL

^4.0 ββ ≅ y

Logit

^

MPL

^25.0 ββ ≅ ; para el término constante, como en el caso anterior, es necesario

sumar a dichas aproximaciones 0.5.

27

2.1.2.3. Validación de los modelos probit y logit

En este apartado, distinguiremos entre los estadísticos a emplear para diversos

contrastes de especificación y ciertas medidas de bondad del ajuste utilizadas en este

tipo de modelos.

A) Contrastes de especificación

Comenzaremos planteando el contraste de dos supuestos establecidos a priori en

el modelo: el supuesto relativo a la distribución de probabilidad del término de

perturbación del modelo latente y la constancia en la varianza de dicha perturbación

(homoscedasticidad). El incumplimiento de cualquiera de dichos supuestos provoca

problemas de inconsistencia de los estimadores y, por lo tanto, es muy importante

contrastar su mantenimiento8. Seguidamente, plantearemos la estrategia de contraste de

cualquier tipo de hipótesis sobre los parámetros del modelo.

Comenzamos presentando el contraste general denominado contraste de la

matriz de información (MI) de White (White, 1982). Mediante el mismo se contrasta

H0: modelo correctamente especificado, frente a la alternativa H1: errores de

especificación asociados a heteroscedasticidad y/o mala especificación del término de

error en la distribución de la perturbación del modelo latente. En consecuencia, si no

puede rechazarse la hipótesis nula, el modelo estará correctamente especificado desde

ambos puntos de vista; sin embargo, si se rechaza la hipótesis nula es necesario

establecer otro tipo de contrastes específicos que nos orienten sobre la naturaleza del

problema, heteroscedasticidad y/o error en la distribución del error. En este sentido, se

ofrecerán contrastes específicos de heteroscedasticidad ya que, por un lado, es el

supuesto más comúnmente incumplido y, por otro, se soluciona fácilmente en el marco

de trabajo que nos ocupa. De esta forma, si se rechaza la H0: modelo correctamente

especificado, el siguiente paso consistirá en contrastar la posible presencia de

8 Otros supuestos establecidos a priori han sido la nulidad de las covarianzas de la perturbacióndel modelo latente (no autocorrelación) así como el carácter determinista de las variables delmodelo. El incumplimiento de ambos supuestos también genera inconsistencia. Sin embargo, suincumplimiento no es frecuente y, por tanto, no son habitualmente contrastados en la literaturaempírica.

28

heteroscedasticidad. Lo habitual será detectarla y corregirla utilizando, en primer lugar,

especificaciones alternativas del modelo y, en último término, utilizando el patrón de

heteroscedasticidad obtenido. Sobre dicho modelo final en el que se ha corregido dicho

problema, se procederá a calcular, de nuevo, el contraste de la MI para asegurarnos de

que el modelo está correctamente especificado. En el caso hipotético que no lo fuera, la

solución vendría dada por plantear otro tipo de distribución del error diferente a la

normal o la logística9 o por adoptar otro tipo de soluciones de tipo semiparamétrico o no

paramétrico que superan el objetivo de este curso. Esta última solución también será la

adoptada en el caso de que no se rechace la hipótesis nula de homocedasticidad,

habiendo rechazado que el modelo estaba correctamente especificado.

A1) Test general de la Matriz de Información

Como ya se ha comentado con anterioridad, a través de este contraste se

pretende contrastar la H0: modelo correctamente especificado, frente a la alternativa H1:

errores de especificación asociados a heteroscedasticidad y/o mala especificación del

término de error en la distribución de la perturbación del modelo latente.

La base de este contraste reside en la igualdad fundamental relativa a la matriz

de información, que se mantiene cuando el modelo está correctamente especificado:

( )

∂∂

∂∂

=

∂∂

∂−=

'2

'lnln

'ln

βββββ llElEI (36)

A partir de dicho principio, el estadístico de contraste se calcula como la suma

explicada no centrada de una regresión auxiliar cuyo regresando es:

−

−

^'

^'

^'

1 ββ

β

ii

ii

xFxF

xFy(37)

y los regresores:

9 Dado que ambas distribuciones son muy similares, lo habitual, será adoptar otro tipo dedistribuciones, Poisson, Exponencial, Laplace..., etc.

29

−

^'

^'

'^

'

1 ββ

β

ii

ii

xFxF

xxf y

−

^'

^'

'^

'

^'

1 ββ

β

β

ii

i

i

i

xFxF

vxd

xfd

(38)

siendo iv un vector columna que recoge los elementos diferentes (no repetidos) de la

matriz simétrica ii xx ' .

Para calcular el segundo regresor indicado en (38) en el modelo probit, es

necesario conocer que

−=

=

^'

^'

^'

^'

^'

^'

βφββ

βφ

β

βii

i

i

i

i

xxxd

xd

xd

xfd (39)

Para el caso del modelo logit, el cálculo es directo siendo igual a:

Λ−

Λ−

Λ=

=

Λ−

Λ

=

=

^'

^'

^'

^'

^'

^'

^'

^'

^'

^'

211

1

βββ

β

ββ

β

βλ

β

β

iii

i

ii

i

i

i

i

xxx

xd

xxd

xd

xd

xd

xfd

(40)

En consecuencia, los regresores para la regresión auxiliar del modelo logit

pueden simplificarse sustancialmente y son iguales a:

iii xxx '^

'^

' 1

Λ−

Λ ββ y '

^'

^'

^' 211 iiii vxxx

Λ−

Λ−

Λ βββ (41)

El estadístico MI resultante se distribuye asintóticamente como una 2χ con

( )2

1+kk grados de libertad, siendo k el número de parámetros del modelo de elección

binaria considerado.

30

No obstante, como ya se ha indicado con anterioridad, si se rechaza la hipótesis

nula de este contraste es necesario formular contrastes más específicos que nos revelen

la causa concreta del problema. En este sentido, se formula a continuación, cómo

contrastar la hipótesis nula de homoscedasticidad frente a un patrón concreto de

heteroscedasticidad.

A2) Contrastes específicos de heteroscedasticidad

Con carácter general, el patrón supuesto de comportamiento de la varianza del

término de error de la ecuación latente, iε , podría formularse como una función ( ).h de

q variables exógenas recogidas en iz 10, que pueden aparecer o no como explicativas

del modelo binario. La formulación de la hipótesis nula de homocedasticidad vendría

dada por:

( ) 1:0 =iVarH ε y ( )3

:2

0πε =iVarH (42)

para los modelos probit y logit, respectivamente, frente a:

( ) ( )αε '1 : ii zhVarH = y ( ) ( )απε '

2

1 3: ii zhVarH =

respectivamente, imponiendo la condición ( ) 10 =h , de tal forma que cuando el vector de

parámetros sea cero, la varianza sea constante y nos situemos en la hipótesis nula.

De este modo, contrastar homocedasticidad es equivalente a verificar:

0:0 =αH frente a 0:1 ≠αH (43)

y, por tanto, el planteamiento se reduce a un contraste de restricciones

paramétricas, el cual puede resolverse a partir de cualquiera de los tests clásicos

10 Las variables determinantes de la varianza de iε se formulan teniendo en cuenta que en elmodelo se describe la probabilidad de iy = 1.

31

asociados al principio de máxima verosimilitud: Wald (W), Razón de Verosimilitud

(LR) o Multiplicadores de Lagrange (LM).

Ante el mencionado patrón de heteroscedasticiad, el modelo latente (16) debe

transformarse del siguiente modo:

( ) ( ) ( )αε

αβ

α ''

'

'

*

i

i

i

i

i

i

zhzhx

zhy

+= (44)

A partir del cual, el modelo binario vendría dado por la siguiente expresión:

( ) ( )( )θαβ

ii

ii xF

zhxFP =

=

'

'

(45)

donde ( )''' ,αβθ =

El logaritmo de la función máximo verosímil se generalizaría a:

( ) ( ) ( ) ( )∑∑==

−−+

=

N

i i

ii

N

i i

ii

zhxFy

zhxFyL

1'

'

1'

'

1ln1ln,lnαβ

αβαβ (46)

Como ya se ha mencionado, el contraste propuesto puede realizarse a partir de

cualquiera de los principios W, LR y LM. Como se recordará, entre ellos, el único

estadístico que no requiere la estimación del modelo no restringido es el LM. El

estadístico de W sólo requiere la estimación de dicho modelo no restringido

(heterocedástico), mientras que el LR requiere la estimación de ambos.

RECORDATORIO:

• Wald:

−

−=

−

rRRVarRrRW^

1

'

^^'^

θθθ (47)

donde

^^

θVar es el estimador de la matriz de covarianzas evaluada en los

estimadores ^θ obtenidos en la última iteración del proceso de estimación del

modelo sin restringir.

32

• Razón de verosimilitud:

−−= LLnlLR R ln2 (48)

donde RLln y Lln denotan los logaritmos de la función de verosimilitud

evaluadas en los estimadores restringidos y no restringidos, respectivamente.

• Multiplicadores de Lagrange:

=

^^

^^'

RRR SVarSLM θθθ (49)

donde

^

'RS θ es el vector gradiente del modelo no restringido, evaluado en los

estimadores restringidos y,

^^

RVar θ es el estimador de la matriz de covarianzas

asintótica del estimador máximo verosímil, evaluado en los estimadores

restringidos. Este tipo de contraste está basado, por lo tanto, en las condiciones de

primer orden del modelo más general especificado bajo la hipótesis alternativa,

determinándose si son violadas en caso de que las evaluásemos en las estimaciones

de los parámetros del modelo restringido.

Los tres estadísticos anteriores son asintóticamente equivalentes y se distribuyen como

una 2qχ , donde q es el número de restricciones.

En el caso que nos ocupa, si se consigue estimar el modelo no restringido

expresado en (45), lo más sencillo es emplear el estadístico LR. En caso contrario, es

necesario utilizar el estadístico LM, el cual, como en otras ocasiones, puede calcularse a

partir de la estimación de una regresión auxiliar. Concretamente, coincide con N veces

el 2R no centrado de la regresión auxiliar de la variable dependiente:

−

−

^^

^

1 RiRi

Rii

xFxF

xFy

θθ

θ(50)

sobre las siguientes variables explicativas:

33

−

^

^^

^

1Rhi

RiRi

Ri

x

xFxF

xfθ

θθ

θkhNi ,...,2,1;,...,2,1 == (51)

donde ( )θhix representa la derivada de ( )θix con respecto a cada parámetro.

El estadístico se distribuye asintóticamente como una 2χ con q grados de

libertad (la dimensión de iz ).

Respecto a la forma concreta que toma la función ( ).h , algunos autores, como

Davidson y Mackinnon (1984), Lechner (1991) y Greene (1999), la asimilan a una

función de tipo exponencial, en concreto, ( ) ( )αα '' 2exp ii zzh = . Por otra parte, otros

autores como Pagan y Pak (1993) y Maddala (1994) consideran un patrón de

heteroscedasticidad de la forma ( ) ( )2'' 1 αα ii zzh += .

A3) Contrastes individuales sobre los parámetros del modelo.

En este caso, se trata de contrastar la hipótesis nula bh =β:H0 frente a la

alternativa bh ≠β:H1 , siendo lo más habitual contrastar la igualdad a 0, es decir, la

significatividad individual de los parámetros del modelo.

El método más sencillo de contraste se basa en el tradicional contraste de la t si

bien empleando en su definición la desviación típica estimada a partir de la matriz de

varianzas y covarianzas asintótica (inversa de la matriz de información). A partir de la

distribución asintóticamente normal de los estimadores, se utiliza la distribución normal

estándar para establecer los valores críticos:

34

)1,0(Var

^^

asint

^

Nb

A

h

h →

−

β

β(52)

A4) Contrastes de hipótesis conjuntas sobre los parámetros de posición del

modelo

Para contrastar hipótesis conjuntas o restricciones lineales sobre los parámetros

de posición del modelo (genéricamente denotados mediante la expresión rR =β ), se

pueden utilizar cualquiera de los estadísticos clásicos W, LR y LM.

Uno de los contrastes más habituales que se suelen realizar es el contraste de

nulidad de todos los coeficientes asociados a las variables explicativas del modelo o

contraste de significatividad global del modelo, es decir, contrastar si todos los

parámetros del modelo, excepto el término independiente, son cero:

0...:H 320 ==== kβββ

cerosontodosno:H1

Este contraste suele realizarse a partir del estadístico LR y, por tanto,

comparando el valor de la función de verosimilitud del modelo sin restringir (modelo

completo) ( Lln ) y el valor de la función de verosimilitud que se obtiene en un modelo

restringido bajo 0H ( RLln ). El estadístico LR se calcula como:

21lnln2 −→

−−= kAR LLLR χ (53)

B) Medidas de bondad del ajuste

Una medida de la bondad del ajuste es un estadístico resumen que indica la

precisión con la cual el modelo se aproxima a los datos observados, al igual que el

coeficiente de determinación 2R en el modelo de regresión lineal. Sin embargo, en el

35

marco de trabajo que nos ocupa, los valores del convencional 2R serán muy pequeños,

dado que los valores predichos son probabilidades y los valores reales de la variable

endógena son 0 o 1. En consecuencia, en este tipo de modelos, la precisión suele

juzgarse a partir de ciertas medidas alternativas que tratan de evitar el problema

señalado que, en muchos casos, se denotan como pseudo- 2R .

B1) Una de las medidas más utilizadas es el denominado Pseudo- 2R de

McFadden (1974), definido a partir de la comparación del logaritmo de las funciones de

verosimilitud de dos modelos, uno de ellos el que se quiere evaluar: 1ln L , y el otro que

únicamente contiene un término independiente: 0ln L . Se define a partir de la siguiente

expresión:

0

12

lnln1Pseudo

LLRMF −= (54)

y es una medida ofrecida por el TSP bajo el título 2R de Kullback-Leibler.

Si todos los coeficientes estimados para las variables explicativas del modelo

fueran iguales a cero, se obtendría que 01 lnln LL = , y el valor del 2R sería igual a cero.

En el caso opuesto, si todas las probabilidades de la función log-verosímil fueran

iguales a uno, el valor de la misma sería exactamente igual a cero, 0ln 1 =L , y se

alcanzaría el límite superior de la unidad.

En consecuencia, la interpretación de esta medida es similar a la del coeficiente

de determinación. Si está cerca de uno diremos que el ajuste es bastante bueno y, si está

cerca de cero el ajuste será malo.

B2) Pseudo- 2R propuesto por McKelvey y Zavoina (1975) es ligeramente

diferente ya que trata de medir la variación del índice subjetivo subyacente ( iy* ) que el

modelo es capaz de explicar. Adopta la siguiente expresión:

36

∑

∑

=

=

+

−

−

=N

iii

N

iii

MZ

Nyy

yyR

1

22_

*^*

1

2_*

^*

2Pseudo

σ

(55)

donde ^

'^* βii xy = ;

_*iy es su valor medio; N es el tamaño muestral; y 12 =σ , en el

modelo probit y 3

22 πσ = , en el modelo logit.

Esta medida no es ofrecida directamente por el TSP, pero merece la pena

calcularla por cuanto, al igual que la anterior, es una medida fiable en el sentido de ser

menos dependiente del número de observaciones con 1=iy (Windmeijer, 1995, entre

otros).

B3) Una forma alternativa de evaluar la bondad del ajuste consiste en evaluar la

capacidad del modelo para predecir las respuestas observadas.

Se parte del establecimiento de la predicción del modelo a partir de la

probabilidad estimada del modelo:

Se predice 1=iy si CxFP ii >

=

^'

^β (56)

Se predice 0=iy si CxFP ii ≤

=

^'

^β

Donde C es un umbral que, habitualmente se ha establecido en 0.5 y, es la

opción por defecto en muchos paquetes estadísticos. No obstante, autores como Philip

Hans Franses y Richard Paap en su libro “Quantitative Models in Marketing Research”,

editado por Cambridge University Press en 2001, utilizan el umbral definido como la

proporción de observaciones con 1=iy , es decir, N

yC

N

ii∑

=

== 1

1.

37

A partir de ahí, se elaboran tablas de clasificación en las que se recoge el

resultado de la comparación entre las observaciones de la variable dependiente y la

predicción efectuada a partir de los resultados obtenidos en la estimación del modelo y

la regla de actuación anterior.

TABLA DE CLASIFICACIÓN DE LAS PREDICCIONES

Predicción del modelo

CPi >^

Predicción: 1=iy

CPi ≤^

Predicción: 0=iy

1=iyN

P aciertosdenº11 = N

P erroresdenº10 = .1P

Observaciones0=iy

NP erroresdenº

01 = NP aciertosdenº

00 = .0P

1.P 0.P 1

A partir de esta tabla de clasificación, una medida de bondad del ajuste

comúnmente empleada ha sido la proporción de aciertos, conocida como Pseudo- 2R de

predicción:

espredicciondetotalaciertosdetotalnºPseudo 0011

2 =+= PPRp (57)

La medida anterior es proporcionada directamente por el paquete TSP bajo el

título fracción de predicciones correctas (Fraction of Correct Predictions). Sin embargo,

este sencillo estadístico tiene una validez limitada por cuanto puede no tener suficiente

poder discriminante. Por ejemplo, cuando la proporción de unos (ceros) en la muestra es

muy elevada, una regla de predicción tan ingenua como predecir para todos los

individuos unos (ceros) puede llevar asociada un 2Pseudo pR mayor que el asociado a

partir de la regla de decisión (56).

38

Ante este problema, Veall y Zimmermann (1992) recomiendan, a partir de

experimentos de simulación, el uso de la siguiente medida sugerida por McFadden y

otros (1977):

20.

21.

20.

21.0011

1 1 PPPPPPF

−−−−+

= (58)

Aunque no existe un límite inferior para 1F , las predicciones perfectas se obtendrán

para 11 =F . En consecuencia, el modelo que tenga el mayor valor de 1F será el modelo

de mejor capacidad predictiva.

Finalmente, surge el interrogante de qué especificación utilizar: modelo logit o

probit. En la práctica las dos estimaciones dan resultados similares por lo que

generalmente se estiman los dos modelos eligiéndose aquella especificación que

implique el mejor modelo de acuerdo con los criterios basados en la función de

verosimilitud estimada: el logaritmo de la función de verosimilitud y el criterio de

información de SBIC, que el alumno ya conoce y, que se calcula a partir de la siguiente

expresión:

( )N

NkxFyxFyN

SBICN

iii

N

iii

ln2

1ln1ln11

^'

1

^' +

−−+

−= ∑∑

==

ββ (59)

39

EJERCICIO EMPÍRICO: MPL, PROBIT Y LOGIT BINOMIALES

Este ejemplo, tiene como objetivo analizar los aspectos prácticos de la

estimación, validación e interpretación de los modelos de probabilidad lineal (MPL),

probit y logit, formulados teóricamente con anterioridad. En el ejemplo se trata de

explicar la selección por parte del consumidor entre dos marcas de tomate ketchup,

Heinz y Hunts. Los datos proceden de una investigación de mercados llevada a cabo a

través de escáner óptico, están disponibles en internet en la página web

http://www.few.eur.nl/few/people/paap y, constituye el ejemplo empírico que proponen

los autores Philip Hans Franses y Richard Paap en el libro titulado “Quantitative Models

in Marketing Research” (2001). El paquete econométrico elegido para llevar a cabo el

análisis es el conocido Time Series Processor (TSP).

Los datos utilizados se refieren a la decisión de compra entre las dos alternativas

de elección por parte de un total de 2798 hogares de Springfield y Missouri. Además de

la decisión de compra, se dispone de información referente al precio de mercado de

ambos productos en el momento de la compra y a si en el momento de la misma se

ofrecía algún tipo de publicidad para dichos productos. Algunas características de los

datos utilizados se recogen en el Cuadro 1.

Cuadro 1. Características de la muestra utilizada para explicar la elección entre el

tomate Heinz y Hunts.

Variables Heinz Hunts

Porcentaje de elección 89.03 10.97

Precio Medio ($ por onza) 0.0348 0.0336

% de Publicidad 28.45 7.18

A partir de los datos observados, se observa como sólo un porcentaje minoritario

de hogares prefieren el tomate Hunts, (10.97%, frente a un 89.03% que seleccionan el

tomate Heinz). Con respecto a los valores de las variables explicativas consideradas, se

observa como, en media, el precio de ambos productos es prácticamente el mismo. No

obstante, es una apreciación exclusivamente del valor medio, pues de hecho, sí que

existen diferencias sustanciales de precio en ocasiones de compra específicas. Con

40

respecto a las variables de publicidad, el Cuadro 1 muestra como el tomate Heinz se

promociona con una mayor frecuencia que el tomate Hunts.

Analizaremos, a continuación, el procedimiento a seguir con objeto de investigar

si dichas variables poseen un importante poder explicativo sobre la decisión de elección

de un tipo de producto u otro, utilizando los modelos estudiados MPL, probit y logit. No

obstante, como es habitual en el trabajo empírico, se reserva una pequeña parte de las

observaciones para comprobar el comportamiento predictivo de los modelos para el

caso de observaciones postmuestrales. Concretamente, reservaremos las 300 últimas

observaciones para este fin y, por lo tanto, se estimará con las primeras 2498

observaciones.

Por otra parte, mencionar que, aunque el programa TSP contiene sus propios

comandos para poder estimar los tres tipos de modelos indicados, en la medida de lo

posible, ofreceré información sobre la programación de los mismos con objeto de, por

un lado, comprobar que efectivamente el programa realiza lo que yo deseo y, por otro,

con objeto de sentar las bases para la programación de otros modelos más complejos.

Cada uno de los modelos se ha especificado considerando como variable

dependiente la variable HEINZ, que toma el valor 1 si la familia elige dicha marca y, 0

en caso contrario. La información sobre precios se ha introducido como el logaritmo

neperiano del ratio entre los precios de ambos productos. Es decir, se ha creado la

variable

HuntsdeprecioHeinzdeprecioln que, lógicamente, es igual a la diferencia de los precios

en logaritmos neperianos. La información relativa a la publicidad se ha introducido

mediante variables ficticias. Concretamente, se introducen las variables PUHEINZ y

PUHUNTS que toman el valor unitario para aquellos hogares que han recibido

publicidad sobre el respectivo producto y, 0 en caso contrario.

A continuación, presentaré el programa de TSP que me permite realizar todo lo

que se ha explicado en este tema así como los resultados obtenidos, si bien lo dividiré

en diversos fragmentos para una exposición más clara.

41

Comenzaremos presentando los comandos necesarios para llevar a cabo la

lectura de los datos y la estimación del MPL (Fragmento 1º). El programa TSP

empleado para ello ha sido el siguiente:

Fragmento 1º?LECTURA DE LOS DATOS

FREQ N;SMPL 1 2798;READ (FILE= 'C:\PLAZA\TEMA\EJER2.DAT') OBS HEINZ HUNTS PRHEINZ PRHUNTSPUHEINZ PUHUNTS;

?CREACION DE LAS VARIABLES

GENR Y = HEINZ;GENR LPRR=LOG (PRHEINZ/PRHUNTS);

SMPL 1 2498;

?ESTIMACIÓN DEL MODELO DE PROBABILIDAD LINEAL

OLSQ Y C LPRR PUHEINZ PUHUNTS ;GENR PH=@FIT;

SMPL 1 2498;SMPLIF PH>=1;GENR PH=0.99;

?SMPL 1 2498;?SMPLIF PH<=0;?GENR PH=0.01;

SMPL 1 2498;GENR VARE =PH* (1-PH);GENR IVARE =1/VARE;

OLSQ (WEIGHT=IVARE, WTYPE=HET) Y C LPRR PUHEINZ PUHUNTS ;

? O equivalentemente

?YT=Y/SQRT(VARE);?CT = C/SQRT(VARE);?LPRRT=LPRR/SQRT(VARE);?PUHEINZT=PUHEINZ/SQRT(VARE);?PUHUNTST=PUHUNTS/SQRT(VARE);

?OLSQ YT CT LPRRT PUHEINZT PUHUNTST ;

WRITE (FILE='C:\PLAZA\TEMA\GRAFPMPL.XLS') LPRR @FIT;

42

donde se introduce el signo de interrogación “?” delante de aquellas líneas de programa

que constituyen mera información y, por tanto, no se desea que las lea el programa.

La primera parte del programa Fragmento 1º se dedica a definir y leer los datos

de todas las variables que intervienen en el análisis, así como crear la variable que

recoge el diferencial de precios a partir de los precios originalmente introducidos. A

continuación, para la estimación del MPL se requiere la estimación de un modelo lineal

mediante el método de Mínimos Cuadrados Generalizados Factibles (MCGF). Tal y

como se conoce, dicha estimación es equivalente a la estimación MCO de una regresión

sobre las variables originales transformadas mediante su división entre la desviación

típica de la perturbación. Por tanto, la estimación del modelo se llevará a cabo a partir

del comando OLSQ que permite la estimación de un modelo por MCO.

Para llevar a cabo la estimación es necesario comenzar estimando la varianza de

la perturbación. Como ya se ha explicado en la sección teórica, se lleva a cabo a partir

de los resultados obtenidos de las probabilidades estimadas calculadas mediante la

estimación inicial del MPL por MCO. La única cuestión a tener en cuenta es reemplazar

las posibles probabilidades estimadas que sean mayores o iguales a la unidad por (a

modo de ejemplo) 0.99 y, las menores o iguales a cero, por 0.01. A partir de las

probabilidades resultantes, se procede a la creación de la varianza estimada de la

perturbación.

A partir de aquí, existen dos posibilidades. La primera consiste en utilizar los

propios comandos de TSP para estimar mediante MCGF o programar nosotros

directamente el modelo a estimar. Ambas opciones se muestran en el programa

Fragmento 1º, si bien, para no duplicar resultados, se ha introducido el signo ? al

comienzo de las líneas del programa relativas a la versión más elaborada (que utiliza

menos comandos propios de TSP).

Como se aprecia en el programa Fragmento 1º, la opción que utiliza

mayoritariamente los comandos propios de TSP es la siguiente:OLSQ (WEIGHT=IVARE, WTYPE=HET) endógena lista de explicativas;

43

donde las opciones entre paréntesis indican que se desea ponderar mediante la

ponderación IVARE (inversa de la varianza) debido a un problema de

heteroscedasticidad. A partir de estos comandos, TSP entiende que debe multiplicar

todas las variables del modelo por la raíz cuadrada de la variables IVARE y, a partir de

ellas, efectuar la regresión MCO. Esto mismo, es lo que se lleva a cabo manualmente en

las siguientes líneas del programa y, lógicamente, los resultados obtenidos son los

mismos.

Finalmente, la última sentencia:WRITE (FILE='C:\PLAZA\TEMA\GRAFPMPL.XLS') LPRR @FIT

permite trasladar a un fichero Excel tanto los datos de la variable diferencial de precios

como las probabilidades estimadas con el modelo, con objeto de observar su

comportamiento.

Los resultados obtenidos en la estimación del MPL se recogen el Cuadro 2 y, el

gráfico de probabilidades estimadas mediante este modelo aparece en el Gráfico 5.

Cuadro 2. Modelo de Probabilidad Lineal estimado por MCGF correspondiente al

programa Fragmento 1º.

Equation 2 ============ Method of estimation = Weighted Regression

Weight: IVARE

Dependent variable: Y Current sample: 1 to 2498 Number of observations: 2498

(Statistics based on transformed data) (Statistics based on original data) Mean of dep. var. = .980997 Mean of dep. var. = .891113 Std. dev. of dep. var. = .136562 Std. dev. of dep. var. = .311560 Sum of squared residuals = 42.1483 Sum of squared residuals = 223.197 Variance of residuals = .016900 Variance of residuals = .089493 Std. error of regression = .130000 Std. error of regression = .299155 R-squared = .094891 R-squared = .139560 Adjusted R-squared = .093803 Adjusted R-squared = .138525 Durbin-Watson = 1.41764 Durbin-Watson = 1.37410 Sum of weights = 2498.00 F (zero slopes) = 87.1568 [.000] Schwarz B.I.C. = -4.06952 Log likelihood = 437.175

44

Estimated Standard Variable Coefficient Error t-statistic P-value C .942096 .407879E-02 230.974 [.000] LPRR -.116862 .776950E-02 -15.0412 [.000] PUHEINZ .223281E-02 .563477E-02 .396255 [.692] PUHUNTS -.102474 .018515 -5.53466 [.000]

Gráfico 5. Probabilidades estimadas mediante el MPL

A partir del Cuadro 2 y, considerando que el tamaño muestral es

considerablemente elevado como para poder efectuar inferencia en el modelo, se puede

concluir lo siguiente. Un aumento en el diferencial de precios (conforme el tomate

Heinz es más caro que el tomate Hunts) afecta negativa y significativamente (el valor

del t-ratio es mayor que 1.96, punto crítico asociado a la N0.025(0,1)) a la probabilidad de

elegir tomate Heinz. La probabilidad de compra de Heinz disminuye en,

aproximadamente, 0.12 unidades, por cada unidad de aumento del diferencial. La

publicidad ejercida sobre Heinz afecta positivamente a la probabilidad de ser

seleccionado, mientras que sucede lo contrario en el caso de que exista publicidad sobre

Hunts.

No obstante, el Gráfico 5 muestra las dos grandes debilidades de este modelo. Se

obtiene un importante número de probabilidades estimadas que superan la unidad, por

lo que no es posible interpretar tales valores ajustados como probabilidades y, además,

lógicamente se observa claramente la tendencia lineal inherente en las mismas. En

consecuencia, en las siguientes líneas del programa se procede a plantear los modelos

alternativos probit y logit.

00.20.40.60.8

11.21.4

-4 -2 0 2 4Diferencia entre el logaritmo neperiano del precio del producto A y el B

iP^

45

En primer lugar, se lleva a cabo la estimación del modelo probit que, como ya he

comentado con anterioridad, puede llevarse a cabo tanto a partir del comando propio de

TSP como mediante la programación manual de la función log-verosímil. Los

respectivos comandos aparecen recogidos a continuación, en lo que sería el fragmento

2º del programa total:

Fragmento 2º?PROBIT

?ESTIMACIÓN PROBIT

?1. Mediante comandos

PROBIT Y C LPRR PUHEINZ PUHUNTS;SET LVP=@LOGL;GENR PAP=@FIT;UNMAKE @COEF A0 A1 A2 A3;GENR XBP = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS;

?2. Equivalentemente, podría especificarse directamente las respectivas funciones de verosimilitud

?SET A0=0;?SET A1=0;?SET A2=0;?SET A3=0;?FRML EQ1 LOGL= Y*LCNORM(XBP) +(1-Y)*LOG(1-CNORM(XBP));?FRML EQXB XBP = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS ;?EQSUB (NAME=EP) EQ1 EQXB;?PARAM A0 A1 A2 A3;?ML EP;

WRITE (FILE='C:\PLAZA\TEMA\GRAFPP.XLS') LPRR @FIT;

Como se observa en el programa Fragmento 2, tras la estimación, se procede a

conservar tanto el valor máximo del logaritmo de verosimilitud obtenido (SET

LVP=@LOGL), como el valor de la variable ajustada que, como ya se sabe, coincide

con la probabilidad de comprar tomate Heinz por parte de cada individuo según este

modelo (GENR PAP=@FIT). Además, dichas probabilidades se transportan a un

fichero Excel para proceder a su representación gráfica.

Los resultados obtenidos en la estimación del modelo se recogen en el Cuadro 3

y la representación gráfica de dichas probabilidades, en el Gráfico 6.

46

Cuadro 3. Modelo Probit estimado por MV correspondiente al programa Fragmento 2º

PROBIT ESTIMATION Working space used: 27559 STARTING VALUES

C LPRR PUHEINZ PUHUNTS VALUE 0.00000 0.00000 0.00000 0.00000

F= 1731.5 FNEW= 775.78 ISQZ= 0 STEP= 1.0000 CRIT= 1673.0 F= 775.78 FNEW= 646.09 ISQZ= 0 STEP= 1.0000 CRIT= 210.25 F= 646.09 FNEW= 611.21 ISQZ= 0 STEP= 1.0000 CRIT= 58.795 F= 611.21 FNEW= 607.10 ISQZ= 0 STEP= 1.0000 CRIT= 7.5937 F= 607.10 FNEW= 607.03 ISQZ= 0 STEP= 1.0000 CRIT= 0.13833 F= 607.03 FNEW= 607.03 ISQZ= 0 STEP= 1.0000 CRIT= 0.45603E-04

CONVERGENCE ACHIEVED AFTER 6 ITERATIONS

12 FUNCTION EVALUATIONS.

DEPENDENT VARIABLE: Y

Number of observations = 2498.00 R-squared = .236470 Number of positive obs. = 2226.00 Kullback-Leibler R-sq = .293960 Mean of dep. var. = .891113 Log likelihood = -607.030 Sum of squared residuals = 185.104 Fraction of Correct Predictions = 0.905524

Standard Parameter Estimate Error t-statistic P-value C 1.84031 .074433 24.7244 [.000] LPRR -3.32173 .213078 -15.5893 [.000] PUHEINZ .235591 .104169 2.26161 [.024] PUHUNTS -.423743 .122671 -3.45431 [.001]

Standard Errors computed from analytic second derivatives (Newton)

dP/dX

0 1 C -0.24439 0.24439 LPRR 0.44113 -0.44113 PUHEINZ -0.031287 0.031287 PUHUNTS 0.056273 -0.056273

Gráfico 6. Probabilidades estimadas mediante el modelo probit

00.20.40.60.8

11.21.4

-4 -2 0 2 4Diferencia entre el logaritmo neperiano del precio del producto A y el B

iP^

47

No obstante, antes de proceder a la interpretación del modelo es necesario

proceder a su validación. En este sentido, comenzaremos realizando el contraste general

de especificación de la matriz de información que, como ya se conoce, permite

contrastar la hipótesis nula de especificación correcta del modelo, frente a errores

asociados a heteroscedasticidad y/o mala especificación de la distribución de la

perturbación del modelo latente. La programación del mismo se lleva a cabo mediante

las siguientes líneas de programa recogidas bajo el título Fragmento 3º:

Fragmento 3º

?VALIDACIÓN PROBIT

?Test de la matriz de información

GENR FDP=CNORM(XBP);GENR FDDP=NORM(XBP);

GENR VENDP=(Y-FDP)/(SQRT ( FDP*(1-FDP)));

GENR VEP0=FDDP/(SQRT(FDP*(1-FDP) ) );GENR VEP1=(FDDP/(SQRT(FDP*(1-FDP) ) ))* LPRR;GENR VEP2=(FDDP/(SQRT(FDP*(1-FDP) ) ))* PUHEINZ;GENR VEP3=(FDDP/(SQRT(FDP*(1-FDP) ) ))* PUHUNTS;

V1=1^2;V2= LPRR^2;V3= PUHEINZ^2;V4= PUHUNTS ^2;V5= LPRR;V6= PUHEINZ;V7= PUHUNTS;V8= LPRR*PUHEINZ;V9= LPRR*PUHUNTS;V10= PUHEINZ*PUHUNTS;

DOT 1-10;GENR VEPR2.= -(XBP* FDDP*V.)/(SQRT(FDP*(1-FDP) ) );ENDDOT;

OLSQ VENDP VEP0 VEP1 VEP2 VEP3VEPR21 VEPR22 VEPR23 VEPR24 VEPR25 VEPR26 VEPR27VEPR28 VEPR29 VEPR210;

MAT MIP=@FIT'@FIT; PRINT MIP;CDF (CHISQ, INVERSE, DF=10) 0.05;

48

Que dan como resultado:

MIP = 8.48141CHISQ(10) Critical Value: 18.30704, Upper tail area: .05000

Y, por tanto, se obtiene evidencia a favor de la correcta especificación del modelo en

cuando a los mencionados errores en la parte aleatoria del término de perturbación del

modelo latente.

Aunque, lógicamente, no es necesario plantear ningún tipo de contraste

específico adicional, se ofrece el programa Fragmento 4º en el que se muestra cómo

efectuar un contraste específico de heteroscedaticidad a partir de los estadísticos LR y

LM y, suponiendo el siguiente esquema de generación de la misma:

( )

=

HuntsdeprecioHeinzdepreciolog2exp:1 αε iVH

Fragmento 4º?Contraste de heroscedasticidad

?Con estadístico LR: Problema, el modelo no restringido no converge?FRML EQ1 LOGL= Y*LCNORM(XBPDDT) +(1-Y)*LOG(1-CNORM(XBP));?FRML EQXB XBPDDT = A0 *1/(SQRT(EXP(2*ALPHA*LPRR)))+A1*LPRR*1/(SQRT(EXP(2*ALPHA*LPRR)))? + A2*PUHEINZ*1/(SQRT(EXP(2*ALPHA*LPRR))) + A3*PUHUNTS*1/(SQRT(EXP(2*ALPHA*LPRR))) ;?EQSUB (NAME=EP) EQ1 EQXB;?PARAM A0 A1 A2 A3 ALPHA;?ML EP;

?SET LOGNR=@LOGL;?SET LRH=-2*(LVP-LOGNR);?PRINT LRH;?CDF (CHISQ, INVERSE, DF=1) 0.05;

?Con LM

GENR VEP4=(FDDP/(SQRT(FDP*(1-FDP) ) ))* (- XBP*LPRR);

OLSQ VENDP VEP0 VEP1 VEP2 VEP3 VEP4;MAT R2NC=(@FIT'@FIT)/(VENDP'VENDP);

SET HETP=@NOB*R2NC; PRINT HETP;CDF (CHISQ, INVERSE, DF=1) 0.05;

49

Y como resultado se ha obtenido que, dada la no convergencia en la estimación del

modelo no restringido planteado a partir del esquema de heteroscedasticidad (modelo

heterocedástico), es necesario plantear el estadístico LM. Por otro lado, los resultados

ofrecidos por este último ofrecen, lógicamente, evidencia acerca del no rechazo de la

hipótesis nula de homocedasticidad:

HETP = 0.52565CHISQ(1) Critical Value: 3.841459, Upper tail area: .05000

A partir de estos resultados, podemos continuar con la validación del modelo a

partir del análisis de la significatividad individual y conjunta de los parámetros. En el

primer caso, dado que los t-ratios de los cuatro parámetros del modelo ofrecidos en el

Cuadro 3 son mayores que 1.96 (valor crítico de la ( ) ( )1,0025.0025.0 Nt =∞ ) se concluye

que todas las variables son significativas individualmente, al nivel de significación del

5%.

A continuación, se contrasta la significación conjunta de todas las variables

explicativas; es decir, se contrata la nulidad de todos los parámetros asociados a las

variables explicativas del modelo. Las órdenes del programa necesarias para llevar a

cabo este contraste son las siguientes (Fragmento 5º):

Fragmento 5º?Contraste LR de nulidad de las pendientes

PROBIT Y C;SET LVSC= @LOGL;

SET LRP= -2*( LVSC-LVP); PRINT LRP;CDF (CHISQ, INVERSE, DF=3) 0.05;

Y el resultado del contraste:LRP = 505.47409CHISQ(3) Critical Value: 7.814728, Upper tail area: .05000

Por lo que se rechaza la hipótesis de que todos los parámetros asociados a las variables

explicativas son nulos y, por lo tanto las variables explicativas del modelo son

conjuntamente significativas.

50

A continuación, se analiza la bondad del ajuste. En primer lugar, se obtiene el

Pseudo- 2R de McFadden, que como se puede comprobar coincide con el ofrecido por

el TSP bajo el nombre “Kullback-Leibler R-sq”. Los comandos necesarios son los

siguientes (Fragmento 6º):

Fragmento 6º

?MEDIDAS DE BONDAD DEL AJUSTE

?R2 de McFaddenSET R2MFP=1-( LVP/LVSC);PRINT R2MFP;

Y el resultado obtenido: R2MFP = 0.29396

Seguidamente, obtenemos el Pseudo- 2R propuesto por McKelvey y Zavoina

mediante las siguientes órdenes ((Fragmento 7º):

Fragmento 7º

?R2 de McKelvey y ZavoinaMSD (NOPRINT) XBP;SET XBPM=@MEAN;MAT NUM=(XBP-XBPM)'(XBP-XBPM);SET DEN=NUM+@NOB;SET R2MZP=NUM/DEN; PRINT R2MZP;

Obteniendo como resultado: R2MZP = 0.60903

En general, puede considerarse que los resultados obtenidos son bastante

satisfactorios considerando que se trabaja con datos de corte transversal.

Finalmente, en relación con la evaluación de la capacidad predictiva nos

centramos en el cálculo del estadístico 1F sugerido por McFadden y otros (1977)

utilizando como umbral de clasificación de las predicciones, al igual que Philip Hans

Franses y Richard Paap, la fracción de observaciones con 1=iy (N

yC

N

ii∑

=

== 1

1), que en

51

nuestro caso es igual a 0.891 (2226/2498). Dicho cálculo se efectúa tanto para la

predicción de los individuos que componen la información muestral como para los 300

individuos reservados para el análisis del comportamiento predictivo en observaciones

postmuestrales.

Las órdenes correspondientes a las observaciones muestrales son las siguientes

(Fragmento 8º):

Fragmento 8º

?F de McFadden y otros

?Dentro de la muestraSMPL 1 2498;SELECT PAP>0.891 .AND. Y=1;SET P11=@NOB/2498;PRINT P11;

SMPL 1 2498;SELECT PAP<=0.891 .AND. Y=1;SET P10=@NOB/2498;PRINT P10;

SMPL 1 2498;SELECT PAP>0.891 .AND. Y=0;SET P01=@NOB/2498;PRINT P01;


SET PP1=P11+P01; PRINT PP1;SET PP0=P10+P00; PRINT PP0;

SET FP= (P11+P00-PP1^2-PP0^2)/(1-PP1^2-PP0^2);PRINT FP;

Y los resultados obtenidos:

TABLA DE CLASIFICACIÓN DE LAS PREDICCIONES MUESTRALES


CPi >^

Predicción: 1=iy

CPi ≤^

Predicción: 0=iy

1=iy 0.67134 0.21978.1P

Observaciones 0=iy 0.016813 0.092074.0P

0.68815 0.31185 1

Por lo que: 1F = 0.44877

52

Análogamente, con respecto a la información postmuestral, se programa

mediante los comandos (Fragmento 9º):

Fragmento 9º

?Fuera de la muestraSMPL 2499 2798;GENR PAP= CNORM (A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS );






SET FP= (P11+P00-PP1^2-PP0^2)/(1-PP1^2-PP0^2);PRINT FP;

Y se obtienen los siguientes resultados:

TABLA DE CLASIFICACIÓN DE LAS PREDICCIONES POSTMUESTRALES


CPi >^

Predicción: 1=iy

CPi ≤^

Predicción: 0=iy

1=iy 0.66333 0.22000.1P

Observaciones 0=iy 0.020000 0.096667.0P

0.68333 0.31667 1

1F = 0.44544

Los valores obtenidos para 1F son bastante elevados y, por tanto, el

comportamiento predictivo es bastante bueno y, a su vez, muy semejante dentro y fuera

de la muestra.

53

Finalmente, dado que el modelo es muy aceptable, se procedería a interpretar los

resultados obtenidos. Del análisis de los signos de los parámetros individuales,

recogidos en el Cuadro 3, y teniendo en cuenta que dichos parámetros son

significativos, se deduce lo siguiente. El parámetro relativo a la publicidad ejercida

sobre el tomate Heinz es positivo y, por tanto, dicha variable ejerce un efecto positivo

sobre la decisión de compra del producto. Contrariamente, tanto la publicidad ejercida

sobre el tomate Hunts como el diferencial de precios ejercen un efecto negativo sobre la

probabilidad de compra del tomate Heinz y, por tanto, positivo sobre la del tomate

Hunts. Lógicamente, conforme el tomate Heinz es comparativamente más caro que el

tomate Hunts, disminuye su probabilidad de compra.

Adicionalmente, puede calcularse el índice subjetivo de utilidad y la

probabilidad de compra de los dos productos en cualquier situación. Por ejemplo, con

relación al valor medio del diferencial de precios en logaritmos neperianos, que es igual

a 0.039) y, suponiendo que existe publicidad para ambos tipos de productos, se emplean

los siguientes comandos (Fragmento 10º):

Fragmento 10º

SET LPRRI= 0.039;SET PUHEINZI=1;SET PUHUNTSI =1;SET XBPI = A0 + A1*LPRRI + A2*PUHEINZI + A3* PUHUNTSI ; PRINT XBPI;

SET PEPI= CNORM(XBPI);PRINT PEPI;

Y los resultados obtenidos son los siguientes:

• Indice subjetivo de utilidad:

=^

' βix 1.84031 -3.32173 *0.039 + .235591 *1 + -.423743 * 1= 1.523

• Probabilidad de comprar el tomate Heinz:

( ) 936.021523.1 2

2523.1^'

^==Φ=

Φ=

−

∞−∫ dtexP

t

ii πβ

• Probabilidad de comprar el tomate Hunts:

064.0936.011^

=−=− iP

54

Por último, pueden calcularse los efectos sobre las probabilidades de compra de

ambos productos ante cambios unitarios en las distintas variables. Dichos efectos son

ofrecidos por el programa, calculados a partir del valor medio de los efectos sobre todos

los individuos (Cuadro 3). El cálculo es el mismo para todo tipo de variables y se

corresponde con el procedimiento a emplear para el caso de variables continuas. En

consecuencia, el resultado es correcto sólo para dicho tipo de variables mientras que

para el caso de variables discretas sólo constituye una mera aproximación.

Si quisiéramos programar en TSP dichos efectos, por ejemplo, en relación a la

variable precios, se trataría de calcular la media de los efectos calculados para los

distintos individuos:

)32173.3(^

'

^'^

−

=

∂

Φ∂

=∂∂

βφβ

ii

i

i

i xLPRR

x

LPRRP

Y, para ello, se escribiría (Fragmento 11º):

Fragmento 11º

SMPL 1 2498;GENR XBP = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS ;GENR EP= NORM(XBP)*A1;MSD(NOPRINT) EP; SET EPM=@MEAN; PRINT EPM;

El resultado que se obtiene es: EPM= -0.44113, que coincide con el valor ofrecido

en el Cuadro 3.

Por su parte, los efectos de las variables ficticias relativas a publicidad se

calculan mediante la diferencia en la probabilidad de que 1=iy bajo las dos situaciones

que caracteriza el regresor (0/1). Por lo tanto, en el caso del efecto sobre la probabilidad

de comprar Heinz de la publicidad ejercida sobre dicho producto se calcularía a partir de

los siguientes comandos (Fragmento 12º):

55

Fragmento 12º

?variables de publicidad

?HeinzSMPL 1 2498;SELECT PUHEINZ=1;GENR XBPHE1 = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS ;PHE1=CNORM(XBPHE1);MSD (NOPRINT) PHE1;SET PHE1M=@MEAN;PRINT PHE1M;

SMPL 1 2498;SELECT PUHEINZ=0;GENR XBPHE0 = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS;PHE0=CNORM(XBPHE0);MSD (NOPRINT) PHE0;SET PHE0M=@MEAN;PRINT PHE0M;

SET EPHE= PHE1M-PHE0M; PRINT EPHE;

Obteniéndose como resultado:

Prob ( )11 == PUHEINZyi -Prob ( )01 == PUHEINZyi = 0.94929-0.86710= 0.082194

Finalmente el efecto sobre la probabilidad de comprar HEINZ de la publicidad

sobre Hunts, se calcularía a partir de los comandos (Fragmento 13º):

Fragmento 13º

?HuntsSMPL 1 2498;SELECT PUHUNTS=1;GENR XBPHU1 = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS;PHU1=CNORM(XBPHU1);MSD (NOPRINT) PHU1;SET PHU1M=@MEAN;PRINT PHU1M;

SMPL 1 2498;SELECT PUHUNTS=0;GENR XBPHU0 = A0 + A1*LPRR + A2*PUHEINZ + A3* PUHUNTS;PHU0=CNORM(XBPHU0);MSD (NOPRINT) PHU0;SET PHU0M=@MEAN;PRINT PHU0M;

SET EPHU= PHU1M-PHU0M;PRINT EPHU;

Obteniéndose como resultado:

Prob ( )11 == PUHUNTSyi -Prob ( )01 == PUHUNTSyi =0.72946-0.90428=- 0.17482

56

En estos dos últimos casos, se observa que los resultados obtenidos son

ligeramente diferentes a las aproximaciones ofrecidas por el programa.

Finalmente, apuntar el carácter no lineal de las probabilidades estimadas

mediante este modelo que fueron representadas en el Gráfico 6.

57

El programa para la obtención de todos los resultados análogos a los

comentados, pero referidos al modelo logit, es el siguiente:

?LOGIT

¿ESTIMACIÓN

SMPL 1 2498;

?1. Mediante comandos

LOGIT Y C LPRR PUHEINZ PUHUNTS;SET LVL=@LOGL;GENR PAL=@FIT;UNMAKE @COEF B0 B1 B2 B3 ;GENR XBL = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS;

WRITE (FILE='C:\PLAZA\TEMA\GRAFPL.XLS') LPRR @FIT;

?2. Equivalentemente, podría especificarse directamente las respectivas funciones de verosimilitud

?FRML EQ2 LOGL= Y*LOG (EXP(XBL)/(1+EXP(XBL))) +(1-Y)*LOG(1-(EXP(XBL)/(1+EXP(XBL))));?FRML EQXB XBL = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;?EQSUB (NAME=EL) EQ2 EQXB;?PARAM B0,0.01 B1,0.01 B2,0.01 B3,0.01 B4,0.01 B5,0.01 B6,0.01 B7,0.01 ;?ML EL;

?VALIDACIÓN

?Contrastes de especificación

GENR FDL=EXP(XBL)/(1+EXP(XBL));GENR FDDL=FDL*(1-FDL);

?Test de la matriz de información

GENR VENDL=(Y-FDL)/(SQRT (FDL*(1-FDL)));

GENR VEL0=SQRT(FDL*(1-FDL));GENR VEL1=(SQRT(FDL*(1-FDL)))* LPRR;GENR VEL2=(SQRT(FDL*(1-FDL)))* PUHEINZ;GENR VEL3=(SQRT(FDL*(1-FDL)))* PUHUNTS;

V1=1^2;V2= LPRR^2;V3= PUHEINZ^2;V4= PUHUNTS ^2;V5= LPRR;V6= PUHEINZ;V7= PUHUNTS;V8= LPRR*PUHEINZ;V9= LPRR*PUHUNTS;

58

V10= PUHEINZ*PUHUNTS;

DOT 1-10;GENR VELR2.= (SQRT(FDL*(1-FDL) ) )* (1-2*FDL ) *V.;ENDDOT;

OLSQ VENDL VEL0 VEL1 VEL2 VEL3 VELR21 VELR22 VELR23 VELR24 VELR25 VELR26VELR27VELR28 VELR29 VELR210;

MAT MIP=@FIT'@FIT; PRINT MIP;CDF (CHISQ, INVERSE, DF=10) 0.05;

?Contraste de heroscedasticidad

?Con estadístico LR: Problema, el modelo no restringido no convergeFRML EQ2 LOGL= Y*LOG (EXP(XBLDDT)/(1+EXP(XBLDDY))) +(1-Y)*LOG(1-(EXP(XBLDDT)/(1+EXP(XBLDDT))));?FRML EQXB XBLDDT = B0 *1/(SQRT(EXP(2*ALPHA*LPRR)))+B1*LPRR*1/(SQRT(EXP(2*ALPHA*LPRR)))? + B2*PUHEINZ*1/(SQRT(EXP(2*ALPHA*LPRR))) + B3*PUHUNTS*1/(SQRT(EXP(2*ALPHA*LPRR))) ;?EQSUB (NAME=EL) EQ2 EQXB;?PARAM B0 B1 B2 BA3 ALPHA;?ML EL;?SET LOGNR=@LOGL;?SET LRH=-2*(LVL-LOGNR);?PRINT LRH;?CDF (CHISQ, INVERSE, DF=1) 0.05;

?Con LM

GENR VEL4=(SQRT(FDL*(1-FDL)))*(FDL*(1-FDL) )* (- XBP*LPRR);

OLSQ VENDL VEL0 VEL1 VEL2 VEL3 VEL4;MAT R2NC=(@FIT'@FIT)/(VENDL'VENDL);

SET HETL=@NOB*R2NC; PRINT HETL;CDF (CHISQ, INVERSE, DF=1) 0.05;

?Contraste LR de nulidad de las pendientes

LOGIT Y C;SET LVSC= @LOGL;

SET LRL= -2*( LVSC-LVL); PRINT LRL;

? Bondad del ajuste

?R2 de McFaddenSET R2MFL=1-( LVL/LVSC);

59

PRINT R2MFL;

?R2 de McKelvey y ZavoinaMSD (NOPRINT) XBL;SET XBLM=@MEAN;MAT NUM=(XBL-XBLM)'(XBL-XBLM);SET DEN=NUM+@NOB*((3.1416^2)/3);SET R2MZL=NUM/DEN; PRINT R2MZL;

?F de McFadden y otros

?Dentro de la muestraSMPL 1 2498;SELECT PAL>0.891 .AND. Y=1;SET P11=@NOB/2498;PRINT P11;

SMPL 1 2498;SELECT PAL<=0.891 .AND. Y=1;SET P10=@NOB/2498;PRINT P10;

SMPL 1 2498;SELECT PAL>0.891 .AND. Y=0;SET P01=@NOB/2498;PRINT P01;



SET FL= (P11+P00-PP1^2-PP0^2)/(1-PP1^2-PP0^2);PRINT FL;

?Fuera de la muestraSMPL 2499 2798;GENR XBL = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS;GENR PAL=EXP(XBL)/(1+EXP(XBL));






SET FL= (P11+P00-PP1^2-PP0^2)/(1-PP1^2-PP0^2);PRINT FL;

SMPL 1 2498;

?INTERPRETACION DE LOS RESULTADOS

60

?calculo de probabilidadesSET LPRRI= 0.039;SET PUHEINZI=1;SET PUHUNTSI =1;

SET XBLI = B0 + B1*LPRRI + B2*PUHEINZI + B3* PUHUNTSI;PRINT XBLI;SET PELI=EXP(XBLI)/(1+EXP(XBLI));PRINT PELI;

?calculo de efectos

?variable precioGENR XBL = B0 +B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;GENR PAL=EXP(XBL)/(1+EXP(XBL));GENR EL= PAL* (1-PAL)*B1;MSD(NOPRINT) EL; SET ELM=@MEAN; PRINT ELM;

?variables de publicidad

?HeinzSMPL 1 2498;SELECT PUHEINZ=1;GENR XBLHE1 = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;PHE1=EXP(XBLHE1)/(1+EXP(XBLHE1));MSD (NOPRINT) PHE1;SET PHE1M=@MEAN;PRINT PHE1M;

SMPL 1 2498;SELECT PUHEINZ=0;GENR XBLHE0 = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;PHE0=EXP(XBLHE0)/(1+EXP(XBLHE0));MSD (NOPRINT) PHE0;SET PHE0M=@MEAN;PRINT PHE0M;

SET EPHE= PHE1M-PHE0M; PRINT EPHE;

?HuntsSMPL 1 2498;SELECT PUHUNTS=1;GENR XBLHU1 = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;PHU1=EXP(XBLHU1)/(1+EXP(XBLHU1));MSD (NOPRINT) PHU1;SET PHU1M=@MEAN;PRINT PHU1M;

SMPL 1 2498;SELECT PUHUNTS=0;GENR XBLHU0 = B0 + B1*LPRR + B2*PUHEINZ + B3* PUHUNTS ;PHU0=EXP(XBLHU0)/(1+EXP(XBLHU0));MSD (NOPRINT) PHU0;SET PHU0M=@MEAN;PRINT PHU0M;

SET EPHU= PHU1M-PHU0M; PRINT EPHU;

61

Los resultados obtenidos en la estimación del modelo se presentan en el Cuadro

4. Sin embargo, como en el caso del modelo probit, es necesario, en primer lugar,

contrastar la validez del modelo antes de proceder a su interpretación. Las

probabilidades estimadas se representan en el Gráfico 7 y, como se puede comprobar,

son muy similares a las obtenidas para el caso del modelo probit.

Cuadro 4. Modelo Logit estimado por MV MULTINOMIAL LOGIT ESTIMATION

Choice Frequency Fraction 0 272 0.1089 (coefficients normalized to zero) 1 2226 0.8911 Working space used: 32595 STARTING VALUES

C1 LPRR1 PUHEINZ1 PUHUNTS1 VALUE 0.00000 0.00000 0.00000 0.00000

F= 1731.5 FNEW= 795.88 ISQZ= 0 STEP= 1.0000 CRIT= 1673.0 F= 795.88 FNEW= 662.19 ISQZ= 0 STEP= 1.0000 CRIT= 212.15 F= 662.19 FNEW= 617.87 ISQZ= 0 STEP= 1.0000 CRIT= 73.332 F= 617.87 FNEW= 610.74 ISQZ= 0 STEP= 1.0000 CRIT= 12.808 F= 610.74 FNEW= 610.48 ISQZ= 0 STEP= 1.0000 CRIT= 0.49515 F= 610.48 FNEW= 610.48 ISQZ= 0 STEP= 1.0000 CRIT= 0.82839E-03 F= 610.48 FNEW= 610.48 ISQZ= 0 STEP= 1.0000 CRIT= 0.23824E-08

CONVERGENCE ACHIEVED AFTER 7 ITERATIONS

14 FUNCTION EVALUATIONS.

DEPENDENT VARIABLE: Y

Number of observations = 2498.00 R-squared = .235222 Number of positive obs. = 2226.00 Kullback-Leibler R-sq = .289942 Mean of dep. var. = .891113 Log likelihood = -610.484 Sum of squared residuals = 185.449 Number of Choices = 4996 Fraction of Correct Predictions = 0.907126

Standard Parameter Estimate Error t-statistic P-value C1 3.26804 .146756 22.2686 [.000] LPRR1 -6.04988 .394129 -15.3500 [.000] PUHEINZ1 .494468 .205285 2.40869 [.016] PUHUNTS1 -.721330 .214934 -3.35605 [.001]

Standard Errors computed from analytic second derivatives (Newton)

dP/dX 0 1 C -0.23683 0.23683 LPRR 0.43842 -0.43842 PUHEINZ -0.035833 0.035833 PUHUNTS 0.052273 -0.052273

62

Gráfico 7. Probabilidades estimadas mediante el modelo logit

El resultado del contraste de la matriz de información fue igual, en este caso, a:

MIP = 17.06383CHISQ(10) Critical Value: 18.30704, Upper tail area: .05000

Por lo que, de nuevo, no se rechaza la hipótesis nula de especificación correcta.

A pesar de ello, y por motivos meramente didácticos, se ofrece el resultado del

contraste específico de heteroscedasticidad, suponiendo el mismo patrón de varianza

que en el caso del modelo probit. El resultado obtenido muestra evidencia a favor de la

ausencia de un problema de heteroscedasticidad:

HETL = 0.23739CHISQ(1) Critical Value: 3.841459, Upper tail area: .05000

Los t-ratios asociados a todas las variables explicativas superan, como el caso

del modelo probit, el valor de 1.96, por lo que todas las variables son individualmente

significativas.

El estadístico LR para contrastar la nulidad de todos los parámetros asociados a

las variables explicativas del modelo es igual a:

LRL = 498.56550CHISQ(3) Critical Value: 7.814728, Upper tail area: .05000

Y, por tanto, las variables explicativas son también conjuntamente significativas.

00.20.40.60.8

11.21.4

-4 -2 0 2 4

iP^

Diferencia entre el logaritmo neperiano del precio del producto A y el B

63

Los resultados relativos a la bondad del ajuste fueron los siguientes:

• Pseudo- 2R de McFadden: R2MFL = 0.28994

• Pseudo- 2R de McKelvey y Zavoina: R2MZL = 0.60325

• Los estadísticos 1F de McFadden y otros (1977) referidos a la información

muestral y postmuestral resultaron ser iguales a 0.44964 y 0.45001,

respectivamente. De nuevo, considerablemente elevados y muy similares.

Finalmente, dado que el modelo es muy aceptable, se procede a interpretar los

resultados obtenidos. De forma análoga al modelo probit, la publicidad ejercida sobre el

tomate Heinz ejerce un efecto positivo sobre la decisión de compra del producto,

mientras que el efecto ejercido por la publicidad del tomate Hunts y el diferencial de

precios es negativo y significativo. Lógicamente, si se incentiva la compra del tomate

Hunts o el tomate Heinz es más caro que el tomate Hunts, disminuye la probabilidad de

compra del tomate Heinz.

Adicionalmente, puede calcularse el índice subjetivo de utilidad y la

probabilidad de compra de los dos productos en cualquier situación. Si, al igual que

para el modelo probit, se toman los valores medios de precio, Precio Heinz = 0.0348 y

Precio Hunts = 0.0336 (a los que corresponde un diferencial de precios en logaritmos

neperianos = 0.039) y, suponiendo que existe publicidad para ambos tipos de productos,

se obtienen los siguientes resultados:

• Indice subjetivo de utilidad:

=^

' βix 3.2680 -6.04988*0.039 + 0.494468*1 + -0.721330* 1= 2.80524

• Probabilidad de comprar el tomate Heinz:

( ) 0.942961

12.80524

^'

^=

+=

Λ= −e

xP ii β

• Probabilidad de comprar el tomate Hunts:

05704.094296.011^

=−=− iP

64

Los efectos de cambios unitarios en las variables sobre las probabilidades de

compra ofrecidos por el programa son los siguientes (final del cuadro 4):dP/dX

0 1 C -0.23683 0.23683 LPRR 0.43842 -0.43842 PUHEINZ -0.035833 0.035833 PUHUNTS 0.052273 -0.052273

De forma análoga a lo realizado para el modelo probit, se comprueba el efecto

ofrecido para la variable continua, LPRR. Se obtiene, lógicamente, ELM= -0.43842, que

coincide con lo ofrecido por el programa y, que como en el caso anterior, se calcula

como la media de los efectos sobre los distintos individuos:

)04988.6(1^

'^

'

^'^

−

Λ−

Λ=

∂

Λ∂

=∂∂

βββ

iii

i

i

i xxLPRR

x

LPRRP

Por último, el efecto sobre la probabilidad de comprar HEINZ de la publicidad

ejercida sobre dicho producto es igual a:

Prob ( )11 == PUHEINZyi -Prob ( )01 == PUHEINZyi = 0.95055-0.86667 = 0.083883

Y el efecto de la publicidad sobre el tomate Hunts:

Prob ( )11 == PUHUNTSyi -Prob ( )01 == PUHUNTSyi =0.73016-0.90429=-0.17413

Observándose, de nuevo, que los resultados obtenidos son diferentes a las

aproximaciones ofrecidas por el programa.

Finalmente, quedaría plantearse la selección entre los dos modelos, probit o

logit. Del desarrollo realizado hasta el momento, se ha podido comprobar que, al igual

que en casi todas las aplicaciones, los resultados obtenidos mediante ambos modelos

65

son muy similares. Comprobaremos como, efectivamente, se produce la aproximación

entre los parámetros de ambos modelos. Según las aproximaciones propuestas:

Probit

^

Logit

^6.1 ββ ≅ =1.6 (-3.32173)= -5.31477

Probit

^

Logit

^

3βπβ ≅ = 1.81380 (-3.32173)=-6.02496

y, dado que el número de ceros y unos que toma la variable dependiente es diferente,

1=iy en 2226 individuos e 0=iy en 272, como era de esperar, es más precisa la

segunda aproximación (la estimación resultante es igual a -6.04988, ver Cuadro 4).

Finalmente, la selección entre ambos modelos se realizará a partir de los criterios

basados en la función de verosimilitud estimada: el logaritmo de la función de

verosimilitud y el criterio de información SBIC. Los comandos necesarios para el

cálculo de este último, en los respectivos modelos, son los siguientes:

Probit:

SET SBICP= -(1/2498)*LVP+2*(LOG (2498))/2498;PRINT SBICP;

Logit:

SET SBICL= -(1/2498)*LVL+2*(LOG (2498))/2498;PRINT SBICL;

Y, a partir de los resultados obtenidos:

PROBIT LOGIT

SBIC 0.24927 0.25065

Log-Likelihood -607.030 -610.484

se seleccionaría el modelo probit, dado que es el que presenta el mayor valor de

la función de log-verosimilitud y el menor valor del criterio SBIC.

66

Referencias bibliográficas

Amemiya, T. (1981). “Qualitative Response Models: A Survey”. Journal of EconomicLiterature 19, 1481-1536.

Amemiya, T. (1985). Advanced Econometrics. Cambridge: Harvard University Press.

Aparicio, M. T. y Villanúa, I. (1999). “Etapa de Validación en Modelos de Elección Discreta”.Cuadernos Aragoneses de Economía 9 (2), 349-373.

Baltagi, B. H. (1998). Econometrics. Springer. Barcelona.

Baltagi, B. H. (1998). Solutions Manual for Econometrics. Springer. Barcelona.

Berndt, E., Hall, B., Hall, R. y Hausman, J. (1974). “Estimation and Inference in NonlinearStructural Models”. Annals of Economic and Social Measurement 3/4, 653-665.

Davidson, R. y MacKinnon, J. (1984). “Convenient Specification Tests for Logit and ProbitModels”. Journal of Econometrics 25, 241-262.

Davidson, R. y MacKinnon, J. G. (1993). Estimation and Inference in Econometrics. OxfordUniversity Press. New York.

Dhrymes, P. J. (1984). Econometría. Editorial AC. Madrid

Fomby, T. B., Hill, R. C. y Johnson, S. R. (1984). Advanced Econometric Methods. Springer-Verlag. New York.

Franses, P. H. y Paap, R. (2001). Quantitative Models in Marketing Research. CambridgeUniversity Press.

Goldberger, A. S. (1998). Introducción a la Econometría. Ariel Economía. Barcelona.

Greene, W. H. (1999). Análisis Econométrico. Tercera edición. Madrid. Prentice Hall.

Gujarati, D. N. (1997). Econometría. Tercera edición. Mc Graw Hill.

Johnston, J. y Dinardo, J. (1997). Métodos de Econometría. Vicens Vives, Barcelona.

Judge, G. R., Hill, C., Griffiths, W. E., Lee, T. y Lütkepohl, H. (1988). An Introduction to theTheory and Practice of Econometrics, 2nd Ed., New York, John Wiley & Sons.

Lechner, M. (1991). “Testing Logit Models in Practice”. Empirical Economics 16, 177-198.

Maddala, G.S. (1994). “Specification Test in Limited Dependent Variable Models”. WorkingPaper Department of Economics, The Ohio State University.

Malinvaud, E. (1966). Statistical Methods of Econometrics. Rand McNally & Company,Chicago, pp. 195-197.

Martín, G., Labeaga, J. M. y Mochón, F. (1997). Introducción a la Econometría. Prentice Hall.Madrid.

67

McFadden, D.F. (1974). “Conditional Logit Analysis of Qualitative Choice Behavior”. En: P.Zaremba, ed., Frontiers in Econometrics, Academic Press, New York, 105-142.

McFadden, D., Puig, C. y Kirschner, D. (1977). “Determinants of the Long-run Demand forElectricity”. Proceedings of the American Statistical Association (Business andEconomics Section), 109-117.

McKelvey, R. D. y Zavoina, W. (1975). “A Statistical Model for the Analysis of Ordinal LevelDependent Variables”. Journal of Mathematical Sociology 4, 103-120.

Novales, A. (1993). Econometría. Segunda Edición. Editorial Mc Graw Hill. Madrid.

Pagan, A.R. y Pak, Y. (1993). “Testing for Heteroscedasticity”. Handbook of Statistics 11, 489-518.

Pindyck, R. S. y Rubinfeld, D. L. (1998). Econometría. Modelos y Pronósticos. Mc Graw Hill.Cuarta Edición. México.

Veall, M. R. y Zimmermann, K. F. (1992). “Performance Measures from Prediction-RealizationTables”. Economics Letters 39, 129-134.

Verbeek, M. (2000). A Guide to Modern Econometrics. John Wiley & Sons. Chichester. UK.

White, H. (1982). “Maximum Likelihood Estimation of Misspecification Model”.Econometrica, 50 (1), 1-25.

Windmeijer, F.A.G. (1995). “Goodness-of-Fit Measures in Binary Response Models”.Econometric Reviews 14, 101-116.

MED Binomial

Documents

Transcript of MED Binomial