LOS MODELOS DE PREDICCIÓN DEL FRACASO … · es aplicable a otras distribuciones aparte que la...

22
0 LOS MODELOS DE PREDICCIÓN DEL FRACASO EMPRESARIAL. PROPUESTA DE UNA TAXONOMÍA. José Manuel T. Pereira Profesor Adjunto Departamento de Contabilidade e Fiscalidade Escola Superior de Gestão Instituto Politécnico do Cávado e do Ave Miguel Ángel Crespo Domínguez Catedrático de Universidad. Departamento de Economía Financiera y Contabilidad Facultad de Ciencias Económicas y Empresariales Universidad de Vigo José Luís Sáez Ocejo Profesor Titular Departamento de Economía Financiera y Contabilidad Facultad de Ciencias Económicas y Empresariales Universidad de Vigo Humberto Nuno R. Ribeiro Profesor Adjunto Departamento de Economia e Gestão Escola Superior de Tecnologia e Gestão Instituto Politécnico de Bragança Área temática: B) Valoración y Finanzas. Palabras clave: Modelos, Fracaso Empresarial, Propuesta de Taxonomía. 112b

Transcript of LOS MODELOS DE PREDICCIÓN DEL FRACASO … · es aplicable a otras distribuciones aparte que la...

0

LOS MODELOS DE PREDICCIÓN DEL FRACASO EMPRESARIAL.

PROPUESTA DE UNA TAXONOMÍA.

José Manuel T. Pereira

Profesor Adjunto

Departamento de Contabilidade e Fiscalidade

Escola Superior de Gestão

Instituto Politécnico do Cávado e do Ave

Miguel Ángel Crespo Domínguez

Catedrático de Universidad.

Departamento de Economía Financiera y Contabilidad

Facultad de Ciencias Económicas y Empresariales

Universidad de Vigo

José Luís Sáez Ocejo

Profesor Titular

Departamento de Economía Financiera y Contabilidad

Facultad de Ciencias Económicas y Empresariales

Universidad de Vigo

Humberto Nuno R. Ribeiro

Profesor Adjunto

Departamento de Economia e Gestão

Escola Superior de Tecnologia e Gestão

Instituto Politécnico de Bragança

Área temática: B) Valoración y Finanzas.

Palabras clave: Modelos, Fracaso Empresarial, Propuesta de Taxonomía.

112b

1

LOS MODELOS DE PREDICCIÓN DEL FRACASO EMPRESARIAL.

PROPUESTA DE UNA TAXONOMÍA.

RESUMEN

El objetivo del presente trabajo es elaborar una propuesta de clasificación de los modelos de predicción del fracaso empresarial más utilizados por los autores que han investigado sobre el tema. En el XIV Encuentro AECA hemos propuesto una clasificación para ocho modelos, que ahora ampliamos para trece modelos, con el objetivo de posibilitar a los diferentes usuarios la elección del modelo más adecuado a su situación en concreto. Sobre cada uno de los referidos modelos efectuamos algunas consideraciones, haciendo también referencia a sus principales ventajas y limitaciones. De una forma muy resumida podemos referir que del conjunto de la diferente taxonomía presentada y atendiendo a las variables que pueden ser utilizadas, los modelos basados en el análisis discriminante, cusum y univariante son los más restrictivos, las redes neuronales son las que presentan menor legibilidad del conocimiento aprendido o utilizado y el análisis de supervivencia es el único que posibilita una información dinámica.

2

1. INTRODUCCIÓN

El fracaso de las empresas puede surgir de un conjunto de causas múltiples y complejas, de naturaleza interna y externa, pudiendo ser imputado, por ejemplo, a una deficiente estructura organizativa, a la propia estrategia de la empresa, alteraciones del foro jurídico, modificaciones tecnológicas o al grado de turbulencia del ciclo económico. El problema del fracaso empresarial es un tema que despierta interés en un amplio conjunto de agentes económicos, en la medida que estos pueden sufrir graves consecuencias cuando una empresa fracasa.

El estudio de este tema permite, por un lado, comprender mejor las causas y las señales del proceso de degradación de una empresa y, por otro, posibilitan la aplicación de un conjunto de medidas correctivas.

La literatura especializada sobre el fracaso empresarial presenta una amplia gama de modelos utilizados para discriminar entre empresas sanas y fracasadas. Desde los trabajos pioneros de Beaver (1966) y Altman (1968) los investigadores buscan metodologías alternativas y nuevas herramientas con el objetivo de mejorar los resultados, soslayar limitaciones metodológicas y potenciar la utilidad de los modelos obtenidos.

Principiamos el presente trabajo por hacer algunas consideraciones sobre cada uno de los modelos objeto de análisis, haciendo también referencia a sus principales ventajas y limitaciones, para después presentarnos una propuesta de taxonomía de los modelos analizados con base en algunas de sus características o aspectos que consideramos importantes.

3

2. BREVES CONSIDERACIONES SOBRE LOS MODELOS

Análisis Univariante Los modelos univariantes se caracterizan por hacer recaer todo el peso de la predicción en el resultado ofrecido por una sola variable económica (Crespo, 2000), es decir, son modelos que utilizan una sola variable independiente para predecir la quiebra.

En general las investigaciones empíricas sobre la predicción del fracaso que utilizan esta metodología, tienen como principal objetivo comparar los ratios financieros de las empresas que fracasan con los ratios de las que no fracasan, para detectar diferencias sistemáticas que puedan ayudar a predecir dicha situación (Lev, 1978).

A pesar de la facilidad de ejecución, esta metodología presenta también varias limitaciones. Una de las criticas más generalizadas a estos modelos, parten del criterio de que los distintos ratios pueden proporcionar soluciones contradictorias, ya que puede clasificarse la empresa como insolvente con un determinado ratio, mientras que con otro resultaría ser una empresa solvente (Rodríguez-Vilariño, 1994). El simple análisis de los valores medios de los ratios para cada grupo de empresas también puede llevar a conclusiones erróneas, si no es conocida la dispersión de los valores respecto a la media.

Análisis discriminante La aplicación de esta técnica al análisis financiero se ha dirigido inicialmente a la consideración del problema de la predicción de bancarrota o quiebra. El objetivo era obtener un indicador o puntuación «Z» (variable dependiente de una función) que resultaba de la combinación lineal de determinadas variables independientes (ratios o indicadores financieros) Gabás (1990).

Fueran varios los autores que han hecho referencia a las limitaciones del análisis discriminante cuando es aplicada a estudios sobre predicción de quiebra (Eisenbeis, 1977; Pinches, 1980; Mora, 1996 y Sung et al., 1999), entre otros. Las principales limitaciones se relacionan con la distribución de las variables, la dispersión de la matriz de covarianzas, la determinación de la significatividad individual de las variables, los errores de clasificación, la reducción de la dimensión y la aplicación de los modelos a priori.

A pesar de las limitaciones metodológicas de muchos de los trabajos que han utilizado el análisis discriminante, ese hecho no invalida los buenos resultados que se han logrado con sus estudios.

Entre las ventajas del análisis discriminante Sung et al. (1999) hacen referencia a su capacidad para incorporar múltiples ratios financieros simultáneamente, como a su capacidad de combinar variables independientes. Martín (1997) destaca también la obtención de una puntuación única que permite una jerarquización de las empresas analizadas. Otra ventaja de este método es que, una vez desarrollado el modelo, su aplicación es muy sencilla.

4

Logit El logit se obtiene a partir de la regresión logística. La regresión logística puede ser utilizada cuando la variable dependiente es binaria o dicotómica (Hosmer y Lemeshow, 1989). Como señala Ferrando y Blanco (1998: 522) “en un modelo logit, la relación entre la probabilidad de quiebra en una empresa i (Pi) y el valor de los j ratios financieros de dicha empresa en un determinado año (Xji) es de una curva en S acotada entre cero y uno.”

Según Mora (1996) al modelo logit le son de aplicación algunas de las limitaciones mencionadas para el análisis discriminante, principalmente, la no consideración de las probabilidades previas y los errores de clasificación1, siempre que se tome como punto de corte 0,5, aparte de las situaciones extremas de la muestra.

Una de las ventajas de este modelo, es que admite que las variables independientes puedan ser categóricas, permitiendo que las variables explicativas no se reduzcan únicamente a ratios económico financieros o variables métricas, posibilitando de esta manera el uso de información no financiera o cualitativa (Ferrando y Blanco, 1998).

Para Lo (1986) el modelo logit es más sólido que el análisis discriminante, ya que es aplicable a otras distribuciones aparte que la normal.

Probit El modelo probit está asociado a la función acumulativa de probabilidad normal, suponiendo de antemano una distribución normal.

A la semejanza de lo que sucede con el análisis logit, el modelo probit presenta buenos resultados2 en el estudio del comportamiento individual de los elementos para una determinada población cuando la variable dependiente es binaria o dicotómica (Borooah, 2002).

En términos prácticos, con el modelo probit se obtiene las mismas conclusiones3 que con el logit, con la desventaja de que los coeficientes probit son más difíciles de interpretar, por eso su menor utilización. Ya que se tiene por base una curva normal estándar, el probit no es recomendado cuando existen muchos casos asimétricos o con otra distribución que no sea la normal (Pampel, 2000).

Aldrich y Nelson (1984), citados por Cheng et al. (2006) señalan que la utilización de variables dummy en el análisis probit puede redundar en la violación de la hipótesis que los errores tienen una distribución normal acumulativa.

Modelos de Regresión Lineal La regresión lineal nace de la tentativa de relacionar un conjunto de observaciones de determinadas variables, designadas genéricamente por ix , con las lecturas de una determinada grandeza Y . En el caso de la regresión lineal, se considera que la

1 Lo mismo ocurre en los restantes modelos. 2 El autor se refiere a los diversos campos de investigación, pero no específicamente sobre la predicción de la insolvencia. 3 Según Borooah (2002), para los mismos datos, con el análisis logit y probit en general se obtiene la misma conclusión, pero los coeficientes difieren en magnitud.

5

relación de respuesta con las variables ix es una función lineal en los parámetros

iβ siendo generalmente subyacente una relación del tipo:

εβββ ++++= mm xxY ...110

donde mβββ ,...,, 10 son los parámetros desconocidos, es decir, son los parámetros de la relación lineal buscada y ε es la variable que incluye todos los factores residuales más los posibles errores de medición o, en otras palabras, representa el error asociado al modelo (Reis, 1994).

El objetivo puede ser explicativo (demostrar una relación matemática que puede indicar, pero no probar, una relación de causa – efecto) o predictivo (lograr una relación que nos permita, ante futuras observaciones de las variables ix , prever el correspondiente valor de Y , sin necesidad de medirlo).

Para Weisberg (2005) la principal ventaja de este modelo es que funciona y posibilita buenas y útiles respuestas en muchos problemas, a pesar de todas las nuevas alternativas que han surgido recientemente.

Como limitaciones se puede referir la no verificación de algunos presupuestos del modelo. La literatura científica es prácticamente unánime en señalar la no distribución normal de los ratios contables, implicando que en muchos casos la relación existente entre la variable respuesta y las variables explicativas, no sea lineal. Además, cualquier violación de los presupuestos anteriores, no siendo esenciales para la derivación de las expresiones de cálculo de las estimaciones de los parámetros, son indispensables en lo que concierne a los tests de hipótesis y derivación de intervalos de confianza y, en general, para toda la validación estadística de los resultados (Matos, 1995).

Gráficos CUSUM De acuerdo con Montgomery (2000) los gráficos de Shewhart son una forma tradicional de detectar una situación fuera de control y, consecuentemente un posible desvío de la variable objeto de estudio. Sin embargo estos gráficos no acumulan las informaciones de las muestras anteriores y presentan dificultades para detectar pequeños desvíos. Tales limitaciones han impulsado el desarrollo de modelos de gráficos de control que acumulan las informaciones de las sucesivas muestras recogidas. Uno de esos modelos de gráficos que acumulan informaciones incorporadas en la estadística analizada son los Gráficos de Control de Suma Acumulada (Cumulative Sum Control Charts – CUSUM).

Estos gráficos son muy eficientes para detectar pequeños cambios (Woodall, 1986; Lucas, 1982). De acuerdo con Alves (2003) los referidos gráficos son particularmente eficaces con muestras secuenciales de tamaño n=1, es decir, para aquellas situaciones donde la monitorización del proceso es efectuada mediante observaciones individuales. Con el CUSUM las características especiales son difíciles de observación y análisis (Woodall, 1986).

Análisis de Supervivencia Este modelo utiliza el tiempo de supervivencia o la tasa de riesgo como variable dependiente. Asume que las empresas fracasadas y las empresas no fracasadas

6

son de la misma muestra poblacional, considerando las empresas no fracasadas como observaciones censuradas.

La principal ventaja de este modelo está en la información adicional que el mismo proporciona. Con esta metodología pasamos a tener un enfoque diferente, una vez que el análisis de la curva de supervivencia de una determinada empresa nos permite saber cuál es la probabilidad de supervivencia más allá de un período de tiempo, y en consecuencia, la obtención del riesgo de insolvencia. En comparación con los restantes métodos estadísticos, éste se ajusta mejor a procesos dinámicos.

Sin embargo, y a semejanza de lo que sucede con los demás métodos, su precisión dependerá en mucho, de la calidad de los datos que sirvieron de base a su confección.

Una limitación relevante reside en la dificultad de obtención de los tiempos de supervivencia, es decir, del momento en que ocurre el fenómeno que está siendo analizado.

Inducción de Reglas La inducción de reglas aparece muchas veces asociada a los árboles de decisión, siendo usadas para expresar el conocimiento representado por éstas.

Algunas de las ventajas de la inducción de reglas residen en los resultados obtenidos, la facilidad de explicación y comprensión, la fácil identificación de los pasos para la solución del problema y en el poco espacio de almacenamiento.

Langley y Simon (1995) señalan como principales desventajas de esta técnica el hecho de que las reglas sean altamente heurísticas, la dificultad de manejo de la información incompleta o ciertos valores inesperados. A estos aspectos Monard (2003) añade que el proceso para inducir reglas es más lento que para inducir árboles de decisión y de haber muchos parámetros a ajustar.

Árboles de Decisión Para Zhu et al. (2007) los árboles de decisión son una forma simples pero eficaz de aprendizaje por inducción, infiriendo decisiones a partir de un conjunto de variables discretas o continuas. En términos gráficos se asemejan a un árbol, centrado en una estructura que interconexiona un conjunto de nodos a través de ramas resultantes de una partición recursiva (repetitiva) de los datos, desde el nodo raíz hasta los nodos terminales (hojas), que suministran la clasificación para la (acción) instancia.

Los árboles de decisión presentan como ventajas su versatilidad y un elevado índice de legibilidad y comprensión que permiten identificar de forma expeditiva los factores más influyentes. La principal desventaja surge de la necesidad de utilizar una cantidad considerable de datos cuando se trabaja con estructuras complejas. (Quintela, 2005). En algunos algoritmos cuanto más fragmentadas sean las regiones, mayor será la necesidad de datos para generar buenos resultados (Kiang, 2003).

7

Redes neuronales Aunque se desconoce bastante sobre la forma como el cerebro aprende a procesar la información, han surgido modelos que intentan mimetizar tales habilidades, denominados redes neuronales artificiales o modelos de computación conexionista. La elaboración de estos modelos supone, por un lado, la deducción de los rasgos o características esenciales de las neuronas y sus conexiones, y por otro, la implementación del modelo en un ordenador de forma que se pueda simular. Como refiere De Andrés (2000) el deseo de mejorar los resultados que se alcanzaban con los modelos estadísticos ha motivado diversos autores a introducir las redes neuronales en este campo de estudio.

Las principales ventajas de las redes neuronales resultan de sus propias propiedades. Para Núñez (1997: 72), “las propiedades globales de las redes neuronales surgen de la complicidad de los componentes individuales, muy sencillos si se consideran aisladamente”.

De las propiedades que pueden resultar fundamentales para la resolución de determinados problemas, se destacan las siguientes:

• Aprendizaje y generalización. El sistema va modificando su comportamiento para ajustarlo a los datos que se le van proporcionando, logrando describir el todo a partir de algunas partes, constituyéndose como formas eficientes de aprendizaje y almacenamiento de conocimiento (Cortez, 2002) y (Quintela, 2005). Como señala Núñez (1997) ésta es la propiedad más llamativa y que más aplicaciones potenciales va a crear, siendo el verdadero corazón de una red neuronal y, lo que la hace diferente de un programa convencional.

• Procesamiento masivo paralelo. Permite que tareas complejas sean realizadas en un corto espacio de tiempo, ya que cada neurona puede calcular una función elemental sin necesidad de cooperar con las demás.

• Adaptabilidad. Aunque el aprendizaje de la red se tenga realizado en un momento inicial con un determinado número de casos, es siempre posible reestrenarse la red incorporando al conjunto de datos, nuevas situaciones resultantes de las condiciones cambiantes del entorno o de información de la cual no se disponía en el momento inicial (De Andrés, 2000).

• Robustez y degradación suave. Permite procesar el ruido o la información incompleta de forma eficiente, siendo portadoras de capacidad para mantener su mismo desempeño cuando ocurre la desactivación de algunas conexiones o neuronas (Quintela, 2005). Esta es una característica muy interesante, una vez que, como señalan Serrano y Martín (1993), la información económica, y especialmente la que proporcionan los estados contables de las empresas, suele constar de multitud de datos correlacionados, a veces incompletos e incluso erróneos o adulterados.

Sin embargo, las redes neuronales también presentan inconvenientes. El más conocido es el referente a la dificultad de analizar su proceso de razonamiento. Estos sistemas pueden ser entendidos como un modelo de “caja negra” que dan respuestas, pero no transmiten conocimiento sobre el proceso que ha conducido a la obtención de las mismas. En redes pequeñas, mediante el estudio de los pesos sinápticos o por simulación, es posible saber al menos qué variables han sido las más relevantes a la hora de tomar la decisión (Núñez, 1997), pero, modelos con un gran número de neuronas y coeficientes nos impiden conocer la importancia que

8

presenta cada variable en la respuesta final presentada por el sistema (De Andrés, 2000; Calderon y Cheh, 2002).

Otra limitación ocurre, principalmente, cuando no existe un adecuado número de casos de entrenamiento, en la que después de un determinado número de iteraciones, el rendimiento de la red empieza a decaer para los casos testados, no obstante mejora para los casos de entrenamiento. A este problema se le conoce como overfitting (sobreajuste o sobreentrenamiento) (Cortez, 2002).

Conjuntos aproximados (Rough Sets) El concepto de conjuntos aproximados (Rough Sets) se relaciona, de alguna forma, con otras teorías matemáticas desarrolladas para el tratamiento con incertidumbre e imprecisión. Según Díaz (2002) las fuentes de incertidumbre son múltiples y entre otras pueden citarse la imprecisión del conocimiento disponible, la presencia de ruido en los datos o la vaguedad de los conceptos involucrados. Esta teoría fue propuesta en los primeros años de la década de los 80 por Zdzislaw Pawlak.

Según Pawlak et al. (1995) una de las principales ventajas de los conjuntos aproximados es que no necesitan de información preliminar o adicional sobre los datos, como es, por ejemplo, la distribución de probabilidad estadística, ya que, como indica Díaz (2002) esta técnica utiliza única y exclusivamente la estructura interna de los datos analizados para modelar el conocimiento.

McKee (2000) hace referencia también, a que las reglas de clasificación son de fácil interpretación y que cada regla de decisión se obtiene de un conjunto de casos reales. Bose (2006) adelanta que a través de las reglas descubiertas es posible obtener una explicación de la decisión.

Para Santos y Azevedo (2005) el hecho de que esta teoría se fundamente en un riguroso formalismo matemático es también una ventaja. Como limitaciones estos autores mencionan la dificultad de ejecución y también la documentación todavía pobre y compleja.

Razonamiento Basado en Casos (CBR) El razonamiento basado en casos (Case-Based Reasoning o CBR) es el proceso de resolver nuevos problemas basándose en las soluciones de problemas anteriores. Se puede decir que el CBR es un proceso de razonamiento a través de analogías.

La filosofía básica de estos sistemas es que si un caso ha ofrecido buenos resultados con anterioridad, se podría utilizar para resolver problemas similares en el futuro, mientras que si ha fallado en ocasiones anteriores, no se debería repetir el mismo error (De Andrés et al., 2005).

Estos sistemas construyen bases de conocimiento (también conocidos como librería de casos, bases de conocimiento de casos o memoria) con el objetivo de proporcionar al usuario una serie de referencias sobre situaciones anteriores que tengan características similares a la actual y que, por lo tanto, puedan ayudar en la búsqueda de la solución. El objetivo de seleccionar casos relevantes de la memoria de casos es recuperar aquellos a través de los cuales se podrían hacer predicciones sobre el nuevo. La recuperación se hace utilizando las características del nuevo caso que fueron relevantes en la solución de casos pasados.

9

El esquema general de un sistema de CBR consta de cuatro fases fundamentales: Recuperar, Reutilizar, Revisar y Retener. Un nuevo caso se resuelve recuperando uno o más casos previos, reutilizando el mismo, revisando la solución propuesta, y almacenando la nueva situación en la base de casos existente.

Kolodner (1993) considera que el CBR presenta las siguientes ventajas:

• Proporciona soluciones rápidas y evita pérdida de tiempo relacionada con su elaboración sin cualquier base de partida;

• Proporciona soluciones en dominios no completamente comprensibles por el usuario;

• Confiere formas para la evaluación de soluciones cuando ningún algoritmo está disponible para el efecto;

• Concede apoyo a la interpretación de dominios abiertos o de conceptos mal estructurados;

• Permite evitar errores pasados;

• Posibilita aproximaciones desde diferentes puntos de vista para una misma situación y enfoca o amplía las perspectivas de dichas aproximaciones.

La posibilidad de la creación en el usuario de una confianza excesiva en las experiencias pasadas, la emergencia de tendencias que restrinjan la originalidad en la creación de nuevas soluciones o el empleo de experiencias pasadas menos adecuadas a la situación son presentadas por Kolodner (1993) como las principales limitaciones. La recuperación de casos inapropiados puede costar un tiempo considerable o conducir a errores de elevado coste, que podrían ser evitados con la utilización de otros métodos. Kumar y Ravi (2007) recalcan la pobre generalización del modelo CBR.

Algoritmos genéticos Los algoritmos genéticos (AG) son una técnica utilizada en problemas de optimización y se basan en los principios de las leyes de evolución natural, propuesta por Charles Darwin en 1859. De acuerdo con Darwin, la naturaleza, a lo largo de los años, promueve los individuos más adaptados llevando a que estos se reproduzcan más que los otros (Santos y Azevedo, 2005; Groth, 2000).

De acuerdo con Goldberg (1989) los AG combinan las nociones de supervivencia del más apto con un intercambio estructurado y aleatorio de características entre individuos de una población de posibles soluciones, ajustando un algoritmo de búsqueda que puede aplicarse para resolver problemas de optimización en diversos campos.

En un algoritmo genético, tras parametrizar el problema en una serie de variables, éstas se codifican en un cromosoma. Todos los operadores utilizados por un algoritmo genético se aplicarán sobre estos cromosomas, o sobre poblaciones de ellos. Las soluciones codificadas en un cromosoma compiten para ver cuál constituye la mejor solución. El ambiente, constituido por otras soluciones, ejercerá una presión selectiva sobre la población, de forma que sólo los mejor adaptados

10

(aquellos que resuelvan mejor el problema) sobrevivan o leguen su material genético a las siguientes generaciones. Cada cromosoma tiene varios genes, que corresponden a los respectivos parámetros del problema. Para poder trabajar con estos genes en el ordenador, es necesario codificarlos en una cadena, es decir, una serie de símbolos (números o letras) que generalmente va a estar compuesta de ceros y unos (Merelo, 2005).

Una ventaja de los AG es su habilidad para manipular muchos parámetros simultáneamente (Forrest, 1993). Otra ventaja de los AG es que se desenvuelven bien en problemas con un paisaje adaptativo complejo - aquéllos en los que la función de aptitud es discontinua, cambia con el tiempo, o tiene muchos óptimos locales (Marczyk, 2004). El autor adelanta que los AG son válidos a la hora de resolver situaciones con un abanico de soluciones potenciales considerable. De Andrés et al. (2005) señalan también la posibilidad de trabajar con datos incompletos y contradictorios, facultando a los usuarios explicaciones sobre la toma de decisiones.

Sobre las limitaciones, Miranda (2011) indica que debido al elevado número de variables y poblaciones que un AG trata, aparte de la generación de múltiples soluciones, los AG poseen un coste informático muy elevado.

Otra limitación que puede surgir con un AG, especialmente en poblaciones pequeñas, se conoce como convergencia prematura. Si un individuo es más apto que la mayoría de sus competidores, emerge muy pronto en el curso de la ejecución, de manera que puede influenciar el algoritmo a convergir hacia el óptimo local que representa ese individuo, en lugar de rastrear el paisaje adaptativo con más profundidad para encontrar el óptimo global (Forrest, 1993; Mitchell, 1996).

Para Frias-Martinez et al. (2005) los AG presentan una alta complejidad y baja interpretabilidad. Según Shapiro (2002) los AG son difíciles de afinar y no tienen criterio de convergencia. Para Aickelin y Dowsland (2004) no existe una forma predefinida de incluir restricciones en los AG.

Máquinas de Soporte Vectorial La teoría de las máquinas de soporte vectorial (SVM del inglés Support Vector Machine) es una técnica de clasificación que ha sido introducida en la última década por Vapnik y sus colaboradores. El objetivo de las SVM es elaborar una forma informáticamente eficiente de aprender “buenos” hiperplanos de separación en un espacio de características de una dimensión mayor, buscando la máxima separación entre clases (Lima, 2002).

Según Díaz y Fernández (2005) las SVM operan a través de una transformación de los datos originales (representados en el espacio de entrada) en otra representación dentro del espacio de características con la intención de que, puntos no separables inicialmente en el espacio de entrada, sí lo sean en el espacio de características.

De una forma resumida se puede decir que una SVM aprende la superficie de decisión de dos clases distintas de los puntos de entrada mapeando esos puntos a un espacio de características de una dimensión mayor (es decir, si los puntos de

entrada están en 2ℜ entonces son mapeados por la SVM a

3ℜ ) y encuentra un hiperplano que los separe y maximiza el margen entre las clases de este espacio (Betancourt, 2005).

11

De acuerdo con la mayoría de los autores analizados sobre el tema podemos concluir que las ventajas de las SVM superan sus limitaciones. Burges (1998) se refiere a la SVM como un potente método para problemas de clasificación, con muy buenas propiedades de generalización. A su vez, Cristianini y Shawe-Taylor (2000) y Kim (2003) señalan que, al contrario de otros modelos, principalmente con redes neuronales, es poco probable la posibilidad de sobreajustamiento con las SVM. Fernández (2007) indica también como ventajas de las SVM, su base matemática sólida, además del hecho de no tener muchos parámetros configurables y de contraer fronteras de clases muy complejas, lo que permite un aprendizaje correcto de problemas difíciles. Por último, Kumar y Ravi (2007) señalan que las SVM tienen una solución global óptima a medida que el problema se transforma en un problema de programación cuadrática, pudiendo ser válido su uso con pocos ejemplos.

Sobre las limitaciones Kumar y Ravi (2007) destaca que en la fase de prueba las SVM son muy lentas, contando con una elevada complejidad algorítmica y requiriendo una gran memoria informática. Para Li y Fang (2008) la precisión de las SVM en referencia a amplias y complicadas bases de datos no es tan alta y el tiempo de computación aumenta rápidamente.

12

3. PROPUESTA DE TAXONOMÍA DE LOS MODELOS

Atendiendo a algunos de los aspectos que acabamos de hacer referencia, al igual que a otras características, intentaremos proponer a continuación diversas formas de clasificación de los distintos modelos.

Clasificación en función del output (modelo obtenido):

• Función – el resultado viene expresado a través de una función matemática, que puede ser una función lineal o no lineal.

• Puntos o regiones de separación – son definidos puntos o regiones en el espacio o en el plano donde es aplicado el criterio de decisión.

• Reglas – el resultado viene expresado sobre la forma de reglas.

• No inteligible – el modelo obtenido no es perceptible, siendo apenas conocida la decisión suministrada del mismo.

Clasificación en función de la técnica utilizada:

• Tradicionales – podemos encuadrar en esta división los modelos que utilizan fundamentalmente técnicas estadísticas.

• Inteligencia artificial – engloba los modelos que se dedican a la construcción de programas informáticos capaces de realizar trabajos inteligentes4.

4 Sobre el tema se puede ver el trabajo de Sánchez (1991). Para Duda y Shortliffe (1983) los objetivos básicos de la Inteligencia Artificial son los siguientes: (1) estudiar el comportamiento inteligente de los seres humanos, y (2) hacer programas de ordenador inteligentes capaces de imitar el comportamiento humano. Minsky y Papert (1969) han definido la Inteligencia Artificial como el arte de construir máquinas capaces de hacer cosas que requerirían inteligencia en el caso de que fueran hechas por los humanos.

13

Clasificación en función de las variables utilizadas:

• Restrictivos – incluye los métodos que no admiten la utilización de todo el tipo de variables, o simplemente su utilización no es la más indicada.

• Generalistas – admiten la utilización de variables categóricas, posibilitando la utilización de variables cualitativas, cuantitativas y macroeconómicas.

Clasificación en función de los principios que orientan su elaboración5:

• Estadístico/matemáticos – establecen conjeturas de probabilidad sobre la distribución de los valores de las variables independientes o utilizan funciones matemáticas para la resolución de problemas de programación.

• Generalizaciones simbólicas – estos modelos generalizan de modo simbólico, la información contenida en los casos que utilizan durante el entrenamiento, siendo posible representar el conocimiento aprendido de forma perceptible para los usuarios.

• Asociativos – utiliza el conocimiento de experiencias pasadas para solucionar problemas actuales.

• Sistemas neuronales artificiales – intentan representar el conocimiento de un modo conexionista y adaptativo, mimetizando la estructura neuronal del cerebro humano.

Clasificación en función de la legibilidad del conocimiento aprendido o utilizado:

• Simbólico – la representación del conocimiento es inteligible para los usuarios6, siendo posible reconstruir y explicar las etapas o procesos hechos por quien los ha elaborado (expertos o ordenadores).

• “Caja negra” – modelos informáticamente efectivos, es decir, dan respuestas, pero no transmiten conocimiento sobre el proceso que ha conducido a la obtención de las mismas.

5 Esta clasificación ha sido adaptada de Quinlan (1993). 6 Nos referimos a usuarios que sean portadores de los conocimientos mínimos de matemática, estadística e informática que exige la utilización de tales modelos.

14

Clasificación en función de la funcionalidad para los usuarios:

• Prácticos – se encuadran aquí los modelos cuya utilización es relativamente sencilla y que normalmente no exigen demasiados cálculos7.

• Elaborados – modelos cuyos cálculos pueden resultar complejos o cuyo funcionamiento puede depender de la disponibilidad de un ordenador y software específico.

Clasificación en función del tipo de información suministrada:

• Estática – la información se engloba en un determinado periodo concreto.

• Dinámica – la información suministrada permite la visualización de la probabilidad de ocurrencia del fenómeno estudiado a lo largo de un periodo considerado.

Clasificación en función de su difusión:

• Amplia – modelos muy populares y ampliamente utilizados en variados estudios sobre el tema.

• Reducida – modelos relativamente conocidos, todavía de utilización menos frecuente.

• Insignificante – modelos poco divulgados, siendo todavía escasa su aplicación.

En la tabla 1 se puede ver una síntesis de la taxonomía propuesta, donde las abreviaturas corresponden a los siguientes modelos:

AD Árboles de Decisión CUSUM Gráficos de Control de Suma Acumulada

ADL Análisis Discriminante Lineal L Logit

AG Algoritmos Genéticos MRL Modelo de Regresión Lineal

AS Análisis de Supervivencia P Probit

CA Conjuntos Aproximados RNA Redes Neuronales

CBR Razonamiento Basado en Casos SVM Máquinas de Soporte Vectorial

7 Para Altman (1993: 179) su modelo de 1968 era especialmente fácil de comprender y aplicar. Según el autor, los usuarios sólo necesitaban de los estados financieros, una calculadora de mano, una hoja de papel y cerca de 10 a 15 minutos para calcular el Z-score de una empresa.

15

Tabla 1. Síntesis de la propuesta de taxonomía presentada

Dinamica

Univariante Reduzida

Amplia

Elaborada Insignificante

Amplia

AS Insignificante

SVM CBRAmplia

P. Separación

Generalizacionesneuronales

AD

AG

CA

Tradicional

RNA

Legibilidad del conocimiento

Output

Simbólico Caja negra

No inteligible

ADL

L

P

Función Reglas

Estática

Tipo de información

simbólicasSistemas Estadísticos

CUSUM

Práctica

Elaborada

Generalista

Restritiva

Dif

usi

ón

/ Im

pla

nta

ció

n

Fu

nci

on

alid

ad

Var

iab

les

adm

itid

as

Asociativos

Int. Artificial

Reduzida

Insignificante

MRL

Téc

nic

as u

tiliz

adas

Práctica

16

4. CONCLUSIÓN En el presente trabajo hemos propuesto una clasificación de los principales modelos de predicción del fracaso empresarial, en base a diversos parámetros con el objetivo de posibilitar a los diferentes usuarios la elección del modelo más adecuado a su situación en concreto. La referida clasificación se ha basado en los siguientes parámetros:

• Clasificación en función del output o modelo obtenido (Función, Puntos o regiones de separación, Reglas y No inteligible);

• Clasificación en función de la técnica utilizada (Tradicionales e Inteligencia artificial);

• Clasificación en función de las variables utilizadas (Restrictivos y Generalistas);

• Clasificación en función de los principios que orientan su elaboración (Estadístico/matemáticos, Generalizaciones simbólicas, Asociativos y Sistemas neuronales artificiales);

• Clasificación en función de la legibilidad del conocimiento aprendido o utilizado (Simbólico y “Caja negra”);

• Clasificación en función de la funcionalidad para los usuarios (Prácticos y Elaborados);

• Clasificación en función del tipo de información suministrada (Estática y Dinámica);

• Clasificación en función de su difusión (Amplia, Reducida e Insignificante).

En síntesis podemos referir que:

a) Atendiendo a las variables que pueden ser utilizadas, los modelos basados en el análisis discriminante, cusum y univariante son los más restrictivos, dado que no admiten la utilización de todo el tipo de variables, o simplemente su utilización no es la más indicada;

b) Las redes neuronales son las que presentan menor legibilidad del conocimiento aprendido o utilizado porque no transmiten conocimiento sobre el proceso que ha conducido a la obtención de las respuestas;

c) El análisis de supervivencia es el único que posibilita una información dinámica una vez que la información suministrada permite la visualización de la probabilidad de ocurrencia del fenómeno estudiado a lo largo de un periodo considerado;

d) Las máquinas de soporte vectorial, los algoritmos genéticos, el razonamiento basado en casos y las redes neuronales son los modelos más complejos pues sus cálculos pueden resultar muy elaborados o su funcionamiento puede depender de la disponibilidad de un software específico;

e) Los output de los árboles de decisión, conjuntos aproximados, algoritmos genéticos y el razonamiento basado en casos vienen expresados por reglas y las máquinas de soporte vectorial por regiones de separación.

17

BIBLIOGRAFÍA

AICKELIN, U. y DOWSLAND, K. A. (2004): “An Indirect Genetic Algorithm for a Nurse-Scheduling Problem”, Computers and Operations Research, Vol. 31, N.º 5, April, pp. 761-778.

ALDRICH, J. H. y NELSON, F. D. (1984): Linear Probability, Logit and Probit Models, Sage Publications, Beverly Hills, CA.

ALTMAN, E. I. (1968): “Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy”, The Journal of Finance, Vol. 23, N.º 4, September, pp. 589-609.

ALTMAN, E. I. (1993): Corporate Financial Distress and Bankruptcy: A Complete Guide to predicting & Avoiding Distress and Profiting from Bankruptcy, Second Edition, John Wiley & Sons, Inc..

ALVES, C. C. (2003): Gráficos de Controle CUSUM: um enfoque dinâmico para a análise estatística de processos, Dissertação de Mestrado, Universidade Federal de Santa Catarina.

BEAVER, W. H. (1966): “Financial Ratios As Predictors of Failure”, Journal of Accounting Research, Supplement, Vol. 4, N.º 3, pp. 71-111.

BETANCOURT, G. A. (2005): Las Máquinas de Soporte vectorial (SVMs), Scientia et Technica, Año XI, N.º 27, Abril, pp. 67-72.

BOROOAH, V. K. (2002): Logit and Probit: Ordered and Multinomial Models, Quantitative Applications in the Social Sciences, Series N.º 138, Sage Publications, Thousand Oaks, California.

BOSE, I. (2006): “Deciding the financial health of dot-coms using rough sets”, Information & Management, Vol.43, N.º 7, October, pp. 835-846.

BURGES, C. J. C. (1998): “A Tutorial on Support Vector Machines for Pattern Recognition”, Data Mining and Knowledge Discovery, Vol. 2, N.º 2, pp. 121-167.

CALDERON, T. G. y CHEH, J. J. (2002): “A roadmap for future neural networks research in auditing and risk assessment”, International Journal of Accounting Information Systems, Vol.3, N.º 4, December, pp. 203-236.

CHEN, M. S.; HAN, J. y YU, P. S. (1996): “Data Mining: an Overview from a Database Perspective”, IEEE Transactions on Knowledge and Data Engineering, Vol. 8, N.º 6, pp. 866-883.

CORTEZ. P. A. R. (2002): Modelos Inspirados na Natureza para a Previsão de Séries Temporais, Tese de Doutoramento, Departamento de Informática, Universidade do Minho, Portugal.

CRESPO DOMÍNGUEZ, M. Á. (2000): Análisis de los Factores Explicativos del Fracaso Empresarial en Galicia: Un Análisis Empírico Mediante la Utilización de Modelos de Redes Neuronales, Edition del propio, Vigo

18

CRISTIANINI, N. y SHAWE-TAYLOR, J. (2000): An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press.

DE ANDRÉS SUÁREZ, J: (2000): “Técnicas de Inteligencia Artificial Aplicadas al Análisis de la Solvencia Empresarial”,Documento de trabajo de la Universidad de Oviedo, N.º 206/00, Oviedo, España.

DE ANDRÉS, J.; BONSÓN, E.; ESCOBAR, T. y SERRANO, C. (2005): Inteligencia Artificial y Contabilidad, Documentos AECA, Serie Nuevas Tecnologías y Contabilidad, N.º 5, Madrid.

DÍAZ GOMES, F. y FERNÁNDEZ-RIVEROLA, F. (2005): “Análisis de datos de microarrays”, en Avances en Bioinformática. De la teoría a la prática: métodos, técnicas y herramientas, Varios autores, Coordina: CORCHADO, J. M., Universidad de Salamanca, pp. 82-104

DÍAZ GÓMEZ, F. (2002): Aprendizaje y Generación Automática de Conocimiento: Construcción de Redes Bayesianas mediante Rough Sets, Tesis Doctoral, Universidad de Vigo, Vigo.

DUDA, R. O. y SHORTLIFFE, E. H. (1983): “Expert Systems Research”, Science, Vol. 220, April, pp. 261-268.

EISENBEIS, R. A. (1977): “Pitfalls in the Application of Discriminant Analysis in Business, Finance, and Economics”, The Journal of Finance, Vol. 32, N.º 3, June, pp. 875-900.

FERNÁNDEZ DELGADO, M. (2007): Máquinas de Vectores de Soporte (SVM), disponible en http://trevinca.ei.uvigo.es/~cernadas/tc03/mc/presenta_svm.pdf, consultado el 4 de mayo de 2011.

FERRANDO BOLADO, M. y BLANCO RAMOS, F. (1998): “La Previsión del Fracaso Empresarial en la Comunidad valenciana: Aplicación de los Modelos Discriminante y Logit”, Revista Española de Financiación y Contabilidad, Vol. XXVII, N.º 95, abril-junio, pp. 499-540.

FORREST, S. (1993): “Genetic algorithms: principles of natural selection applied to computation”, Science, Vol. 261, N.º 5123, pp.872-878.

FRIAS-MARTINEZ, E.; MAGOULAS, G.; CHEN, S. y MACREDIE, R. (2005): “Modeling human behavior in user-adaptive systems: Recent advances using soft computing techniques”, Expert Systems With Applications, Vol. 29, N.º 2, August, pp. 320-329.

GABÁS TRIGO, F. (1990): Técnicas Actuales de Análisis Contable. Evaluación de la Solvencia Empresarial, Instituto de Contabilidad y Auditoría de Cuentas, Ministerio de Economía y Hacienda, Madrid.

GOLDBERG, D. (1989): Genetic Algorithms in Search, Optimization and Machine Learning, Addison-Wesley Publishing Company, Inc.

GROTH, R. (2000): Data Mining: Building Competitive Advantage, PRT Prentice-Hall, Inc., USA.

HOSMER D. W. y LEMESHOW S. (1989): Applied Logistic Regression, John Wiley & Sons, Inc., USA.

19

KIANG, M. Y. (2003): “A comparative assessment of classification methods”, Decision Support Systems, Vol. 35, N.º 4, July, pp. 441-454.

KIM, K.J. (2003): “Financial time series forecasting using support vector machines”, Neurocomputing, Vol. 55, N.º 1-2, September, pp. 307-319.

KOLODNER, J. (1993): Case-based reasoning. Morgan Kaufmann Publishers, San Mateo California.

KUMAR, P. R. y RAVI V. (2007): “Bankruptcy prediction in banks and firms via statistical and intelligent techniques – A review”, European Journal of Operational Research, Vol. 180, N.º 1, July, pp. 1-28.

LANGLEY, P. y SIMON, H. A. (1995): “Applications of Machine Learning and Rule Induction” Communications of the ACM, Vol. 38, N.º 11, November, pp. 55-64.

LEV, B. (1978): Análisis de los Estados Financieros: Un Nuevo Enfoque, Ediciones ESIC, Madrid.

LI, D. C. y FANG, Y. H. (2008): “An algorithm to cluster data for efficient classification of support vector machines”, Expert Systems With Applications, Vol. 34, N.º 3, April, pp. 2013-2018.

LIMA, A. R. G. (2002): Máquinas de Vetores Suporte na Classificação de Impressões Digitais, Dissertação de Mestrado, Universidade Federal do Ceará.

LO, A. W. (1986): “Logit Versus Discriminant Analysis: a Specification Test and Application to Corporate Bankruptcy”, Journal of Econometrics, Vol. 31, N.º 2, March, pp. 151-178.

LUCAS, J. M. (1982): “Combined Shewhart-Cusum Quality Control Schemes”, Journal of Quality Technology, Vol. 14, pp. 51-59.

MARCZYK, A. (2004): Algoritmos genéticos y computación evolutiva, disponible en https://the-geek.org/docs/algen, consultado el 07 de noviembre de 2009.

MARTIN, D. (1977): “Early warning of bank failure: a logit regression approach”, Journal of Banking and Finance, Vol. 1, N.º 3, November, pp. 249-276.

MATOS, M. A. (1995): Manual Operacional para a Regressão Linear, Faculdade de Economia da Universidade do Porto, Porto.

MCKEE, T. E. (2000): “Developing a Bankruptcy Prediction Model via Rough Sets Theory”, Internacional Journal of Intelligent Systems in Accounting, Finance & Management, Vol. 9, N.º 3, September, pp. 159-173.

MENDIZ NOGUERO, I. (2002): Un estudio sobre la aplicación del razonamiento basado en casos a la construcción de programas, Tesis Doctoral, Universidad Complutense de Madrid.

MERELO GUERVÓS, J. J. (2005): Informática evolutiva: Algoritmos genéticos, disponible en http://geneura.ugr.es/~jmerelo, consultado el 02 de mayo de 2011.

MINSKY, M. y PAPERT, S. (1969): Perceptrons, MIT Press.

20

MIRANDA, M. N. (2007): Algoritmos genéticos: Fundamentos e Aplicações, disponible en www.gta.ufrj.br/~marcio/genetic.html, consultado el 10 de enero de 2011.

MITCHELL, M. (1996): An Introduction to Genetic Algorithms. MIT Press, Cambridge, MA.

MONARD, M. C. (2003): “Indução de Regras e Árvores de Decisão”, en Sistemas Inteligentes: Fundamentos e Aplicações, varios autores, Coordena: REZENDE, S. O., Editora Manole, São Paulo, pp. 115-139. MONTGOMERY, D. C. (2000): Introduction to Statistical Quality Control, 4th Edition, John Wiley, New York.

MORA ENGUÍDANOS, A. (1996): El Contenido Informativo de los Datos Contables para las Decisiones de Inversión, Instituto de Contabilidad y Auditoría de Cuentas, Madrid.

NUÑEZ GARCÍA, C. (1997): La Construcción de una Red Neuronal para el Análisis de Riesgos en las Entidades Financieras, Tesis Doctoral, Sevilla.

PAMPEL, F. C. (2000): Logistic Regression: A Primer, Quantitative Applications in the Social Sciences, Series N.º 132, Sage Publications, Thousand Oaks, California.

PAWLAK, Z.; GRZYMALA-BUSSE, J.; SLOWINSKI, R. y ZIARCO, W. (1995): “Rough Sets”, Communications of the ACM, Vol. 38, N.º 11, pp. 89-95.

PINCHES, G. E. (1980): “Factors Influencing Classification Results From Multiple Discriminant Analysis”, Journal of Business Research, Vol. 8, N.º 4, December, pp. 429-456.

QUINLAN, J. R. (1993): C4.5: Programs for machine learning, Morgan Kaufmann, San Francisco.

QUINTELA, H. (2005): Sistemas de Conhecimento Baseados em Data Mining: Aplicação à Análise da Estabilidade de Estruturas Metálicas, Dissertação de Mestrado, Departamento de Sistemas de Informação, Universidade do Minho, Portugal.

REIS, E. (1997): Estatística Multivariada Aplicada, Edições Sílabo, Lisboa.

RODRIGUEZ VILARIÑO, M. L. (1994): “Utilidad del análisis de ratios para la predicción de la insolvencia empresarial”, Actualidad Financiera, publicado en tres partes, N.º 34, pp. 699-724, N.º 35, pp. 725-750 y N.º 36, pp. 751-773.

SÁNCHEZ TOMÁS, A. (1991): “Sistemas Expertos en Contabilidad”, Técnica Contable, N.º 514, pp. 533-546.

SANTOS, M. F. y AZEVEDO, C. (2005): Data Mining – Descoberta de Conhecimento em Base de Dados, FCA, Lisboa.

SANTOS, M. F. y AZEVEDO, C. (2005): Data Mining – Descoberta de Conhecimento em Base de Dados, FCA, Lisboa.

21

SERRANO CINCA, C y MARTIN DEL BRIO, B. (1993): “Predicción de la Quiebra Bancaria Mediante el Empleo de Redes Neuronales Artificiales”, Revista Española de Financiación y Contabilidad, Vol. XXII, N.º 74, enero-marzo, pp. 153-176.

SHAPIRO, A. F. (2002): “The Merging of Neural Networks, Fuzzy Logic, and Genetic Algorithms”, Insurance: Mathematics and Economics, Vol. 31, N.º 1, August, pp. 115-131.

SUNG, T. K., CHANG, N. y LEE, G. (1999): “Dynamics of Modeling in Data Mining: Interpretive Approach to Bankruptcy”, Journal of Management Information Systems, Vol. 16, N.º 1, Summer, pp. 63- 85.

WEISBERG, S. (2005): Applied Linear Regression, 3rd Ed., Wiley/Interscience.

WOODALL, W. H. (1986): “The Design of CUSUM Quality Control Charts”, Journal of Quality Technology, Vol. 18, N.º 2, pp. 99-102.

ZHU, Z.; HE, H.; STARZYK, J. A. y TSENG, C. (2007): “Self-organizing learning array and its application to economic and financial problems”, Information Sciences, Vol. 177, N.º 5, March, pp. 1180-1192.