predicción de medio plazo de las pendientes de curvas de ...

108
UNIVERSIDAD PONTIFICIA COMILLAS ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA (ICAI) INSTITUTO DE POSTGRADO Y FORMACIÓN CONTINUA TESIS DE MASTER PREDICCIÓN DE MEDIO PLAZO DE LAS PENDIENTES DE CURVAS DE DEMANDA RESIDUAL DE UN AGENTE AUTOR: Juan Felipe López Hernández MADRID, Febrero 2005 Master en Gestión Técnica y Económica en el Sector Eléctrico

Transcript of predicción de medio plazo de las pendientes de curvas de ...

Page 1: predicción de medio plazo de las pendientes de curvas de ...

UNIVERSIDAD PONTIFICIA COMILLAS

ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA (ICAI)

INSTITUTO DE POSTGRADO Y FORMACIÓN CONTINUA

TESIS DE MASTER

PREDICCIÓN DE MEDIO PLAZO DE LAS PENDIENTES DE CURVAS DE

DEMANDA RESIDUAL DE UN AGENTE

AUTOR: Juan Felipe López Hernández MADRID, Febrero 2005

Master en Gestión Técnica y Económica en el Sector Eléctrico

Page 2: predicción de medio plazo de las pendientes de curvas de ...

Autorizada la entrega de la tesis de master del alumno/a: (Poner el nombre del alumno/a)

………………………………………………….

EL DIRECTOR (poner el nombre del Director)

Fdo.: …………………… Fecha: ……/ ……/ ……

EL TUTOR

(poner el nombre del Tutor)

Fdo.: …………………… Fecha: ……/ ……/ ……

Vº Bº del Coordinador de Tesis (poner el nombre del Coordinador de Tesis)

Fdo.: …………………… Fecha: ……/ ……/ ……

Page 3: predicción de medio plazo de las pendientes de curvas de ...

UNIVERSIDAD PONTIFICIA COMILLAS

ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA (ICAI)

INSTITUTO DE POSTGRADO Y FORMACIÓN CONTINUA

TESIS DE MASTER

PREDICCIÓN DE MEDIO PLAZO DE LAS PENDIENTES DE CURVAS DE

DEMANDA RESIDUAL DE UN AGENTE

AUTOR: Juan Felipe López Hernández MADRID, Febrero 2005

Master en Gestión Técnica y Económica en el Sector Eléctrico

Page 4: predicción de medio plazo de las pendientes de curvas de ...

INDICE

INTRODUCCIÓN.......................................................................................................... 1

1 MODELOS DE EQUILIBRIO DE MERCADO................................................. 2 1.1 MODELO DE COURNOT ...................................................................................... 2 1.2 MODELOS BASADOS EN VARIACIONES CONJETURALES ...................................... 3 1.3 EQUILIBRIO DE MERCADO.................................................................................. 4

2 MODELADO DE LA FUNCIÓN DE SUMINISTRO Y CURVAS DE DEMANDA RESIDUAL...................................................................................... 14

2.1 FUNCIÓN DE SUMINISTRO ................................................................................ 14 2.2 LA FUNCIÓN DE DEMANDA RESIDUAL .............................................................. 17 2.3 APLICACIÓN DEL MODELO DE BISAGRAS AL ANÁLISIS DE UNA CURVA DE OFERTA............................................................................................................ 19 2.4 ANÁLISIS DE CLUSTERS DE CURVAS DE OFERTA ............................................... 21

3 ESTUDIO DE LAS VARIABLES RELEVANTES DEL MERCADO ........... 25 3.1 ESTUDIO DE PATRONES DE COMPORTAMIENTO DEL CONJUNTO DE AGENTES.... 26 3.2 ESTUDIO CUALITATIVO DE VARIABLES QUE PUEDAN EXPLICAR LAS PENDIENTES DE LAS CDR .................................................................................................... 29 3.3 VARIABLES EXPLICATIVAS CONSIDERADAS REPRESENTATIVAS....................... 34

4 MODELO DE ESTIMACIÓN DE PENDIENTES ........................................... 35

4.1 REVISIÓN DEL MECANISMO DE CASACIÓN........................................................ 35 4.2 DESCRIPCIÓN GENERAL DEL MODELO.............................................................. 36 4.3 AJUSTES DEL MODELO ..................................................................................... 37 4.4 MODULO DE ESTIMACIÓN DE PRECIOS ............................................................. 41 4.5 MÓDULO DE CÁLCULO DE PENDIENTES............................................................ 41

5 RESULTADOS DEL MODELO: CASO EJEMPLO....................................... 43 5.1 MODELO HÍBRIDO DE BISAGRAS ...................................................................... 44 5.2 MODELO DE MEDIAS ........................................................................................ 48 5.3 RESULTADOS ................................................................................................... 48 5.4 CONCLUSIONES ............................................................................................... 50

6 CONCLUSIONES Y FUTUROS DESARROLLOS......................................... 52 6.1 CONCLUSIONES ............................................................................................... 52 6.2 FUTUROS DESARROLLOS.................................................................................. 53

Page 5: predicción de medio plazo de las pendientes de curvas de ...

ANEXOS ...................................................................................................55 A REDES NEURONALES ...................................................................................... 56

A.1 CARACTERÍSTICAS PRINCIPALES DE LAS REDES NEURONALES ........................ 56 A.2 PRINCIPALES TIPOS DE REDES NEURONALES ................................................... 62

B ARBOLES DE DECISIÓN.................................................................................. 85 B.1 INTRODUCCIÓN................................................................................................ 85 B.2 CONSTRUCCIÓN DE ÁRBOLES DE DECISIÓN ...................................................... 86 B.3 TEST CONSIDERADOS....................................................................................... 94 B.4 INFORMACIÓN INCOMPLETA ............................................................................ 94 B.5 ALGORITMOS ESTANDAR DE CONSTRUCCIÓN DE ÁRBOLES DE DECISIÓN.......... 95

BIBLIOGRAFÍA .......................................................................................................... 98

INDICE DETALLADO ............................................................................................. 101

Page 6: predicción de medio plazo de las pendientes de curvas de ...

Introducción

El objetivo de este trabajo es fundamentar y desarrollar un modelo que permita la estimación, a partir de variables explicativas que se puedan predecir con facilidad y conocer sus valores futuros con poca incertidumbre, de las pendientes de las funciones de demanda residual de las empresas participantes en el mercado mayorista español de la electricidad.

Para ello, el presente trabajo se ha estructurado en seis capítulos y dos anexos distribuidos de la siguiente forma:

En el primer capítulo se realiza un acercamiento al modelado de los mercados de energía eléctrica, destacando el papel que juegan en ellos las conjeturas que una empresa debe realizar para modelar el comportamiento del resto de agentes que participan en el mercado.

La metodología empleada para poder tratar y operar las funciones de suministro de las empresa se desarrolla en el segundo capítulo. En él se explica el modelado de las curvas de oferta y demanda, las medidas de similitud para su agrupamiento, calculo de las pendientes de las funciones de suministro, etc.

Un resumen de los resultados más importantes obtenidos de los análisis de las variables fundamentales que influyen en el comportamiento del mercado se presenta en el capítulo tercero.

En el capítulo cuarto se resume el modelo propuesto para la estimación de las pendientes de las curvas de demanda residual en el punto de casación de las empresas y, en el capítulo quinto, se muestran los resultados obtenidos con el modelo propuesto en un caso ejemplo real del mercado eléctrico español, comparándolos con los obtenidos con un modelo de referencia sencillo de medias por bloques de horas.

En el sexto y último capítulo se analizan las principales aportaciones y conclusiones y se proponen futuras vías de desarrollo.

Para completar el trabajo se ha incluido dos anexos en los que se presentan de forma resumida los fundamentos teóricos de las redes neuronales y los árboles de decisión en los que se apoyan los desarrollos del presente trabajo.

Por motivos de confidencialidad en los resultados presentados se ha omitido toda referencia a los nombres de las empresas analizadas.

Page 7: predicción de medio plazo de las pendientes de curvas de ...

1 Modelos de equilibrio de mercado

En los sistemas liberalizados existe una interdependencia entre las decisiones tomadas por los distintos agentes, puesto que el resultado del mercado depende del conjunto de ofertas enviadas por todos ellos. Por ello, el mercado puede considerarse como un juego donde los agentes participantes son los jugadores y donde las reglas del juego están definidas por el tipo de subasta o modelo de casación.

La teoría de juegos proporciona un marco de análisis para este tipo de situaciones en las que es necesario modelar el comportamiento racional humano en el proceso de toma de decisiones.

Las empresas participantes en el mercado tienen que decidir qué ofertas presentar para cada una de las horas del día siguiente. En este caso, los jugadores eligen sus acciones, es decir, las curvas de oferta presentadas, con el criterio de maximizar su función de utilidad. Sin embargo, además de este juego diario pueden existir otros juegos donde las variables de decisión tengan otros alcances temporales. Por ejemplo, en el medio plazo puede existir un juego donde la variable de decisión sea el valor medio de la cuota de mercado o también la gestión del agua. En este caso, una empresa que posea embalses de regulación anual tendrá que decidir cuándo consumir su agua sabiendo que sus decisiones tendrán influencia en la respuesta del resto de agentes.

Una forma de modelar el comportamiento del mercado de generación es mediante la búsqueda de equilibrios de Nash. En la teoría microeconómica se pueden encontrar varios modelos que han sido estudiados en profundidad y de los que se conoce la solución teórica del equilibrio. Sin embargo la aplicación de dichos modelos al sector eléctrico no es una tarea evidente debido a las características peculiares de la electricidad [García, 2001].

1.1 Modelo de Cournot

Antoine Agustín Cournot analizó por primera vez el problema de la decisión estratégica de agentes no cooperativos en su trabajo "Recherches sur les principes mathématiques de la théorie des Richesses", de 1838. El modelo de Cournot es un juego simultáneo y estático donde los jugadores son productores de un determinado bien. La decisión que tiene que tomar cada jugador es cuánta cantidad producir sin conocer las decisiones tomadas por el resto de jugadores. Los consumidores no participan activamente en el juego sino que únicamente expresan de forma agregada su curva de demanda. Sin embargo, esta curva de demanda es absolutamente necesaria, ya que es con la que se

Page 8: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 3

obtiene el precio de mercado. La solución de este juego se conoce como "equilibrio de Cournot" y se obtiene resolviendo el problema de maximización simultánea del beneficio de todos los jugadores.

La ventaja del modelo de Cournot es que el cálculo del equilibrio puede realizarse con relativa facilidad, lo que permite modelar con bastante detalle las características de los generadores. Sin embargo, la mayor desventaja es que el precio es determinado a partir de la curva de demanda. En los mercados reales, las ofertas de compra suelen estar caracterizadas por representar una demanda muy inelástica. Es decir, el precio depende en gran medida de las ofertas de venta de los generadores y este hecho no es considerado en el modelo de Cournot donde la variable estratégica de las empresas es únicamente la cantidad producida.

1.2 Modelos basados en variaciones conjeturales

Como se ha mencionado anteriormente, el análisis de los mercados de generación de energía eléctrica mediante modelos que utilizan el equilibrio de Cournot tiene serias limitaciones. Por un lado, no permiten representar adecuadamente el comportamiento estratégico de los agentes al interaccionar en el mercado. Por otro, los resultados que se obtienen resultan muy influidos por la elasticidad de la demanda utilizada. En general, podría decirse que resulta adecuado para representar condiciones de mercado muy específicas.

Para obtener una representación más adecuada del mercado es necesario un modelo que considere la interdependencia estratégica de las diferentes empresas. Es decir, un modelo que considere la respuesta de cada agente ante las decisiones adoptadas por el resto.

El enfoque de variaciones conjeturales de la teoría microeconómica clásica [Reneses, 2004] adopta el planteamiento descrito, justificando un intento de introducir dinámica en un modelo estático. Así pues, para cada empresa se considera la variación de la producción del resto de empresas frente a variaciones en su producción.

Una de las críticas que se realizan a los modelos de variaciones conjeturales es que introducen, de algún modo, una pseudo-dinámica en un juego que es inherentemente estático. Es decir, introduce la consideración de que existe una respuesta de los agentes a las decisiones adoptadas por cada uno de ellos. No obstante, las características especiales de los mercados de generación hacen adecuada la consideración de respuesta de los agentes, debido a dos causas fundamentales. En primer lugar, en el juego "real" las variables de decisión no son las potencias producidas, sino las curvas de oferta que se presentan en los diferentes mercados. Esto hace que sí exista una reacción del mercado a la variación de la potencia producida por cada agente. En segundo lugar, al tratarse de un juego repetido en el tiempo, parece adecuado considerar el aprendizaje de los agentes como parte de la respuesta a las decisiones de cada uno de ellos.

Dentro de la literatura se han localizado tres trabajos que, basados en variaciones conjeturales, modelan un mercado de generación de energía eléctrica.

En [Day, 2002] se propone un modelo que utiliza como conjetura la variación de la producción de los competidores respecto al precio de mercado. Esto es, cada empresa trata de predecir la curva de oferta agregada de su competencia, por lo que el enfoque se denomina como conjeturas en funciones de oferta (conjectured supply function). Este enfoque se utiliza para calcular el punto de equilibrio en un mercado de generación,

Page 9: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 4

incluyendo el cálculo del flujo de cargas en corriente continua. Para ello, se utilizan cuatro conjuntos de ecuaciones: a) las condiciones para la maximización de beneficios de las empresas de generación; b) las condiciones para la maximización de la eficiencia en el uso de la red, que incluyen el flujo de cargas; c) las condiciones para la maximización de beneficios de los arbitrajistas que compran energía en un nodo y lo venden en otro; y d) la relación entre precio y demanda en cada nodo de la red.

El modelo se resuelve utilizando curvas de oferta agregada de la competencia que son lineales respecto al precio, y haciendo dos consideraciones alternativas:

• Suponiendo conocidas las pendientes de las funciones lineales, y dejando ajustarse las ordenadas en el origen. Con esta suposición se garantiza la existencia y unicidad de la solución, y el problema propuesto tiene estructura de problema complementario mixto (MCP, por sus siglas en ingles) [Cottle, 1992], que además es lineal.

• Suponiendo conocidas las ordenadas en el origen de las funciones lineales, y dejando ajustarse las pendientes. En este caso, la estructura se corresponde con un problema complementario mixto no lineal, en el que no se puede garantizar ni la existencia ni unicidad de la solución.

La metodología se aplica al mercado de Inglaterra y Galés, utilizando una red simplificada y un único bloque de carga.

En [García-Alcalde, 2002] se propone como conjetura la elasticidad de la curva de demanda residual para cada agente. A partir de estas elasticidades se plantean las condiciones de optimalidad para las empresas de generación. Estas condiciones, junto a la ecuación que liga el precio y la demanda dan lugar a una estructura de problema complementario mixto. De este modo, el punto de equilibrio de mercado se puede obtener mediante la resolución de dicho problema complementario.

Para la estimación de las conjeturas, se propone una metodología basada en el cálculo de sus valores implícitos. Para ello, se utilizan datos del pasado, suponiendo que las decisiones que realizaron los agentes fueron óptimas. La metodología se aplica al mercado de España, utilizando 12 periodos, cada uno de ellos dividido en 5 bloques de carga.

Estos dos trabajos basados en variaciones conjeturales se desarrollan y formulan matemáticamente en el apartado 1.3.2.2.

En [Song, 2003] se plantea el problema de como un agente puede realizar de forma óptima su oferta en un mercado de generación. Para ello, utiliza como conjetura la variación de la producción total de sus competidores respecto de su producción. Así pues, cada agente modela el comportamiento de su competencia agregándola en un único agente, lo que tiene la ventaja de que no necesita conocer sus funciones de coste. El modelo se resuelve analíticamente para un único bloque de carga, utilizando funciones de coste cuadráticas.

1.3 Equilibrio de mercado

Como se ha comentado anteriormente, el enfoque natural para enfrentarse a la representación de un mercado eléctrico competitivo en el medio plazo es mediante su consideración como un juego no cooperativo. La solución de este juego se encuentra en su punto de equilibrio. Tal y como lo definió John F. Nash [Nash, 1950], un conjunto de

Page 10: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 5

acciones constituye un punto de equilibrio si, fijadas las acciones del resto de competidores, ninguna de las empresas puede aumentar su beneficio escogiendo una acción distinta a su acción de equilibrio.

En este apartado se formula el problema de equilibrio de mercado y se resumen los enfoques clásicos que se han utilizado para abordarlo en su aplicación a los mercados de generación de electricidad.

1.3.1 Formulación del problema de equilibrio Para calcular el punto de equilibrio hay que resolver simultáneamente los problemas de maximización de beneficios de todas las empresas generadoras presentes en el mercado cuando cada una de ellas supone fijas las decisiones de sus competidores. Para cada empresa e=1...E, la función de beneficio Be es:

( )e e e eB P C Pλ= ⋅ −   Ecuación 1.1

Donde λ representa el precio marginal del sistema, Pe la producción de la empresa considerada y Ce(Pe) su función de coste (que se supone conocida para todas las empresas) para los distintos niveles de producción.

De este modo, el problema completo consistirá en la maximización de esta función de cada empresa, cumpliendo las restricciones técnicas correspondientes y el balance entre la generación y la demanda D. En esta formulación del problema de equilibrio no se considerarán restricciones técnicas.

El máximo de las funciones de beneficio se alcanzará en el punto en el que su derivada sea cero.

( )0e e

ee e

C PP e

P Pλλ

∂∂+ ⋅ − = ∀

∂ ∂ 

1

E

ee

D P=

= ∑  

Ecuación 1.2

Esta formulación está basada en la hipótesis de que las funciones de coste de los agentes son independientes. Es decir:

( )0e e

i

C Pi e

P∂

= ∀ ≠∂

  Ecuación 1.3

Esta hipótesis no resulta muy restrictiva y se considera adecuada en la mayor parte de los casos, aunque puede entrar en conflicto con dos situaciones posibles en sistemas de energía eléctrica:

• La existencia de centrales de propiedad compartida entre varias empresas.

• La existencia de una topología hidráulica en la que las decisiones de una empresa modifican las posibilidades de elección de otras. Por ejemplo, el caso en el que una empresa dispone de una central hidráulica aguas arriba de otra central propiedad de otra.

Page 11: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 6

En todo caso, la influencia de ambas situaciones (si es que existen) se supondrá despreciable, pues su consideración complicaría de manera importante el cálculo del equilibrio de mercado.

El problema propuesto consta de E+2 variables (las producciones de cada empresa, la demanda y el precio) con E+1 ecuaciones, por lo que para su resolución es necesario otra ecuación. Se trata de la relación existente entre el precio y la demanda (o bien la producción total). Esta relación (que no es más que una elasticidad de la demanda) se supone exógena al mercado y, por lo tanto, es necesario conocerla para el cálculo del punto de equilibrio.

( )1

E

ee

P D f λ=

= =∑   Ecuación 1.4

Se pueden dar tres situaciones dependiendo de las características del mercado considerado, es decir, de la relación demanda-precio y de las funciones de coste de las empresas. La primera de ellas es que no exista solución, en cuyo caso no existe un punto de equilibrio de mercado. La segunda es que existan múltiples soluciones, con lo que existirían múltiples equilibrios de mercado. La tercera es que exista una única solución y, por lo tanto, un único punto de equilibrio.

Lógicamente, esta tercera solución es la más deseable, por lo que una buena parte de los enfoques utilizados para resolver el problema están basados en hipótesis que garantizan la existencia y unicidad de la solución del sistema de ecuaciones.

El siguiente epígrafe detalla los dos enfoques que se han considerado de más interés (y que, posiblemente, son los más utilizados) para el cálculo del equilibrio de mercado: el equilibrio de Cournot y los modelos de variaciones conjeturales.

1.3.2 Soluciones al problema de equilibrio En este epígrafe se desarrollan los dos enfoques de más interés para el cálculo de soluciones al problema de equilibrio de mercado: en primer lugar el modelo de equilibrio de Cournot y en segundo, los modelos basados en variaciones conjeturales.

1.3.2.1 Equilibrio de Cournot

El modelo equilibrio en condiciones de competencia propuesto por Antoine Agustin Cournot en 1838 [Cournot, 1838] [Daughety, 1988], ha sido extensamente utilizado y adaptado para la representación de los mercados de generación de energía eléctrica.

La hipótesis básica del modelo es que cada empresa participa en el mercado eligiendo libremente la cantidad que desea producir. Por este motivo, se suele decir que se trata de un equilibrio en cantidades.

La conjetura de Cournot implica que la variación del precio respecto de la producción de las empresas es igual, para todas las empresas, a la pendiente de la curva de demanda. Esto quiere decir que, ante variaciones en la producción de cualquier empresa, sólo reacciona la demanda, y no el resto de empresas. Dado que, por lógica, esta pendiente será negativa (a mayor precio menor producción, y viceversa), se denominará α0 a su valor absoluto, con lo que:

Page 12: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 7

( ) 0'e

f DPλ α∂

= = −∂

  Ecuación 1.5

En consecuencia, las ecuaciones que definen el equilibrio de Cournot son:

0 ( ) 0e e eP CM P eλ α− ⋅ − = ∀  

1

E

ee

D P=

= ∑  

( )D f λ=  

Ecuación 1.6

Donde se ha denominado CMe(Pe) al coste marginal de cada empresa, es decir, la derivada de su función de coste Ce(Pe) respecto a su producción.

En cuanto a la existencia y unicidad del equilibrio de Cournot, se pueden exponer de manera simplificada en dos postulados:

• El equilibrio de Cournot existe si la función f(λ) que relaciona la demanda y el precio es monótona decreciente, y los costes marginales CMe(Pe) de las empresas son monótonos crecientes.

• El equilibrio de Cournot existe y es único si, además, la función f(λ) es lineal.

Las condiciones para la existencia del equilibrio son totalmente razonables cuando se analiza un sistema de generación de energía eléctrica, por lo que son aceptadas por la mayoría los trabajos que utilizan el equilibrio de Cournot en mercados de generación. Por otro lado, la mayor parte de los trabajos de investigación que intentan calcular el equilibrio de Cournot en mercados de generación, consideran una función de demanda lineal con el precio. Esta aproximación, además de asegurar la unicidad de la solución, facilita mucho los cálculos que hay que realizar.

1.3.2.2 Modelos basados en variaciones conjeturales

Los modelos que utilizan el equilibrio de Cournot pueden constituir una buena aproximación al equilibrio de mercado en la generación de energía eléctrica. No obstante, como ya se ha mencionado, en ellos no existe la suficiente flexibilidad para representar el comportamiento estratégico de los agentes al interaccionar en el mercado, y los resultados resultan muy influidos por la curva de elasticidad de la demanda utilizada.

Para salvar esta limitación, se están realizando algunos trabajos de investigación basados en las variaciones conjeturales de la teoría microeconómica [Varian, 1992], [Vives, 1999]. En esencia, los trabajos de variaciones conjeturales están basados en que cada empresa, al tomar sus decisiones, tiene en cuenta la reacción de sus competidoras. Esta reacción (χe) se modela, para una empresa e, mediante la variación de la producción del resto de empresas P-e frente a variaciones de su producción:

Page 13: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 8

ee

e

PP

χ −∂=

∂  Ecuación 1.7

Dado que la suma de Pe y P-e coincide con la demanda total del sistema, se puede escribir la variación del precio respecto a la producción de cada empresa utilizando estas conjeturas [Reneses, 2004]:

( ) ( )ee

e

e

ee

ee PP

PPP

DPD

DPχ

ααλλλ

+⋅−=⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

+⋅−=∂

+∂⋅

∂∂

=∂∂

⋅∂∂

=∂∂ −− 1111

00

  Ecuación 1.8

Con lo que las condiciones de equilibrio de mercado resultan:

( ) ( )0

1 ee e eP CM P e

χλ

α+

− ⋅ = ∀  

1

E

ee

D P=

= ∑  

( )f Dλ =  

Ecuación 1.9

Seguidamente se describen dos trabajos que, basados en variaciones conjeturales, modelan un mercado de generación de energía eléctrica.

En [Day, 2002] se utiliza un enfoque basado en las variaciones conjeturales para calcular el equilibrio de mercado en un mercado de generación considerando un flujo de cargas en corriente continua. En este caso, la conjetura que se realiza es la variación ρe de la producción de los competidores respecto al precio.

ee

Pρλ−∂

=∂  Ecuación 1.10

Dicho de otro modo, cada empresa predice la curva de oferta agregada de su competencia. Se puede obtener su relación con las conjeturas χe:

0

0 0

1 1 1 11 1 11e

ee e e e

e

PP P

αλ ρρ α α χ

χ− −

⎛ ⎞ ⎛ ⎞∂∂= = − ⋅ + = − ⋅ + ⇒ = −⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠ +

 Ecuación 1.11

En [García-Alcalde, 2002] se propone un modelo en el que el parámetro sobre el que se realiza la conjetura es la elasticidad de la curva de demanda residual para cada agente. La demanda residual de una empresa e resulta de sustraer a la demanda del sistema la suma de las curvas de demanda de todas las empresas excepto la considerada [García, 2001], [Baíllo, 2002] [Bunn, 2003]. La elasticidad εe de la demanda residual se define para cada empresa como:

Page 14: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 9

e

ee

PPε λλ

=∂  Ecuación 1.12

Se puede calcular la relación entre esta elasticidad y las conjeturas χe:

( ) 0

0 0

1 11 11

ee e

e e e e

PP P P

αλ λχ εα α χ

−⎛ ⎞∂∂= − ⋅ + = − ⋅ + ⇒ = − ⋅⎜ ⎟∂ ∂ +⎝ ⎠

  Ecuación 1.13

1.3.2.3 Una variación conjetural alternativa

En los epígrafes anteriores se ha definido la variación conjetural del precio respecto de la producción de cada una de las empresas en torno al punto de casación. En este epígrafe se da una conjetura alternativa, aunque equivalente a la del caso anterior.

En una buena parte de los mercados eléctricos que llevan un cierto tiempo en funcionamiento, se puede disponer de datos históricos del comportamiento de los agentes participantes. Estos datos históricos permiten calcular las variaciones conjeturales, θe, del precio respecto de la producción de los agentes. No obstante, puede ser más fácil y más intuitivo utilizar como parámetros del modelo las pendientes de oferta de las empresas. Si se dispone de las curvas de oferta históricas, se pueden linealizar a tramos como se verá en el capítulo 2 y calcular su pendiente αe(Pe). La equivalencia con la variación conjetural utilizada es inmediata, pues:

1e

ii e

θα

=∑

 Ecuación 1.14

Donde se ha denominado αi a la pendiente de la oferta en torno al punto de casación. Se pueden despejar las pendientes de oferta de las ecuaciones anteriores y expresarlas en función de la variación conjetural utilizada en la formulación. Siendo E es el número de empresas existentes, se tiene:

1 1 21e

i e i e

EE

αθ θ≠

⎛ ⎞−= ⋅ −⎜ ⎟− ⎝ ⎠

∑   Ecuación 1.15

1.3.3 Consideración de demanda elástica El cálculo del equilibrio de mercado se puede ampliar para el caso en que se considere una función de demanda lineal con el precio. Siendo α0 la pendiente de la demanda y D0 la demanda para precio nulo, se supondrá:

00D D λ α= − ⋅   Ecuación 1.16

En este caso, siguiendo a [Reneses, 2004], se modifica la relación entre la variación conjetural y las pendientes de las curvas de oferta. Ahora:

Page 15: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 10

0

1e

ii e

θα α

=+ ∑

 Ecuación 1.17

Recíprocamente, se puede expresar las pendientes de las curvas de oferta en función de la variación conjetural utilizada en la formulación:

01 1 2

1ei e i e

EE

α αθ θ≠

⎛ ⎞−= ⋅ − −⎜ ⎟− ⎝ ⎠

∑   Ecuación 1.18

1.3.4 Equivalencia con otros enfoques En el apartado anterior se ha mostrado cómo calcular el equilibrio de mercado tomando dos suposiciones principales:

• La demanda es una función lineal conocida decreciente con el precio.

• Se conocen las variaciones del precio respecto a la producción de las empresas en torno al punto de casación. Es decir, las pendientes de la curva de demanda residual a las que se enfrenta cada empresa, o alternativamente, las pendientes de las curvas de oferta de todas las empresas en torno al punto de casación.

La conjetura utilizada en el planteamiento del presente trabajo es:

0

1e

e ii e

Pλ θ

α α≠

∂= =

∂ + ∑ 

Ecuación 1.19

En este apartado se desarrolla la equivalencia de este enfoque con algunos de los presentados anteriormente, mediante la variación de los parámetros θe (o bien αe).

• Mercados de competencia perfecta. Simplemente, basta con tomar que la conjetura θe es cero para todas las empresas.

0eCompetencia perfecta eθ⇒ = ∀   Ecuación 1.20

• Equilibrio de Cournot. En este caso, hay que hacer que la conjetura θe sea igual al inverso de la pendiente α0 de la curva de demanda para todas las empresas. Así, se puede observar que el equilibrio propuesto es un caso intermedio entre la competencia perfecta y el equilibrio de Cournot.

0

1eCournot eθ

α⇒ = ∀   Ecuación 1.21

• Variaciones conjeturales. Se puede calcular la relación existente entre las conjeturas θe y las variaciones conjeturales χe:

Page 16: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 11

( )0 0

1 11 1ee

e e

PP Pλ χ

α α−⎛ ⎞∂∂

= − ⋅ + = − ⋅ +⎜ ⎟∂ ∂⎝ ⎠ 

0

1 eeVariaciones conjeturales χθ

α+

⇒ = −  

Ecuación 1.22

• Modelo de conjeturas de [Day, 2002]. En este caso, la relación entre las conjeturas θe y las ρe se puede deducir a partir de su expresión en función de las variaciones conjeturales:

0

0

111

ee e

e

χ αθ ρα

χ

+= − = − ⇒

+

 

0

1e

e

Conjeturas Day θα ρ

⇒ = −+

 

Ecuación 1.23

• Modelo de conjeturas de [García-Alcalde, 2002]. Igualmente, se deduce la relación entre las conjeturas θe y las εe a partir de su expresión en función de las variaciones conjeturales:

1ee

e e e

PP Pλ λε

λ θ∂

= ⋅ = ⋅∂

 

. ee e

Conjeturas G AlcaldeP

λθε

− ⇒ =⋅ 

Ecuación 1.24

• Equilibrio de Stackelberg, también llamado de “líder en cantidad”, se realiza en dos etapas. En la primera, las empresas líderes toman la decisión de la cantidad que van a producir. En la segunda, el resto de empresas, denominadas seguidoras, conocida la cantidad decididas por los líderes, deciden las suyas. En cada etapa se resuelve un equilibrio de Cournot. Suponiendo que existen s empresas seguidoras, el valor de las conjeturas que hay que utilizar para representar el equilibrio de Stackelberg es:

( ) 0

11eStackelberg e lider

α⇒ = ∀

+ ⋅ 

'0

1 'eStackelberg e seguidoraθα

⇒ = ∀  

Ecuación 1.25

En definitiva, la conjetura realizada es equivalente a las realizadas en los modelos basados en variaciones conjeturales. La utilización de la pendiente de la curva de demanda residual permite, como se ha visto, representar muy fácilmente las hipótesis de

Page 17: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 12

mercado de competencia perfecta y mercado de Cournot, así como cualquiera de las situaciones intermedias, lo que facilita los estudios y comparaciones.

1.3.5 Estimación de las conjeturas Como ya se ha indicado, un elemento importante en el modelo anterior es la estimación de la variación conjetural del precio respecto de las producciones de los agentes (o alternativamente, de las pendientes de oferta de las empresas en torno al punto de casación). Esta estimación se puede realizar a partir de los datos históricos de las ofertas presentadas por las empresas generadoras [Cabral, 1995] [García, 2001], que se verá en el capítulo siguiente. El mercado de energía eléctrica tiene una marcada componente estacional, por lo que la estimación de los parámetros debe realizarse con un horizonte, al menos, anual. En [Bunn, 2003] se presentan tres métodos de estimación de curvas de demanda residual: mediante análisis de conglomerados (clusters), análisis de series temporales con modelos ARIMA, o mediante procesos de Markov [Bunn, 2004].

En un mercado en el que se puede disponer de las ofertas históricas de todos los agentes (como el caso del español, aunque con cierto tiempo de retraso), puede resultar más fácil estimar las pendientes de oferta en torno al punto de casación, en lugar de las pendientes de las curvas de demanda residual. No obstante, si existen empresas de tamaño reducido, la estimación de las pendientes de oferta puede ser difícil, o imprecisa, debido a la escasez de tramos en las curvas de oferta. En cambio, si se agrupan las ofertas para calcular la demanda residual de cada empresa, la estimación de su pendiente θe, para cada agente, puede resultar más precisa.

La estimación de la variación conjetural mediante datos históricos presupone un comportamiento en el futuro similar al que se ha registrado en el pasado. En mercados con varios años de funcionamiento, este supuesto puede ser normalmente aceptado, a no ser que se prevean cambios regulatorios o tecnológicos importantes. En todo caso, es necesario que el horizonte del estudio sea adecuado a la estimación que se realiza de las conjeturas.

Otro método de estimar las conjeturas utilizadas en el modelo es mediante sus valores implícitos. Es decir, se trata de evaluar el modelo de variaciones conjeturales con datos del pasado para, de este modo, calcular las pendientes con las que se obtienen los resultados que, de hecho, se dieron en el mercado. Los valores que se obtienen mediante este método se denominan pendientes implícitas. En [García-Alcalde, 2002] se utiliza este método para calcular las elasticidades de las curvas de demanda residual, que es la conjetura que se utiliza en el modelo.

1.3.6 Corrección de las conjeturas debido a la saturación Un último aspecto que hay que tener en cuenta en la utilización de las conjeturas se refiere a la saturación de las empresas. Es decir, en el momento en el que una empresa está con todo su parque de generación a plena carga no se puede considerar que influya en el comportamiento del mercado. Este hecho debe de ser tenido en cuenta de manera separada, ya que el comportamiento pasado no es capaz de localizar exactamente los momentos en los cuales puede suceder.

La corrección de las conjeturas se realiza más fácilmente utilizando las pendientes de las curvas de oferta de cada una de las empresas. Supongamos que se dispone de una estimación de estas pendientes para el horizonte temporal. Si, al ejecutar el modelo, resulta que una empresa esta produciendo al cien por cien de su capacidad disponible,

Page 18: predicción de medio plazo de las pendientes de curvas de ...

1. Modelos de equilibrio de mercado 13

resulta incorrecto considerar que su pendiente de oferta afecta a las pendientes de la demanda residual del resto de los agentes, de acuerdo a la Ecuación 1.17. Es decir, si una empresa está saturada, se hace que su pendiente sea igual a cero.

Page 19: predicción de medio plazo de las pendientes de curvas de ...

2 Modelado de la función de suministro y curvas de demanda residual

2.1 Función de suministro

La curva agregada de venta de una empresa generadora es una función escalón monótonamente creciente, puesto que se obtiene a partir de un conjunto discreto de parejas cantidad-precio. Esta curva se denomina también función de suministro (supply function) e indica el precio mínimo requerido por la empresa para vender una determinada cantidad, es decir, p = S(q), donde p es el precio y q la cantidad de energía.

Supóngase que una empresa generadora m envía para una hora un conjunto ordenado de k ofertas {(q1,p1), (q2,p2), ..., (qk,pk)}, de forma que p1 < p2 < ... < pk. Si el precio de mercado es p con pj < p < pj+1, entonces la empresa estará obligada a suministrar la potencia correspondiente a todas las ofertas con menor precio que p, es decir, una cantidad total ∑ =

j

i iq1

. Por lo tanto, la función de suministro correspondiente es:

( )

⎪⎪⎪⎪

⎪⎪⎪⎪

≤<⇔⇔

≤<⇔⇔

+≤<≤≤

⇔⇔

=

∑∑

∑∑

=

=

=

=

k

i ik

i ik

j

i ij

i ijm

qqqp

qqqp

qqqqqq

pp

qS

1

1

1

1

1

1

211

1

2

1

......

......

0

  Ecuación 2.1

Por otro lado, la curva agregada de compra de un agente consumidor es una función escalón monótonamente decreciente. Esta curva se denomina también función de demanda (demand function) e indica el precio máximo que el consumidor está dispuesto a pagar por una determinada cantidad, es decir, p = D(q). Supóngase que el consumidor n presenta un conjunto ordenado de k ofertas {(q1,p1), (q2,p2), ..., (qk,pk)}, de forma que p1 > p2 > ... > pk. Si el precio de mercado es p con pj > p > pj+1, entonces el consumidor tendría que comprar la potencia correspondiente a todas las ofertas con precio mayor que p, es decir, una cantidad total ∑ =

j

i iq1

. Por lo tanto, análogamente a la función de suministro, se puede definir la función escalón del consumidor n como:

Page 20: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 15

( )

⎪⎪⎪⎪

⎪⎪⎪⎪

≤<⇔⇔

≤<⇔⇔

+≤<≤≤

⇔⇔

=

∑∑

∑∑

=

=

=

=

k

i ik

i ik

j

i ij

i ijn

qqqp

qqqp

qqqqqq

pp

qD

1

1

1

1

1

1

211

1

2

1

......

......

0

  Ecuación 2.2

Fig. 2.1: Función de suministro y función de demanda de una empresa generadora y de un agente consumidor, respectivamente.

Sin embargo, trabajar con funciones escalón supone ciertos inconvenientes ya que son discontinuas y no pueden ser invertidas. Por ejemplo, en el caso de que el precio de una oferta de venta sea igual al precio marginal, entrando por el eje de precios de la función S(q) no se puede determinar unívocamente la cantidad despachada. Además, en caso de empate entre varias ofertas es necesario definir reglas adicionales de reparto. Por ello, en este trabajo se denotará por S(q), para referirse a una aproximación continua y estrictamente creciente de la función escalón real. De esta forma es posible encontrar la función inversa S-1(p) que sí define unívocamente la cantidad despachada en función del precio resultante en el mercado. Análogamente se utiliza el término función de demanda D(q) para referirse a una aproximación continua y estrictamente decreciente de la función escalón real lo cual permite escribir D-1(p).

Una vez se ha introducido esta terminología, la casación del mercado en una hora se puede expresar (supóngase que hay m empresas generadoras y n agentes compradores):

1. Cada una de las empresas generadoras presentan su función de suministro: S1(q), S2(q), ..., Sm(q).

Page 21: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 16

2. Cada uno de los agentes compradores presenta su función de demanda: D1(q), D2(q), ..., Dn(q).

3. Se construye la función de suministro agregada de todo el sistema S(q). Para ello suma en el eje de las cantidades todas las funciones de suministro recibidas. Sumar en el eje de cantidades supone realizar los siguientes pasos:

a. Obtener las funciones S1-1(p), S2

-1(p), ..., Sm-1(p).

b. Obtener la función suma de todas ellas: S-1(p) = S1-1(p) + S2

-1(p) + ... + Sm

-1(p).

c. La función de suministro agregada es la función inversa de la suma anterior S(q) = (S-1(p))-1.

4. Análogamente al punto anterior se construye la función de demanda agregada de todo el sistema, D-1(p), sumando en el eje de las cantidades todas las funciones de demanda recibidas.

5. Encontrar el precio marginal p* del sistema resolviendo D(q) = S(q).

6. Las cantidades despachadas a las empresas generadoras son S1-1(p*), S2

-1(p*), ..., Sm

-1(p*) y las cantidades aceptadas a los agentes compradores son D1-1(p*),

D2-1(p*), ..., Dn

-1(p*).

En la Fig. 2.2 se puede ver un esquema que resume el procedimiento de casación de ofertas.

Fig. 2.2: Esquema de casación del mercado.

Page 22: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 17

2.2 La función de demanda residual

2.2.1 Definición Tal y como se ha expuesto en el apartado anterior, las empresas participantes envían al mercado sus curvas de oferta para cada una de las horas del día siguiente. El Operador del Mercado construye las curvas horarias agregadas de venta y de compra y para cada hora encuentra la intersección de ambas curvas obteniendo el precio del mercado y la potencia total negociada en esa hora.

Conocido el precio del mercado, la potencia despachada de cada empresa se obtiene entrando por el precio de su curva de venta. Para simplificar la notación se denotará por B al conjunto de empresas generadoras de la competencia. La función de suministro agregada de todas estas empresas de la competencia en una hora se denotará con SB(q). Entrando en dicha función por un valor en el eje de precios se obtendría la cantidad que el conjunto de empresas de B tendría que producir. Es decir, dado un precio p, la producción de todas las empresas de la competencia es igual a la cantidad q = SB

-1(p).

Por otro lado se denota por D(p) a la función agregada de demanda. Dicha función se obtiene agregando las ofertas de compra de todos los agentes comercializadores y clientes cualificados del mercado. Dado un precio p, la cantidad que el conjunto de empresas está dispuesta a comprar a dicho precio se obtiene como q = D-1(p).

Por lo tanto, la parte de demanda que queda sin cubrir una vez que han sido despachadas el conjunto de empresas de la competencia es D-1(p) - SB

-1(p).

Repitiendo ese mismo razonamiento para más valores de precios, se puede ir obteniendo la relación entre la demanda que debería cubrir la empresa y el precio del mercado:

R-1(p) = D-1(p) - SB-1(p)  Ecuación 2.3

cuya función inversa, es decir, la que relaciona el precio del mercado con la cantidad despachada de la empresa, se conoce como función de demanda residual R(p).

p = R(p) Ecuación 2.4

Si la empresa generadora conociese las ofertas del resto de participantes, la función de demanda residual relacionaría el precio real del mercado con su potencia vendida. Sin embargo dicha información no está disponible por lo que la empresa generadora sólo podrá realizar conjeturas de las ofertas de las otras empresas.

En la Fig. 2.3 se muestra un ejemplo de cómo construir una función de demanda residual a partir de las ofertas de venta de la competencia y de las ofertas de compra del sistema. Es importante remarcar que la elasticidad de la curva de demanda residual se puede deber tanto al comportamiento del resto de empresas vendedoras como al comportamiento estratégico de las empresas consumidoras.

Page 23: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 18

Fig. 2.3: Función de suministro de la competencia SB(q), función de demanda del sistema D(q) y función de demanda residual de la empresa R(q).

La ventaja de utilizar las funciones de demanda residual es que si las estimaciones son buenas, la empresa generadora tiene la capacidad de estimar el precio del mercado esperado en función de las cantidades que produzca. Es importante resaltar que, en el caso de que se dieran las condiciones de competencia perfecta, la curva de demanda residual a la que se enfrentaría cualquier generador sería horizontal, es decir, el precio sería insensible a la cantidad producida.

2.2.2 Análisis de las curvas de demanda residual Como consecuencia de la liberalización del sector eléctrico, a la incertidumbre típica de los sistemas tradicionales –demanda, aportaciones hidráulicas, fallos de los generadores, etc.- hay que sumar el desconocimiento que las empresas tienen sobre el comportamiento estratégico del resto de los participantes. Por ello, la predicción de las variables asociadas a la interacción estratégica entre las empresas (precio marginal del sistema, cuota de mercado, etc.) resulta importante y de actualidad. En este trabajo se utiliza los datos históricos de las funciones de suministro y de demanda agregadas de las empresas ya que de este modo, eliminando sus propias ofertas, cada una podría construir sus curvas de demanda residual históricas.

En cualquier caso, la metodología empleada no se restringe al análisis de las curvas de demanda residual sino que también permite estudiar las curvas de venta y de compra del resto de agentes, tanto de forma individual como de forma agregada. Para simplificar la exposición, de aquí en adelante se utilizará el concepto de curva de oferta (CO) para referirse a cualquiera de las funciones siguientes:

• Función de suministro S(q).

• Función de demanda D(q).

• Función de demanda residual R(q).

En primer lugar se expone la metodología propuesta para realizar el análisis de los datos históricos de las ofertas [García, 2001]. Después se detalla la aplicación del modelo Bisagras que permite resumir y comprimir la información de las curvas de oferta. Posteriormente se expondrá cómo es posible aplicar técnicas de clustering a las CO.

La primera dificultad que aparece cuando se desea analizar los datos históricos de ofertas es que la cantidad de información disponible puede ser muy elevada. Por ello, el análisis de las ofertas debe realizarse en tres etapas:

1. Aproximación de las CO horarias mediante funciones lineales a tramos.

Page 24: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 19

2. Análisis de clusters de las CO.

3. Identificación de variables que permitan explicar el comportamiento de los patrones.

El objetivo de la primera etapa consiste en resumir y comprimir los datos de las ofertas horarias de forma que el resultado pueda ser más manejable y así facilitar su análisis posterior.

Como se expuso anteriormente, el conjunto discreto de ofertas de cada hora se puede modelar como una función escalón. En el caso de ser una función de suministro, se tratará de una función creciente y en el caso de ser una función de demanda o de demanda residual se tratará de una función decreciente. Al agregar las ofertas para construir la CO, se obtienen tantos escalones como precios distintos existan en el conjunto de ofertas de esa hora. Por ello, en la CO original puede existir un gran número de escalones con diferentes tamaños. Mediante el modelo Bisagras [Sánchez-Ubeda, 1998] se aproxima la CO original mediante una función lineal a tramos de forma que con un pequeño número de segmentos lineales se puede capturar la información relevante de la CO.

El objetivo de la segunda etapa consiste en encontrar patrones de comportamiento de los participantes en el mercado a lo largo del tiempo. Puesto que la estrategia de una empresa se ve reflejada en las ofertas enviadas al mercado, se propone buscar agrupaciones naturales entre las CO históricas mediante técnicas de clustering [García, 2001].

El siguiente paso será la identificación de variables que permitan explicar los patrones de comportamiento encontrados mediante el análisis de clusters. De esta forma se construye una "biblioteca" de curvas típicas que estarían caracterizadas por los valores (cualitativos o cuantitativos) de dichas variables explicativas.

2.3 Aplicación del modelo de Bisagras al análisis de una curva de oferta

2.3.1 Definición del modelo El modelo Bisagras es fruto de las investigaciones realizadas en la tesis doctoral "Modelos para el análisis de datos: contribuciones al aprendizaje a partir de ejemplos" [Sánchez-Ubeda, 1999]. Este modelo se enmarca dentro de los modelos de regresión unidimensional ya que permite construir la estimación ĝ(·) como una función continua definida a tramos a partir de un conjunto de N puntos en ℜ2, (xi, yi) i = 1, ..., N, que obedecen a la expresión siguiente:

yi = g(xi) +εi Ecuación 2.5

donde g(·) es la función que relaciona la variable dependiente (y) con la variable independiente (x) y ε representa una perturbación o ruido de los datos de entrada.

En el modelo Bisagras, cada uno de los tramos de la estimación ĝ(·) se aproxima por un polinomio de primer o de tercer grado. En este trabajo se han utilizado polinomios de primer grado, por lo que se utilizará el término LHM (Linear Hinges Model) para referirse a la versión lineal del modelo Bisagras.

Page 25: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 20

En los modelos de regresión, la función g(·) suele ser desconocida, por lo que el objetivo es encontrar una estimación ĝ(·) que permita aproximar la verdadera función de forma que las discrepancias entre los valores observados y los valores previstos sean pequeñas.

Sin embargo, cuando se analizan las curvas de oferta históricas, la función original sí es conocida. El objetivo en este caso es encontrar un modelo que no sea tan complejo como el original y que a la vez permita capturar la información relevante.

2.3.2 Preparación de los datos de entrada Tal y como se describe en [Sánchez-Ubeda, 2000], para aplicar el LHM, son necesarias las coordenadas de cada punto (xi, yi) i = 1, ..., N.

Dado que la función original es conocida, para obtener el conjunto de puntos, el primer paso es realizar un muestreo de la CO. Una vez que se han determinado los valores de las abcisas, la ordenada de cada punto se obtiene a partir de la CO original:

yi = g(xi) i = 1, ..., N Ecuación 2.6

La virtud del modelo Bisagras es la capacidad de seleccionar automáticamente cuáles de los escalones consecutivos se pueden aproximar por un tramo lineal y cuáles deben mantenerse utilizando un tramo vertical.

Los parámetros φ y η (0 ≤ η ≤ 1) están asociados con la precisión que se desea obtener con el modelo y para acotar el espacio de búsqueda, respectivamente.

El resultado que se obtiene tras aplicar el LHM son las coordenadas de los nodos que definen los segmentos de la función lineal a tramos. Así pues la función ĝ(·) queda definida por las coordenadas de dichos nodos, es decir:

ĝ(·) ≡ {(xk, yk) : k = 1, ..., K} Ecuación 2.7

donde K es el número de nodos obtenidos automáticamente por el LHM.

En la Fig. 2.4 se esquematiza el proceso de obtención de un modelo de bisagras a partir de una curva de demanda residual.

Page 26: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 21

Fig. 2.4: Esquema de la aplicación del modelo Bisagras a una función de demanda residual.

Conocida de demanda residual simplificada mediante el modelo de bisagras resulta sencillo determinar el valor de la pendiente de la misma para un precio dado, ya que resulta ser la pendiente del tramo lineal en el que está contenido dicho precio.

2.4 Análisis de Clusters de curvas de oferta

Utilizando la representación de las CO descrita en el apartado anterior se realiza un análisis de clusters de las CO con el objetivo de buscar automáticamente patrones de comportamiento en el resto de participantes.

Dado un conjunto de observaciones o muestras, el objetivo del análisis de clusters consiste en encontrar agrupaciones naturales entre ellas, de forma que las observaciones con características similares se agrupen en un mismo cluster y que las observaciones diferentes o heterogéneas se agrupen en clusters distintos.

2.4.1 Codificación de cada curva de oferta Normalmente, en los procedimientos de clustering, las observaciones se expresan cuantitativamente mediante vectores de idéntica dimensión, donde cada una de las componentes mide el valor de un determinado atributo. Por ello, cuando estas características se miden en distintas magnitudes es conveniente normalizar los datos de entrada para homogeneizar todos los atributos y evitar que las unidades de medida influyan en los resultados.

Sin embargo, en este trabajo se utilizan directamente las curvas codificadas según el resultado de aplicar el modelo LHM a las curvas originales. Cada CO obtenida mediante el modelo LHM se define como un conjunto de parejas cantidad-precio correspondientes a los nodos de las bisagras obtenidas. Por ejemplo, si la curva original es la función escalón de demanda residual R(q), la aproximación lineal a tramos obtenida con el LHM se define como:

Page 27: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 22

( ){ }KkpqqR kk ,...,1:,)(ˆ =≡ Ecuación 2.8

Dado que el número de nodos es determinado automáticamente por el modelo, cada una de las CO tendrá más o menos nodos dependiendo de la complejidad de la curva original. Además, las coordenadas de los nodos de diferentes curvas no tienen por qué compartir ni la ordenada ni la abcisa, ya que la posición de cada nodo también es determinada automáticamente por el LHM. Por ello, las dificultades que hay que solventar para poder aplicar las técnicas de cluster a este tipo de muestras son:

• Calcular la disimilitud entre dos observaciones.

• Calcular el centroide representante de un conjunto de CO.

2.4.2 Definición del concepto de disimilitud entre curvas de oferta Para evaluar el parecido entre las distintas observaciones –modelos LHM de las CO- se utiliza el concepto de disimilitud que permitirá al algoritmo de clustering "decidir" cuándo dos curvas deben agruparse o cuándo separarse en clusters distintos. Sean i y j los índices de dos observaciones, la disimilitud d(i, j) entre ellas es un número positivo que es muy pequeño cuando las observaciones son similares y que es grande cuando son diferentes. Cuando las observaciones son vectores xi ∈ ℜp, una forma de calcular la disimilitud es utilizar una medida de distancia, como por ejemplo la distancia euclídea, d(i, j) = ||xi – xj||2.

Sin embargo, la codificación de las CO mediante las bisagras no permite hacer ese tipo de cálculos por lo que es necesario definir una nueva medida de disimilitud. En este trabajo se utiliza, siguiendo a [García, 2001] el área contenida entre cada pareja de curvas, ya que dos curvas muy cercanas en el plano cantidad-precio encerrarán menor área que dos curvas que se encuentren alejadas.

Aunque las curvas se hallen definidas para un gran rango de valores de precios, podría ocurrir que sólo interesase estudiar la similitud de las curvas en un determinado intervalo, como por ejemplo [ ]pp, . Por ello, el área se calculará en el sentido del eje de precios.

Sean R1(q) y R2(q) dos funciones de demanda residual. El área comprendida entre ellas en el intervalo de precios [ ]pp, se calcula como:

( ) ( )∫ −− −=p

pdppRpRA 1

21

1   Ecuación 2.9

donde R1-1(q) y R2

-1(q) son las funciones inversas de R1(q) y R2(q) respectivamente. Dado que las funciones utilizadas son funciones lineales a tramos, la integración numérica puede realizarse fácilmente.

Nótese que podría ocurrir que alguna de las funciones no cubriera todo el intervalo [ ]pp, . En ese caso sería necesario redefinir el rango de precios como aquel intervalo contenido en [ ]pp, que fuera el máximo cubierto simultáneamente por ambas curvas. En este caso, si una de ellas cubre un rango de precios muy pequeño, daría lugar a que el área contenida con la otra curva sería también pequeña, aunque se encontrase alejada.

Page 28: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 23

Para evitar este efecto, se divide el área por la amplitud del intervalo de precios utilizado para la integración, ppp −=∆ (ver Fig. 2.5).

Por tanto la disimilitud entre las curvas R1(q) y R2(q) se calcula como:

( ) pARRd ∆= /, 21   Ecuación 2.10

Fig. 2.5: Disimilitud entre curvas de demanda residual.

2.4.3 Cálculo del centroide representante de un conjunto de curvas de oferta

Para poder implantar el procedimiento propuesto de clustering, es necesario calcular la curva representante o centroide de un cluster ya formado.

Cuando las observaciones se expresan como vectores de igual dimensión, la forma habitual de obtener el centroide consiste en calcular la media de todas las observaciones. Sin embargo, tal y como se expuso anteriormente, cada CO está codificada de forma heterogénea. Por ello, para elegir el centroide de cada cluster se utiliza de nuevo la versión lineal del modelo Bisagras. En este caso, el muestreo debe repetirse individualmente para todas las curvas contenidas en el cluster, obteniendo una nube de puntos con mayor o menor dispersión según sea el grado de aglutinamiento de las curvas entre ellas. En la Fig. 2.6 se puede ver un conjunto de curvas y su centroide representante obtenido con el LHM.

Page 29: predicción de medio plazo de las pendientes de curvas de ...

2. Modelado de la función de suministro y curvas de demanda residual 24

Fig. 2.6: Cálculo del centroide representante a partir del conjunto de curvas contenidas en el cluster mediante el modelo Bisagras.

Page 30: predicción de medio plazo de las pendientes de curvas de ...

3 Estudio de las variables relevantes del mercado

Con el objeto de tener un buen conocimiento de los parámetros conductores más relevantes del mercado eléctrico español, se ha realizado una búsqueda exhaustiva de variables explicativas para las pendientes de las CDR de los agentes, siempre teniendo en cuenta que para que estas variables sean realmente útiles, deben poder predecirse con facilidad y conocer sus valores futuros con poca incertidumbre.

Para el periodo comprendido entre el 1 de enero de 2000 y el 31 de julio de 2003 se ha analizado la siguiente información:

• PDBC de todas las unidades de compra y venta que participan en el mercado, agregadas por tecnología.

• Precios horarios del mercado diario.

• Curvas de compra y venta horarias agregadas por empresa y demanda horaria total para la determinación de la demanda residual.

• Pendientes en el punto de casación de las curvas de demanda residual obtenidas a partir del modelo Bisagras, comentado en el capítulo anterior.

• Información relativa con el mes, el tipo de día y el tipo de hora.

Las herramientas empleadas para el análisis han sido:

• SGO-Análisis: Herramienta en entorno Matlab, desarrollada por Comillas-IIT para Endesa, para el tratamiento de información relacionada con el Mercado Eléctrico Español.

• Idat: Herramienta en entorno Matlab desarrollada por Comillas-IIT para el análisis y tratamiento de información basada en técnicas de Inteligencia Artificial (Redes Neuronales, Arboles de Decisión, etc.).

• Matlab: para el tratamiento, procesado y análisis complementario de la información y para ampliar los análisis desarrollados con las herramientas anteriores.

Page 31: predicción de medio plazo de las pendientes de curvas de ...

3. Estudio de las variables relevantes del mercado 26

3.1 Estudio de patrones de comportamiento del conjunto de agentes

Para reducir la magnitud de los estudios y no tener que analizar el comportamiento de las CDR de cada empresa por separado, se ha intentado buscar patrones de comportamiento para todas las empresas en conjunto, de forma que conocido el patrón de la CDR activado para un agente en un periodo determinado se pueda inferir el del resto de empresas. Dicho de otra forma, se pretende ver si existe una relación entre las curvas de demanda residual de los distintos agentes para la misma hora.

Para ello se ha aplicado el modelo de Bisagras para la aproximación de las CDR y de los criterios de clustering explicados en el capítulo 2 para obtener patrones de las CDR de cada empresa. En el análisis se han considerado las empresas que participan en el mercado mayorista español.

Para determinar si existe relación entre los patrones de las CDR de los distintos agentes se ha construido, para cada hora del año 2002, un vector que contiene el patrón activado para cada empresa en la misma y se han representado mediante mapas autoorganizados o mapas de Kohonen [Kohonen, 1977], basados en redes neuronales.

La representación con mapas de Kohonen se ha considerado la más adecuada ya que permiten representar de una forma sencilla, en un gráfico, espacios n-dimensionales, lo que facilita el estudio de clusters. Los mapas de Kohonen constituyen una tipología de redes neuronales de aprendizaje competitivo en las que, ante una información de entrada, sólo una de las neuronas de salida de la red se activa. Así, las neuronas compiten para activarse, quedando finalmente una neurona como vencedora y el resto quedan anuladas, siendo forzadas a sus valores de respuesta mínimos (ver Anexo A).

Fig. 3.1: Mapa de Kohonen

En la Fig. 3.1, cada hexágono equivale a una neurona. Cada una de ellas representa una combinación de las variables de entrada de forma que neuronas próximas presentan valores similares de las mismas. El tamaño del hexágono da idea del número de

Page 32: predicción de medio plazo de las pendientes de curvas de ...

3. Estudio de las variables relevantes del mercado 27

muestras a las que representa la neurona, de forma que los grandes agrupan una cantidad elevada de muestras y viceversa.

En el gráfico se observan agrupaciones de neuronas que revelan la existencia de clusters. Esto indica que existe una relación entre las CDR de los distintos agentes o dicho de otra forma, ante un comportamiento en uno de los agentes, el resto responden de una forma más o menos predecible.

Esta forma de representación permite, de forma sencilla, buscar variables cualitativas que permitan explicar los clusters. Para ello, únicamente hay que "etiquetar" cada vector de entrada con cuantos atributos se quiera y observar sobre el mapa como quedan distribuidos.

Como variables cualitativas se han considerado:

• Tipo de día: laborable, sábado o festivo.

• Tipo de hora: punta, llano o valle.

El mapa que muestra la distribución del tipo de hora se encuentra en la figura siguiente:

Fig. 3.2: Representación del tipo de hora sobre el mapa

Y para el tipo de día:

Page 33: predicción de medio plazo de las pendientes de curvas de ...

3. Estudio de las variables relevantes del mercado 28

Fig. 3.3: Representación del tipo de día sobre el mapa

Superponiendo los dos gráficos anteriores:

Fig. 3.4: Representación conjunta del tipo de hora y de día sobre el mapa

Con todo esto se puede resaltar las siguientes conclusiones:

Page 34: predicción de medio plazo de las pendientes de curvas de ...

3. Estudio de las variables relevantes del mercado 29

• Los patrones que representan las puntas de los laborables quedan diferenciados en el mapa.

• No existe una separación clara entre sábados y festivos.

• Tampoco existe una frontera nítida de los llanos y valles.

• No existe separación de los valles de los laborables.

Un análisis de las CDR de las empresas de menor tamaño (ver Fig. 3.5) permite ver que sus CDR son muy similares por lo que puede clasificarse una de ellas y utilizar los resultados obtenidos para todas las demás.

0

2

4

6

8

10

12

14

16

18

-2 -1 . 5 -1 -0 .5 0 0 .5 1 1 .5

x 104

Precio (cE/k

W)

C a nt ida d MW

P a trón 1 (NVR=1093)P a trón 2 (NVR= 422)P a trón 3 (NVR= 695)P a trón 4 (NVR= 264)P a trón 5 (NVR= 954)P a trón 6 (NVR= 936)P a trón 7 (NVR= 826)P a trón 8 (NVR= 760)P a trón 9 (NVR= 520)P a trón 10 (NVR= 950)P a trón 11 (NVR=1043)P a trón 12 (NVR= 297)

0

2

4

6

8

10

12

14

16

18

-2 -1 .5 -1 -0. 5 0 0 .5 1 1 .5

x 104

Precio (cE/k

W)

C a ntida d MW

P a trón 1 (NVR=1062)P a trón 2 (NVR= 619)P a trón 3 (NVR=1070)P a trón 4 (NVR= 268)P a trón 5 (NVR= 404)P a trón 6 (NVR= 785)P a trón 7 (NVR=1164)P a trón 8 (NVR= 938)P a trón 9 (NVR= 662)P a trón 10 (NVR= 657)P a trón 11 (NVR= 905)P a trón 12 (NVR= 226)

0

2

4

6

8

10

12

14

16

18

-2 -1 . 5 -1 -0 . 5 0 0 .5 1 1 .5

x 104

Precio (cE/k

W)

C a nt ida d MW

P a trón 1 (NVR= 944)P a trón 2 (NVR= 721)P a trón 3 (NVR= 498)P a trón 4 (NVR= 301)P a trón 5 (NVR=1073)P a trón 6 (NVR= 993)P a trón 7 (NVR=1076)P a trón 8 (NVR= 806)P a trón 9 (NVR= 718)P a trón 10 (NVR= 480)P a trón 11 (NVR= 247)P a trón 12 (NVR= 903)

EMPRESA 4 EMPRESA 5 EMPRESA 6

0

2

4

6

8

10

12

14

16

18

-2 -1 . 5 -1 -0 .5 0 0 .5 1 1 .5

x 104

Precio (cE/k

W)

C a nt ida d MW

P a trón 1 (NVR=1093)P a trón 2 (NVR= 422)P a trón 3 (NVR= 695)P a trón 4 (NVR= 264)P a trón 5 (NVR= 954)P a trón 6 (NVR= 936)P a trón 7 (NVR= 826)P a trón 8 (NVR= 760)P a trón 9 (NVR= 520)P a trón 10 (NVR= 950)P a trón 11 (NVR=1043)P a trón 12 (NVR= 297)

0

2

4

6

8

10

12

14

16

18

-2 -1 .5 -1 -0. 5 0 0 .5 1 1 .5

x 104

Precio (cE/k

W)

C a ntida d MW

P a trón 1 (NVR=1062)P a trón 2 (NVR= 619)P a trón 3 (NVR=1070)P a trón 4 (NVR= 268)P a trón 5 (NVR= 404)P a trón 6 (NVR= 785)P a trón 7 (NVR=1164)P a trón 8 (NVR= 938)P a trón 9 (NVR= 662)P a trón 10 (NVR= 657)P a trón 11 (NVR= 905)P a trón 12 (NVR= 226)

0

2

4

6

8

10

12

14

16

18

-2 -1 . 5 -1 -0 . 5 0 0 .5 1 1 .5

x 104

Precio (cE/k

W)

C a nt ida d MW

P a trón 1 (NVR= 944)P a trón 2 (NVR= 721)P a trón 3 (NVR= 498)P a trón 4 (NVR= 301)P a trón 5 (NVR=1073)P a trón 6 (NVR= 993)P a trón 7 (NVR=1076)P a trón 8 (NVR= 806)P a trón 9 (NVR= 718)P a trón 10 (NVR= 480)P a trón 11 (NVR= 247)P a trón 12 (NVR= 903)

EMPRESA 4 EMPRESA 5 EMPRESA 6

Fig. 3.5: CDR de los agentes menos representativos

De alguna forma las categorías empleadas permiten realizar una clasificación del mapa pero ésta no es suficiente, siendo necesario analizar otras variables. Así, puede pensarse que el llano de un sábado o festivo puede presentar niveles de demanda similares al valle de un laborable, resultando la estrategia de los agentes semejante en ambos casos, y por ello el mapa no es capaz de diferenciarlos con claridad.

Aunque se podría realizar una discretización de las variables cuantitativas y representarlas sobre los mapas de la forma que se ha visto anteriormente, se van a emplear otras técnicas para buscar relaciones entre las pendientes de las CDR de las empresas y las variables explicativas.

Como las CDR de los agentes de menor tamaño son semejantes, el estudio se va a restringir a buscar variables cuantitativas que permitan relacionar las pendientes de las curvas de las CDR en el punto de casación de los dos agentes más importantes.

3.2 Estudio cualitativo de variables que puedan explicar las pendientes de las CDR

El estudio consta de dos partes, en la primera se intentan explicar los distintos pares de pendientes de las CDR en el punto de casación de los agentes de mayor tamaño. En el segundo se intentan explicar los pares demanda residual / precio para los mismos. Este estudio complementa al anterior al reflejar la variabilidad en las curvas de oferta de las empresas.

3.2.1 Análisis de las pendientes de los principales agentes Para realizar una primera aproximación sobre las variables explicativas relevantes en el estudio de las CDR de las empresas y de sus pendientes en el punto de casación, se ha

Page 35: predicción de medio plazo de las pendientes de curvas de ...

3. Estudio de las variables relevantes del mercado 30

representado en un gráfico los pares pendiente de Empresa-1 / pendiente de Empresa-2 de las CDR en el punto de casación para todas las horas del año 2002. Para poder visualizar las variables que se considera puedan ser relevantes sobre los gráficos, se ha "etiquetado" cada par de pendientes con los valores que toman las variables de estudio en ese momento. Se ha representado las variables explicativas mediante una escala de colores, de forma que valores bajos de la variable corresponden a colores fríos y valores altos a colores cálidos.

Se ha realizado una búsqueda exhaustiva de variables (producciones agregadas por tecnología, demandas, precios, patrones activados para cada empresa, tipo de día y hora, etc.) que puedan explicar las pendientes. Los resultados más relevantes son los que se presentan en la Fig. 3.6 y la Fig. 3.7:

Fig. 3.6: Relación de las pendientes de Empresa-1 y Empresa-2 en 2002

Page 36: predicción de medio plazo de las pendientes de curvas de ...

3. Estudio de las variables relevantes del mercado 31

Fig. 3.7: Relación de las pendientes de Empresa-1 y Empresa-2 en 2002

En las figuras anteriores se han definido los recursos térmicos solicitados como la potencia demandada menos potencia térmica en base (nuclear más carbón de importación) y menos la potencia hidráulica convencional. Se aprecia relación de las pendientes con la demanda y los recursos térmicos solicitados y en menor medida con la producción hidráulica y con carbón, de forma que según aumenta la demanda, los recursos térmicos solicitados, la potencia en base o la producción total con carbón se tiende a pendientes mayores de Empresa-2 y más bajas de Empresa-1.

3.2.2 Análisis del punto de casación Ampliando el análisis se puede explicar un poco más estos resultados. En las figuras siguientes se encuentra para dos meses, enero y diciembre de 2002, que representan periodos de baja hidraulicidad y demanda alta y alta hidraulicidad y demanda más contenida respectivamente, las CDR para Empresa-1 y Empresa-2 y el punto de casación para cada una de las curvas.

Page 37: predicción de medio plazo de las pendientes de curvas de ...

3. Estudio de las variables relevantes del mercado 32

DR EMPRESA-1 enero-02 DR EMPRESA-1 Diciembre-02

DR EMPRESA-2 enero-02 DR EMPRESA-2 Diciembre-02

DR EMPRESA-1 enero-02 DR EMPRESA-1 Diciembre-02

DR EMPRESA-2 enero-02 DR EMPRESA-2 Diciembre-02 Fig. 3.8: CDR de Empresa-1 y Empresa-2 para distintos periodos

En enero de 2002, que correspondió a un mes seco de demanda alta, se observa que la casación sobre las CDR de ambas empresas se mueven en un abanico relativamente estrecho de valores. Sin embargo, diciembre de 2002 que correspondió a un mes muy húmedo, se observa que mientras que la oferta de Empresa-1 se mueve en un rango muy estrecho de valores, Empresa-2 presenta una mayor dispersión. También puede apreciarse como en los momentos en los que se precisa de una mayor potencia térmica (enero de 2002) el punto de casación presenta una pendiente mayor que en los momentos de menores requerimientos (diciembre 2002).

De las figuras anteriores pueden extraerse varias conclusiones:

• Efectivamente no sólo las CDR sino también el punto en el que se produce la casación, que viene determinado por la curva de oferta del propio agente, son importantes para determinar la pendiente.

• La sucesión de puntos de casación permite apreciar, de algún modo las curvas de ofertas de cada empresa bajo distintas condiciones en el funcionamiento del mercado.

Estos resultados se ven de forma más clara en la Fig. 3.9 y la Fig. 3.10, en los que se representa el punto de casación sobre las CDR de Empresa-1 y Empresa-2 para todo el año 2003 y mediante una escala de colores se representan la potencia hidráulica convencional, la demanda, la demanda descontada la potencia considerada en base (nuclear y carbón de importación) y los recursos térmicos solicitados al sistema (Demanda menos potencia térmica en base y menos potencia hidráulica convencional).

Page 38: predicción de medio plazo de las pendientes de curvas de ...

3. Estudio de las variables relevantes del mercado 33

Fig. 3.9: Punto de casación visto desde la demanda residual de Empresa-1

Fig. 3.10: Punto de casación visto desde la demanda residual de Empresa-2

Page 39: predicción de medio plazo de las pendientes de curvas de ...

3. Estudio de las variables relevantes del mercado 34

Las figuras anteriores muestran de una forma clara como los distintos valores que toman las variables analizadas permiten discriminar el punto donde se va a producir la casación. Las principales conclusiones que se pueden extraer de ellas son:

• La demanda, así como la potencia demandada – potencia en base y los recursos térmicos solicitados, tiene una interpretación similar visto desde la demanda residual de ambos agentes: a medida que aumenta la potencia demandada se incrementa el precio, para la misma demanda casada por cada agente.

• También la influencia de la potencia hidráulica convencional es similar desde la perspectiva de la demanda residual de las dos empresas: producciones hidráulicas bajas conducen a precios más altos para la misma demanda casada por el agente.

3.3 Variables explicativas consideradas representativas

A la vista de todo lo anterior, podría concluirse que las variables que mejor representan los cambios en el mercado pueden ser:

Demanda eléctrica horaria del sistema

Resulta razonable pensar, como se ha visto en la Fig. 3.8 para el mes de enero de 2002, que a mayor demanda más altas debieran ser las pendientes de las CDR.

Potencia de generación nuclear

La energía nuclear es la parte más importante de la generación en base. El mantenimiento programado de los grupos nucleares suele conocerse con antelación, por lo que resulta sencillo su estimación a priori.

Potencia de generación con carbón de importación

La producción con carbón de importación puede considerarse también en base y, de la misma forma que para las plantas nucleares, su mantenimiento suele conocerse con antelación.

Potencia hidráulica convencional

Los estudios realizados ponen de manifiesto la relación de la potencia hidráulica con el punto de casación. No obstante, de forma teórica puede considerarse que la energía fluyente de las unidades hidráulicas sin capacidad de regulación es una energía de base, cuya consideración debería ser igual a la potencia nuclear. La modulable es energía de sustitución de la tecnología marginal, con comportamiento similar a la potencia que no está en base. Sin embargo, es necesario realizar estimaciones para saber que parte de la producción hidráulica total corresponde a energía fluyente, por lo que en los análisis se ha considerado la potencia total.

Potencia térmica solicitada

Esta variable, formada como combinación de las anteriores (Demanda menos potencia térmica en base y menos potencia hidráulica convencional), da idea de los requerimientos de potencia, cuyo funcionamiento no está en base, que se necesitan en un momento determinado. Si esta variable presenta un valor bajo significa que únicamente las tecnologías de menor coste resultarán casadas y viceversa.

Page 40: predicción de medio plazo de las pendientes de curvas de ...

4 Modelo de estimación de pendientes

Como se ha visto en el capítulo 2, a partir de las curvas de oferta de los agentes puede determinarse las CDR para cada uno de ellos. La CDR representa la parte de la demanda que queda por cubrir una vez que han sido despachadas el conjunto de empresas de la competencia. Por tanto, si una empresa conociese las ofertas del resto de participantes y calculase su CDR, podría relacionar el precio real del mercado con la potencia que él oferta.

Como los agentes no disponen de esta información, ya que forma parte de las estrategias de cada uno para participar en el mercado, las empresa deberán realizar estimaciones de las ofertas del resto. Conociendo la conjetura de la pendiente de la CDR en torno al punto de casación, el agente puede conocer la sensibilidad de sus ofertas al precio del mercado, y si además conoce la función de demanda residual, puede estimar el precio de casación para la potencia que el agente espera poner en el mercado.

En este capítulo, en primer lugar se repasa el mecanismo de casación para poder comprender la formación del precio y el significado de la pendiente de la CDR en el punto de casación. Después se resume brevemente el modelo y a continuación se detalla sus distintas partes.

4.1 Revisión del mecanismo de casación

La dificultad fundamental a la que se enfrenta una empresa para desarrollar sus estrategias de mercado es la de determinar el comportamiento de los agentes de la competencia. El comportamiento agregado de todas las empresas de la competencia puede extraerse a partir de las CDR. Por ello, cada empresa realiza estimaciones de las CDR a las que se enfrentará en el futuro más próximo (análisis de corto plazo) o con un horizonte mayor (medio/largo plazo).

Una vez inferida su CDR, la empresa puede estimar el punto de casación a partir únicamente de sus ofertas. También puede realizar análisis de sensibilidad de sus ofertas al precio final considerando la pendiente de la CDR. Como se aprecia en la Fig. 4.1, una pendiente de la CDR que ve el agente alta significa que al variar en una pequeña cantidad la potencia que la empresa pone en el mercado modifica de forma significativa el precio y viceversa.

Page 41: predicción de medio plazo de las pendientes de curvas de ...

4. Modelo de estimación de pendientes 36

Curva de Demanda Residual

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

-5000 0 5000 10000 15000 20000

Cantidad (MW)

Prec

io (c

€/kW

h)

CDR Bisagras

Fig. 4.1: Curva de demanda residual junto con sus bisagras

Por ello, el modelo que se desarrolla a continuación se basa en estas premisas:

• En primer lugar se platea la agrupación de las CDR en patrones para, a continuación, identificar las condiciones del mercado que permita explicar la activación de cada uno de ellos.

• Una vez conocido el patrón de comportamiento previsto de la CDR para una hora dada, simplemente se necesita determinar el precio o la energía que el agente espera casar. Conocido uno de ellos, queda unívocamente definido el punto en el que se realiza la casación y puede obtenerse, directamente a partir de la codificación de las CDR por sus bisagras, la pendiente en ese punto.

4.2 Descripción general del modelo

El modelo dispone de una biblioteca que contiene los patrones de las CDR obtenidos a partir de las curvas de oferta histórica de los agentes en un proceso previo de ajuste.

Por otro lado también se codifica, en forma de árbol de decisión, la explicación, a partir de variables representativas (potencia total de plantas nucleares, potencia total de plantas térmicas de carbón de importación, potencia demandada, potencia hidráulica convencional y recursos térmicos solicitados), de dichos patrones. El modelo estimará, para una combinación de variables de entrada, la probabilidad de activación de cada patrón bajo esas condiciones.

Paralelamente se obtienen las bisagras los patrones de las CDR y, mediante un módulo independiente, se determina la zona donde se prevé se va a producir la casación, bien partiendo de una aproximación del precio o de la potencia casada por la empresa. Se propone que la variable de entrada sea la estimación del precio, ya que éste puede determinarse a partir de un modelo de orden superior. Conocidas las bisagras y el punto de casación se obtiene directamente la pendiente del patrón en ese punto.

Page 42: predicción de medio plazo de las pendientes de curvas de ...

4. Modelo de estimación de pendientes 37

Conocida la probabilidad de activación de cada uno de los patrones y la pendiente de los mismos en el punto de casación esperado, se realiza la ponderación de ambas y se obtiene la estimación de la pendiente.

La Fig. 4.2 presenta, de forma gráfica, las distintas partes del modelo.

BIBLIOTECA

PATRONES

MODULO CALCULO

PENDIENTES

MODULO ACTIVACIÓN PATRONES

PENDIENTE

BISAGRAS CDR

PATRONES

PRECIO

ACTIVACIÓN PATRONES

(xi)

MODULO ESTIMACIÓN

PRECIOS

AJUSTES DEL

MODELO

BB.DD. SGO:

OFERTAS V.E.

CDR

VARIABLES EXPLICATIVAS

V.E.

Fig. 4.2: Esquema del modelo de estimación de pendientes de las CDR

4.3 Ajustes del modelo

A partir de las curvas históricas (y las variables explicativas asociadas), almacenadas en bases de datos externas, es necesario realizar un proceso previo de ajuste del modelo para obtener los siguientes elementos:

• La biblioteca de patrones (modelados como bisagras).

• El árbol de decisión que se utiliza para la activación de patrones.

Dicho módulo de ajuste necesita disponer de los algoritmos para ajustar las bisagras, agrupar las CDR en clusters y obtener el árbol de decisión que permita determinar el momento de activación de cada uno de ellos.

4.3.1 Biblioteca de patrones Una dificultad que aparece cuando se desea analizar los datos históricos de ofertas es que la cantidad de información disponible es muy elevada. El estudio de las CDR históricas es complicado por el volumen de información que supone: para un año existen 8760 curvas por empresa que, al ser discretas, son difíciles de manipular. Por ello, el análisis de las CDR se realiza en dos etapas:

• Aproximación de las CDR horarias mediante funciones lineales a tramos.

• Análisis de clusters de las CDR.

Page 43: predicción de medio plazo de las pendientes de curvas de ...

4. Modelo de estimación de pendientes 38

4.3.1.1 Aproximación de las CDR horarias mediante funciones lineales a tramos Al aproximar las CDR mediante funciones lineales a tramos, según su representación con bisagras expuesto en el capítulo 2, se resumen y comprimen los datos de las ofertas horarias de forma que el resultado pueda ser más manejable y así facilitar su análisis posterior.

Como también se expuso anteriormente, el conjunto de CDR discretas de cada hora se puede modelar como una función escalón. Por ello, en la CDR original puede existir un gran número de escalones con diferentes tamaños. Mediante el modelo Bisagras se aproxima la CDR original mediante una función lineal a tramos de forma que con un pequeño número de segmentos lineales se puede capturar la información relevante de la misma.

4.3.1.2 Ventajas y limitaciones del modelado con bisagras para la estimación de pendientes

La CDR original g(·) es una función escalonada donde el número de escalones puede ser muy elevado y con tamaños muy diferentes.

En la Fig. 4.3 se presenta una curva de demanda residual en la que se observa un escalón vertical bastante pronunciado para el valor de cantidad qa. Sea ε un escalón de cantidad pequeño tal que ε ≥ 0. En el caso de que la empresa consiguiese vender en el mercado un valor q = qa - ε, el precio del mercado resultante sería p3. Sin embargo, si la cantidad vendida fuese q = qa + ε, entonces el precio sería p2. Es decir, una ligera variación en la cantidad vendida tendría gran repercusión en el precio del mercado (∆a = p3 - p2).

Nótese que debido al carácter discreto de las ofertas, esa discontinuidad en el precio ocurre siempre que se "salte" de un escalón a otro. Por ejemplo, si la empresa produce q = qb - ε el precio es p2 y si se produce q = qb + ε el precio es p1. Sin embargo, en este caso la diferencia de precios es mucho menor (∆b = p2 - p1), por lo que utilizar p1, p2 o un valor intermedio no tendría tanta repercusión en los resultados. Es decir, los pequeños escalones consecutivos podrían ajustarse por una función continua –por ejemplo, una recta-, que permitiera evaluar de forma aproximada la variación del precio en función de la cantidad vendida.

Fig. 4.3: Ejemplo de curva de demanda residual con escalones de diferentes tamaños.

Page 44: predicción de medio plazo de las pendientes de curvas de ...

4. Modelo de estimación de pendientes 39

El mismo razonamiento seguido para los tramos verticales de los escalones podría emplearse para los tramos horizontales. Por ejemplo, si la empresa consigue vender en el mercado una cantidad comprendida en el intervalo [qa, qb], el precio sería siempre p2. Es decir, desde el punto de vista estratégico, para ese rango de cantidades la empresa tendría una posición tomadora de precios. Cuando los escalones son más pequeños ocurre lo mismo pero a menor escala, por lo que no tienen la misma importancia estratégica que los escalones mayores.

Por lo tanto, al modelar las CDR con bisagras se consiguen los siguientes objetivos:

• Aproximar la CDR real por una función lineal a tramos, de forma que los escalones "pequeños" consecutivos se aproximen por una recta mientras que los escalones "grandes" puedan seguir identificándose en la aproximación resultante.

• El modelo obtenido sea sencillo, es decir, que el número de tramos de la aproximación es mucho menor que el número de escalones de la curva real.

• Conocida de demanda residual simplificada mediante el modelo de Bisagras resulta sencillo determinar el valor de la pendiente de la misma para un precio dado, ya que resulta ser la pendiente del tramo lineal en el que está contenido dicho precio.

Otro aspecto importante a considerar en los estudios de CDR realizados con el modelo de Bisagras es el número de ellas que debe emplearse, o dicho de otra forma, la precisión con la que debe realizarse el ajuste de la curva. Si en el ajuste de las CDR se emplea un número elevado de bisagras, se estará realizando una aproximación que se acerque mucho a la CDR, por lo que será adecuado para su análisis de corto plazo. Sin embargo, si se pretende realizar análisis de medio o largo plazo, un ajuste fino de las bisagras a la CDR puede captar comportamientos puntuales que pueden estar más ligados al corto plazo. Por ello para los análisis de medio plazo se considera un modelado que permita filtrar las perturbaciones introducidas por la dinámica de corto plazo en la CDR, de forma que no se aproximan las bisagras con demasiada precisión.

Por otro lado, nótese que si el número de bisagras con el que se ajusta la CDR es tan elevado que se llega a reproducir la misma, entonces la pendiente obtenida será discreta y solamente podrá tomar valor 0 o infinito.

4.3.1.3 Análisis de Clusters de curvas de oferta

Una vez simplificado el tratamiento de las CDR se pretende encontrar patrones de comportamiento de los participantes en el mercado a lo largo del tiempo. Puesto que la estrategia de una empresa se ve reflejada en las ofertas enviadas al mercado, se propone buscar agrupaciones naturales entre las CDR históricas mediante técnicas de clustering.

Utilizando la representación de las CDR descrita en el apartado anterior se realiza un análisis de clusters de las CDR con el objetivo de buscar automáticamente patrones de comportamiento en el resto de participantes.

Dado un conjunto de observaciones o muestras, el objetivo del análisis de clusters consiste en encontrar agrupaciones naturales entre ellas, de forma que las observaciones con características similares se agrupen en un mismo cluster y que las observaciones diferentes o heterogéneas se agrupen en clusters distintos. La definición de la distancia y el cálculo del centroide necesario para poder aplicar el análisis de clusters con la codificación de bisagras se ha expuesto en el capítulo 2.

Page 45: predicción de medio plazo de las pendientes de curvas de ...

4. Modelo de estimación de pendientes 40

Los patrones obtenidos se guardan en una "biblioteca" de CDR para las que posteriormente se determinará la pendiente en el punto de casación previsto.

4.3.2 Explicación del comportamiento de los patrones. En el Capítulo 3 se identificaron las variables que se emplearán para explicar los patrones de comportamiento encontrados mediante el análisis de clusters. De esta forma se construye una "biblioteca" de curvas típicas que estarán caracterizadas por los valores (cualitativos o cuantitativos) de las variables explicativas.

Las variables empleadas para intentar explicar la activación de los patrones son las que se consideraron relevantes en los estudios realizados en el Capítulo 3, a las que se ha añadido una variable cualitativa que indica el tipo de día:

• Demanda eléctrica horaria del sistema.

• Potencia de generación nuclear.

• Potencia de generación con carbón de importación.

• Potencia hidráulica convencional.

• Potencia térmica solicitada.

• Tipo de día: laborable, sábado y festivo. Para la explicación de los patrones a partir de las variables anteriores se ha empleado árboles de decisión, por tratarse del método de aprendizaje inductivo supervisado muy utilizado, que destaca por su representación clara y sencilla como puede verse en la Fig. 4.4.

Fig. 4.4: Arbol de decisión

Se ha considerado apropiado explicar los patrones de las CDR a partir de árboles de clasificación ya que éstos son útiles siempre que los ejemplos a partir de los que se desea aprender se puedan representar mediante un conjunto prefijado de atributos. En

Page 46: predicción de medio plazo de las pendientes de curvas de ...

4. Modelo de estimación de pendientes 41

este caso, el atributo sobre el que se pretende clasificar el árbol es el índice que representa a cada uno de los patrones.

Otra característica importante del aprendizaje inductivo como proceso de generalización a partir de ejemplos es que se precisa disponer de muchos ejemplos. Si los estudios no están avalados por muchos ejemplos, podría llegarse a modelos con un grado de aprendizaje bajo. En los estudios de CDR se dispone de una historia amplia que permite su empleo.

En un árbol de decisión, cada nodo interior contiene una pregunta sobre un atributo concreto, con un hijo por cada posible respuesta, y cada hoja se refiere a una decisión (una clasificación). El árbol clasifica un caso comenzando desde su raíz y siguiendo el camino determinado por las respuestas a las preguntas de los nodos internos hasta que se llega a una hoja del árbol.

Lamentablemente la clasificación que se deriva de cada hoja del árbol no es pura y cada una de ellas no presenta la activación de un único patrón, sino de varios de ellos pero con distintas probabilidades. Por ello el resultado obtenido de cada hoja del árbol es un vector con la probabilidad de activación de cada uno de ellos bajo esas condiciones, X=(x1, x2, ..., xi), donde i es el número de patrones considerado.

4.4 Modulo de estimación de precios

Para que el módulo de cálculo de pendientes de las CDR pueda determinarlas, es necesario indicar el punto donde se produce la casación. Para determinarlo basta disponer como valor de entrada, o la demanda casada por el agente o el precio de mercado.

En el caso de utilizar como variable de entrada la demanda casada por cada agente, serían necesarias tantas como empresas se quiera determinar la pendiente. Sin embargo el precio es único para todas ellas.

Hay que tener presente que, al tratarse de una aproximación de medio plazo, el número de bisagras en el ajuste será bajo y no existirán muchos tramos rectos. Por tanto, la estimación del precio debe ser, en cierta medida, una aproximación cualitativa para determinar sobre qué bisagra se realiza la casación.

Además, el precio es una variable que puede ser calculada por un modelo independiente y de orden superior. Por ello se considera como una variable de entrada al modelo de cálculo de pendientes.

4.5 Módulo de cálculo de pendientes

A este módulo llega la siguiente información:

• Las bisagras de los patrones de las CDR.

• La estimación del punto de casación.

Con esta información se determina la pendiente de los patrones de las CDR para el punto de casación estimado (θ). El resultado obtenido es un vector θ=(θ1, θ2, ..., θi), donde i es el número de patrones considerado.

Page 47: predicción de medio plazo de las pendientes de curvas de ...

4. Modelo de estimación de pendientes 42

A su vez, del módulo de activación de patrones se obtiene la probabilidad de activación de cada uno de ellos. La pendiente final será la ponderación de la pendiente de cada patrón por su probabilidad de activación:

∑=N

iixPendiente θ·   Ecuación 4.1

Donde N es el número de patrones considerado.

Page 48: predicción de medio plazo de las pendientes de curvas de ...

5 Resultados del modelo: Caso ejemplo

Como caso de estudio se ha analizado las CDR de una empresa de las de mayor tamaño que participan en el mercado eléctrico español y se ha calculado sus pendientes.

Para el ajuste del modelo se ha empleado el periodo comprendido entre el 1 de junio de 2003 y el 30 de junio de 2004, y para el análisis de las estimaciones proporcionadas por el mismo el mes de julio de 2004 completo.

Se ha considerado este rango de valores por las siguientes razones:

• El análisis de las curvas de demanda agregada anteriores muestra que el día 1 de junio de 2003 se produjo un cambio en el comportamiento de la demanda para un nivel de precios muy superior al de casación, pero que resulta sensible a la clasificación de los patrones. Este comportamiento se mantiene durante todo el periodo analizado.

• A partir de esa fecha se ha producido la entrada de una importante cantidad de nueva capacidad en el sistema, ciclos combinados en su totalidad, que hace pensar que la dinámica de comportamiento de los agentes haya podido ir variando para adaptarse a esta situación.

EVOLUCIÓN DEMANDA Y POT. HIDRAULICA de 01/06/03 - 30/06/04

0

5000

10000

15000

20000

25000

30000

35000

40000

01/06/03 21/07/03 09/09/03 29/10/03 18/12/03 06/02/04 27/03/04 16/05/04F echa

HI_TOT DEM ANDA

EVOLUCIÓN PRECIO de 01/06/03 - 30/06/04

0

1

2

3

4

5

6

7

01/06/03 21/07/03 09/09/03 29/10/03 18/12/03 06/02/04 27/03/04 16/05/04F echa

PREC_DIA Fig. 5.1: Evolución temporal del precio, demanda y producción hidráulica para el periodo de entrenamiento.

El periodo analizado (ver Fig. 5.1) corresponde a un año con hidraulicidad ligeramente superior a la media, debido fundamentalmente a las importantes aportaciones producidas en los meses diciembre de 2003 y enero de 2004. En cuanto a la demanda, fue muy alta durante el verano de 2003, debido a que las temperaturas fueron muy superiores a la media histórica y moderada en los meses de invierno debido a que éste fue menos frío de lo esperado.

Page 49: predicción de medio plazo de las pendientes de curvas de ...

5. Resultados del modelo: Caso ejemplo 44

Para la empresa analizada se ha determinado las CDR y las pendientes en el punto de casación de las mismas a partir del modelo de Bisagras con un error máximo en el ajuste del 5%.

Como estimador de referencia para comparar los resultados del modelo híbrido de bisagras propuesto se ha empleado un modelo sencillo en el que simplemente se halla el promedio de las pendientes en el punto de casación agrupadas en nueve bloques semanales: punta, llano o valle de laborables, sábados y festivos.

5.1 Modelo híbrido de bisagras

5.1.1 Ajuste del modelo 5.1.1.1 Cálculo de patrones de las CDR

El conjunto empleado para realizar la clasificación de las CDR se corresponde con el conjunto de entrenamiento: 1/6/2003 al 30/6/2004, lo que supone un total de 9504 CDR horarias.

Se ha impuesto que la agrupación se realice en 13 patrones (como criterio general se considera tomar un patrón por cada mes incluido en el análisis), obteniéndose como resultado los que aparecen en la Fig. 5.2.

0

2

4

6

8

10

12

14

16

18

-1.5 -1 -0.5 0 0.5 1 1.5 2

x 104

Pre

cio

(cE

/kW

)

Cantidad MW

Patrón 1 (NVR= 113)Patrón 2 (NVR= 420)Patrón 3 (NVR= 902)

Patrón 4 (NVR= 723)Patrón 5 (NVR=1244)Patrón 6 (NVR= 945)

Patrón 7 (NVR= 602)Patrón 8 (NVR= 204)Patrón 9 (NVR=1146)Patrón 10 (NVR=1247)

Patrón 11 (NVR= 627)

Patrón 12 (NVR= 657)Patrón 13 (NVR= 674)

Fig. 5.2: Patrones de las CDR

En la Fig. 5.3 se muestra el mapa que permite ver la activación de los patrones. En el eje horizontal se representan las 24 horas del día, mientras que en el eje vertical se muestran

Page 50: predicción de medio plazo de las pendientes de curvas de ...

5. Resultados del modelo: Caso ejemplo 45

los 396 días analizados. Por tanto el mapa contiene 9504 horas, cada una de las cuales está representada con un color que indica el patrón de CDR más representativo para esa hora.

Se aprecia que los patrones con colores de amarillo a rojo (6, 7, 8 y 10), de demanda residual más baja, corresponden (visto en el mapa de activación) a las horas de valle y en general a periodos vacacionales con demandas bajas (Navidad). Sin embargo los patrones con demandas residuales más altas, representados en azules y violetas, corresponden a los periodos de punta, principalmente del verano de 2003 que, como se ha mencionado anteriormente, se caracterizó por una demanda alta, y al otoño de 2003, caracterizado por la falta de precipitaciones. Nótese como a partir de diciembre, mes en el que comenzó un periodo de fuertes precipitaciones, los colores tienden a una situación intermedia.

Fig. 5.3: Mapa de activación de los patrones de las CDR

5.1.1.2 Determinación del árbol de decisión

Para la construcción del árbol de decisión que permite inferir los patrones activados, se ha empleado información horaria desde el 1/6/2003 al 30/6/2004. Estos datos se han dividido a su vez en dos conjuntos:

• Conjunto de entrenamiento, con el que se ha ajustado los parámetros del árbol: 11 meses desde el 1/6/2003 al 30/4/2004 (8040 curvas).

• Conjunto de test, con el que se chequea que el árbol no sólo sea capaz de aprender y realizar buenas estimaciones con los casos del conjunto de

Page 51: predicción de medio plazo de las pendientes de curvas de ...

5. Resultados del modelo: Caso ejemplo 46

entrenamiento, sino que pueda generalizar a otros intervalos de tiempo: 2 meses desde el 1 /5/2004 al /30/6/2004 (1464 curvas).

A las variables estudiadas en el capítulo 3 se ha añadido, para determinar el árbol que explique los patrones, el tipo de día, teniéndose como conjunto de variables definitivas:

• Potencia horaria demandada.

• Potencia de generación nuclear.

• Potencia de generación con carbón de importación.

• Potencia hidráulica convencional.

• Potencia térmica solicitada.

• Tipo de día: laborable, sábado y festivo.

La Fig. 5.4 resume el proceso de entrenamiento del árbol. Cada nodo del mismo está representado como una caja dividida en columnas de distinto tamaño y color. El tamaño de cada columna es proporcional al número de muestras de cada patrón contenidas en el nodo y el color de la columna indica el patrón asociado a la misma.

En la parte superior de la Fig. 5.4 se encuentra el nivel de acierto de las muestras clasificadas por el árbol, con el criterio que cada hoja representa al patrón que más se repite en ella. En negro se muestra el nivel de acierto para el conjunto de entrenamiento y en gris para el conjunto de test. El nivel de acierto que proporciona el árbol está referido a la probabilidad de activación del patrón más representativo de la hoja, por lo que no es adecuado para medir el grado de acierto del árbol. Sin embargo, el valor similar de error para ambos conjuntos (aunque inferior, como es lógico, para el conjunto de entrenamiento), asegura que el modelo es capaz de generalizar de manera razonable.

Algoritmo: Hmin: N. nodos: Salida:

ID32.82

32AP_EN_Label

Conjunto: N. ej: Aciertos:

TR8040

2208(27%)

Conjunto: N. ej: Aciertos:

TS1464

337(23%)

Conjunto: N. ej: Aciertos:

TV9504

2545(27%)

DEMANDA<24744?si

REC_SOL<11432.7?si no

no

REC_SOL<17128.7?si

NU_TOT<7292.25?si

CI_TOT<1838.15?si

DEMANDA<28134?

si

NU_TOT<6344.65?

si no

HI_TOT<3908.2?

si no

LSF_Label?

L S F

no

no

REC_SOL<15865.45?

si

HI_TOT<4202.7?

si

REC_SOL<13873.25?

si no

no

no

no

DEMANDA<31740?si

CI_TOT<1295.1?

si no

NU_TOT<7524.75?si no

no

no

12345678910111213

Fig. 5.4: Ajuste del árbol de decisión

En la Fig. 5.5 se encuentra la codificación del árbol de decisión. Cada hoja tiene asociado un vector que contiene la probabilidad de activación de cada patrón en ella. La

Page 52: predicción de medio plazo de las pendientes de curvas de ...

5. Resultados del modelo: Caso ejemplo 47

Tabla 5.1 muestra las probabilidades de activación de los patrones para cada una de las hojas del árbol. Para filtrar los patrones de baja probabilidad de cada hoja, se considera representativos únicamente los cinco con mayor probabilidad, que se han marcado en negrita. En la última columna de la tabla se muestra la probabilidad de que una muestra de esa hoja del árbol pertenezca a uno de los cinco patrones más representativos.

Fig. 5.5: Codificación del árbol de decisión

1 2 3 4 5 6 7 8 9 10 11 12 133 0.0% 1.8% 0.0% 0.0% 0.9% 31.1% 26.9% 11.2% 5.5% 22.3% 0.0% 0.1% 0.2% 97.1%4 0.6% 5.7% 2.8% 0.7% 12.5% 12.4% 2.9% 0.2% 26.2% 28.5% 0.1% 1.4% 6.2% 85.7%

10 1.1% 7.9% 27.4% 28.9% 11.6% 0.0% 0.0% 0.0% 1.1% 0.0% 6.84% 11.6% 3.7% 87.4%12 0.0% 6.3% 25.7% 14.1% 24.5% 0.6% 0.0% 0.0% 9.7% 2.8% 0.9% 7.8% 7.5% 81.8%14 0.0% 15.8% 0.0% 0.0% 5.3% 10.5% 0.0% 0.0% 10.5% 57.9% 0.0% 0.0% 0.0% 100.0%16 0.0% 0.0% 14.3% 0.0% 31.4% 0.0% 0.0% 0.0% 17.1% 5.7% 0.0% 0.0% 31.4% 100.0%17 0.0% 0.0% 0.0% 0.0% 0.0% 41.2% 0.0% 0.0% 11.8% 5.9% 5.9% 11.8% 23.5% 94.1%18 0.0% 5.5% 11.4% 17.8% 22.4% 0.9% 0.0% 0.0% 9.6% 4.6% 24.2% 1.8% 1.8% 85.4%22 0.0% 0.0% 0.0% 28.6% 0.0% 14.3% 42.9% 0.0% 0.0% 0.0% 0.0% 14.3% 0.0% 100.0%23 0.0% 0.0% 0.0% 0.0% 16.3% 18.6% 0.0% 2.3% 14.0% 27.9% 0.0% 2.3% 18.6% 95.3%24 0.0% 0.0% 0.0% 11.1% 16.7% 0.0% 0.0% 0.0% 0.0% 5.6% 16.7% 27.8% 22.2% 94.4%25 0.0% 0.0% 3.2% 0.0% 37.1% 0.0% 0.0% 0.0% 27.4% 14.5% 1.6% 0.0% 16.1% 98.4%28 0.0% 1.8% 2.6% 0.0% 16.8% 3.6% 1.0% 0.0% 19.9% 13.7% 1.3% 11.4% 27.9% 89.7%30 0.0% 4.1% 12.1% 2.4% 26.0% 0.4% 0.1% 0.0% 18.9% 7.1% 1.1% 11.3% 16.6% 84.8%31 0.0% 21.1% 20.6% 2.8% 35.3% 0.0% 0.0% 0.0% 7.3% 5.5% 0.0% 3.7% 3.7% 89.9%32 0.0% 1.0% 5.2% 15.6% 8.3% 0.0% 0.0% 0.0% 0.0% 0.0% 32.3% 31.3% 6.3% 93.8%33 4.8% 1.1% 18.1% 23.0% 8.7% 0.0% 0.0% 0.0% 2.1% 0.4% 20.9% 15.2% 5.6% 85.9%

% representado

PATRON

HO

JA

Tabla 5.1: Probabilidad de pertenencia de los patrones a las hojas

5.1.2 Estimación del precio Para calcular la pendiente en el punto de casación se ha empleado el precio real. De esta forma no se hacen depender los resultados del modelo de la bondad en la estimación de los precios del mercado, que queda fuera del alcance de este trabajo.

Page 53: predicción de medio plazo de las pendientes de curvas de ...

5. Resultados del modelo: Caso ejemplo 48

5.2 Modelo de medias

Como estimador de referencia para comparar los resultados del modelo de bisagras se ha empleado un modelo de medias por bloque sencillo. En él simplemente se halla el promedio de las pendientes en el punto de casación agrupadas en nueve bloques semanales: punta, llano o valle de laborables, sábados y festivos. El promedio de las pendientes por bloques se ha realizado para el mismo periodo que el conjunto de entrenamiento del modelo de bisagras: de 1/6/2003 al 30/6/2004. Estas pendientes se encuentran en la Tabla 5.2:

Pendiente (c€/kWh)/GW Punta Llano ValleLaborable 0.8105 0.8670 0.6767Sabado 0.7883 0.8425 0.6455Festivo 0.8590 0.7787 0.6299 Tabla 5.2: Pendientes por bloques

5.3 Resultados

La validación del modelo se ha realizado con información de 744 horas que corresponden a la totalidad del mes julio de 2004 (ver Fig. 5.6).

EVOLUCIÓN PRECIO de 01/07/04 - 31/07/04

0

1

2

3

4

5

6

7

30/06/04 05/07/04 10/07/04 15/07/04 20/07/04 25/07/04 30/07/04F echa

PREC_DIA

EVOLUCIÓN DEMANDA Y POT. HIDRAULICA de 01/07/04 - 31/07/04

0

5000

10000

15000

20000

25000

30000

35000

40000

30/06/04 05/07/04 10/07/04 15/07/04 20/07/04 25/07/04 30/07/04Fecha

HI_TOT DEM ANDA Fig. 5.6: Evolución temporal del precio, demanda y producción hidráulica para el periodo de validación.

Los resultados obtenidos para el periodo de validación se presentan en la Tabla 5.3. En la Fig. 5.7 se encuentra, de forma gráfica, la evolución temporal de las pendientes reales y las estimadas con el modelo propuesto y el de medias, para el mismo periodo. En la Fig. 5.8 se encuentra la evolución para el mes de marzo de 2003, que corresponde al periodo de entrenamiento. Se observa como para este mes, como es de esperar, se consigue un mejor grado de ajuste.

Pendiente (c€/kWh)/GW RealMod.

BisagrasMod.

MediasLaborable - Punta 1.2790 0.9239 0.8105Laborable - Llano 1.1663 0.9592 0.8670Laborable - Valle 0.5993 0.7399 0.6767Sabado - Punta 0.8367 0.8402 0.7883Sabado - Llano 0.8822 0.8107 0.8425Sabado - Valle 0.5274 0.7383 0.6455Festivo - Punta 0.8050 0.7889 0.8590Festivo - Llano 0.7440 0.7524 0.7787Festivo - Valle 0.4799 0.6891 0.6299TOTAL 0.9484 0.8604 0.7945 Tabla 5.3: Comparación de resultados de los modelos

Page 54: predicción de medio plazo de las pendientes de curvas de ...

5. Resultados del modelo: Caso ejemplo 49

COMPARACION DE PENDIENTES REALES Y ESTIMADAS

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

01-07-04 06-07-04 11-07-04 16-07-04 21-07-04 26-07-04 31-07-04

(c€/

kWh)

/GW

PENDIENTE REAL PENDIENTE MOD. HIBRIDO DE BISAGRAS PENDIENTE MOD. DE MEDIAS

Fig. 5.7: Evolución temporal de las pendientes reales y estimadas para el periodo de validación.

COMPARACION DE PENDIENTES REALES Y ESTIMADAS

0

0.5

1

1.5

2

2.5

3

3.5

01-03-04 06-03-04 11-03-04 16-03-04 21-03-04 26-03-04 31-03-04

(c€/

kWh)

/GW

PENDIENTE REAL PENDIENTE MOD. HIBRIDO DE BISAGRAS PENDIENTE MOD. DE MEDIAS

Fig. 5.8: Evolución temporal de las pendientes reales y estimadas para un mes del periodo de entrenamiento.

Se ha realizado un estudio de los residuos de los dos modelos (modelo híbrido bisagras y modelo de medias), tanto para el conjunto de entrenamiento como para el de validación. Los resultados del análisis de los residuos para el conjunto de entrenamiento (ver Tabla 5.4 y Fig. 5.9) muestran unos valores muy parecidos para ambos modelos. Sin embargo, para el conjunto de validación se aprecia que el modelo híbrido de bisagras presenta un error medio y cuadrático menores que el modelo de medias. Esto significa que el modelo de bisagras, que emplea información acerca de las condiciones del mercado, generaliza de forma más “inteligente” y eficiente a como lo hace el modelo de medias.

Page 55: predicción de medio plazo de las pendientes de curvas de ...

5. Resultados del modelo: Caso ejemplo 50

Conjunto de entrenamientoMod.

BisagrasMod.

Medias Conjunto de validaciónMod.

BisagrasMod.

MediasError Medio -0.0002 0.0000 Error Medio 0.0879 0.1539

% 0.0% 0.0% % 9.3% 16.2%Varianza error medio 0.1970 0.1991 Varianza error medio 0.3820 0.4121Error absoluto medio 0.2867 0.3010 Error absoluto medio 0.3669 0.4004

% 30.2% 31.7% % 38.7% 42.2%Varianza error absoluto medio 0.1148 0.1085 Varianza error absoluto medio 0.2551 0.2755Error Cuadrático Medio 0.1970 0.1991 Error Cuadrático Medio 0.3897 0.4358

Tabla 5.4: Resultados de los modelos para los conjuntos de entrenamiento y validación

En la Fig. 5.7 se observa como el modelo de medias discrimina cuando se producen cambios bruscos en las pendientes, pero la variación que aprecia en ellos es pequeña. Sin embargo, el modelo de bisagras, además de determinar el momento de los cambios, se aproxima más al valor de los mismos, aunque sin llegar a reproducirlos en toda su magnitud.

Error MEDIO modelo Bisagas

0

20

40

60

80

100

120

-1.02

-0.82

-0.61

-0.40

-0.19 0.0

10.2

20.4

30.6

40.8

41.0

51.2

61.4

71.6

71.8

82.0

9

(c€/kWh)/GW

frec

uenc

ia

Error MEDIO modelo Medias

0

20

40

60

80

100

120

-1.02

-0.82

-0.61

-0.40

-0.19 0.0

10.2

20.4

30.6

40.8

41.0

51.2

61.4

71.6

71.8

82.0

9

(c€/kWh)/GW

frec

uenc

ia

Fig. 5.9: Histogramas del error medio

5.4 Conclusiones

El modelo propuesto puede predecir las pendientes de las CDR mejor que el modelo de medias, aunque tampoco llega a captar en toda su magnitud el valor de esos cambios.

No obstante, debe tenerse en cuenta que lo que se busca es estimar las pendientes en un horizonte de medio plazo y los cambios bruscos en las pendientes de las CDR pueden tener causas de origen diverso:

• En las perturbaciones (indisponibilidades, cambios no esperados en la demanda, ajustes de estrategias, etc) a las que está sujeta la operativa del corto plazo.

• A la propia metodología de cálculo de las pendientes de las curvas a partir de su aproximación por el modelo de Bisagras: las pendientes no se pueden obtener de forma directa a partir de una CDR real. Las CDR son curvas a escalones, por lo que la pendiente real solamente puede tomar dos valores posibles: 0 o ∞. Por ello ha sido necesario desarrollar una metodología basada en el modelo Bisagras para poder determinar la pendiente ”ficticia” de una CDR real.

Para determinar la influencia que puedan presentar los resultados al error con el que se obtienen las bisagras, se ha realizado un ejercicio en el que se ha determinado el grado de correlación entre las pendientes de las CDR y de los patrones ponderados por su probabilidad de activación, para distintos grados de ajuste en las bisagras de ambas curvas para el periodo de entrenamiento del modelo híbrido de bisagras. En la Tabla 5.5

Page 56: predicción de medio plazo de las pendientes de curvas de ...

5. Resultados del modelo: Caso ejemplo 51

se muestran los resultados obtenidos. En la parte derecha de la tabla se encuentra la pendiente promedio, para todo el periodo, obtenida a partir de las bisagras calculadas para ese grado de error. En la última fila se encuentra el mismo valor, pero calculada la pendiente a partir de la ponderación de los patrones.

5.00 1.00 0.50 0.10 0.055.00 0.176 0.187 0.191 0.167 0.161 0.7931.00 0.140 0.235 0.275 0.250 0.241 1.1020.50 0.118 0.222 0.260 0.247 0.245 1.2440.10 0.083 0.182 0.229 0.230 0.233 1.3720.05 0.079 0.169 0.216 0.228 0.226 1.328

0.794 0.747 0.788 0.788 0.795

Pendiente promedio CDR

Pendiente prom. patrones

CORRELACION ERROR CDR PATRONES (%)ER

RO

R

CD

R (%

)

Tabla 5.5: Grado de correlación entre la pendiente de las CDR y la de los patrones

5 1 0.5 0.1 0.055

0.5

0.05

0.000

0.050

0.100

0.150

0.200

0.250

0.300

Cor

rela

ción

Error Bis. CDR patrones (%)

Error Bis. CDR (%)

Fig. 5.10: Grado de correlación para distintos errores en las bisagras de los patrones y de las CDR

Las principales conclusiones extraídas de este análisis son:

• Cuanto menor es el error admitido para las bisagras de las CDR, mayor es la pendiente media. Este fenómeno se produce porque al ajustar con mucha precisión las bisagras a las CDR, éstas replican los escalones de las curvas, lo que supone pendientes muy altas (en el límite tendiendo a infinito). Este efecto, que no refleja la filosofía que se busca al aplicar el modelo de Bisagras, es más acusado en las CDR que en los patrones. La pendiente promedio calculada para las CDR con distintos errores en las bisagras supone diferencias superiores al 50%.

• No es aconsejable trabajar con errores en las bisagras de las CDR bajos, dado que los valores medios de las pendientes difieren sensiblemente de las de los patrones. Parece adecuado calcular las bisagras de las CDR con un error no inferior al 5%, aunque con errores menores podrían obtenerse correlaciones mayores entre la pendiente de las CDR y las de los patrones.

Page 57: predicción de medio plazo de las pendientes de curvas de ...

6 Conclusiones y futuros desarrollos

En este último capítulo se resumen los resultados obtenidos a partir de trabajo realizado. En primer lugar, el apartado 6.1 resume la conclusiones más importantes de trabajo desarrollado y en el apartado 6.2 se sugieren algunas líneas de continuación al trabajo que se ha presentado.

6.1 Conclusiones

El análisis de los mercados de generación de energía eléctrica mediante modelos que utilizan el equilibrio de Cournot tiene serias limitaciones. Por un lado, no permiten representar adecuadamente el comportamiento estratégico de los agentes al interaccionar en el mercado. Por otro, los resultados que se obtienen resultan muy influidos por la elasticidad de la demanda utilizada. En general, podría decirse que resulta adecuado para representar condiciones de mercado muy específicas.

Para obtener una representación más adecuada del mercado es necesario un modelo que considere la interdependencia estratégica de las diferentes empresas. Es decir, un modelo que considere la respuesta de cada agente ante las decisiones adoptadas por el resto de agentes. El enfoque de variaciones conjeturales de la teoría microeconómica clásica adopta el planteamiento descrito, justificando un intento de introducir dinámica en un modelo estático. Así pues, para cada empresa se considera la variación de la producción del resto de empresas frente a variaciones en su producción, que puede venir dada por la pendiente de su curva de demanda residual (CDR).

Sin embargo, las pendientes, que resumen en cada punto cómo se modifica el precio al variar la producción del agente, no se pueden obtener de forma directa a partir de una CDR real. Las CDR son curvas a escalones, por lo que la pendiente “real” solamente puede tomar dos valores posibles: 0 o ∞. Por ello ha sido necesario desarrollar una metodología basada en el modelo Bisagras para poder determinar la pendiente ”ficticia” de una CDR real.

Se han realizado numerosos estudios con el objeto de tener un buen conocimiento de los parámetros conductores más relevantes del mercado español y de las pendientes de las CDR. En concreto se ha estudiado el periodo comprendido entre el 1 de enero de 2002 y el 31 de julio de 2004, analizándose más alrededor de 23.000 curvas y cerca de 30 variables explicativas (producciones por empresa y tecnología, demandas, intercambios internacionales, etc). De ellos puede concluirse que las curvas de demanda residual y su pendiente en el punto de casación están influenciadas por ciertas variables: se aprecia

Page 58: predicción de medio plazo de las pendientes de curvas de ...

6. Conclusiones y futuros desarrollos 53

relación de las pendientes con la demanda y la potencia térmica solicitada y en menor medida con la producción hidráulica y de carbón.

A continuación se presenta un modelo para estimar las pendientes de las CDR en el punto de casación. El modelo dispone de una biblioteca con los patrones de las CDR obtenidos a partir de las curvas de oferta histórica de los agentes en un proceso previo de ajuste basado en técnicas de clustering. El modelo también codifica en forma de árbol de decisión la explicación, a partir de las variables representativas, de dichos patrones. El árbol determina, para cada combinación de variables de entrada, la probabilidad de activación de cada patrón bajo esas condiciones. Paralelamente se obtienen las bisagras de los patrones de las CDR y mediante un módulo independiente se determina la zona donde se prevé se va a producir la casación. Conocida la probabilidad de activación de cada uno de los patrones y la pendiente de los mismos en el punto de casación esperado, se realiza la ponderación de ambas y se obtiene la estimación de la pendiente.

Posteriormente el modelo se ha validado con datos reales, correspondientes al mes de julio de 2004, y se ha comparado con un modelo de referencia sencillo de medias por bloques horarios. Del análisis de los resultados obtenidos para el conjunto de validación se aprecia que el modelo propuesto presenta un error medio y cuadrático menores que el modelo de medias. Esto significa que el modelo híbrido de bisagras, que emplea información acerca de las condiciones del mercado, puede generalizar de forma más “inteligente” y eficiente a como lo hace el modelo de medias.

El empleo del modelo de Bisagras supone una solución sencilla para el cálculo de las pendientes de las curvas de demanda residual. Sin embargo, se ha resaltado la sensibilidad que presenta el valor de las pendientes de las CDR al error con el que se calculan las bisagras. Por ello la mayor dificultad reside en determinar el grado de ajuste de las bisagras a las curvas. Si en el ajuste de las CDR se emplea un número elevado de bisagras, se estará realizando una aproximación que se acerque mucho a la CDR, que podría ser más adecuado para su análisis de corto plazo. Por ello, para los análisis de medio plazo se considera un modelado que permita filtrar las perturbaciones introducidas por la dinámica de corto plazo de la CDR y de la propia metodología del cálculo de las pendientes, de forma que no se aproximan las bisagras con demasiada precisión.

6.2 Futuros desarrollos

Durante el desarrollo de este trabajo se han identificado algunos temas que podrían ser objeto de estudios futuros. A continuación se enumeran las más relevantes:

• Una adecuada selección de las variables explicativas es relevante para inferir la CDR representativa de cada periodo horario. Por ello es importante emplear las variables que mejor representan los equilibrios del mercado. En esta línea puede resultar de interés separar la potencia hidráulica fluyente y modulable para ver si la primera se adecua mejor para explicar los patrones de las CDR. También puede realizarse un estudio detallado de la influencia de la potencia producida con ciclos combinados, por su importante crecimiento y su posible impacto en las CDR.

• Como se ha comentado, el valor de las pendientes de las CDR es muy sensible al error con el que se calculan las bisagras. Por ello la mayor dificultad del modelo

Page 59: predicción de medio plazo de las pendientes de curvas de ...

6. Conclusiones y futuros desarrollos 54

propuesto reside en determinar el grado de ajuste de las bisagras a las curvas. Se debe realizar estudios en este sentido para determinar los cambios en el valor de las pendientes que supone calcular bisagras de las CDR con un grado de ajuste menor.

En la misma línea, puede reducirse la ventana de análisis de las CDR de todo su rango teórico (0 a 18,03 c€/kWh) a una de menor tamaño, más centrada en el punto en el que se va a producir la casación, de manera que los patrones de comportamiento que se determinen únicamente tengan en cuenta la zona cercana a la casación y no estén contaminados por cambios en las zonas de precios muy altos o muy bajos, que al presentar una probabilidad muy baja o nula de que la casación se produzca en ellos, no estén optimizados en las ofertas de los propios agentes.

• El modelo es capaz de determinar el sentido de los movimientos de las pendientes a partir de las variables de entrada, pero debería mejorar la aproximación de su magnitud. Por ello podría ser adecuado buscar algún tipo de heurística que, a posteriori, modifique el valor de la estimación para aproximarla más a la pendiente real. Otra opción sería aumentar el número de patrones considerados para permitir una mayor variabilidad en la salida del modelo de previsión de pendientes de las CDR.

• De la misma forma que se calculan patrones para las CDR podría pensarse en crear patrones para las curvas de oferta de las distintas empresas para así poder determinar el punto de casación como superposición de las curvas de oferta y de demanda residual.

• El periodo para el que se ha realizado la validación del modelo es muy reducido, por lo que se propone generalizar el modelo para otros periodos temporales y otras empresas para ver si se ajusta de forma razonable para predecir la pendiente en otras situaciones diferentes.

Page 60: predicción de medio plazo de las pendientes de curvas de ...

ANEXOS

Page 61: predicción de medio plazo de las pendientes de curvas de ...

A Redes neuronales

A.1 Características principales de las Redes Neuronales

El modelo de una neurona artificial es una imitación del proceso de una neurona biológica. En la Fig. A.1 se observa una neurona en forma general y su similitud con una neurona biológica.

Fig. A.1: De la neurona biológica a la neurona artificial

De la observación detallada del proceso biológico se han hallado las siguientes analogías con el sistema artificial:

• Las entradas Xi representan las señales que provienen de otras neuronas y que son capturadas por las dendritas.

• Los pesos Wi son la intensidad de la sinápsis que conecta dos neuronas; tanto Xi como Wi son valores reales.

• θ es la función umbral que la neurona debe sobrepasar para activarse; este proceso ocurre biológicamente en el cuerpo de la célula.

Las señales de entrada a una neurona artificial X1, X2,.., Xn son variables continuas en lugar de pulsos discretos, como se presentan en una neurona biológica. Cada señal de entrada pasa a través de una ganancia o peso, llamado peso sináptico o fortaleza de la

Page 62: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 57

conexión cuya función es análoga a la de la función sináptica de la neurona biológica. Los pesos pueden ser positivos (excitatorios), o negativos (inhibitorios), el nodo sumatorio acumula todas las señales de entradas multiplicadas por los pesos o ponderadas y las pasa a la salida a través de una función umbral o función de transferencia. La entrada neta a cada unidad puede escribirse de la siguiente manera

 Ecuación A.1

Una idea clara de este proceso se muestra en la Fig. A.2, en donde puede observarse el recorrido de un conjunto de señales que entran a la red.

Fig. A.2: Proceso de una red neuronal

Una vez que se ha calculado la activación del nodo, el valor de salida equivale a

  Ecuación A.2

Donde fi representa la función de activación para esa unidad, que corresponde a la función escogida para transformar la entrada netai en el valor de salida xi y que depende de las características específicas de cada red.

A.1.1 Funciones de Transferencia Un modelo que facilita el estudio de una neurona, puede visualizarse en la Fig. A.3:

Page 63: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 58

Fig. A.3: Neurona de una sola entrada

Las entradas a la red serán ahora presentadas en el vector p, que para el caso de una sola neurona contiene solo un elemento; W sigue representando los pesos y la nueva entrada b es una ganancia que refuerza la salida del sumador n, la cual es la salida neta de la red; la salida total está determinada por la función de transferencia f, la cual puede ser una función lineal o no lineal de n, y que es escogida dependiendo de las especificaciones del problema que la neurona tenga que resolver. Aunque las RNA se inspiren en modelos biológicos no existe ninguna limitación para realizar modificaciones en las funciones de salida. Así que se encontrarán modelos artificiales que nada tienen que ver con las características del sistema biológico. La tabla siguiente presenta una relación de las principales funciones de transferencia empleadas en el entrenamiento de redes neuronales:

Nombre Relación Entrada/Salida Icono Función

Limitador Fuerte

hardlim

Limitador Fuerte Simétrico

hardlims

Lineal Positiva

poslin

Lineal

purelin

Lineal Saturado

satlin

Lineal Saturado Simétrico

satlins

Page 64: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 59

Sigmoidal Logarítmico

logsig

Tangente Sigmoidal Hiperbólica

tansig

Competitiva

compet

Tabla 1: Funciones de Transferencia

A.1.2 Topología de una Red Típicamente una neurona tiene más de una entrada. En la Fig. A.4 se observa una neurona con R entradas, donde las entradas individuales p1,p2,...,pR son multiplicadas por los pesos correspondientes w1,1, w1,2,...w1,R pertenecientes a la matriz de pesos W.

Fig. A.4: Neurona con múltiples entradas

La neurona tiene una ganancia b, la cual llega al mismo sumador al que llegan las entradas multiplicadas por los pesos, para formar la salida n,

  Ecuación A.3

Esta expresión puede ser escrita en forma matricial:

  Ecuación A.4

Los subíndices de la matriz de pesos representan los términos involucrados en la conexión, el primer subíndice representa la neurona destino y el segundo representa la fuente de la señal que alimenta a la neurona. Por ejemplo, los índices de w1,2 indican que este peso es la conexión desde la segunda entrada a la primera neurona. Esta convención se hace más útil cuando hay más de una neurona, o cuando se tiene una neurona con demasiados parámetros. En este caso la notación de la Fig. A.4, puede resultar inapropiada y se prefiere emplear la notación abreviada representada en la Fig. A.5.

Page 65: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 60

Fig. A.5: Neurona con múltiples entradas, notación abreviada

Dentro de una red neuronal, los elementos de procesamiento se encuentran agrupados por capas, conteniendo cada una de ellas una colección de neuronas. De acuerdo a la ubicación de la capa en la RNA, esta recibe diferentes nombres

• Capa de entrada: Recibe las señales de la entrada de la red. Algunos autores no consideran el vector de entrada como una capa, pues allí no se lleva a cabo ningún proceso.

• Capas ocultas: Estas capas son aquellas que no tienen contacto con el medio exterior. Sus elementos pueden tener diferentes conexiones y son éstas las que determinan las diferentes topologías de la red.

• Capa de salida: Recibe la información de la capa oculta y transmite la respuesta al medio externo.

Una red de una sola capa con un número S de neuronas se observa en la Fig. A.6, en la que cada una de las R entradas es conectada a cada una de las S neuronas.

Fig. A.6: Capa de S neuronas

Page 66: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 61

La capa incluye la matriz de pesos, los sumadores, el vector de ganancias, la función de transferencia y el vector de salida. Esta misma capa se observa en notación abreviada en la Fig. A.7.

Fig. A.7: Capa de S neuronas con notación abreviada

Ahora, si se considera una red con varias capas, o red multicapa, cada capa tendrá su propia matriz de peso W, su propio vector de ganancias b, un vector de entradas netas n, y un vector de salida a. La versión completa y la versión en notación abreviada de una red de tres capas pueden ser visualizadas en la Fig. A.8 y la Fig. A.9, respectivamente.

Fig. A.8: Red de tres capas

Para esta red se tienen R entradas, S1 neuronas en la primera capa, S2 neuronas en la segunda capa, las cuales pueden ser diferentes. Las salidas de las capas 1 y 2 son las entradas a las capas 2 y 3 respectivamente. Así, la capa 2 puede ser vista como una red de una capa con R=S1 entradas, S1=S2 neuronas y una matriz de pesos W2 de dimensiones S1xS2.

Page 67: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 62

Fig. A.9: Red de tres capas con notación abreviada

Las redes multicapa son más potentes que las redes de una sola capa. Por ejemplo, una red de dos capas que tenga una función sigmoidal en la primera capa y una función lineal en la segunda, puede ser entrenada para aproximar muchas funciones de forma aceptable. Una red de una sola capa no podría hacer esto como se verá posteriormente.

En general, las redes neuronales se pueden clasificar de diversas maneras, según su topología, forma de aprendizaje (supervisado o no supervisado), tipos de funciones de activación, valores de entrada (binarios o continuos). Un resumen de esta clasificación se observa en la Fig. A.10.

Fig. A.10: Clasificación de las Redes Neuronales

A.2 Principales tipos de Redes Neuronales

A.2.1 Perceptrón A.2.1.1 Antecedentes

La primera red neuronal conocida fue desarrollada en 1943 por Warren McCulloch y Walter Pitts. Esta consistía en una suma de las señales de entrada multiplicadas por unos valores de pesos escogidos aleatoriamente. La entrada es comparada con un patrón preestablecido para determinar la salida de la red. Si en la comparación, la suma de las

Page 68: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 63

entradas multiplicadas por los pesos es mayor o igual que el patrón preestablecido la salida de la red es uno, en caso contrario la salida es cero. Al inicio del desarrollo de los sistemas de inteligencia artificial, se encontró gran similitud entre su comportamiento y el de los sistemas biológicos y en principio se creyó que este modelo podía computar cualquier función aritmética o lógica.

La red tipo Perceptrón fue inventada por el psicólogo Frank Rosenblatt en el año 1957. Su intención era ilustrar algunas propiedades fundamentales de los sistemas inteligentes en general, sin entrar en mayores detalles con respecto a condiciones específicas y desconocidas para organismos biológicos concretos. Rosenblatt creía que la conectividad existente en las redes biológicas tiene un elevado porcentaje de aleatoriedad, por lo que se oponía al análisis de McCulloch Pitts en el que se empleaba lógica simbólica para analizar estructuras bastante idealizadas. Rosenblatt opinaba que la herramienta de análisis más apropiada era la teoría de probabilidades, y esto lo llevó a una teoría de separabilidad estadística que utilizaba para caracterizar las propiedades más visibles de estas redes de interconexión ligeramente aleatorias.

Mediante sus investigaciones se pudo demostrar que el Perceptrón era capaz de clasificar patrones correctamente, en lo que Rosenblatt denominaba un entorno diferenciado, en el cual cada clase estaba formada por patrones similares. El Perceptrón también era capaz de responder de manera congruente frente a patrones aleatorios, pero su precisión iba disminuyendo a medida que aumentaba el número de patrones que intentaba aprender.

En 1969 Marvin Minsky y Seymour Papert publicaron su libro: "Perceptrons: An introduction to Computational Geometry" [Minsky, 1969], el cual, para muchos, significó el final de las redes neuronales. En el se presentaba un análisis detallado del Perceptrón, en términos de sus capacidades y limitaciones, en especial en cuanto a las restricciones que existen para los problemas que una red tipo Perceptrón puede resolver. La mayor desventaja de este tipo de redes es su incapacidad para solucionar problemas que no sean linealmente separables.

A pesar de esta limitación, el Perceptrón es aún hoy una red de gran importancia pues, con base en su estructura, se han desarrollado otros modelos de red neuronal como el perceptrón multicapa.

A.2.1.2 Estructura de la red

Fig. A.11: Perceptrón

Page 69: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 64

La única neurona de salida del Perceptrón realiza la suma ponderada de las entradas, resta el umbral y pasa el resultado a una función de transferencia de tipo escalón. La regla de decisión es responder +1 si el patrón presentado pertenece a la clase A, o –1 si el patrón pertenece a la clase B (Fig. A.11).

La red tipo Perceptrón emplea principalmente dos funciones de transferencia, hardlim con salidas 1, 0 o hardlims con salidas 1, -1; su uso depende del valor de salida que se espera para la red, es decir si la salida de la red es unipolar o bipolar. Sin embargo la función hardlims es preferida sobre la hardlim, ya que el tener un cero multiplicando algunos de los valores resultantes del producto de las entradas por el vector de pesos, ocasiona que estos no se actualicen y que el aprendizaje sea más lento.

Una técnica utilizada para analizar el comportamiento de redes como el Perceptrón es presentar en un mapa las regiones de decisión creadas en el espacio multidimensional de entradas de la red. En estas regiones se visualiza qué patrones pertenecen a una clase y cuáles a otra. El Perceptrón separa las regiones por un hiperplano cuya ecuación queda determinada por los pesos de las conexiones y el valor umbral de la función de activación de la neurona. En este caso los valores de los pesos pueden fijarse o adaptarse empleando diferentes algoritmos de entrenamiento.

Para ilustrar el proceso computacional del Perceptrón se considera la matriz de pesos en forma general. Los pesos para una neurona están representados por un vector compuesto de los elementos de la i-ésima fila de W:

 

Ecuación A.5

De esta forma y empleando la función de transferencia hardlim la salida de la neurona i de la capa de salida

  Ecuación A.6

El Perceptrón, al constar de una sola capa de entrada y otra de salida con una única neurona, tiene una capacidad de representación bastante limitada. Este modelo sólo es capaz de discriminar patrones muy sencillos, patrones linealmente separables. El caso más conocido es la imposibilidad del Perceptrón de representar la función XOR.

A.2.1.3 Regla de aprendizaje

El Perceptrón es un tipo de red de aprendizaje supervisado, es decir, necesita conocer los valores esperados para cada una de las entradas presentadas. Su comportamiento está definido por pares de la forma:

  Ecuación A.7

Cuando p es aplicado a la red, la salida de la misma es comparada con el valor esperado t, y la salida de la red esta determinada por:

Page 70: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 65

 Ecuación A.8

Los valores de los pesos, que determinan el funcionamiento de la red, se pueden fijar o adoptar utilizando diferentes algoritmos de entrenamiento de la red.

En el proceso de entrenamiento, el Perceptrón se expone a un conjunto de patrones de entrada y los pesos de la red son ajustados de forma que al final del entrenamiento se obtengan las salidas esperadas para cada unos de esos patrones de entrada.

El algoritmo de entrenamiento del Perceptrón puede resumirse en los siguientes pasos:

1. Se inicializa la matriz de pesos y el valor de la ganancia, por lo general se asignan valores aleatorios a cada uno de los pesos wi y al valor b.

2. Se presenta el primer patrón a la red, junto con la salida esperada en forma de pares entrada/salida.

3. Se calcula la salida de la red por medio de:

  Ecuación A.9

donde f puede ser la función hardlim o hardlims.

4. Cuando la red no retorna la salida correcta, es necesario alterar el valor de los pesos, tratando de llevarlo hasta p y así aumentar las posibilidades de que la clasificación sea correcta. Una posibilidad es adicionar p a w haciendo que el vector w apunte en la dirección de p y de esta forma, después de repetidas presentaciones de p a la red, w se aproximará asintoticamente a p.

A.2.1.4 Limitación de la red Perceptrón

Una red Perceptrón, como se ha dicho, puede resolver solamente problemas que sean linealmente separables, esto es, problemas cuyas salidas estén clasificadas en dos categorías diferentes y que permitan que su espacio de entrada sea divido en estas dos regiones por medio de un hiperplano de características similares a la ecuación del Perceptrón, es decir:

  Ecuación A.10

Ejemplos de problemas de este tipo son las funciones lógicas OR y AND. El problema de la compuerta XOR no es linealmente separable y una red tipo Perceptrón no esta en capacidad de clasificar correctamente los patrones de esta función. Debido a esta limitación del Perceptrón y a su amplia publicación en el libro de Minsky y Papert [Minsky, 1969], el estudio de las redes neuronales se estanco durante casi 20 años.

La solución al problema de clasificación de patrones de la función XOR se encontraría fácilmente si se descompone el espacio en tres regiones: una región pertenecería a una de las clases de salida y las otras dos pertenecen a la segunda clase. Así, si en lugar de utilizar únicamente una neurona de salida se utilizaran dos, se obtendrían dos rectas por lo que podrían delimitarse tres zonas. Para poder elegir entre una zona u otra de las tres, es necesario utilizar otra capa con una neurona cuyas entradas serán las salidas de las

Page 71: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 66

neuronas anteriores. Las dos zonas o regiones que contienen los puntos (0,0) y (1,1) se asocian a una salida nula de la red y la zona central se asocia a la salida con valor 1, de esta forma es posible encontrar una solución al problema de la función XOR. Por tanto se ha de utilizar una red de tres neuronas, distribuidas en dos capas, para solucionar este problema.

En la Fig. A.12 se observa un esquema de lo que sería una red Perceptrón multicapa, con los valores de pesos y ganancias que clasifican correctamente los patrones de la compuerta XOR:

Fig. A.12: Perceptrón multicapa para la XOR

A.2.1.5 Perceptrón multicapa El esquema general de un perceptrón multicapa se ve en la Fig. A.13 en donde se notan las conexiones entre sus nodos de entrada y las neuronas de salida.

Fig. A.13: Conexiones del Perceptrón

Un Perceptrón multicapa es una red con alimentación hacia delante, compuesta de varias capas de neuronas entre la entrada y la salida de la misma. Esta red permite establecer regiones de decisión mucho más complejas que las de dos semiplanos como lo hace el Perceptrón, de un solo nivel.

Un esquema simplificado del modelo del Perceptrón de la Fig. A.13 se observa en la Fig. A.14:

Page 72: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 67

Fig. A.14: Notación compacta para la red tipo Perceptrón

La salida de la red está dada por:

  Ecuación A.11

Donde

• W: Matriz de pesos asignada a cada una de las entradas de la red de dimensiones SxR, con S igual al número de neuronas y R a la dimensión del vector de entrada.

• p: Vector de entradas a la red de dimensiones Rx1.

• b: Vector de ganancias de la red de dimensiones Sx1.

Las capacidades del Perceptrón multicapa con dos y tres capas y con una única neurona en la capa de salida se muestran en la Fig. A.15 [Hilera, 1995]. En la segunda columna se muestra el tipo de región de decisión que se puede formar con cada una de las configuraciones. En la siguiente se indica el tipo de región que se formaría para el problema de la XOR y en las dos últimas columnas se muestran las regiones formadas para resolver el problema de clases mezcladas y las formas más generales para cada uno de los casos.

Estructura Regiones de Decisión

Problema de la XOR

Clases con Regiones Mezcladas

Formas de Regiones más

Generales

Medio Plano Limitado por un Hiperplano

Regiones Cerradas o Convexas

Complejidad Arbitraria Limitada por el Número de Neuronas

Page 73: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 68

Fig. A.15: Distintas formas de las regiones generadas por un Perceptrón multicapa

El Perceptrón básico sólo puede establecer dos regiones separadas por una frontera lineal en el espacio de entrada de los patrones, sin embargo un Perceptrón con dos capas puede formar cualquier región convexa en este espacio. Las regiones convexas se forman mediante la intersección de regiones formadas por cada neurona de la segunda capa. Cada uno de estos elementos se comporta como un Perceptrón simple, activándose su salida para los patrones de un lado del hiperplano. Si el valor de los pesos de las conexiones entre las neuronas de la segunda capa y una neurona del nivel de salida son todos igual a 1, y la función de salida es de tipo hardlim, la salida de la red se activará sólo si las salidas de todos los nodos de la segunda capa están activos. Esto equivale a ejecutar la función lógica AND en el nodo de salida, resultando una región de decisión intersección de todos los semiplanos formados en el nivel anterior. La región de decisión resultante de la intersección será una región convexa con un número de lados a lo sumo igual al número de neuronas de la segunda capa.

A partir de este análisis surge el interrogante respecto a los criterios de selección para las neuronas de las capas ocultas de una red multicapa. Este número, en general, debe ser lo suficientemente grande como para que se forme una región compleja que pueda resolver el problema. Sin embargo, no debe ser muy grande pues la estimación de los pesos puede ser no confiable para el conjunto de los patrones de entrada disponibles. Hasta el momento no hay un criterio establecido para determinar la configuración de la red y esto depende más bien de la experiencia del diseñador.

La regla de aprendizaje del Perceptrón para una red multicapa es una generalización de las ecuaciones:

Ecuación A.12

A.2.2 Backpropagation A.2.2.1 Antecedentes

La regla de aprendizaje del Perceptrón de Rosenblatt y el algoritmo LMS de Widrow y Hoff fueron diseñados para entrenar redes de una sola capa. Como se discutió anteriormente, estas redes tienen la desventaja que solo pueden resolver problemas linealmente separables y fue esto lo que llevo al surgimiento de las redes multicapa para sobrepasar esta dificultad en las redes hasta entonces conocidas.

El primer algoritmo de entrenamiento para redes multicapa fue desarrollado por Paul Werbos en 1974. Este se desarrolló en un contexto general, para cualquier tipo de redes, siendo las redes neuronales una aplicación especial, razón por la cual el algoritmo no fue aceptado dentro de la comunidad de desarrolladores de redes neuronales. Fue solo hasta mediados de los años 80 cuando el algoritmo Backpropagation o algoritmo de propagación inversa fue redescubierto al mismo tiempo por varios investigadores: David Rumelhart [Rumelhart, 1985], Geoffrey Hinton [Hinton, 1992] y Ronal Williams, David Parker y Yann Le Cun. El algoritmo se popularizó cuando fue incluido en el libro "Parallel Distributed Processing Group" por los psicólogos David Rumelhart y James McClelland. La publicación de este libro trajo consigo un auge en las investigaciones

Page 74: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 69

con redes neuronales, siendo la Backpropagation una de las redes más ampliamente empleadas, aun en nuestros días.

Uno de los grandes avances logrados con la Backpropagation es que esta red aprovecha la naturaleza paralela de las redes neuronales para reducir el tiempo requerido por un procesador secuencial para determinar la correspondencia entre unos patrones dados.

Lo que se necesita es un nuevo sistema de procesamiento que sea capaz de examinar todos los patrones en paralelo. Idealmente ese sistema no tendría que ser programado explícitamente, lo que haría es adaptarse a sí mismo para aprender la relación entre un conjunto de patrones dado como ejemplo y ser capaz de aplicar la misma relación a nuevos patrones de entrada. Este sistema debe estar en disposición de concentrarse en las características de una entrada arbitraria que se asemeje a otros patrones vistos previamente, sin que ninguna señal de ruido lo afecte. Este sistema fue la gran aportación de la red Backpropagation.

La Backpropagation es un tipo de red de aprendizaje supervisado, que emplea un ciclo propagación – adaptación de dos fases. Una vez que se ha aplicado un patrón a la entrada de la red como estímulo, este se propaga desde la primera capa a través de las capas superiores de la red, hasta generar una salida. La señal de salida se compara con la salida deseada y se calcula una señal de error para cada una de las salidas.

Las salidas de error se propagan hacia atrás, partiendo de la capa de salida, hacia todas las neuronas de la capa oculta que contribuyen directamente a la salida. Sin embargo, las neuronas de la capa oculta solo reciben una fracción de la señal total del error, basándose aproximadamente en la contribución relativa que haya aportado cada neurona a la salida original. Este proceso se repite, capa por capa, hasta que todas las neuronas de la red hayan recibido una señal de error que describa su contribución relativa al error total. Basándose en la señal de error percibida, se actualizan los pesos de conexión de cada neurona, para hacer que la red converja hacia un estado que permita clasificar correctamente todos los patrones de entrenamiento.

La importancia de este proceso consiste en que, a medida que se entrena la red, las neuronas de las capas intermedias se organizan a sí mismas de tal modo que las distintas neuronas aprenden a reconocer distintas características del espacio total de entrada. Después del entrenamiento, cuando se les presente un patrón arbitrario de entrada que contenga ruido o que esté incompleto, las neuronas de la capa oculta de la red responderán con una salida activa si la nueva entrada contiene un patrón que se asemeje a aquella característica que las neuronas individuales hayan aprendido a reconocer durante su entrenamiento. Y a la inversa, las unidades de las capas ocultas tienen una tendencia a inhibir su salida si el patrón de entrada no contiene la característica a reconocer, para la que han sido entrenadas.

Varias investigaciones han demostrado que, durante el proceso de entrenamiento, la red Backpropagation tiende a desarrollar relaciones internas entre neuronas con el fin de organizar los datos de entrenamiento en clases. Esta tendencia se puede extrapolar, para llegar a la hipótesis consistente en que todas las unidades de la capa oculta de una Backpropagation son asociadas de alguna manera a características específicas del patrón de entrada como consecuencia del entrenamiento. Lo que sea o no exactamente la asociación puede no resultar evidente para el observador humano, lo importante es que la red ha encontrado una representación interna que le permite generar las salidas deseadas cuando se le dan las entradas en el proceso de entrenamiento. Esta misma representación interna se puede aplicar a entradas que la red no haya visto antes, y la red

Page 75: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 70

clasificará estas entradas según las características que compartan con los ejemplos de entrenamiento.

A.2.2.2 Estructura de la Red

La estructura típica de una red multicapa se observa en la Fig. A.16:

Fig. A.16: Red de tres capas

Puede notarse que esta red de tres capas equivale a tener tres redes tipo Perceptrón en cascada: la salida de la primera red es la entrada a la segunda, y la salida de la segunda red es la entrada a la tercera. Cada capa puede tener diferente número de neuronas e incluso distinta función de transferencia.

En la Fig. A.16, W1 representa la matriz de pesos para la primera capa, W2 los pesos de la segunda y así sucesivamente para todas las capas que incluya una red. Para identificar la estructura de una red multicapa se empleará una notación abreviada, donde el número de entradas va seguido del número de neuronas en cada capa:

R : S1 : S2 : S3

Donde S representa el número de neuronas y el exponente representa la capa a la cual la neurona corresponde.

La notación de la Fig. A.16 es bastante clara cuando se desea conocer la estructura detallada de la red e identificar cada una de las conexiones, pero cuando la red es muy grande, el proceso de conexión se torna muy complejo y es bastante útil utilizar el esquema de la Fig. A.17:

Page 76: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 71

Fig. A.17: Notación compacta de una red de tres capas

A.2.2.3 Regla de Aprendizaje

El algoritmo Backpropagation para redes multicapa es una generalización del algoritmo LMS. Ambos algoritmos realizan su labor de actualización de pesos y ganancias con base en el error cuadrático medio. La red Backpropagation trabaja bajo aprendizaje supervisado y por tanto necesita un conjunto de entrenamiento que le describa cada salida y su valor de salida esperado de la siguiente forma:

{p1,t1}, {p2,t2}, . . . ,{pQ, tQ}  Ecuación A.13

Donde pQ es una entrada a la red y tQ es la correspondiente salida deseada para el patrón q-ésimo. El algoritmo debe ajustar los parámetros de la red para minimizar el error cuadrático medio.

El entrenamiento de una red neuronal multicapa se realiza mediante un proceso de aprendizaje. Para realizar este proceso se debe inicialmente tener definida la topología de la red, esto es: número de neuronas en la capa de entrada (el cual depende del número de componentes del vector de entrada), cantidad de capas ocultas y número de neuronas de cada una de ellas, número de neuronas en la capa de la salida (el cual depende del número de componentes del vector de salida o patrones objetivo) y funciones de transferencia requeridas en cada capa. En función de la topología escogida se asignan valores iniciales a cada uno de los parámetros que conforma la red.

Es importante recalcar que no existe una técnica para determinar el número de capas ocultas, ni el número de neuronas que debe contener cada una de ellas para un problema especifico. Esta elección está determinada por la experiencia del diseñador, el cual debe cumplir con limitaciones de tipo computacional.

Cada patrón de entrenamiento se propaga a través de la red y sus parámetros para producir una respuesta en la capa de salida, la cual se compara con los patrones objetivo o salidas deseadas para calcular el error en el aprendizaje. Este error marca el camino mas adecuado para la actualización de los pesos y ganancias que al final del entrenamiento producirán una respuesta satisfactoria a todos los patrones de entrenamiento. Esto se logra minimizando el error cuadrático medio en cada iteración del proceso de aprendizaje.

Page 77: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 72

El algoritmo Backpropagation utiliza la misma técnica de aproximación en pasos descendientes que emplea el algoritmo LMS. La única complicación está en el cálculo del gradiente, el cual es un término indispensable para realizar la propagación de la sensitividad.

En las técnicas de gradiente descendiente es conveniente avanzar por la superficie de error con incrementos pequeños de los pesos; esto se debe a que se tiene una información local de la superficie y no se sabe lo lejos o lo cerca que se está del punto mínimo. Con incrementos grandes, se corre el riesgo de pasar por encima del punto mínimo; con incrementos pequeños, aunque se tarde más en llegar, se evita que esto ocurra. El elegir un incremento adecuado influye en la velocidad de convergencia del algoritmo, esta velocidad se controla a través del coeficiente de aprendizaje α, que por lo general se escoge como un número pequeño, para asegurar que la red encuentre una solución. Un valor pequeño de α significa que la red tendrá que hacer un gran número de iteraciones; si se toma un valor muy grande, los cambios en los pesos serán muy grandes, avanzando muy rápidamente por la superficie de error, con el riesgo de saltar el valor mínimo del error y estar oscilando alrededor de él, pero sin poder alcanzarlo.

Es recomendable aumentar el valor de α a medida que disminuye el error de la red durante la fase de entrenamiento, para garantizar así una rápida convergencia, teniendo la precaución de no tomar valores demasiado grandes que hagan que la red oscile alejándose demasiado del valor mínimo. Algo importante que debe tenerse en cuenta, es la posibilidad de convergencia hacia alguno de los mínimos locales que pueden existir en la superficie del error del espacio de pesos como se ve en la Fig. A.18.

Fig. A.18: Superficie típica de error

Con el algoritmo de aprendizade Backpropagation no se asegura en ningún momento que el mínimo que se encuentre sea global ya que una vez la red se asiente en un mínimo sea local o global cesa el aprendizaje, aunque el error siga siendo alto. En todo caso, si la solución es admisible desde el punto de vista del error, no importa si el mínimo es local o global o si se ha detenido en algún momento previo a alcanzar un verdadero mínimo.

En 1989 Funahashi [Funahashi, 1990] demostró matemáticamente que una red neuronal multicapa puede aproximar cualquier función no lineal o mapa lineal multivariable, f(x)= Rn R Este teorema es de existencia, pues prueba que la red existe, pero no indica como construirla y tampoco garantiza que la red aprenderá función.

Page 78: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 73

El algoritmo Backpropagation es fácil de implementar, y tiene la flexibilidad de adaptarse para aproximar cualquier función, siendo una de las redes multicapa más potentes. Esta característica ha convertido a esta red en una de las más utilizadas y ha llevado al desarrollo de nuevas técnicas para su mejora. Dentro de estas técnicas encontramos dos métodos heurísticos y dos métodos basados en algoritmos de optimización numérica.

Métodos Heuristicos:

• Red Backpropagation con momentum.

• Red Backpropagation con tasa de aprendizaje variable.

Métodos de optimización numérica:

• Método del Gradiente Conjugado: Esta modificación del algoritmo Backpropagation converge en muy pocas iteraciones, y es incluso uno de los algoritmos más rápidos para redes multicapa

• Algoritmo de Levenberg-Marquardt: Este algoritmo es una modificación del método de Newton, el que fue diseñado para minimizar funciones que sean la suma de los cuadrados de otras funciones no lineales. Es por ello que el algoritmo de Levenberg-Marquardt tiene un excelente desempeño en el entrenamiento de redes neuronales donde el rendimiento de la red esté determinado por el error cuadrático medio. Este algoritmo converge en menos iteraciones que cualquier método discutido anteriormente, pero requiere mucha más computación por iteración, debido a que implica el cálculo de matrices inversas. A pesar de su gran esfuerzo computacional sigue siendo el algoritmo de entrenamiento más rápido para redes neuronales cuando se trabaja con un moderado número de parámetros en la red.

A.2.3 Redes competitivas A.2.3.1 Antecedentes

En las redes con aprendizaje competitivo (cooperativo), suele decirse que las neuronas compiten (cooperan) unas con otras con el fin de llevar a cabo una tarea dada. Con este tipo de aprendizaje se pretende que cuando se presente a la red cierta información de entrada, sólo una de las neuronas de salida de la red, o una por cierto grupo de neuronas, se active (alcance su valor de respuesta máximo). Por tanto las neuronas compiten para activarse quedando finalmente una, o una por grupo, como neurona vencedora y el resto quedan anuladas, siendo forzadas a sus valores de respuesta mínimos.

La competición entre neuronas se realiza en todas las capas de la red, existiendo en estas redes neuronas con conexiones de autoexitación (signo positivo) y conexiones de inhibición (signo negativo) por parte de neuronas vecinas.

El objetivo de este aprendizaje es clasificar (clusterizar) los datos que se introducen en la red, de esta forma las informaciones similares son agrupadas formando parte de la misma categoría y por tanto deben activar la misma neurona de salida. Las clases o categorías deben ser creadas por la propia red, puesto que se trata de un aprendizaje no supervisado a través de las correlaciones entre los datos de entrada.

A principios de 1959, Frank Rosenblatt creó su simple clasificador espontáneo, una red de aprendizaje no supervisado basado en el Perceptrón, el cual aprendía a clasificar vectores de entrada en dos clases con igual número de términos.

Page 79: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 74

A finales de los años 60 y principios de los 70, Stephen Grossberg introdujo muchas redes competitivas que usaban inhibición lateral obteniendo buenos resultados. Algunos de los comportamientos útiles obtenidos por él fueron la supresión del ruido, aumento del contraste y normalización de vectores.

En 1973, Christoph Von Der Malsburg introduce la regla del mapa de organización propia, que permitía a la red clasificar entradas en las cuales las neuronas que estuviesen en un vecindario cercano a la neurona ganadora respondieran a entradas similares.

El trabajo de Grossberg y Von Der Malsburg enfatizó la posibilidad biológica de sus redes. Otro exitoso investigador, Tuevo Kohonen [Kohonen, 1977] ha sido también un fuerte impulsor de las redes competitivas que ha puesto su énfasis en aplicaciones para ingeniería y en la eficiencia matemática de las redes. Durante la década de los 70 Kohonen desarrolló una versión simplificada de la red de Von Der Malsburg y Grossberg, encontrando una manera muy eficiente de incorporar topología a una red competitiva.

Otra forma de aplicar este tipo de aprendizaje fue propuesta por Rumelhart y Zisper [Rumelhart, 1985] en 1985, quienes utilizaban redes multicapa dividiendo cada capa en grupos de neuronas, de tal forma que éstas disponían de conexiones inhibitorias con otras neuronas de su mismo grupo y conexiones excitadoras con las neuronas de la siguiente capa. En una red de este tipo, después de recibir diferentes informaciones de entrada, cada neurona en cada grupo se especializa en la respuesta a determinadas características de los datos de entrada.

En este tipo de redes cada neurona tiene asignado un peso total (suma de todos los pesos de las conexiones que tiene a su entrada) y el aprendizaje afecta sólo a las neuronas ganadoras (activas), en las que se redistribuye el peso total entre sus conexiones y se sustrae una porción de los pesos de todas las conexiones que llegan a la neurona vencedora, repartiendo esta cantidad por igual entre todas las conexiones procedentes de unidades activas. Por tanto, la variación del peso de una conexión entre una unidad i y otra j será nula si la neurona i no recibe excitación por parte de la neurona j (no vence en presencia de un estímulo por parte de i) y se modificará (se reforzará) si es excitada por dicha neurona.

Una variación del aprendizaje supervisado aplicado a redes multicapa consiste en imponer una inhibición mutua entre neuronas únicamente cuando están a cierta distancia unas de otras (suponiendo que las neuronas se han dispuesto geométricamente, por ejemplo, formando capas bidimendisionales). Existe entonces un área o región de vecindad alrededor de las neuronas que constituye un grupo local.

Fukushima [Fukushima, 1975] empleó esta idea en 1975 para una red multicapa llamada Cognitron, fuertemente inspirada en la anatomía y fisiología del sistema visual humano y en 1980, el mismo Fukushima [Fukushima, 1980], en una versión mejorada de la anterior a la que llamó Necognitron, presentó una variación de esta red utilizando aprendizaje supervisado. El Necognitron disponía de un gran número de capas con arquitectura muy específica de interconexiones entre ellas y era capaz de aprender a diferenciar caracteres, aunque estos se presentasen a diferente escala, en diferente posición o distorsionados.

El aspecto geométrico de la disposición de neuronas de una red es la base de un caso particular de aprendizaje competitivo introducido por Kohonen en 1982, conocido como feature mapping (mapas de características), aplicado en redes con una disposición

Page 80: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 75

bidimensional de las neuronas de salida, que permiten obtener mapas topológicos o topográficos (topology preserving maps, topographics maps, self organization maps) en los que de algún modo estarían representadas las características principales de las informaciones presentadas a la red. De esta forma, si la red recibe informaciones con características similares, se generarían mapas parecidos, puesto que serían afectadas neuronas de salidas próximas entre sí.

A.2.3.2 Red de Kohonen

Existen evidencias que demuestran que en el cerebro hay neuronas que se organizan en muchas zonas, de forma que las informaciones captadas del entorno a través de los órganos sensoriales se representan internamente en forma de mapas bidimensionales. Por ejemplo, en el sistema visual se han detectado mapas del espacio visual en zonas del córtex (capa externa del cerebro), también en el sistema auditivo se detecta una organización según la frecuencia a la que cada neurona alcanza mayor repuesta (organización tonotópica).

Aunque en gran medida esta organización neuronal está predeterminada genéticamente, es probable que parte de ella se origine mediante el aprendizaje. Esto sugiere que el cerebro podría poseer la capacidad inherente de formar mapas topológicos de las informaciones recibidas del exterior.

A partir de estas ideas Tuevo Kohonen [Kohonen, 1977] presentó en 1982 un sistema con un comportamiento semejante, se trataba de un modelo de red neuronal con capacidad para formar mapas de características de manera similar a como ocurre en el cerebro. El objetivo de Kohonen era demostrar que un estímulo externo (información de entrada) por sí solo, suponiendo una estructura propia y una descripción funcional del comportamiento de la red, era suficiente para forzar la formación de los mapas.

Este modelo tiene dos variantes denominadas LVQ (Learning Vector Quantization) y TPM (Topology Preserving Map) o SOM (Self Organizing Map). Ambas se basan en el principio de formación de mapas topológicos para establecer características comunes entre las informaciones (vectores) de entrada a la red, aunque difieren en las dimensiones de éstos, siendo de una sola dimensión en el caso de LVQ y bidimensional o tridimensional en la red SOM. Estas redes se tratarán con mayor profundidad en secciones posteriores.

El aprendizaje en el modelo de Kohonen es de tipo Off-line, por lo que se distingue una etapa de aprendizaje y otra de funcionamiento. En la etapa de aprendizaje se fijan los valores de las conexiones (feedforward) entre la capa de entrada y la salida. Esta red utiliza un aprendizaje no supervisado de tipo competitivo: las neuronas de la capa de salida compiten por activarse y sólo una de ellas permanece activa ante una determinada información de entrada a la red, ajustandose los pesos de las conexiones en función de la neurona que haya resultado vencedora.

Durante la etapa de entrenamiento se presenta a la red un conjunto de informaciones de entrada (vectores de entrenamiento) para que ésta establezca en función de la semejanza entre los datos las diferentes categorías (una por neurona de salida), que servirían durante la fase de funcionamiento para realizar clasificaciones de nuevos datos que se presenten a la red. Los valores finales de los pesos de las conexiones entre cada neurona de la capa de salida con las de entrada se corresponderán con los valores de los componentes del vector de aprendizaje que consigue activar la neurona correspondiente.

Page 81: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 76

En el caso de existir más patrones de entrenamiento que neuronas de salida, más de uno deberá asociarse con la misma neurona, es decir pertenecerán a la misma clase.

En este modelo, el aprendizaje no concluye después de presentarle una vez todos los patrones de entrada, sino que habrá que repetir el proceso varías veces para refinar el mapa topológico de salida, de tal forma que cuantas más veces se presenten los datos, tanto más se reducirán las zonas de neuronas que se deben activar ante entradas parecidas, consiguiendo que la red pueda realizar una clasificación mas selectiva.

Un concepto muy importante en la red de Kohonen es la zona de vecindad alrededor de la neurona vencedora i*. Los pesos de las neuronas que se encuentren en esta zona, a la que se le dará el nombre de X(q), serán actualizados junto con el peso de la neurona ganadora, en un ejemplo de aprendizaje cooperativo.

El algoritmo de aprendizaje utilizado para establecer los valores de los pesos de las conexiones entre las N neuronas de entrada y las M de salida es el siguiente:

1. En primer lugar se inicializan los pesos (wij) con valores aleatorios pequeños y se fija la zona inicial de vecindad entre las neuronas de salida.

2. A continuación se presenta a la red una información de entrada (la que debe aprender) en forma de vector p = (p1, p2, ..., pn), cuyas componentes pi serán valores continuos.

3. Puesto que se trata de un aprendizaje competitivo, se determina la neurona vencedora de la capa de salida. Esta será aquella i cuyo vector de pesos wi (vector cuyas componentes son los valores de los pesos de las conexiones entre esa neurona y cada una de las neuronas de la capa de entrada) sea el más parecido a la información de entrada p (patrón o vector de entrada). Para ello se calculan las distancias o diferencias entre ambos vectores, considerando una por una todas las neuronas de salida. Suele utilizarse la distancia euclídea o la siguiente expresión que es similar a aquella, pero eliminando la raíz cuadrada:

 Ecuación A.14

Donde:

• pj: Componente i-ésimo del vector de entrada

• wij: Peso de la conexión entre la neurona j de la capa de entrada y la neurona i de la capa de salida.

Page 82: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 77

Fig. A.19: Conexiones de una red de Kohonen

4. Una vez localizada la neurona vencedora (i*), se actualizan los pesos de las conexiones entre las neuronas de entrada y dicha neurona, así como los de las conexiones entre las de entrada y las neuronas vecinas de la vencedora. En realidad lo que se consigue con esto es asociar la información de entrada con una cierta zona de la capa de salida. Esto se realiza mediante la siguiente ecuación:

w(q)= w(q-1)+α(q)(p(q)-w(q-1)) para i X(q) Ecuación A.15

El tamaño de X(q) se puede reducir en cada iteración del proceso de ajuste de los pesos, con lo que el conjunto de neuronas que pueden considerarse vecinas cada vez es menor como se observa en la Fig. A.20. Sin embargo en la práctica es habitual considerar una zona fija en todo el proceso de entrenamiento de la red.

Fig. A.20: Posible evolución de la vecindad en una red de Kohonen

Page 83: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 78

El término α(q) es el coeficiente de aprendizaje o parámetro de ganancia, con un valor entre 0 y 1 el cual decrece con el número de iteraciones (q) del proceso de entrenamiento, de tal forma que cuando se ha presentado un gran número de veces todo el juego de patrones de aprendizaje su valor es prácticamente nulo, con lo que la modificación de los pesos es insignificante.

Para hallar α suele utilizarse una de las siguientes expresiones [Giraldo, 1997]:

 Ecuación A.16

Siendo α1 un valor de 0.1 ó 0.2 y α2 un valor próximo al número total de iteraciones del aprendizaje, que por lo general se toma como 10000 para esta red.

5. El proceso debe repetirse, volviendo a presentar todo el juego de patrones de aprendizaje p1, p2..,pn hasta obtener la salida deseada.

En definitiva, lo que hace una red de Kohonen es realizar una tarea de clasificación, puesto que la neurona de salida activada ante una entrada representa la clase a la que pertenece dicha información de entrada. Además, ante otra entrada parecida se activa la misma neurona de salida, u otra cercana a la anterior debido a la semejanza entre las clases. Así se garantiza que las neuronas topológicamente próximas sean sensibles a entradas físicamente similares. Por esta causa la red es especialmente útil para establecer relaciones desconocidas previamente entre conjuntos de datos.

A.2.3.3 Regla de aprendizaje

En este punto es posible diseñar una red competitiva que realice clasificaciones correctas fijando el valor de las filas de W en los valores del vector prototipo esperado. Sin embargo es deseable tener una regla de aprendizaje que pueda entrenar los pesos en una red competitiva sin conocer los vectores prototipo:

1w(q) = 1w(q-1) + a(q)(p(q) -1w(q-1)) Ecuación A.17

Para redes competitivas, α tiene un valor diferente de cero solamente para la neurona ganadora (i=i*), de esta forma los mismos resultados serán obtenidos utilizando la regla de Kohonen:

iw(q) = iw(q-1)+ α(p(q) – iw(q-1))= (1- α) iw (q-1) + αp(q) Ecuación A.18

y

w(q)=w(q-1) i i* Ecuación A.19

Así, la fila de la matriz de pesos que este más cerca al vector de entrada, se moverá hacía el vector de entrada. Este se mueve a lo largo de la línea entre la fila anterior del vector de pesos y el vector de entrada, como puede verse en la Fig. A.21

Page 84: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 79

Fig. A.21: Representación gráfica de la regla de Kohonen

A.2.3.4 Problemas de las redes competitivas

Las redes competitivas, son bastante eficientes para resolver problemas de clasificación, sin embargo presentan algunos problemas. El primero es la elección de un coeficiente de aprendizaje que permita hallar un punto de equilibrio entre velocidad de convergencia y la estabilidad final de los vectores de peso. Un coeficiente de aprendizaje cercana a cero, torna el aprendizaje muy lento pero garantiza que cuando un vector haya alcanzado el centro de la clase objetivo, se mantendrá allí indefinidamente. En contraste, un coeficiente de aprendizaje cercana a uno genera un aprendizaje muy rápido, pero los vectores de peso continuarán oscilando aún después de que se haya alcanzado convergencia. La indecisión que se presenta al escoger el coeficiente de aprendizaje puede ser empleada como una ventaja si se inicia el entrenamiento con un coeficiente de aprendizaje alto y se decrementa en el transcurso del proceso de entrenamiento cuando sea necesario. Desafortunadamente esta técnica no funciona si la red necesita continuamente ser adaptada a nuevos argumentos de los vectores de entrada (caso en que la red se reentrene continuamente).

Un problema de estabilidad más serio ocurre cuando las clases están muy juntas. En ciertos casos, un vector de pesos tratando de apuntar hacia una clase determinada, puede entrar al territorio de otro vector de pesos.

Un tercer problema con redes competitivas es que es posible que el vector de pesos inicial de una neurona se encuentre muy lejos de cualquiera de los vectores de entrada y por lo tanto nunca gane la competición. La consecuencia será, la "muerte" de la neurona, lo que por supuesto no es recomendable. Una solución a este problema, consiste en adicionar una ganancia negativa a la entrada neta de cada neurona y decrementar así la ganancia total cada vez que la neurona gane la competición. Esto hará que difícilmente una neurona gane varias veces la competición, a este mecanismo se le llama "conciencia".

Una capa competitiva tiene tantas clases como neuronas, lo que podría complicar algunas aplicaciones, especialmente cuando el número de clases no se conoce de antemano. En capas competitivas, cada clase consiste de una región convexa del espacio de entrada. Las capas competitivas no pueden formar clases con regiones no convexas o clases que sean la unión de regiones no conectadas.

A.2.3.5 Mapas de auto organización (SOM)

Se cree que algunos sistemas biológicos realizan sus operaciones siguiendo un método de trabajo que algunos investigadores han llamado, on-center/off-surround. Este término describe un patrón de conexión entre neuronas donde cada neurona se refuerza a ella misma (center) mientras inhibe a todas las neuronas a su alrededor (surround). En

Page 85: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 80

las redes competitivas biológicas, lo que sucede realmente es que cuando una neurona se refuerza a ella misma, refuerza también las neuronas que están cerca. La transición entre reforzar las neuronas "vecinas" o inhibirlas se realiza suavemente a medida que la distancia entre las neuronas aumenta. De esta forma el proceso on-center/off-surround, para redes biológicas, sigue el comportamiento señalado en la Fig. A.22.

Fig. A.22: on-center/off-surround; para capas biológicas

Tratando de emular la actividad biológica, sin tener que implementar conexiones on-center/off-surround, de realimentación no lineal, Kohonen diseñó la red conocida como mapa de auto organización (SOM). Esta red determina primero la neurona ganadora i*, usando el mismo procedimiento que las redes competitivas, y luego los vectores de pesos de todas las neuronas que se encuentren en una región cercana (vecindario) serán actualizados mediante la regla de Kohonen:

iw(q) = iw(q-1)+α (p(q) – iw(q-1)) para i Ni*(d) Ecuación A.20

Donde el vecindario Ni* contiene el índice para todas las neuronas que se encuentren a

un radio d de la neurona ganadora i*

  Ecuación A.21

Cuando un vector p es presentado, los pesos de la neurona ganadora y de sus vecinas tenderán hacia p. El resultado es que después de muchas presentaciones las neuronas vecinas habrán aprendido vectores similares que cada una de las otras.

El concepto de vecindario es ilustrado en la Fig. A.23: para la primera figura se ha tomado un vecindario de radio d =1 alrededor de la neurona 13 y para la segunda figura se ha tomado un vecindario de radio d =2.

Page 86: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 81

Fig. A.23: Vecindarios

Estos vecindarios pueden definirse como sigue:

N13 (1) = {8,12,13,14,18}

N13 (2) = {3,7,8,9,11,12,13,14,15,17,18,19,23}

El vecindario puede determinarse en diferentes formas. Kohonen, por ejemplo, ha sugerido vecindarios rectangulares o hexagonales para lograr alta eficiencia. Es importante destacar que el rendimiento de la red no es muy sensible a la forma exacta del vecindario.

La Fig. A.24 ilustra un mapa de auto organización de dos dimensiones:

Fig. A.24: Mapa de auto organización

A.2.3.6 Learning Vector Quantization (LVQ) Esta red es un híbrido que emplea tanto aprendizaje no supervisado, como aprendizaje supervisado para clasificación de patrones.

Page 87: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 82

Fig. A.25: Red LVQ

En la red LVQ, cada neurona de la primera capa es asignada a una clase y después cada clase es asignada a una neurona en la segunda capa. El número de neuronas en la primera capa S1, debe ser mayor o al menos igual que el número de neuronas en la segunda capa, S2. Al igual que con redes competitivas, cada neurona en la primera capa de la red LVQ aprende un vector prototipo, el cual permite a la neurona clasificar una región del espacio de entrada. Sin embargo en lugar de calcular la distancia entre la entrada y el vector de pesos por medio del producto punto, la red LVQ calcula la distancia directamente. Una ventaja de hacer el cálculo de la distancia directamente es que los vectores no necesitan ser normalizados. Cuando los vectores son normalizados la respuesta de la red será la misma sin importar la técnica que se utilice.

La entrada neta a la primera capa de la red LVQ es entonces,

 

Ecuación A.22

La salida de la primera capa de la red LVQ es,

a1=compet (n1) Ecuación A.23

Así, la neurona cuyo vector de pesos este cercano al vector de entrada tendrá salida 1 y las otras neuronas tendrán salida 0. En este aspecto la red LVQ se comporta igual a las redes competitivas, la única diferencia consiste en la interpretación: mientras que en las redes competitivas la salida no cero representa una clase del vector de entrada, para el algoritmo LVQ índica mas bien una sub-clase, y de esta forma muchas neuronas (subclases) conforman una clase.

Page 88: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 83

Fig. A.26: Comportamiento de las neuronas en una red LVQ

La segunda capa de la red LVQ es usada para combinar subclases dentro de una sola clase. Esto es realizado por la matriz de pesos W2, donde las columnas de W2 representan las subclases y las filas representan las clases. W2 tiene un solo 1 en cada columna, todos los demás elementos son cero. La fila en la cual se presenta el 1 índica cual es la clase a la que la subclase pertenece.

W 2ki = 1 la subclase i pertenece a la clase k Ecuación A.24

Una propiedad importante de esta red es que el proceso de combinar subclases para formar clases permite a la red LVQ crear clases más complejas. Una capa competitiva estándar tiene la limitación de que puede crear solo regiones de decisión convexas, pero la red LVQ soluciona esta limitación.

La red LVQ combina aprendizaje competitivo con aprendizaje supervisado, razón por lo cual necesita un conjunto de entrenamiento que describa el comportamiento propio de la red:

{p1, t1}, {p2, t2}, ... , {pQ, tQ} Ecuación A.25

Antes de que suceda el aprendizaje, cada neurona en la segunda capa es asignada a una neurona de salida, así se genera la matriz W2. Por lo general, igual número de neuronas ocultas son conectadas a cada neurona de salida, para que cada clase pueda ser conformada por el mismo número de regiones convexas. Todos los elementos de W2 son cero excepto los que cumplan la siguiente condición:

Si la neurona i es asignada a la clase k w2ki=1 Ecuación A.26

Una vez W2 ha sido definida nunca será alterada y los pesos ocultos W1 son actualizados por medio de la regla de Kohonen.

La regla de aprendizaje del algoritmo LVQ, trabaja de la siguiente manera:

1. En cada iteración, un vector de entrada p es presentado a la red y se calcula la distancia a cada vector prototipo.

Page 89: predicción de medio plazo de las pendientes de curvas de ...

Anexo A: Redes neuronales 84

2. Las neuronas ocultas compiten, la neurona i* gana la competición y el i*-ésimo elemento de a1 se fija en 1.

3. a1 es multiplicada por W2 para obtener la salida final a2, la cual tiene solamente un elemento no cero, k*, indicando que el patrón p está siendo asignado a la clase k*.

La regla de Kohonen es empleada para mejorar la capa oculta de la red LVQ, en dos formas:

• Primero, si p es clasificado correctamente, los pesos de la neurona ganadora i*w1 se hacen tender hacia p.

i*w(q) = i*w(q -1) - a(q) (p (q) – i*w(q-1)) si a2k = tk* = 1 Ecuación A.27

• Segundo, si p es clasificado incorrectamente una neurona equivocada ganó la competición y por lo tanto sus pesos i*w1 se alejan de p.

i*w(q) = i*w(q -1) - a(q) (p (q) – i*w(q-1)) si a2k* = 1 tk* = 0 Ecuación A.28

El resultado será que cada neurona se moverá hacia los vectores que cayeron dentro de la clase para la cual ellos forman una subclase y lejos de los vectores que cayeron en otras clases.

Page 90: predicción de medio plazo de las pendientes de curvas de ...

B Arboles de decisión

B.1 Introducción

Los árboles de decisión (también denominados árboles de clasificación o de identificación) sirven, para resolver problemas de clasificación. La construcción de árboles de decisión es el método de aprendizaje inductivo supervisado más utilizado. Como forma de representación del conocimiento, los árboles de decisión destacan por su sencillez. A pesar de que carecen de la expresividad de las redes semánticas o de la lógica de primer orden, su dominio de aplicación no está restringido a un ámbito concreto sino que pueden ser utilizados en diversas áreas (desde aplicaciones de diagnóstico médico hasta juegos como el ajedrez o sistemas de predicción meteorológica).

Para que el aprendizaje inductivo (como proceso de generalización a partir de ejemplos concretos) sea correcto se necesita disponer de numerosos ejemplos. Si las conclusiones obtenidas no están avaladas por muchos ejemplos, entonces la aparición de errores en los datos (algo que es más común de lo deseable) podría conducir al aprendizaje de un modelo erróneo.

Un árbol de decisión es una forma de representar el conocimiento obtenido en el proceso de aprendizaje inductivo. Cada nodo interior del árbol contiene una pregunta sobre un atributo concreto (con un hijo por cada posible respuesta) y cada hoja se refiere a una decisión (una clasificación).

Un árbol de este tipo puede usarse para clasificar un caso comenzando desde su raíz y siguiendo el camino determinado por las respuestas a las preguntas de los nodos internos hasta encontrar una hoja del árbol.

Los árboles de clasificación podrán ser útiles siempre que los ejemplos a partir de los que se desea aprender se puedan representar mediante un conjunto prefijado de atributos y valores (discretos o numéricos). Sin embargo, no son de gran utilidad cuando la estructura de los ejemplos es variable ni para la predicción de valores continuos.

Una característica interesante de los árboles de decisión es la facilidad con la que se pueden derivar reglas de producción a partir de ellos. Esto es importante para facilitar la comprensión del modelo de clasificación construido cuando el árbol de decisión es complejo. Posteriormente, el conjunto de reglas derivado del árbol de decisión puede mejorarse generalizando aquéllas reglas que incluyan condiciones irrelevantes para la clasificación en su antecedente.

Page 91: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 86

B.2 Construcción de árboles de decisión

En principio, se busca la obtención de un árbol de decisión que sea compacto. Un árbol de decisión pequeño permite comprender mejor el modelo de clasificación obtenido y, además, es probable que el clasificador más simple sea el correcto.

Por desgracia, no se puede construir todos los posibles árboles de decisión derivados de un conjunto de casos de entrenamiento para quedarse con el más pequeño. La construcción de un árbol de decisión a partir del conjunto de datos de entrada se suele realizar de forma descendente mediante algoritmos greedy de eficiencia del orden O(NlogN), siendo N el número de ejemplos de entrada.

El método de construcción de árboles de decisión mediante particionamiento recursivo del conjunto de casos de entrenamiento tiene su origen en el trabajo de Hunt a finales de los años 50. El algoritmo “divide y vencerás” es simple y elegante:

• Si existen uno o más casos en el conjunto de entrenamiento y todos corresponden a una misma clase C, el árbol de decisión es una hoja que identifica a la clase C.

• Si el conjunto de casos de entrenamiento queda vacío, también nos encontramos en una hoja del árbol. Sin embargo, la clasificación adecuada ha de determinarse utilizando información adicional (vg: C4.5 opta por la clase más frecuente en el nodo padre).

• Cuando en el conjunto de entrenamiento hay casos de distintas clases, éste se divide en subconjuntos que sean o conduzcan a agrupaciones uniformes de casos (instancias de una misma clase). Se elige una pregunta basada en el valor de un atributo que tenga dos o más respuestas alternativas mutuamente exclusivas Ri. El árbol de decisión consiste en un nodo que identifica la pregunta realizada del cual cuelgan tantos hijos como respuestas alternativas existan. El mismo método utilizado para el nodo se usa recursívamente para construir los subárboles correspondientes a los hijos del nodo. A cada hijo Hi se le asigna el subconjunto de casos de entrenamiento correspondientes a la alternativa Ri.

En esta forma de construir los árboles de decisión de forma descendente y recursiva se encuentra el origen del acrónimo TDIDT (Top-Down Induction On Decision Trees) que se utiliza para referirse a la familia completa de algoritmos de construcción de árboles de decisión.

Cuando se construye un nodo se considera el subconjunto de casos de entrenamiento que pertenecen a cada clase (estadísticas del nodo ). Si todos los ejemplos pertenecen a una clase o se verifica alguna regla de parada, el nodo es una hoja del árbol. En caso contrario, se selecciona una pregunta basada en un atributo (usando una regla de división), se divide el conjunto de entrenamiento en subconjuntos (mutuamente excluyentes) y se aplica el mismo procedimiento a cada subconjunto. A veces se podará el árbol obtenido: proceso de post-poda siguiendo alguna regla de poda.

B.2.1 Reglas de división Cualquier pregunta que divida el conjunto de casos de entrenamiento en al menos dos subconjuntos no vacíos conducirá a la construcción de un árbol de decisión. No obstante, el objetivo del proceso de construcción de árboles de decisión es obtener un árbol que revele información interesante a la hora de realizar predicciones.

Page 92: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 87

Cada posible pregunta ha de evaluarse mediante alguna heurística y, dado que los algoritmos suelen ser greedy, ésta desempeña un papel esencial en la construcción del árbol (una vez que se ha escogido una pregunta para un nodo no se vuelven a considerar alternativas). Las heurísticas estadísticas usadas intentan favorecer las divisiones que mejor discriminan unas clases de otras. Ejemplos muy conocidos de estas heurísticas son la ganancia de información (ID3) o el índice de diversidad de Gini (CART).

Los criterios de división o ramificación utilizados generalmente están basados en medidas de la impureza de un nodo. La bondad de una partición es el decrecimiento de impureza que se consigue con ella. La maximización de la bondad de una partición, por tanto, equivale a la minimización de la impureza del árbol generado por la partición (ya que el árbol de partida, cuya impureza se quiere reducir, es el mismo para las distintas particiones analizadas).

Una función de impureza es una función ϕ definida sobre el conjunto de las J-uplas (p1,p2,...,pJ) donde cada pi indica la probabilidad de que un caso recogido por un nodo del árbol sea de la clase i. Como es lógico Σpj=1. La función ha de poseer las siguientes propiedades:

• tiene un único máximo en (1/J,1/J,...,1/J).

• alcanza su mínimo en (1,0,...,0), (0,1,...,0) ...(0,0,...,1) y el valor de su mínimo es 0.

• es una función simétrica de p1,p2,...,pJ.

La impureza de un árbol de decisión se obtiene a partir de la impureza de sus hojas o nodos terminales de la siguiente forma:

( ) ( ) ( )∑∈

=Tt

ttpT~

ϕϕ   Ecuación B.1

donde p(t) es la probabilidad de que un caso corresponda al nodo terminal t y ϕ(t) la impureza de dicho nodo terminal.

B.2.1.1 La ganancia de información

Se intenta maximizar la ganancia de información obtenida al ramificar el árbol por un atributo minimizando la función I:

 

Ecuación B.2

donde Ai el atributo por el que se ramifica, P(Ai,j) es la probabilidad de que el atributo Ai tome su valor j y H(C|Ai) es la entropía de clasificación del conjunto de casos en los que el atributo Ai toma su valor j .

La información transmitida en un mensaje, que depende de su probabilidad P, puede medirse en bits como –log2(P). Por ejemplo, si tenemos 256 posibles mensajes, la

Page 93: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 88

información transmitida por uno de ellos es de 8 bits. Cuando el logaritmo es neperiano la unidad de información se denomina nat cuando el logaritmo es decimal, hartley.

La probabilidad de que un caso escogido al azar pertenezca a una clase Ck es P(Ck) y la información que se obtiene es –log2(P(Ck)). La información que esperamos obtener al clasificar un caso cualquiera del conjunto de casos de entrenamiento S será igual a –ΣP(Ck)·log2(P(Ck)), cantidad a la que se denomina entropía del conjunto.

La información necesaria para transmitir la división del conjunto T de casos de entrenamiento en Mi subconjuntos Tj será igual a ΣP(Tj)·H(Tj)), donde P(Tj) es la probabilidad de que un caso pertenezca a Tj y H(Tj) es la entropía de clasificación del conjunto Tj.

La ganancia de información que se produce al dividir T en los subconjuntos Tj será, por lo tanto, igual a H(T)-ΣP(Tj)·H(Tj)), siendo H(T) la entropía de T. Al comparar posibles particiones del conjunto T se evalúa la ganancia de información obtenida por cada una de ellas. Como H(T) es constante, basta con comparar ΣP(Tj)·H(Tj)), que se corresponde con la expresión de arriba.

Esta heurística suele favorecer la construcción de árboles de decisión con un grado de ramificación muy elevado.

B.2.1.2 Criterio de proporción de ganancia

Aunque usando la ganancia de información se obtienen buenos resultados al construir árboles de decisión (vg: ID3), este criterio favorece a aquéllas preguntas que tienen más resultados posibles. Por ejemplo, si cada caso va acompañado de un atributo que lo identifica unívocamente, se elegirá este atributo en la raíz del árbol de forma que cada nodo hijo corresponderá a un único caso. Se ha obtenido la máxima ganancia de información posible pero el árbol de decisión construido no sirve de nada.

Para normalizar de algún modo la ganancia obtenida se puede seguir usando resultados obtenidos en Teoría de la Información. El contenido de un mensaje que nos indique la respuesta a la pregunta realizada (no la clase a la que pertenece cada caso) será igual a -ΣP(Ai,j)·log2(Ai,jk). Con la ayuda de este valor se puede redefinir la función de evaluación:

 

Ecuación B.3

Cuando la división realizada del conjunto de casos de entrenamiento es trivial, el denominador de R es cercano a cero. Se ha de escoger el atributo que maximice el cociente R tal que su ganancia sea, al menos, tan grande como la ganancia media de todas las alternativas analizadas.

Dado que en la práctica se precisa disponer de muchos más casos de entrenamiento que clases diferentes haya, el criterio de proporción de ganancia evitará la construcción de árboles de decisión que clasifiquen los casos utilizando su identificador.

Page 94: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 89

Se ha observado que el criterio de proporción de ganancia tiende a la construcción de árboles poco balanceados, característica que hereda de la regla de división de la que se deriva (la ganancia de información). Ambas heurísticas se basan en una medida de entropía que favorece particiones del conjunto de entrenamiento muy desiguales en tamaño cuando alguna de ellas es de gran pureza (todos los casos que incluye corresponden a una misma clase) aun siendo poco significativa (es decir, aun abarcando muy pocos casos de entrenamiento).

B.2.1.3 El índice de diversidad de Gini

El índice de diversidad de Gini trata de minimizar la impureza existente en los subconjuntos de casos de entrenamiento generados al ramificar por un atributo. La función empleada es la siguiente:

 

Ecuación B.4

Como se puede apreciar, la expresión es muy parecida a la que se obtiene al calcular la entropía de clasificación: simplemente se ha sustituido el logaritmo de P(Ck|Ai,j) por el factor P(¬Ck|Ai,j), que es igual a 1-P(Ck|Ai,j).

El índice de Gini es una medida de la diversidad de clases en un nodo del árbol. Igual que las dos medidas heurísticas anteriores (ganancia de información y criterio de proporción de ganancia), el índice de Gini es una medida de impureza muy utilizada en distintos algoritmos de construcción de árboles de decisión.

B.2.1.4 MAX

La minimización de la entropía (equivalente a la maximización de la ganancia de información), utilizada por Quinlan en ID3, trata de penalizar aquellas divisiones del conjunto de entrenamiento muy desordenadas.

Como el objetivo es la clasificación, una medida de la bondad de un conjunto dado de casos de entrenamiento es la probabilidad de la clase más común (de hecho este es el término que aumenta menos la entropía del conjunto). En este caso, el objetivo perseguido será la maximización de esta medida en los conjuntos generados al elegir un atributo para ramificar por él. La maximización de la función K(Ai):

 

Ecuación B.5

Page 95: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 90

El problema de maximización anterior se puede expresar como un problema de minimización utilizando la diferencia entre casos bien clasificados y casos mal clasificados como medida de la idoneidad de una ramificación del árbol.

 

Ecuación B.6

Esto es completamente equivalente a la minimización del número de casos para los que se realiza una clasificación incorrecta (considerando la clase más común la clasificación correcta de un conjunto dado de casos), ya que P(X)=P(¬X)-2P(X)-1, al ser P(¬X)=1-P(X).

 

Ecuación B.7

Para evitar que esta medida favorezca la construcción de árboles de decisión en cuya raíz se utilice una clave primaria de la relación (como sucede con la entropía en ID3), se puede redefinir la función K de forma que no se tengan en cuenta pequeñas contribuciones debidas a muchos valores diferentes de un atributo:

 

Ecuación B.8

donde S es un umbral establecido y n(Ck|Ai,j) es el número de casos correspondientes a la clase Ck tales que el atributo Ai toma su valor j.

Aunque parezca más compleja la expresión, su cálculo es casi directo. Teniendo en cuenta que P(Ck|Ai,j)=n(Ck|Ai,j)/n(Ai,j) y P(Ai,j)=n(Ai,j)/N donde N es el número total de casos y n(Ai,j) es el número de casos que toman el valor j del atributo Ai, la función K es igual a:

Page 96: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 91

 

Ecuación B.9

Si se tiene información completa, el factor 1/N será igual para todos los atributos y podremos eliminarlo, con lo que la función de evaluación será una simple suma de valores. Cuando desconozcamos los valores de algunos atributos, el valor N será igual al número de casos para los que esté definido el atributo Ai.

Sin embargo, se observa que utilizando esta función heurística se favorece en exceso los árboles con un grado de ramificación mínimo, incluso cuando el atributo por el que se ramifica es irrelevante para la clasificación. Esto se podría solventar con facilidad modificando la función heurística de la siguiente forma:

 

Ecuación B.10

Teniendo en cuenta que P(Ck|Ai,j)=n(Ck|Ai,j)/n(Ai,j) y P(Ai,j)=n(Ai,j)/N donde N es el número total de casos y n(Xj) es el número de casos que verifican X, la función K puede expresarse como:

 

Ecuación B.11

Intuitivamente, la sumatoria de la expresión de arriba estima cuántos casos se clasifican correctamente de cuantos se encuentran en el conjunto de entrenamiento (al dividir por N se obtiene la proporción de casos supuestamente bien clasificados). El factor #U se utiliza para favorecer la ramificación del árbol por atributos que consiguen un árbol más plano (más ramas interesantes). Utilizando el umbral S se evita seleccionar atributos que sean claves primarias.

Page 97: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 92

La utilización de #U carece de una base teórica. Es más, aunque en algunos ejemplos funciona bien (llega a conseguir mejores resultados que el criterio de proporción de ganancia), no garantiza la obtención de buenos árboles de decisión.

B.2.2 Reglas de parada Cuando se detiene la construcción del árbol de decisión, se construye una hoja a la que se le puede asignar una distribución de probabilidades (según los casos que recoja) o simplemente la clase más común de las recogidas por los casos. Sorprendentemente, se ha demostrado empíricamente que esta última técnica es mejor a la hora de minimizar el error de clasificación.

Las reglas de parada, denominadas originalmente reglas de pre-poda, tratan de predecir si merece la pena seguir construyendo el árbol o no. Ejemplos de este tipo de reglas son:

Pureza del nodo

Cuando un nodo solamente contiene ejemplos de una clase, obviamente el proceso de construcción del árbol de decisión ha finalizado. Además, podría utilizarse un umbral de pureza para detener la construcción del árbol de decisión cuando la ramificación del árbol no suponga una disminución significativa de la impureza del mismo (según alguna medida estadística de impureza). En la práctica, esto no suele resultar totalmente satisfactorio. Se suele optar por construir el árbol de decisión completo y realizar una poda a posteriori.

Cota de profundidad

Se puede establecer de antemano una cota de profundidad para no construir árboles excesivamente complejos. Cuando un nodo se halle a más de cierta profundidad, se detiene el proceso de generación del árbol de clasificación.

Mínimo de casos

Cuando se encuentra un nodo con menos de X ejemplos detenemos el proceso de obtención del árbol. Una clasificación avalada por menos de X casos de entrenamiento no se considera fiable (menos de X ejemplos son insuficientes para estimar probabilidades con una precisión aceptable).

B.2.3 Reglas de poda Una vez construido completamente el árbol de decisión, las reglas de poda (post-poda para ser precisos) intentan eliminar los subárboles que no contribuyen significativamente a la precisión de la clasificación.

De hecho, el método recursivo de construcción de árboles de decisión continúa dividiendo el conjunto de casos de entrenamiento hasta que encuentra un nodo puro o no puede aplicar más tests. El resultado suele ser un árbol muy complejo, más de lo deseable, que “sobreajusta” los datos del conjunto de entrenamiento (efecto conocido por el término inglés overfitting). El sobreaprendizaje es un problema importante ya que limita considerablemente la aplicabilidad del modelo de clasificación aprendido.

La poda se suele aplicar después de construir el árbol completo (post-poda), ya que la correcta estimación a priori del beneficio obtenido al simplificar un árbol durante su construcción (pre-poda) es muy difícil. La poda ha de realizarse en función de algún estimador honesto (no sesgado) del error de clasificación del árbol de decisión.

Page 98: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 93

Un árbol de decisión se puede simplificar eliminando un subárbol completo en favor de una única hoja. También se puede sustituir un subárbol por una de sus ramas (vg: la rama del subárbol más usada).

A continuación se comentan algunos de los métodos de poda de árboles de decisión más comunes: la poda por estimación del error, la poda por coste-complejidad y la poda pesimista.

Poda por estimación del error (reduced-error prunning)

Un nodo se poda si el error de restitución (resubstitution error) del nodo considerado como hoja es menor que el error de restitución del subárbol cuya raíz es el nodo. El método requiere reservar un conjunto de casos para la poda (por lo cual no se podrán utilizar todos los casos disponibles para construir el árbol). Cuando no disponemos de muchos datos, se puede utilizar algún tipo de validación cruzada (cross-validation) para obtener mejores resultados.

Poda por coste-complejidad (cost-comprexity prunning)

Esta técnica de poda, usada en CART, intenta llegar a un compromiso entre la precisión y el tamaño del árbol. La complejidad del árbol viene dada por el número de nodos terminales (hojas) que posee. Si T es el árbol de decisión usado para clasificar N casos de entrenamiento y se clasifican mal M ejemplos, la medida de coste-complejidad de T para un parámetro de complejidad α es

Rα(T)=R(T)+αl(T) Ecuación B.12

donde l(t) es el número de hojas del árbol T y R(T)=M/N es un estimador del error de T, es decir, Rα(T) es una combinación lineal del coste del árbol y de su complejidad.

El árbol podado será el subárbol de mínimo error, aquél que minimice la medida de coste-complejidad Rα(T). Hay que resaltar que conforme el parámetro de complejidad α crece el tamaño del árbol que minimiza Rα(T) decrece.

La poda por coste-complejidad se puede realizar utilizando un conjunto de prueba independiente del conjunto de entrenamiento o validación cruzada (cross-validation).

Poda pesimista (pessimistic prunning, Quinlan)

Esta técnica utiliza sólo el conjunto de casos de entrenamiento con los que se construye el árbol, con lo que se ahorra tener que reservar casos para realizar la simplificación del árbol.

Cuando una hoja del árbol cubre N l casos de entrenamiento, de los cuales E casos los clasifica incorrectamente, su error de restitución es E/N. El estimador del error de restitución asociado a un subárbol será la suma de los errores estimados para cada una de sus ramas.

La probabilidad real del error cometido no se puede determinar con exactitud pero se puede establecer un intervalo de confianza. Dado un grado de confianza CF, se puede establecer una estimación de la probabilidad del error UCF(E,N) usando una distribución binomial.

Se poda el subárbol si el intervalo de confianza del error de restitución (generalmente de amplitud dos veces el error estándar) incluye el error de restitución del nodo si se trata como una hoja. De esta forma se eliminan los subárboles que no mejoran

Page 99: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 94

significativamente la precisión del clasificador. El método es cuestionable como cualquier heurística pero suele producir resultados aceptables.

B.3 Test considerados

Todos los sistemas de construcción automática de clasificadores definen un mecanismo para evaluar la idoneidad de cada test propuesto (p.ej. la regla de división en la construcción de árboles de decisión). Esto implica que se deben generar de alguna forma los distintos tests para que puedan ser evaluados.

Generalmente, se define un formato y se examinan todos los posibles tests de ese formato. Además, es habitual que el test empleado involucre a un único atributo (para facilitar su comprensibilidad y simplificar el proceso de búsqueda evitando una explosión combinatoria).

Por ejemplo, C4.5 utiliza tres formatos diferentes de tests:

• El típico test sobre atributos discretos, con una rama del árbol para cada posible valor del atributo discreto considerado.

• Un test más complejo sobre atributos discretos en el que se agrupan los valores del atributo en subgrupos.

• Uno binario de la forma atributo≤valor para atributos numéricos.

Por su parte, CART sólo utiliza expresiones lógicas de forma que el árbol resultante siempre es binario. Los atributos de tipo numérico son tratados igual que en C4.5, sin embargo los tests aplicados sobre atributos discretos (de tipo categórico) son siempre del tipo ¿X∈{ν1...νn}?. Obviamente, la aparición de este tipo de preguntas sobre un atributo en el árbol de decisión dificulta la generación de reglas IF-THEN a partir del árbol de decisión.

Otra posibilidad consiste en evaluar el atributo discreto construyendo un subárbol de decisión para aquellos valores avalados por un número suficiente de casos y enviando todos los demás valores a un subárbol común (una rama de tipo ELSE).

B.4 Información incompleta

Clasificar un caso utilizando un árbol de decisión requiere, en principio, que se conozcan todas sus características (sus atributos) para poder elegir la rama del árbol correcta en cada nodo pregunta. Por desgracia, los datos recogidos en la vida real suelen ser incompletos (ya sea porque el valor de un atributo era desconocido, se consideró irrelevante, no se mecanizó o simplemente el atributo no era aplicable al caso concreto).

Hay que elegir entre descartar todos aquellos casos con información incompleta o adaptar adecuadamente los algoritmos de clasificación para poder tratar con ellos. La primera alternativa no es aceptable normalmente, por lo que se ha de abordar el problema del manejo de información incompleta: modificar el algoritmo de construcción del árbol de decisión y establecer un mecanismo para clasificar casos con información incompleta.

El problema se puede resolver rellenando atributos desconocidos con valores por defecto (p.ej. el valor más común del atributo), construyendo árboles de decisión para determinar el valor del atributo desconocido (Shapiro), teniendo árboles de clasificación

Page 100: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 95

auxiliares (surrogate split, CART), utilizando la distribución de probabilidad de los valores de los atributos (assistant) o la teoría de Dempster-Shafer.

B.5 Algoritmos estandar de construcción de árboles de decisión

B.5.1 CLS (Concept Learning System) El sistema CLS, escrito por Hunt, Martín y Stone en "Experiments in Induction" (1966), es el origen de gran familia TDIDT (Top-Down Induction of Decision Trees) de algoritmos para la construcción de árboles de decisión.

Los tests encontrados en los árboles de decisión construidos con CLS con siempre de la forma ¿atributo-valor? que, obviamente, sólo tienen dos posibles respuestas (sí y no).

CLS intenta minimizar el coste de clasificación de un objeto considerando el coste de establecer el valor de una propiedad del objeto y el coste debido a una mala clasificación del objeto (el coste debido a la decisión de que un objeto pertenece a una clase determinada cuando en realidad es una instancia de otra clase distinta).

CLS utiliza una técnica similar al minimax. Explora el espacio de posibles árboles de decisión (con una cota de profundidad) y elige la acción que minimice la función de costo en el conjunto de árboles construidos. Como es evidente, CLS requiere gran capacidad de cómputo y no siempre encuentra buenos árboles de decisión.

B.5.2 ID3 (Iterative Dichotomizer 3) Este algoritmo greedy de Quinlan [Quinlan, 1986] es el método más famoso de todos los que existen para la creación de árboles de decisión. Usa una poda pesimista y utiliza el criterio de proporción de ganancia. Extensiones de ID3 le permiten tratar con datos erróneos (ruido) e información incompleta.

Para que el árbol de decisión generado sea lo más sencillo posible, este algoritmo evalúa la capacidad de discriminación de cada uno de los atributos mediante el cálculo de las entropías de los distintos atributos en los casos de entrenamiento empleados. La entropía nos da una idea de la desorganización de la información, es decir, nos indica la capacidad de discriminación de cada atributo. Se trata de minimizar la función definida por la siguiente ecuación:

 Ecuación B.13

• H(C|Ai) es la entropía de clasificación de C utilizando el atributo Ai.

• P(Ck|Ai,j) es la probabilidad del atributo k para su valor j.

• P(Ck|Ai,j) es la probabilidad del valor i de la clase sea C cuando el atributo k toma su valor j.

• Mi es el número total de valores permitidos para el atributo Ai.

• K es el número total de clases.

ID3 utiliza un método iterativo para construir árboles de decisión y prefiere los árboles sencillos frente a los más complejos (ya que, en principio, aquellos que tienen sus

Page 101: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 96

caminos hasta las hojas más cortos son más útiles a la hora de clasificar entradas). En cada momento se ramifica por el atributo de menor entropía y el proceso se repite recursívamente sobre los subconjuntos de casos de entrenamiento correspondientes a cada valor del atributo por el que se ha ramificado.

B.5.3 ACLS (Analogue Concept Learning System) ACLS (Patterson y Niblett, 1983) es una generalización de ID3 que permite tratar propiedades con valores enteros y ha sido aplicado con éxito en problemas complejos (vg: tareas de reconocimiento de imágenes). Expert Ease (1983), EX−TRAN (1984) y RuleMaster (1984) son productos comerciales derivados de ACLS.

B.5.4 Assistant Otro derivado de ID3. Propuesto por Kononenko, Bratko y Roskar en 1984, permite atributos con valores continuos (reales). Las clases no han de ser disjuntas, aunque tienen que formar una jerarquía. Para tratar valores desconocidos utiliza un enfoque bayesiano. Puede manejar información con ruido, ya que emplea una heurística para detener la construcción del árbol cuando se estima que seguir ramificando no mejora la precisión de la clasificación.

Assistant se caracteriza porque todos los tests que se realizan sobre los atributos son binarios. El conjunto de valores de cada atributo se divide en dos subconjuntos disjuntos para evitar la propensión del criterio de ganancia de información a ramificar por atributos con muchos valores diferentes. Para cada atributo han de comprobarse 2ν-1-1 posibles tests (siendo ν el número de valores diferentes del atributo), lo que es inviable para valores no demasiado grandes de ν.

B.5.5 CART (Classification And Regression Trees) Diseñado por Breiman [Breiman, 1985] y sus colaboradores en 1984, usa el índice de diversidad de Gini y puede agrupar las clases en dos superclases (twoing criterion, muy ineficiente). Permite realizar una poda costo-complejidad con validación cruzada sobre 10 conjuntos (10-CV).

B.5.6 C4 Un descendiente más de ID3 que permite atributos continuos, sobre los que se aplican tests de la forma atributo≤valor. Ideado por Quinlan (1987), utiliza la poda pesimista.

B.5.7 ID4 & ID5 Descendientes de ID3 orientados al aprendizaje incremental desarrollados por Thrun y sus colaboradores en 1991.

B.5.8 C4.5 Híbrido entre CART y C4. Construido también por Quinlan [Quinlan, 1993]. Permite usar como regla de división la ganancia de información, el índice de diversidad de Gini o el criterio de proporción de ganancia. Se puede realizar una post-poda pesimista del árbol (sustituyendo un subárbol por una hoja o por una de sus ramas).

Page 102: predicción de medio plazo de las pendientes de curvas de ...

Anexo B: Arboles de decisión 97

B.5.9 SLIQ & SPRINT SLIQ (Supervised Learning in Quest) [Mehta, 1996] es un algoritmo de construcción de árboles de decisión que maneja tanto atributos categóricos (discretos) como atributos numéricos (continuos) y destaca por su escalabilidad. Forma parte de los trabajos realizados en el proyecto Quest de Data Mining del IBM Almaden Research Center. SLIQ construye el árbol en anchura (los demás algoritmos lo hacen en profundidad) usando el índice de Gini. Utiliza sólo tests binarios de la forma ¿atributo≤valor? para atributos numéricos o ¿atributo ∈{conjunto de valores}? para atributos no numéricos. Finalmente, emplea un criterio de poda basado en el principio MDL (Minimun Description Length).

No obstante, SLIQ requiere mantener cierta información de cada tupla en memoria, lo que limita su escalabilidad. SPRINT (Scalable PaRallelizable Induction of Decision Trees) [Shafer, 1996], otro algoritmo ideado por los miembros del proyecto Quest, soluciona este problema utilizando estructuras de datos diferentes a las empleadas por SLIQ.

Page 103: predicción de medio plazo de las pendientes de curvas de ...

Bibliografía

[Baillo, 2002] A. Baillo, "Optimización de la explotación y de la preparación de ofertas de una empresa de generación de energía eléctrica para mercados de corto plazo", Tesis Doctoral, E.T.S. de Ingeniería (I.C.A.I.), Universidad Pontificia de Comillas, 2002.

[Breiman, 1985] K. Breiman, "An introduction to CART methodology", California Statistical Software, Inc, 1985.

[Bunn, 2003] D. W. Bunn, y A. Rupérez, "Crossholdings, information and prices in a Bertrand-Edgeworth double auction", London Business School, Londres, 2003.

[Bunn, 2004] D. W. Bunn, "Modelling Prices in Competitive electricityMarkets", John Wiley & Sons, 2004.

[Cabral, 1995] L. M. B. Cabral, "Conjectural variatons as a reduced form", Economics Letters, vol. 49, 1995.

[Cottle, 1992] R.Cottle, J. S. Pang, y R. E. Stone, "The linear complementarity problem", Boston Academic Press, 1992.

[Cournot, 1838] A. A. Cournot, "Researches into mathematical principles of the theory of wealth", Kelley, New York, 1838.

[Daughety, 1988] A.F. Daughety, "Cournot oligopoly. Characterization and applications", Cambridge University Press, Cambridge, 1988.

[Day, 2002] C. J. Day, B. F. Hobbs, y J. S. Pang, "Oligopolistic competition in power networks: a conjectured supply function approach", IEEE Transactions o Power Systems, vol 17, 2002.

[Fukushima, 1975] K. Fukushima, "Cognitron: A self organizing multilayered neural network", Biologial Cybernetics nº 20, 1979.

[Fukushima, 1980] K. Fukushima, "Necognitron: A self organizing multilayered neural network model for a mechanism of

Page 104: predicción de medio plazo de las pendientes de curvas de ...

Bibliografía 99

pattern recognition unaffected bi shift in position", Biologial Cybernetics nº 36, 1980.

[Fukushima, 1989] K. Fukushima, "On the approximate realization of continuous mappings by neural networks", Neural Networks nº 2, 1989.

[Fukushima, 1990] K. Fukushima, "Approximate realization of identity mapping by three layer neural networks", Electronics an Comunications in Japan, part 3, nº 76, 1990.

[García, 2001] J. García, "Optimización de la explotación en el corto plazo y elaboración de ofertas en un sistema eléctrico liberalizado. Naturaleza del problema y métodos de solución", Tesis Doctoral, E.T.S. de Ingeniería (I.C.A.I.), Universidad Pontificia de Comillas, 2001.

[Garcia-Alcalde, 2002] A. García-Alcalde, M. Ventosa, M. Rivier, A. Ramos y G. Relaño, "Fitting electricity markets models. A conjectural variations approach", presentado en 14th PSCC, Sevilla, 2002.

[Giraldo, 1997] D. Girardo, y I. Tabares, "Programa que entrena neuronas para implementar funciones lógicas", Scientia el Technica, año II nº 5, Junio 1997.

[Hilera, 1995] J. R. Hilera, y V. J. Martínez, "Redes Neuronales Artificiales. Fundamentos, modelos y aplicaciones". Ra-ma Editorial, Madrid, 1995.

[Hinton, 1992] G. E. Hinton, "Redes neuronales que aprenden de la experiencia", Investigación y Ciencia nº 194, Noviembre 1992.

[Kohonen, 1977] T. Kohonen, "Associative memory. A system theoretical approach", Springer-Verlag, 1977.

[Mehta, 1996] M. Mehta, J. Rissanen, y R. Agrawal, " NDL-based decision tree prunning", International Conference on KDD and Data Mining (KDD'95), Montreal, 1995.

[Minsky, 1969] M. Minsky, y S. Papert, "Perceptrons". Ed. MIT Press, 1969.

[Nash, 1950] J. F. Nash, "Equilibrium points in n-person games", Proceedings of the National Academy of Sciences, vol. 33, 1950.

[Quinlan, 1986] J. R. Quinlan, "Induction of decision trees", Kluwer Academic Publishers, 1986.

[Quinlan, 1993] J. R. Quinlan, "C4.5: Programs for machine learning", Morgan Kaufmann Publishers, California, 1993.

[Reneses, 2004] J. Reneses, "Análisis de la operación de los mercados de generación de energía eléctrica a medio plazo", Tesis Doctoral, E.T.S. de Ingeniería (I.C.A.I.), Universidad Pontificia de Comillas, 2004.

Page 105: predicción de medio plazo de las pendientes de curvas de ...

Bibliografía 100

[Rumelhart, 1985] D. Rumelhart, y D. Zisper, "Feature discovery by competitive learning", Cognitive Science nº 9, 1985.

[Sánchez-Ubeda, 1998] E. F. Sánchez-Ubeda, y L. Wehenkel, "The Hinges model: A one-dimensional continuous piecewise polynomial model", Information Processing and Management of Uncertainty Knoledge-based Systems, IPMU'98, París, Junio 1998.

[Sánchez-Ubeda, 1999] E. F. Sánchez-Ubeda, "Modelos para el análisis de datos: contribuciones al aprendizaje a partir de ejemplos", Tesis Doctoral, E.T.S. de Ingeniería (I.C.A.I.), Universidad Pontificia de Comillas, 1999.

[Sánchez-Ubeda, 2000] E. F. Sánchez-Ubeda, y J. García, "Management of sealed-bid auction curves: Applications of the Linear Hinges Model", Information Processing and Management of Uncertainty Knoledge-based Systems, IPMU'00, Madrid, Julio 2000.

[Song, 2003] Y. Song, Y. Ni, F. Wen, Z. Hou, y F. F. Wu, "Conjectural variation based bidding strategy in spot markets: Fundamentals and comparison with classical game theoretical bidding strategies", Electric Power Systems Research, vol. 67, 2003.

[Varian, 1992] H. R. Varian, "Análisis microeconómico", Barcelona: Antoni Bosch, 1992.

[Vives, 1999] X. Vives, "Oligopoly pricing: Old ideas and new tools", Massachusetts: The MIT Press, 1999.

[Shafer, 1996] J. Shafer, R. Agrawal, y M. Mehta, "SPRINT: A scallable parallel clasifier for Data Mining", 22nd VLDB conference, India, 1996.

Page 106: predicción de medio plazo de las pendientes de curvas de ...

Indice detallado

INTRODUCCIÓN.......................................................................................................... 1

1 MODELOS DE EQUILIBRIO DE MERCADO................................................. 2 1.1 MODELO DE COURNOT ...................................................................................... 2 1.2 MODELOS BASADOS EN VARIACIONES CONJETURALES ...................................... 3 1.3 EQUILIBRIO DE MERCADO.................................................................................. 4

1.3.1 Formulación del problema de equilibrio.................................................. 5 1.3.2 Soluciones al problema de equilibrio....................................................... 6

1.3.2.1 Equilibrio de Cournot ........................................................................... 6 1.3.2.2 Modelos basados en variaciones conjeturales ...................................... 7 1.3.2.3 Una variación conjetural alternativa..................................................... 9

1.3.3 Consideración de demanda elástica......................................................... 9 1.3.4 Equivalencia con otros enfoques............................................................ 10 1.3.5 Estimación de las conjeturas.................................................................. 12 1.3.6 Corrección de las conjeturas debido a la saturación ............................ 12

2 MODELADO DE LA FUNCIÓN DE SUMINISTRO Y CURVAS DE DEMANDA RESIDUAL...................................................................................... 14

2.1 FUNCIÓN DE SUMINISTRO ................................................................................ 14 2.2 LA FUNCIÓN DE DEMANDA RESIDUAL .............................................................. 17

2.2.1 Definición ............................................................................................... 17 2.2.2 Análisis de las curvas de demanda residual........................................... 18

2.3 APLICACIÓN DEL MODELO DE BISAGRAS AL ANÁLISIS DE UNA CURVA DE OFERTA............................................................................................................ 19

2.3.1 Definición del modelo............................................................................. 19 2.3.2 Preparación de los datos de entrada...................................................... 20

2.4 ANÁLISIS DE CLUSTERS DE CURVAS DE OFERTA ............................................... 21 2.4.1 Codificación de cada curva de oferta..................................................... 21 2.4.2 Definición del concepto de disimilitud entre curvas de oferta............... 22 2.4.3 Cálculo del centroide representante de un conjunto de curvas de oferta ..

................................................................................................................ 23

3 ESTUDIO DE LAS VARIABLES RELEVANTES DEL MERCADO ........... 25 3.1 ESTUDIO DE PATRONES DE COMPORTAMIENTO DEL CONJUNTO DE AGENTES.... 26

Page 107: predicción de medio plazo de las pendientes de curvas de ...

3.2 ESTUDIO CUALITATIVO DE VARIABLES QUE PUEDAN EXPLICAR LAS PENDIENTES DE LAS CDR .................................................................................................... 29

3.2.1 Análisis de las pendientes de los principales agentes ........................... 29 3.2.2 Análisis del punto de casación ............................................................... 31

3.3 VARIABLES EXPLICATIVAS CONSIDERADAS REPRESENTATIVAS....................... 34

4 MODELO DE ESTIMACIÓN DE PENDIENTES ........................................... 35 4.1 REVISIÓN DEL MECANISMO DE CASACIÓN........................................................ 35 4.2 DESCRIPCIÓN GENERAL DEL MODELO.............................................................. 36 4.3 AJUSTES DEL MODELO ..................................................................................... 37

4.3.1 Biblioteca de patrones............................................................................ 37 4.3.1.1 Aproximación de las CDR horarias mediante funciones lineales a tramos ................................................................................................. 38 4.3.1.2 Ventajas y limitaciones del modelado con bisagras para la estimación de pendientes ...................................................................................... 38 4.3.1.3 Análisis de Clusters de curvas de oferta............................................. 39

4.3.2 Explicación del comportamiento de los patrones. ................................. 40 4.4 MODULO DE ESTIMACIÓN DE PRECIOS ............................................................. 41 4.5 MÓDULO DE CÁLCULO DE PENDIENTES............................................................ 41

5 RESULTADOS DEL MODELO: CASO EJEMPLO....................................... 43 5.1 MODELO HÍBRIDO DE BISAGRAS ...................................................................... 44

5.1.1 Ajuste del modelo ................................................................................... 44 5.1.1.1 Cálculo de patrones de las CDR......................................................... 44 5.1.1.2 Determinación del árbol de decisión .................................................. 45

5.1.2 Estimación del precio ............................................................................. 47 5.2 MODELO DE MEDIAS ........................................................................................ 48 5.3 RESULTADOS ................................................................................................... 48 5.4 CONCLUSIONES ............................................................................................... 50

6 CONCLUSIONES Y FUTUROS DESARROLLOS......................................... 52 6.1 CONCLUSIONES ............................................................................................... 52 6.2 FUTUROS DESARROLLOS.................................................................................. 53

ANEXOS ...................................................................................................55 A REDES NEURONALES ...................................................................................... 56

A.1 CARACTERÍSTICAS PRINCIPALES DE LAS REDES NEURONALES ........................ 56 A.1.1 Funciones de Transferencia ................................................................... 57 A.1.2 Topología de una Red............................................................................. 59

A.2 PRINCIPALES TIPOS DE REDES NEURONALES ................................................... 62 A.2.1 Perceptrón .............................................................................................. 62

A.2.1.1 Antecedentes....................................................................................... 62 A.2.1.2 Estructura de la red ............................................................................. 63 A.2.1.3 Regla de aprendizaje........................................................................... 64 A.2.1.4 Limitación de la red Perceptrón ......................................................... 65 A.2.1.5 Perceptrón multicapa .......................................................................... 66

A.2.2 Backpropagation .................................................................................... 68 A.2.2.1 Antecedentes....................................................................................... 68

Page 108: predicción de medio plazo de las pendientes de curvas de ...

A.2.2.2 Estructura de la Red............................................................................ 70 A.2.2.3 Regla de Aprendizaje ......................................................................... 71

A.2.3 Redes competitivas ................................................................................. 73 A.2.3.1 Antecedentes....................................................................................... 73 A.2.3.2 Red de Kohonen ................................................................................. 75 A.2.3.3 Regla de aprendizaje........................................................................... 78 A.2.3.4 Problemas de las redes competitivas .................................................. 79 A.2.3.5 Mapas de auto organización (SOM)................................................... 79 A.2.3.6 Learning Vector Quantization (LVQ) ................................................ 81

B ARBOLES DE DECISIÓN.................................................................................. 85 B.1 INTRODUCCIÓN................................................................................................ 85 B.2 CONSTRUCCIÓN DE ÁRBOLES DE DECISIÓN ...................................................... 86

B.2.1 Reglas de división................................................................................... 86 B.2.1.1 La ganancia de información ............................................................... 87 B.2.1.2 Criterio de proporción de ganancia .................................................... 88 B.2.1.3 El índice de diversidad de Gini........................................................... 89 B.2.1.4 MAX................................................................................................... 89

B.2.2 Reglas de parada.................................................................................... 92 B.2.3 Reglas de poda ....................................................................................... 92

B.3 TEST CONSIDERADOS....................................................................................... 94 B.4 INFORMACIÓN INCOMPLETA ............................................................................ 94 B.5 ALGORITMOS ESTANDAR DE CONSTRUCCIÓN DE ÁRBOLES DE DECISIÓN.......... 95

B.5.1 CLS (Concept Learning System) ............................................................ 95 B.5.2 ID3 (Iterative Dichotomizer 3) ............................................................... 95 B.5.3 ACLS (Analogue Concept Learning System).......................................... 96 B.5.4 Assistant.................................................................................................. 96 B.5.5 CART (Classification And Regression Trees) ........................................ 96 B.5.6 C4 ........................................................................................................... 96 B.5.7 ID4 & ID5............................................................................................... 96 B.5.8 C4.5 ........................................................................................................ 96 B.5.9 SLIQ & SPRINT ..................................................................................... 97

BIBLIOGRAFÍA .......................................................................................................... 98

INDICE DETALLADO ............................................................................................. 101