Tarea 7 Equipo 2 (1)

33
Data Set

Transcript of Tarea 7 Equipo 2 (1)

Page 1: Tarea 7 Equipo 2 (1)

Data Set

Page 2: Tarea 7 Equipo 2 (1)

¿Qué es?

Representa datos en una memoria.

Un data set es una colección de datos, por lo general se presentan en tablas formulario. Cada columna representa una variable en particular. Cada fila corresponde a un determinado miembro de la base de datos en cuestión. En él se enumeran los valores para cada una de las variables, tales como la altura y el peso de un objeto. Cada valor se conoce como un punto de referencia . El conjunto de datos puede comprender datos para uno o más miembros, que corresponden al número de filas.

Page 3: Tarea 7 Equipo 2 (1)

Poker Hand Dataset

Creadores: Robert Cattral ([email protected]) y Franz Oppacher ([email protected]) de la Carleton University (Canadá)

Información relevante: Cada registro es un ejemplo de una mano formada por cinco cartas extraídas de una baraja estándar de 52. Cada tarjeta se describe utilizando dos atributos (palo y rango), para un total de 10 atributos predictivos. Hay un atributo de clase que describe la Mano de Poker. El orden de las cartas es importante, por lo que hay 480 posibles manos Royal Flush en comparación con 4 (uno para cada palo se explica en más detalle a continuación).

Número de instancias: 25010 de entrenamiento, 1 millón de prueba

Número de Atributos: 10 atributos predictivos, un atributo objetivo

Page 4: Tarea 7 Equipo 2 (1)

Información de los atributos

1) Palo S1 de la tarjeta # 1

Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Tréboles}

2) Rango de C1 tarjeta # 1

Numérico (1-13) representa (As, 2, 3, ..., Reina, Rey)

3) Palo S2 de la tarjeta # 2

Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Tréboles}

4) Rango de tarjeta # 2

Numérico (1-13) representa (As, 2, 3, ..., Reina, Rey)

5) S3 Palo de la tarjeta # 3

Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Tréboles}

6) Rango de tarjeta # 3

Numérico (1-13) representa (As, 2, 3, ..., Reina, Rey)

7) Palo de la tarjeta # 4

Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Tréboles}

8) Rango de tarjeta # 4

Numérico (1-13) representa (As, 2, 3, ..., Reina, Rey)

9) Palo de la tarjeta # 5

Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Tréboles}

10) Rango de tarjeta 5

Numérico (1-13) representa (As, 2, 3, ..., Reina, Rey)

11) Categoría Hand Poker

Ordinal (0-9)

0: No hay nada en la mano, no es una mano de póquer reconocida

1: Un par, un par de rangos iguales dentro de cinco cartas

2: Dos pares: dos pares de rangos iguales dentro de cinco cartas

3: Tres de una clase, tres rangos iguales dentro de cinco cartas

4:Escalera; cinco cartas, clasificados en orden secuencial sin espacios

5: Color; cinco cartas del mismo palo

6: Full house, par + tres de una clase

7: Cuatro de una clase, cuatro rangos iguales dentro de cinco cartas

8: Escalera de color, corrida + color

9: Royal flush; {As, Rey, Reina, Jota, Diez} + color

Page 5: Tarea 7 Equipo 2 (1)

Distribución de la clase

The first percentage in parenthesis is the representation within the training set. The second is the probability in the full domain.

Training set:

0: Nothing in hand, 12493 instances (49.95202% / 50.117739%)

1: One pair, 10599 instances, (42.37905% / 42.256903%)

2: Two pairs, 1206 instances, (4.82207% / 4.753902%)

3: Three of a kind, 513 instances, (2.05118% / 2.112845%)

4: Straight, 93 instances, (0.37185% / 0.392465%)

5: Flush, 54 instances, (0.21591% / 0.19654%)

6: Full house, 36 instances, (0.14394% / 0.144058%)

7: Four of a kind, 6 instances, (0.02399% / 0.02401%)

8: Straight flush, 5 instances, (0.01999% / 0.001385%)

9: Royal flush, 5 instances, (0.01999% / 0.000154%)

The Straight flush and Royal flush hands are not as representative of the true domain because they have been over-sampled. The Straight flush is 14.43 times more likely to occur in the training set, while the Royal flush is 129.82 times more likely. Total of 25010 instances in a domain of 311,875,200.

Page 6: Tarea 7 Equipo 2 (1)

Testing set: The value inside parenthesis indicates the representation within the test set as compared to the entire domain. 1.0 would be perfect representation, while <1.0 are under-represented and >1.0 are over-represented.

0: Nothing in hand, 501209 instances,(1.000063)

1: One pair, 422498 instances,(0.999832)

2: Two pairs, 47622 instances, (1.001746)

3: Three of a kind, 21121 instances, (0.999647)

4: Straight, 3885 instances, (0.989897)

5: Flush, 1996 instances, (1.015569)

6: Full house, 1424 instances, (0.988491)

7: Four of a kind, 230 instances, (0.957934)

8: Straight flush, 12 instances, (0.866426)

9: Royal flush, 3 instances, (1.948052)

Total of one million instances in a domain of 311,875,200.

Page 7: Tarea 7 Equipo 2 (1)

Estadísticas

Poker Hand # of hands Probability # of combinations

Royal Flush 4 0.00000154 480

Straight Flush 36 0.00001385 4320

Four of a Kind 624 0.0002401 74880

Full House 3744 0.00144058 449280

Flush 5108 0.0019654 612960

Straight 10200 0.00392464 1224000

Three of a Kind 54912 0.02112845 6589440

Two Pairs 123552 0.04753902 14826240

One Pair 1098240 0.42256903 131788800

Nothing 1302540 0.50117739 156304800

Total 2598960 1.0 311875200

The number of combinations represents the number of instances in the entire domain.

Page 8: Tarea 7 Equipo 2 (1)

WEKA

Page 9: Tarea 7 Equipo 2 (1)

¿Qué es?

Un pájaro también conocido como woodhen.

 El pájaro omnívoro es nativo a Nueva Zelandia y habita una gran variedad de habitat, de zonas urbanas al prado. En madurez, puede alcanzar el tamaño de un pollo domesticado.

Weka es los pájaros curiosos y decididos que pueden sobrevivir en una amplia gama de habitat, de ambientes urbanos a los bosques y a los prados. Su dieta es omnívora, incluyendo la vegetación tal como semillas, hierba y bayas así como animales tales como pequeños pájaros, ratones e insectos. Tiene un pico largo, durable, utilizó ambos para analizar el alimento y para defenderse. En la madurez, puede venir sea hasta 20 pulgadas (50 centímetros) en longitud, con los varones pesando alrededor 2.2 libras (1 kilogramo), y las hembras más pequeñas que pesan cerca de 1.5 libras (700 gramos).

Page 10: Tarea 7 Equipo 2 (1)

Ahh!! Pero eso noo!!

Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos. Los algoritmos pueden ser aplicados directamente a un conjunto de datos o llamar desde su propio código Java. Weka contiene herramientas para los datos de pre-procesamiento, clasificación, regresión, clustering, reglas de asociación y visualización. También es muy adecuado para el desarrollo de nuevos sistemas de aprendizaje de máquina.

Weka es un software de código abierto

publicado bajo la Licencia Pública General GNU .

Page 11: Tarea 7 Equipo 2 (1)

Reprocesamiento

Esta etapa es siempre la que consume el mayor tiempo en el desarrollo de un proyecto de minería de datos.

El preprocesamiento de datos abarca procesos de extracción, limpieza e integración.

Algunas veces también se deben hacer cálculos, a partir de los datos dados, para obtener otros nuevos más interesantes que se puedan incluir en los estudios de minería.

En muchos estudios es usual implementar algún algoritmo (por ejemplo el k-means) e ir realizando variaciones en los parámetros para generar diversos resultados. Si el algoritmo elegido no da buenos resultados (en el caso del k-means genera demasiadas o pocas agrupaciones), se hacen variaciones del mismo algoritmo (como kernel k-means) o definitivamente se descarta y se inicia el trabajo con otro algoritmo.

Page 12: Tarea 7 Equipo 2 (1)

Archivos ARFF

Son archivos arff (Attribute-Relation File Format) que contienen los datos extraídos y limpios obtenidos en la etapa de preprocesamiento. ARFF es un formato de texto plano, es decir, que se puede visualizar y manipular, directamente, con cualquier editor de texto como gedit o notepad.

Page 13: Tarea 7 Equipo 2 (1)

Atributos de los Archivos ARFF

Haga clic en el icono para agregar una imagen

Son las cualidades que conforman las instancias en los archivos ARFF. Cada atributo toma un valor según su tipo e influenciado en muchos casos por los demás atributos. La definición de cuáles atributos se deben incluir, corresponde a la etapa de preprocesamiento que abarca también sub-etapas muy importantes, como la selección de los datos objetivo.

Los tipos que puede tener un atributo son básicamente dos. Los numéricos, que se indican como NUMERIC y los nominales, que pueden indicarse como NOMINAL o especificando todos los valores que pueden tomar, es decir, el dominio del atributo También existen los tipos STRING y DATE.

@relation heart-disease-simplified

@attribute age numeric@attribute sex { female, male}@attribute chest_pain_type { typ_angina,

asympt, non_anginal, atyp_angina}@attribute cholesterol numeric@attribute exercise_induced_angina { no,

yes}@attribute class { present, not_present}

@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...

Page 14: Tarea 7 Equipo 2 (1)

Estructura Básica

Haga clic en el icono para agregar una imagen

Un archivo ARFF se compone de dos partes principales: la cabecera y los datos oinstancias. En la cabecera, cada linea inicia con un símbolo de @. En la segunda parte se encuentran los datos separados por comas. Todas las lineas que comiencen con un % corresponden a comentarios. La cabecera inicia con el tag @relation indicando el nombre de la relación representada por los datos. En las lineas siguientes se definen los atributos, con el tag @attribute seguido de su nombre y tipo, uno por línea

@relation heart-disease-simplified

@attribute age numeric@attribute sex { female, male}@attribute chest_pain_type { typ_angina,

asympt, non_anginal, atyp_angina}@attribute cholesterol numeric@attribute exercise_induced_angina { no, yes}@attribute class { present, not_present}

@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...

Page 15: Tarea 7 Equipo 2 (1)

Haga clic en el icono para agregar una imagen

Carga de ArchivosLa carga de archivos ARFF se hace con la aplicación del Explorer. Una vez se tiene listo el archivo con los datos para analizar en WEKA, se puede cargar en el software, seleccionándolo

Page 16: Tarea 7 Equipo 2 (1)
Page 17: Tarea 7 Equipo 2 (1)

Filtros

Haga clic en el icono para agregar una imagen

Para aplicar los filtros hay que ubicarse en la interfaz donde se carga el archivo ARFF que corresponde a la pestaña de Preprocess.

Los filtros supervisados se deben usar con cuidado en los conjuntos de entrenamiento ya que usan los valores de la etiqueta de clase en la transformación, para, por ejemplo, crear intervalos en una discretización. Estos mismos intervalos se deben usar luego con los conjuntos de prueba y sin usar ningún filtro no supervisado.

Los filtros no supervisados de atributos son generalmente los más utilizados, en especial para transformar uno o varios atributos a un tipo de datos específico. Es importante tener en cuenta que al aplicar un filtro no supervisado, éste afectará a todos los atributos con el mismo tipo de dato.

Page 18: Tarea 7 Equipo 2 (1)

Haga clic en el icono para agregar una imagen

Page 19: Tarea 7 Equipo 2 (1)

Discretización

Haga clic en el icono para agregar una imagen

Las técnicas de discretización se usan para reducir el número de valores de atributos continuos. La discretización también conocida como binning, consiste en transformar un atributo numérico y representarlo como un atributo nominal, mediante la creación de intervalos (bins). Un intervalo es un grupo de valores que puede tomar un atributo (nominal)

Técnica Simple binning

Equal Frecuency Binning

ChiMerge

Agrupación, redondeo y promedio

Descripción

Se establece un número debins estáticos. Losintervalos se calculanutilizando información delos datos como el máximo yel mínimo.

El número debins es igual a laraíz cuadrada devalores nofaltantes.

Analiza la calidad demúltiples intervalos,dadas unascaracterísticas usandoel estadístico chicuadrado.

bins porcadasubconjuntode datos.

Filtro WEKA

Discretize PKIDiscretize

No tiene

Page 20: Tarea 7 Equipo 2 (1)
Page 21: Tarea 7 Equipo 2 (1)

Numerizacion

Haga clic en el icono para agregar una imagen

La tarea de numerización es el proceso inverso de la discretización, en el que se transforman atributos nominales en numéricos.

Este caso no es tan común, pero existen situaciones en las cuales es útil, como por ejemplo cuando el método de minería de datos no acepta datos nominales.

Análisis de componentes principales y redes neuronales, son algunas de las técnicas de numerización que sólo trabajan con atributos numéricos

Normalización

La normalización es una transformación muy útil empleada en la minería de datos.

Se realiza con dos fines principales. El primero, para poder representar todos los atributos en una misma escala. El segundo, para satisfacer requerimientos de las técnicas utilizadas para minar, representando los datos en una escala menor (por ejemplo en una escala de cero a uno)

Page 22: Tarea 7 Equipo 2 (1)

Selección de Atributos

La selección de atributos es la etapa más importante dentro del preprocesamiento de datos, porque se eliminan aquellos atributos que son menos representativos. En algunos casos la selección de atributos se realiza por ensayo y error, hasta conseguir un modelo a patrón eficiente, pero esto no es lo más adecuado ya que el tiempo y el costo computacional crece con respecto al número de variables existentes en la colección de datos.

Existen diferentes formas para hacer selección de atributos, como las de tipo supervisada y no supervisada, donde la primera debe contener la etiqueta de clase, mientras que la segunda no. La mayoría de algoritmos que maneja WEKA para este fin hacen selección de un subconjunto de atributos, mientras que otros establecen un ranking de los atributos más relevantes. También existen clasificaciones por el tipo de evaluación y por la dirección de búsqueda que son más complejas.

Page 23: Tarea 7 Equipo 2 (1)

Tareas…

En esta fase se determinan las técnicas que van a ser usadas para el descubrimiento de conocimiento. La minería de datos es apoyada por tres tecnologías que actualmente se encuentran bastante avanzadas: colección de datos masiva, computadoras con multiprocesamiento y algoritmos de minería de datos

Page 24: Tarea 7 Equipo 2 (1)

Clustering

Consiste en formar grupos (clusters) con base en un criterio de cercanía, maximizando la similitud entre elementos de un mismo grupo, pero minimizándola respecto a elementos de otros grupos.

Es aconsejable usar algoritmos de clustering cuando no hay etiqueta de clase en los datos. También cuando se prevé que las instancias pueden presentar grupos de forma natural.

Page 25: Tarea 7 Equipo 2 (1)

Simple k-means

Haga clic en el icono para agregar una imagen

Es un algoritmo de particionamiento, donde K corresponde al número de clusters a encontrar, los cuales deben satisfacer dos condiciones básicas. La primera, es que cada cluster puede contener un elemento. La segunda, que cada elemento pertenezca únicamente a un cluster. Cada cluster está representado por el valor de la media de todos los elementos de su grupo.

Page 26: Tarea 7 Equipo 2 (1)
Page 27: Tarea 7 Equipo 2 (1)

Visualización

Haga clic en el icono para agregar una imagen

En la tarea de clustering, es muy importante tener la posibilidad graficar la distribución de los datos en los diversos clusters generados por uno o más algoritmos. No solamente, para facilitar el análisis y la interpretación de los resultados, sino para poder apreciar las distancias entre los clusters y sus elementos.

Las visualizaciones permiten un análisis más rápido de los resultados del algoritmo, en especial del comportamiento de cada atributo con respecto a los clusters encontrados.

Page 28: Tarea 7 Equipo 2 (1)

Modos de evaluación

Haga clic en el icono para agregar una imagen

Las tareas de clustering y clasificación comparten los modos de evaluación: use training set, percentage split y supplied test set. Este último modo, es para cuando se tienen los datos de prueba separados de los de entrenamiento, en otro archivo ARFF. Todos estos modos incluyendo classes to clusters evaluation (clases presentes en clusters), son útiles dependiendo de la cantidad y los tipos de datos a analizar.

Expectation Maximization

Este algoritmo de clustering encuentra la máxima verosimilitud (log-likelihood) mediante un método iterativo. Cada iteración se compone de dos pasos: la expectativa, (expectation) donde se calcula las probabilidades de las instancias para conformar los clusters; la maximización, para calcular la distribución de los parámetros.

Page 29: Tarea 7 Equipo 2 (1)

Clasificacion En el segundo paso el modelo se usa

para generar la clasificación de datos desconocidos, estimando la precisión del modelo o clasificador. La precisión de un modelo es el porcentaje de instancias, del conjunto de entrenamiento que fueron correctamente clasificadas. Si la precisión del modelo se considera aceptable, éste se puede usar para clasificar futuros conjuntos de datos para los cuales la etiqueta de clase es desconocida.

Esta tarea de minería es de las más utilizadas e importantes. La clasificación es un proceso que se hace a dos pasos. En el primer paso, se construye un modelo, el cual describe el conjunto preliminar de clases. El modelo es construido analizando las instancias, donde cada registro pertenece a una clase específica conocida.

Generalmente, el modelo prendido es representado en la forma de reglas declasificación, árboles de decisión o fórmulas matemáticas.

Page 30: Tarea 7 Equipo 2 (1)

Arboles de decisiónHaga clic en el icono para agregar una imagen

Los árboles son una manera práctica para visualizar la clasificación de un conjunto de datos.

Page 31: Tarea 7 Equipo 2 (1)

Reglas

Haga clic en el icono para agregar una imagen

Existen diversos métodos para generar reglas de clasificación en los conjuntos de entrenamiento.

One Rule, comúnmente abreviado como OneR ó 1R, es un algoritmo de clasificación simple, que genera una regla por cada atributo y escoge la del menor error.

PRISM es un algoritmo de cubrimiento sencillo. Para poder aplicarlo, se debió usar primero el filtro NumericToNominal (como se mostró en la sección de Filtros) para convertir todos los atributos a nominales.

Page 32: Tarea 7 Equipo 2 (1)

Bayesianos

Haga clic en el icono para agregar una imagen

Los métodos bayesianos suelen ser los más eficientes para clasificar datos. Sin embargo, debe tenerse en cuenta que entre los atributos del conjunto de entrenamiento no pueden existir correlaciones, puesto que invalidaría el resultado.

One Rule, comúnmente abreviado como OneR ó 1R, es un algoritmo de clasificación simple, que genera una regla por cada atributo y escoge la del menor error.

PRISM es un algoritmo de cubrimiento sencillo. Para poder aplicarlo, se debió usar primero el filtro NumericToNominal (como se mostró en la sección de Filtros) para convertir todos los atributos a nominales.

Page 33: Tarea 7 Equipo 2 (1)

Asociación

Las reglas de asociación realizan una tarea similar a las correlaciones, que tienen como objetivo identificar relaciones no explícitas entre atributos nominales