DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE … 2010.pdf · Comprensión de un domino ... Necesidad...

Post on 25-Jan-2019

213 views 0 download

Transcript of DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE … 2010.pdf · Comprensión de un domino ... Necesidad...

DESCUBRIMIENTO DE CONOCIMIENTO EN

BASES DE DATOS

KDDKNOWLEDGE DISCOVERY ON

DATABASES

SINÓNIMOS

� Arqueología de datos

Minería de datos.� Minería de datos.

� Extracción de conocimiento.

� Reconocimiento de patrones.

OPERACIÓN DEL NEGOCIO

BASES DE DATOS ACTUALES

TRANSACCIONES COTIDIANAS

• Pago de nómina

• Gestión financiera

• Facturación

• Historial clínico

Otros sectores y

BASES DE DATOS OPERATIVAS

Sector comercialOtros sectores y

centros de

Investigación

ANTECEDENTES

� Algunas compañías han acumuladodurante décadas grandes volúmenesde datos acerca de sus clientes,proveedores, productos o servicios.proveedores, productos o servicios.

� El acelerado crecimiento de la redInternet permite a las organizacionesotro mecanismo de acumular grandescantidades de datos.

El Proceso de KDD

6

TOMA DE DECISIONES

¿A qué responde el KDD?

Comprensión de un domino

• ¿Han aumentado significativamente las ventas, con la promoción?

• ¿Qué día de la semana es el más ocupado en el hospital?

• ¿Cuáles clientes de la sucursal B, no están participando de una cuenta

especial?

� La descripción o caracterización de fenómenos.

� El descubrimiento de patrones y tendencias en los datos.

KKD es usado para:

tendencias en los datos.� Análisis de grupos o conglomerados.� Respuestas a preguntas espontáneas y formuladas de manera no estructurada.

� Realizar inferencias y predicciones.

EL PROCESO DE KDD

• Especificación del dominio de la aplicación.

• Estrategia de adquisición de los datos.

• Recolección de la información.

• Depuración.

• Minería de los datos.

• Visualización e interpretación de resultados.

El Proceso de KDD

Integración

de datos

Limpieza

de datos

Enriquecimiento

de datos

Transformación

Minería

de Datos

Bodega de datos

Conocimiento

Interpretación

Integración de datos

Base de Datos X

Base de Datos Y

IntegraciónBodega

de Datos

Problemas:

� Formatos de las fuentes de datos.

� Necesidad de filtros y transformaciones (de unidades de medida, de formatos de las fechas, entre otras).

Fuente de datos

Z

Limpieza de datosPrecisión y Exactitud

Actualidad

Consistencia

Completitud

Relevancia¿Información

confiable?

Relevancia

Bodega de Datos

Técnicas de detección de errores

� Valores admisibles. Por ej, ‘h’ y ‘m’ para sexo.

� Valores faltantes. Convenciones

� Valores extremos. Se hacen “Imputaciones” (medidas correctivas) a los datos.

� Violación de reglas o restricciones. Se hace uso de “Edicts” o reglas de inferencia

� Inconsistencias o redundancia.

� Obsolescencia de los datos.

Enriquecimiento de datos

Necesidad de complementar

la bodega con informaciónsobre los datos almacenados(metadatos) para poder

limpiezarealizar la limpieza de losmismos. Esto también ayudaen la selección ymanipulación de los datospara un análisis.

Descubrimiento de Patrones

� El número de niños que permanecen largo

tiempo son los que llegan ya mayorcitos al

Sistema de Adopción.Sistema de Adopción.

• Sólo el 10% de los estudiantes culminan sus

estudios sin perder una sola materia.

• Los que sufren el mal de Hodkgin son en su

mayoría hombres, de raza blanca.

El objetivo básico de la discriminación esreconocer las diferencias entre grupos deobjetos y poder describirlas en forma

Discriminación o análisis de grupos

objetos y poder describirlas en formagráfica o algebraica para lograr un mejorentendimiento de un determinado dominio

¿Tienen algo en común?

¿ En qué se diferencian?

Árboles de Decisión (1/2)

Árboles de Decisión (2/2)

Tendencias o cambios de

comportamiento

Descubrimiento de Asociaciones (1/3)

Si Si

La empresa es “grande” e invierte un “buen” porcentaje de sus utilidades en I+D

Entonces

Es “altamente” innovadora.

Descubrimiento de Asociaciones (2/3)

NACELERACIÓPESOPOTENCIAORENDIMIENT 002.0006.005.06.45 +⋅−−=

Regresión Múltiple

Descubrimiento de Asociaciones (3/3)

Metadatos en la Minería de DatosMetadatos en la Minería de Datos