Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de usuarios venezolanos...

52
Universidad Central de Venezuela Facultad de Ciencias Escuela de Computación Postgrado en Ciencias de la Computación Miguel Palau Danny Cruz Marzo 2017 Minería de Datos: Caracterización de Patologías de Orden Etnopsiquiatríco en una serie de casos de usuarios de la red social Facebook.

Transcript of Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de usuarios venezolanos...

Universidad Central de Venezuela

Facultad de Ciencias

Escuela de ComputaciónPostgrado en Ciencias de la Computación

Miguel Palau

Danny Cruz

Marzo 2017

Minería de Datos:

Caracterización de Patologías de Orden

Etnopsiquiatríco en una serie de casos de usuarios de la red social Facebook.

Agenda

1. Comprensión del Negocio• Determinar los Objetivos del Negocio

• Contexto Inicial• Objetivos de la Minería de Datos

2. Evaluación de la Situación• Requerimientos• Supuestos

3. Objetivos de la Minería de Datos4. Plan de Trabajo y Lineamientos del Proyecto5. Entendimiento de los Datos6. Preparación de los Datos7. Clasificación 8. Análisis de los Datos9. Conclusiones

Fot. 1 AVN.

Tomado de Caraota Digital , 21/03/2017

Contexto Inicial

Motivación:

- Estudio para la realización del Diseño considerando los elementos de significancia cultural y su operatividad propios de Venezuela.

Venezuela, es un país culturalmente poco propicio a diseñar estrategias para su realización societal. Es decir, se enfoca culturalmente al arraigo del “ser” si las desea y las intenta realizar consigue un numero infinito de barreras posteriores para su realización.

“Es así, y así funciona no debemos cambiarlo”.“No es algo prioritario para el negocio, debemos conservarlo de esa forma”

Esta categoría, del “ser” en forma fija se adjunta a la del arraigo para no generar cambios, es decir ser una sociedad anti-societal (tiene el deseo de construir pero no de realizarlo), le hemos llamado “El deseo incompetente” (Palau, 2016).

Fig. 1 El estudio de la culturaVenezolana en términos de la ausencia de “proyecto nacional” ha sido profundamente analizadopor el antropólogo y profesor de laU.C.V Samuel Hurtado.

Evaluación de la Situación

Objetivos del Negocio

• Caracterizar, Identificar usuarios de la red social Facebook con una serie etnopatologías con base a la cultura, propias de Venezuela asociadas al concepto epistémico de “Matrisocialidad” (Hurtado, 1998).

• Obtener reglas de asociación por patologías que puedan proveer información sobre atributos útiles para comprender condiciones: resistencia a la innovación, predisposición a la inercia, obstrucción a la creación de productos

Factores que determinan el éxito del proceso

• La participación de los expertos en dos niveles:

NIVEL 1El primero de ellos en lo referente a dar demostración de una condición patológica originada en el concepto de “Matrisocialidad” y señalada por el experto en tanto pueda ser correlacionada con las siguientes patologías: Narcicismo, Pánico a la Aceptación de la Realidad, Histeria, Esquizofrenia y Trastorno Disociativo- Ausencia.

NIVEL 2La participación del experto en el ámbito de la psicología, cuya aplicación de criterios en tanto la identificación de los rasgos se encuentra dentro de los criterios establecidos por la asociación mundial de psicología para cada individuo participante.

Fuente de Datos

Requerimientos

Perfiles de Usuario

TIPO

Origen

Facebook

(evaluada por el experto de forma individual

aplicando los criterios de identificación)

Tabla Minable

TIPO

Supervisados

(se definen los atributos a partir de las

patologías en dos condiciones)

AUSENTE o PRESENTE

Column1 Column2 Column3 Column4 Column5

Matrisocialidad

Narcicismo Pánico Histeria

Esquizofrenia

Trastorno Disociativo

Individuos. AusentePresente

Presente Presente Presente

EL SER = ANOMALIA

Característica: Anti-societal, orientado a la Cultura (deseoso pero no para la concreción).

+

Supuestos

EL DEBER SER = NORMAL

Característica: Pro-Societal, proyecto país para su realización.

-

• Para que exista progreso en términos de la realización del proyecto, los venezolanos afectados por la cultura del “no se puede hacer” deberán superar las condiciones del “ser” lo que somos, y enrumbarnos en el “deber ser” por contraposición.

• La innovación para generar condiciones de creación para el diseño de su proyecto a organización no las empuje sino porque las condiciones externas y de orden cultural así lo determinan; la cultura produce a las organizaciones

Verificación del Concepto Epistémico

Matrisocialidad Matrisocialidad

- Caracterización de usuarios a través de las patologías y comprender las diferencias correspondientes

Predicción de condiciones patológicas, análisis posterior para

comprensión del ser venezolano

1

2

3

Objetivos de la Minería de Datos

Conocimiento

- Clasificación de usuarios en base a las patologías señaladas e identificar los atributos de su composición

Tipo de Minería de Datos

Concepto vinculado a la minería de datos que persigue elestudio de la significancia cultural.

“Es una herramienta que se origina como experimentacióndentro de interacción humano computador (HCI) y lascomunidades de investigación para unir minería de base dedatos e investigación de campo (Aippersparch 2007).

Subsecuentemente, basados en este trabajo hemosempleado esta técnica como una forma de conducir análisiscultural. Combina, la semi-automatización de colección yanálisis de datos sobre el comportamiento. Además, lacolección y el análisis de datos cualitativos en un marco dereferencia abierto, iterativo y analítico; se soportafuertemente en los artefactos compartidos, en este caso,datos de visualización, para la construcción de la -significancia-. El foco del análisis cultural (ver Bezaitis 2009) esarticular significados simbólicos, prácticas culturales ysituaciones sociales alrededor de un tópico de investigación”.(Anderson, 2009).

Fig. 2 Estudio realizado por Intel, en el que se combina el registro a través de dispositivos por sobre el uso exploratorio de interacción entre usuarios y dispositivos tecnológicos para comprender (interacción-vida diaria).

Para la recolección de los Datos hemos requerido de la colaboración de dosexpertos.El primero de ellos, define a través del concepto epistémico de “Matrisocialidad”las patologías comunes encontradas durante la elaboración del mismo. Estaspatologías definen según su aparición o ausencia las condiciones del ser o eldeber ser (ausencia).

En la segunda fase de recolección de los datos, posteriormente a la conceptualización de los atributos, aplicamos criterios de vaciado manual por estudio de caso. El segundo especialista genera el diagnostico según criterios señalados en el manual de trastornos mentales visibles a través de: estudio fotográfico, frecuencia de palabras asociadas a las condiciones, muestras de rasgos de personalidad a través de interpretación.

La tercera fase, comprende el vaciado de la información.El especialista y el investigador proceden a estudiar caso por caso cada uno de losindividuos de la red social Facebook y según la experticia y criterios de selección,los individuos son llevados según su condición y asociación a una tabla decarácter minable, la cual presentamos en la siguiente lamina

Recolección de los Datos

Casos de la Red Social Facebook

Aplicación de Selección de Muestra en un ambiente Natural (aleatorio).

Se aplica criterios de selecciónde muestra tomando en consideración

metodología de estudios de caso

Se establece una meta de recolección de60 estudios de caso

1

2

3

Selección de la Muestra

Preparación de los Datos

Vista de la Tabla Minable (cruda)

La elaboración de cada caso conlleva a un periodo de tiempo prolongado

Al pretender caracterizar una población de un número mayor de individuos

se requieren mayores periodos de tiempopara la elaboración, sin embargo es factible

La metodología de recolección presencial delinvestigador-expertos permiten minimizar los

errores de transcripción e inconsistencias

Problemas Encontrados

Preparación de los Datos

Tarea 1: Selección de los Datos

- Decisión sobre la data a ser utilizada

para el análisis

- Criterios incluyendo relevancia de los

datos y objetivos de la minería de datos,

calidad de los datos y dificultades

técnicas, limites en el volumen y tipos

de datos

Los datos a ser utilizados son los siguientes:Filas: Número de Casos (60), personalizados.Columnas: Criterios sociodemográficos asociados al concepto,patologías asociadas al “ser”, cuya presencia determina la caracterización-clasificación en una población.

Calidad de los Datos:Experto identifica rasgos de forma individual utilizando criteriosdel manual de trastornos mentales. Entrega el formato “vivo”al transcriptor, quien vacía la información en la BD y luego retornaal experto para revisión posterior.

Criterios Sociodemográficos:Edad, Sexo, Tipo de Familia, Rol, estos datos permitirán conocerdesde los atributos un perfil generalizado y especifico entrelos individuos y las patologías presentes.

IDApellido

Nombre Edad Sexo NSE

Tipo de Familia

Numero de Hijos

Situacion Parental

1Jimenez Edgar 51

Masculino D Uniparental Uno Padre

Vista Parcial de Tabla Minable

Preparación de los Datos

Tarea 2: Limpieza de los Datos

- Incrementar la calidad de los datos a

un nivel requerido para el tipo de

análisis seleccionado.

- Involucrar la selección de porciones

de datos

- Aplicar estimación de datos perdidos.

Técnicas de Análisis Seleccionados:Los datos se han recogido en cumplimento de los requisitos necesarios para aplicar a través de –Weka-, categorización. Por ende los datos son: estructurados, supervisados y nominales. También se realizo una BD, en dónde se pueden hacer correlaciones.

Estimación de Datos Perdidos:

No requeridos debido a que la Tabla Minable no presenta:

- Errores (valores fuera de rango)- Variaciones producto de integración (los valores son de fuenteprimaria).- Inconsistencias: debido al proceso de verificación, no hay valores en rangos diferenciales (nominales).- Se realizo un proceso de doble verificación en el vaciado, verificar caso por caso de individuos, por ende no hay valoresausentes.

Vista Parcial de Tabla Minable

Vista de la Tabla Minable (final)

Atributos Tipo % Ausencias Column1 Valor Mínimo Valor Máximo Media Desv. Standard (STD)

Edad Numerico 0 30 60 44.5 5.827

Sexo Nominal 0 - 27 0.45 -

Nivel Socio Económico Nominal 0 56

Tipo de Familia Nominal 0 - - - -

Numero de Hijos Nominal 0 1 4 3 -

Situacion Parental Nominal 0 - - - -

Nivel de Instrucción Nominal 0

Narcicismo Nominal 0 - - - -

Trastorno de Ansiedad y Panico Nominal 0 - - - -

Histeria Nominal 0 - - - -

Esquizo Paranoia Nominal 0 - - - -

Trastorno Disociativo-Ausencia Nominal 0 - - - -

No. Total de Instancias: 60

Atributos: 12

Sumario Estadístico:

Integración de los Datos

Matriz de Confusión

Comprensión de los Datos:

• El conjunto de datos presenta dos clases evidentes, la clase mayoritaria o presente tomando en consideración a Trastorno Disociativo como atributo y una ausente de carácter evidentemente minoritaria.

• Debido a que los datos persiguen como objetivo de la tarea de minería de datos realizar una caracterizaciónen presencia de los atributos tomados en consideración: histeria, trastorno de ausencia, etc.) no se realizará un sobre muestreo para obtener condiciones de mejoramiento de las clases, tomando en consideración que la caracterización persigue como objetivo fundamental recoger información sobre datos de las condiciones naturales de la muestra.

• A los propósitos de la factibilidad del proyecto para minería de datos, caracterizaremos sólo la clase “Presente” por razones de ejecución de tiempos en la elaboración de los entregables.

• Se han eliminado los datos identificatorio a sugerencia para evitar conflictos en la toma de datos por parte del algoritmo en el procesamiento de la herramienta de minería de Datos, Weka.

Histogramas:

Análisis Exploratorio, general tomando clase natural: Trastorno Disociativo

Atributos Socio Demográficos Análisis

Edad Para el trastorno disociativo como clase presente se encuentra presente en todos ellos, pero con mayor preponderancia entre los 40 a 45 años de edad y de los 45 a los 50 años de edad

Sexo Todos los individuos de sexo femenino presentan la condición de Trastorno Disociativo

Nivel Socioeconómico Mayoritariamente, el trastorno disociativo se encuentra presente en los individuos de Nivel Socioeconómico “C”

Tipo de Familia La condición es notablemente presente en individuos que no poseen familia y en aquellos con familia nuclear

Número de Hijos La condición se hace notable en la clase presenta ante a ausencia de hijos, sin embargo se presenta de forma relevante cuando el numero de ellos es igual a dos.

Situación Parental La condición se hace presente mayoritariamente bajo el atributo de la madre

Nivel de Instrucción Aunque la condición se hace presente en el nivel de instrucción:técnico universitario, se hace mayoritariamente presente en el atributo etiquetado como; universitario

Análisis Exploratorio, general tomando clase natural: Trastorno Disociativo

Atributos Etnopsiquiatrícos Análisis

Trastorno de Ausencia-Disociativo La condición de clase mayoritaria esta presente en el trastorno disociativo de ausencia. Su presencia de encuentra en 53 casos lo que representa el 88%.

Esquizo-Paranoide La condición de clase mayoritaria se hace presente para el trastorno de Esquizo-Paranoia en 43 casos lo cual representa en números relativos el 72%.

Histeria La condición de histeria desde el trastorno disociativo se hace presente en 49 casos, lo cual representa un 82% del total de los casos.

Ansiedad-Pánico La condición de ansiedad y pánico se encuentra presente desde el trastorno disociativo en 40 casos, lo cual representa un 67%

Narcicismo La condición de narcicismo dentro del trastorno disociativose encuentra presente en 58 casos, lo que representa un 97%

Resumen Tomando como clase mayoritaria Trastorno Disociativo:

- Narcisismo representa un 97%

Análisis Exploratorio, en asociación al concepto de Matrisocialidad

Pesado – Weighted (%) –Presente- Atributo (tomado como clase) Análisis

58/60 Narcicismo 97% del total de los casos, hombres y mujeres presentan la condición.

53/60 Trastorno de Ausencia - Disociativo 88% del total de los casos hombres y mujeres presentan la condición.

49/60 Histeria 82% del total de los casos hombres y mujeres presentan la condición.

43/60 Esquizofrenia Paranoide 72% del total de los casos hombres y mujeres presentan la condición.

40/60 Ansiedad y Pánico 67% del total de los casos hombres y mujeres presentan la condición.

Análisis en Atributos, Histograma de Narcicismo tomado como clase.

Análisis de Atributo Narcicismo en asociación al concepto de Matrisocialidad

Pesado – Weighted (%) –Presente- Atributo (tomado como clase) Análisis x variable

58/60 Narcicismo

Edad

Sexo

NSE

Tipo de Familia

Número de Hijos

Situación Parental

Grado de Instrucción

- 97% del total de los casos, hombres y mujeres presentan la condición.

- Los rangos de edades en donde la condición presente posee mayor relevancia se encentra entre los 40-45-50 años de edad

- Todas las personas de sexo femenino poseen la condición narcisista

- Dentro del nivel socioeconómico “C” se presenta la condición tanto en hombre como mujeres

- Un rasgo importante indica que la condición se encuentra presente y totalmente ausente en el tipo de familia “uniparental”

- La condición presente presenta un aumento significativo entre la aparición del primer y segundo hijo, aunque también para los que no poseen.

- La condición se hace presente especialmente en las madres

- Existe una fuerte relación en la presencia de la condición y las variables relacionadas con grado de instrucción: técnicos y universitarios.

Análisis en Atributos, Histograma de Trastorno de Ausencia tomado como clase.

Análisis Exploratorio, en asociación al concepto de Matrisocialidad

Pesado – Weighted (%) –Presente- Atributo (tomado como clase) Análisis x variable

53/60 Trastorno de Ausencia

Edad

Sexo

NSE

Tipo de Familia

Numero de Hijos

Situación Parental

Grado de Instrucción

- 88% del total de los casos, hombres y mujeres presentan la condición.

- La edad media para la presencia de la condición es de 44,5 años.

- Todos los casos registrados de sexo femenino poseen la condición presente

- La condición de trastorno disociativo se presenta mayoritariamente en el NSE C.

- Aunque el trastorno se presenta de forma mayoritaria en el tipo de familia nuclear, así también en la uniparental y en la que no posee, asociado a una condición mayormente individual

- La condición se hace presente de forma preponderante en las familias con dos hijos, pero también en aquellas familias que no poseen

- La condición de presente en el trastorno disociativo se presente de forma mayoritaria en “madres”.

- Para los grados de instrucción de Técnico Universitario, al igual que los de universitario completo, la condición se hace presente

Análisis en Atributos, Histograma de Trastorno Histeria tomado como clase.

Análisis Exploratorio, en asociación al concepto de Matrisocialidad

Pesado – Weighted (%) –Presente- Atributo (tomado como clase) Análisis x variable

49/60 Histeria

Edad

Sexo

NSE

Tipo de Familia

Numero de Hijos

Situación Parental

Grado de Instrucción

- 82% del total de los casos, hombres y mujeres presentan la condición.

- Aunque la condición se encuentra presente en todos los rangos de edades, se hace mayoritariamente notable entre los 40 y 45 y 45 a 50 años.

- Todos los casos recogidos de sexo femenino presentan la condición, aunque también masculinos.

- En lo relacionado con NSE, la mayoría de hombres y mujeres poseen la condición para el estrato “C”.

- La clase mayoritaria presenta dentro de la familia nuclear la condición, aunque también refleja un alto componente de la clase ausente en la misma.

- La condición se hace mayoritariamente presente cuando se posee dos hijos por familia aunque también cuando no se posee ninguno

- La condición se presenta tanto en padres como madres, siendo esta ultima la de mayor relevancia

- La condición se hace relevante en dos segmentos: Técnico Universitario y Universitario.

Análisis en Atributos, Histograma de Trastorno Esquizofrenia-Paranoide tomado como clase.

Análisis Exploratorio, en asociación al concepto de Matrisocialidad

Pesado – Weighted (%) –Presente- Atributo (tomado como clase) Análisis x variable

43/60 Esquizofrenia Paranoide

Edad

Sexo

NSE

Tipo de Familia

Numero de Hijos

Situación Parental

Grado de Instrucción

- 72% del total de los casos, hombres y mujeres presentan la condición.

- La edad media para la aparición de esta condición es de 44,5 años pero mayormente presente en los rangos entre 40-45 y 45 y 50 años.

- La condición se encuentra presente en ambos sexos con una ligera mayoría para los del sexo femenino

- Entre los niveles socioeconómicos, la clase mayoritaria se ubica en el NSE “C”.

- Esta condición se encuentra presente de forma mayoritaria en el tipo de familia nuclear (padre, madre e hijo(a)).

- La condición se presenta en la clase mayoritaria cuando el numero de hijos es igual a (2).

- Tanto para el padre como para la madre, esta ultima de forma ligera la condición se hace presente

- La condición se hace presente especialmente en dos tipos de grados de instrucción: Técnico Superior Universitario y Universitario.

Análisis en Atributos, Histograma de Trastorno Ansiedad Pánico tomado como clase.

Análisis Exploratorio, en asociación al concepto de Matrisocialidad

Pesado – Weighted (%) –Presente- Atributo (tomado como clase) Análisis x variable

40/60 Ansiedad – Pánico a la Realidad

Edad

Sexo

NSE

Tipo de Familia

Numero de Hijos

Situación Parental

Grado de Instrucción

- 67% del total de los casos, hombres y mujeres presentan la condición.

- Se encuentra presente en todos los rangos de edades con especial énfasis entre los 40 y 45 y 45 y 50 años.

- La condición se encuentra presente en todos los casos de sexo femenino

- La condición se encuentra mayoritariamente en los casos cuya condición socioeconómica es perteneciente a la clase “C”.

- La condición se hace presente de forma mayoritaria en la familia de tipo nuclear (padre, madre e hijo(a)).

- La condición se hace mayoritariamente presente cuando el numero de hijos es igual a (2).

- Aunque la condición se encuentra presente en el padre y la madre es mayoritariamente presente en la última.

- La condición se hace presente en los grados de instrucción: Técnico Superior y Universitario.

Tarea de Minería de Datos

ALGORITMOS:

Racionales empleados para la implementación de la Minería de Datos.

Algoritmos de Clasificación Funcionalidad Data/Situación Tarea de Minería

Bayes Net Algoritmo de búsqueda de atributos numéricos y valores perdidos, atributos nominales.

Naïve Bayes Clasificador de estimación de clases. Estimador numérico de precisión, los valores se escogen basados en análisis de los datos suministrados.

Alto desbalance entre las clases (discretización de la variable edad)

Estimación de las Clases ausentes

Naïve Bayes Multi-Nomial Algoritmo de clases, identificador de clases ausentes, valores, clases binarias.

Naïve Bayes Multi-Nominal Text Clases Nominales, ClasesAusentes, Clases Binarias

NaïveBayesMultiNominalUpdeatable Valores perdidos de clase numéricos

NaïveBayesUpdateable Valores perdidos de clase

Racionales para la escogencia de Algoritmo de mayor rendimiento.

Tarea de Minería de Datos: Clasificación con Discretización de la Variable Edad

Algoritmo: Naive Bayes – Discretización de la Variable Edad (total)

Atributos Análisis

Edad Tomando en consideración trastorno disociativo, las edades mayormente representativas para la clase presente se encuentra en el intervalo de 39-42 años. Posteriormente, la clase presente/ausente muestra un importante incremento en los rangos de edad de 42 a 45 años y disminuye entre los rangos de 45 a 48 años.

Sexo Todos los estudios de caso de sexo femenino presentan la condición.

Nivel Socio-Económico La clase mayoritaria se preponderante en el nivel socio-económico “C”.

Tipo de Familia La condición es preponderante en la familia nuclear.

Numero de Hijos La condición se presenta desde el momento de no presentar hijos, pasando por (1) y (2), posteriormente disminuye durante el aumento de los miembros familiares.

Situación Parental La clase presente se hace preponderante en la condición de madre, aunque en la de padre se haga presente también es ausente.

Nivel de Instrucción La condición se hace presente en tanto el nivel educativo se hace presente tanto a niveles de técnico superior hasta universitario.

Atributos Análisis

Narcicismo La condición como clase se hace presente en casi todos los casos: 97%.

Ansiedad y Pánico La condición se hace presente en un 67% de los casos y ausente en un 33% de ellos.

Histeria La condición se presenta en un numero de casos importante equivalente al: 82%. Sin embargo, las ausencias se presentan en un: 18%.

Esquizo Paranoide Aunque la condición se hace presente en un 72% de laclase presente, los ausente equivalen a un 28%.

Trastorno Disociativo de Ausencia La condición se encuentra presente en la mayoría de los casos un 88%, y ausentes en un 12%.

- La importancia de la discretización por edad, junto a la aplicación del clasificador de Bayes-Ingenuo, es que elalgoritmo genera un balance de ambas clases, tanto las presentes como las ausentes. - Otros clasificadores tienden a ponderar mayormente hacia la clase presente

Tarea de Minería de Datos: Clasificación, Aplicación de NaiveBayes

Matriz de Confusión

Resultados del Naive Bayes

Resultados del Naive Bayes

Resultados del Naive Bayes

Resultados del Naive Bayes

Resultados del Naive Bayes

Trastorno Disociativo de Ausencia

Narcicismo

Histeria

Esquizo Paranoia

Ansiedad-Pánico

Modelo, universo etno-psiquiátrico de la cultura en Venezuela

Conclusiones

- A través de la aplicación de los algoritmos de aprendizaje para datos no supervisados se observo un rendimiento similar en el procesamiento de los datos recogidos

- A pesar de que el registro de la matriz de confusión registra un 76% de instancias correctas para la clasificación, los resultados muestran una caracterización muy similar a la propuesta por el concepto epistémico

- Los datos obtenidos muestran un conjunto de patrones relacionados con los datos que muestran especialmente en la aplicación del algoritmo (NaiveBayes) importantes elementos especialmente en la comprensión de las clases conjuntas: presentes y ausentes

- Los resultados muestran la posibilidad de realización de un estudio en profundidad aumentado el tamaño de casos aplicando un proceso de captación y diagnóstico de cada individuo.

Bibliografía

Anderson, Ken. (2006): Ethnomining: Integrating Words and Numbers from the Ground Up. Electrical Engineeringand Computer Sciences, University of California at Berkeley.

Anderson, Ken. (2009): Numbers Have Qualities Too: Experiences with Ethno-Mining. EPIC.

Hurtado, Samuel. (1998): Matrisocialidad. Ediciones Facultad de Ciencias Económicas y Sociales, Universidad CentralDe Venezuela, Caracas.

Charu C. Aggarwal. (2015): Data Mining. The Textbook. Springer.

Plan del Proyecto

Fase II COMPRENSION DE LOS DATOS

MARZO ABRIL

Semana 2 Semana 3 Semana 4 Semana 5 Semana 1 Semana 2 Semana 3 Semana 4

TIMELINES T W T F S S M T W T F S S M T W T F S S M T W T F S S M T W T F S S M T W T F S S M T W T F S S M T W T F S S

2017 7 8 9 10111213141516171819202122232425262728293031 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930

Comprensión de los Datos

Entrevista con el Experto (estructuración)

Recopilación Inicial de los Datos

Descripción de los Datos

Exploración de los Datos

Verificación de la Calidad de los Datos

Reparación de los Datos

Selección de los Datos

Limpieza de los Datos

Construcción de los Datos

Integración de los Datos

Formateo de Datos

Anexos

Miguel Palau

Danny Cruz

- Mejorar la especificación de los objetivos desde el punto de vista del negocio, así como delimitar el contexto de aplicación.

- En la descripción de los datos se dice que se utilizará como fuente de estos Facebook, pero también una tabla de datos “supervisados” ¿Se entiende que estos estarán etiquetados?

- También se dispone de correlaciones de palabras-contenidos ¿Cómo será incorporada esta información?

- Desde el punto de vista de los objetivos de la minería de datos se indica que el problema será resuelto por una tarea de agrupación. ¿Se van a utilizar los datos “supervisados”? Por otra parte, no queda clara la correspondencia entre los objetivos de negocio y los objetivos de la minería de datos.

- En esta propuesta, dada la complejidad del problema, les recomiendo que delimiten el contexto de aplicación y visualicen el trabajo como un estudio de la factibilidad de la aplicación de estas técnicas en este dominio.