Mejoramiento De Calidad En Conjuntos De Datos Abiertos...

110
MEJORAMIENTO DE CALIDAD EN CONJUNTOS DE DATOS ABIERTOS BASADO EN LA APLICACIÓN DE MÉTRICAS DE CONSISTENCIA LÓGICA Autor JORGE HERNANDO MENDEZ MATAMOROS Tutor GIOVANNY MAURICIO TARAZONA BERMUDEZ PhD. UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS Maestría en Ciencias de la Información y las Comunicaciones Énfasis en Sistemas de Información Bogotá, Colombia diciembre de 2017

Transcript of Mejoramiento De Calidad En Conjuntos De Datos Abiertos...

Page 1: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

MEJORAMIENTO DE CALIDAD EN

CONJUNTOS DE DATOS ABIERTOS

BASADO EN LA APLICACIÓN DE

MÉTRICAS DE CONSISTENCIA LÓGICA

Autor

JORGE HERNANDO MENDEZ MATAMOROS

Tutor

GIOVANNY MAURICIO TARAZONA BERMUDEZ

PhD.

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS

Maestría en Ciencias de la Información y las Comunicaciones

Énfasis en Sistemas de Información

Bogotá, Colombia

diciembre de 2017

Page 2: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 2

MEJORAMIENTO DE CALIDAD EN CONJUNTOS DE

DATOS ABIERTOS BASADO EN LA APLICACIÓN DE

MÉTRICAS DE CONSISTENCIA LÓGICA

Autor

JORGE HERNANDO MENDEZ MATAMOROS

TESIS DE GRADO PARA OPTAR POR EL TITULO DE MAGISTER EN CIENCIAS DE

LA INFORMACIÓN Y LAS COMUNICACIONES

Tutor

PhD. GIOVANNY MAURICIO TARAZONA BERMUDEZ

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS

Maestría en Ciencias de la Información y las Comunicaciones

Énfasis en Sistemas de Información

Bogotá, Colombia

diciembre de 2017

Page 3: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Nota de Aceptación

GIOVANNY TARAZONA

PAULO ALONSO GAONA

ALVARO ESPINEL

Bogotá D.C., diciembre 7 de 2017

Page 4: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Dedicado a mis padres, a mi esposa y mis hermanos que participaron en tan anhelado objetivo

Page 5: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

AGRADECIMIENTOS

Debo agradecer a los profesores que me guiaron durante el transcurso de la maestría y

especialmente a mi director de tesis Giovanny Tarazona y a Andrea Rodríguez ya que con

su apoyo y conocimientos permitieron que esta investigación culminara de la mejor manera.

A mis revisores y jurados Álvaro Espinel y Paulo Gaona quienes con sus contribuciones

enriquecieron y dirigieron conceptualmente este libro.

Page 6: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Contenido

PARTE I FUNDAMENTO DE LA INVESTIGACIÓN, DATOS ABIERTOS

EN COLOMBIA, METRICAS DE CALIDAD ........................................................................ 20

CAPÍTULO I DESCRIPCIÓN DE LA INVESTIGACIÓN ................................. 21

Introducción ........................................................................................................................ 22

1. Problema de investigación .......................................................................................... 24

1.1 Planteamiento del problema ................................................................................. 24

1.2 Formulación del problema .................................................................................... 24

1.3 Sistematizacion del problema .............................................................................. 25

2. Justificacion ................................................................................................................. 26

3. Hipótesis ...................................................................................................................... 29

4. Objetivos ...................................................................................................................... 30

4.1 Objetivo General .................................................................................................. 30

4.2 Objetivos Específicos ........................................................................................... 30

5. Metodología ................................................................................................................. 31

5.1 Recopilación de la información ............................................................................ 31

5.2 Selección de las herramientas ............................................................................. 31

5.3 Selección del conjuntos de datos ......................................................................... 32

5.4 Diseño del prototipo funcional .............................................................................. 32

CAPÍTULO II DATOS ABIERTOS, CALIDAD EN CONJUNTOS DE DATOS 33

6. DATOS ABIERTOS ..................................................................................................... 34

6.1 Paradigma de datos abiertos ............................................................................... 34

6.2 Portales de datos abiertos en Colombia .............................................................. 36

6.3 Informe ODRA del Banco Mundial para Colombia ............................................... 37

6.3.1 Recomendaciones con respecto a algunas entidades .................................. 43

Page 7: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 7

6.3.2 Conclusiones del informe ODRA con respecto a la calidad en datos abiertos

44

7. Calidad en conjuntos de datos .................................................................................... 46

7.1 Métricas de calidad .............................................................................................. 46

7.2 Calidad basada en Ontología ............................................................................... 51

PARTE II PLANTEAMIENTO DE LA PROPUESTA ............................... 53

CAPÍTULO III REGLAS DE CONSISTENCIA LÓGICA .................................. 54

1. Generalización de reglas de consistencia lógica ......................................................... 55

1.1 Estandarización de estructuras de datos en Colombia ........................................ 55

1.1.1 Lenguaje común de intercambio de información .......................................... 55

1.1.2 Directiva 22 de 2011 ..................................................................................... 58

1.2 Generalización de reglas de consistencia lógica ................................................. 59

1.2.1 Reglas basadas de valor a valor ................................................................... 60

1.2.2 Reglas basadas en un valor hacia expresiones regulares ............................ 60

1.2.3 Reglas de un valor hacia un rango de valores .............................................. 62

CAPÍTULO IV PROTOTIPO ........................................................................... 63

8. PROTOTIPO ............................................................................................................... 63

8.1 vista de anàlisis .................................................................................................... 64

8.2 Modelo de requerimientos .................................................................................... 65

8.3 Modelo de casos de uso ...................................................................................... 68

8.4 Modelo de dominio de datos ................................................................................ 70

8.5 Modelo estructural ................................................................................................ 71

8.6 Modelo dinàmico .................................................................................................. 79

8.7 Modelo de despliegue .......................................................................................... 83

8.8 Interfaz gráfica de usuario .................................................................................... 85

Page 8: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 8

9. Resultados ................................................................................................................... 89

9.1 aplicación del prototipo en lA plataforma distrital de datos abiertos. ................... 89

PARTE III CONCLUSIONES, REFERENCIAS, ANEXOS ..................... 95

CAPÍTULO V CONCLUSIONES, RECOMENDACIONES, REFERENCIAS ... 96

1. Conclusiones ............................................................................................................... 97

1.1 Matriz de contrastación de objetivos .................................................................... 97

10. Recomendaciones ................................................................................................... 99

11. Referencias ............................................................................................................ 100

CAPÍTULO VI ANEXOS ............................................................................... 102

Anexo A: Arquitectura del prototipo .................................................................................. 103

Anexo B: MANUAL TÉCNICO .......................................................................................... 104

Page 9: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 9

ÍNDICE DE TABLAS

Tabla 1. Descripción de los niveles de la categorización de estrellas ................................ 35

Tabla 2. Cantidad de conjuntos de datos por portal a diciembre 1 de 2017 ...................... 37

Tabla 3 Dimensiones metodología ODRA .......................................................................... 38

Tabla 4. Métricas de calidad para los datos (Pipino, Lee, & Wang, 2002) ......................... 47

Tabla 5. Campos a comparar para acceder a la coherencia .............................................. 50

Tabla 6. Extracción de la regla de consistencia lógica valor por valor ............................... 60

Tabla 7. Consistencia lógica a partir de longitud de las cadenas en el rango .................... 61

Tabla 8. Extracto de valores del conjunto de datos niveles del rio Bogotá ........................ 62

Tabla 9 Regla de consistencia de un valor hacia un rango de valores .............................. 62

Tabla 11. Valores de campos categoría y población ciclo vital .......................................... 91

ÍNDICE DE FIGURAS

Figura 1. Componentes de un modelo de negocio (Ahmadi Zeleti et al., 2016). ................ 28

Figura 2. Modelo de las 5 estrellas para los datos abiertos enlazados. ............................. 35

Figura 3. Búsqueda de elementos dato .............................................................................. 56

Figura 4. Descripción del elemento dato ............................................................................ 57

Figura 5. Formato y validación del dato .............................................................................. 57

Figura 6. Qué entidades usan el elemento dato buscado .................................................. 58

Figura 7. Estructura de la directiva 22 de 2011 .................................................................. 58

Figura 8. Extracción de regla de longitud de cadenas ........................................................ 61

Figura 9. Vista de Análisis .................................................................................................. 64

Figura 10. Modelo de requerimientos. ................................................................................ 65

Figura 11. Requerimientos funcionales .............................................................................. 65

Figura 12. Reglas del negocio ............................................................................................ 66

Figura 13. Requerimientos no funcionales ......................................................................... 66

Figura 14. Transporte ......................................................................................................... 67

Figura 15. Persistencia ....................................................................................................... 67

Figura 16. Modelo de Casos de Uso .................................................................................. 68

Figura 17. Actores .............................................................................................................. 68

Page 10: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 10

Figura 18. Casos de Uso Primarios .................................................................................... 69

Figura 19. Modelo de Dominio ............................................................................................ 70

Figura 20. Modelo estructural ............................................................................................. 71

Figura 21. Modelo de Clases del Sistema .......................................................................... 72

Figura 22. Paquete Modelo ................................................................................................ 73

Figura 23. Paquete Controlador ......................................................................................... 74

Figura 24. Paquete inspector .............................................................................................. 75

Figura 25. Paquete Datos ................................................................................................... 76

Figura 26. Paquete Portales ............................................................................................... 76

Figura 27. Paquete Archivos .............................................................................................. 77

Figura 28. Excepciones ...................................................................................................... 77

Figura 29. Frameworks ....................................................................................................... 78

Figura 30. Diagrama secuencia (DS) Iniciar Aplicación ..................................................... 79

Figura 31. DS Conectar al portal de datos abiertos ............................................................ 80

Figura 32. DS Obtener listado de conjuntos de datos ........................................................ 81

Figura 33. DS Descargar conjuntos de datos ..................................................................... 82

Figura 34. DS Cargar datos de archivos al sistema ........................................................... 83

Figura 35. Modelo de despliegue ....................................................................................... 83

Figura 36. Despliegue ......................................................................................................... 84

Figura 37. Artefactos .......................................................................................................... 84

Figura 38. Vista de portal de datos ..................................................................................... 85

Figura 39. Vista de parametrización del sistema ................................................................ 86

Figura 40. Vista Acerca De ................................................................................................. 86

Figura 41. Vista de Conjunto de datos ............................................................................... 87

Figura 42. Vista para dominios, datos y reglas de consistencia ......................................... 88

Figura 43. Aplicación de métrica de consistencia lógica, Categoría -> Poblaciòn ciclo vital

basada en el valor Primera infancia ................................................................................... 92

Figura 44. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital

basada en el valor No aplica .............................................................................................. 92

Figura 45. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital

basada en el valor Todas ................................................................................................... 92

Page 11: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 11

Figura 46. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital

basada en el valor Adultos ................................................................................................. 93

Figura 47. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital

basada en el valor Adultos mayores ................................................................................... 93

Figura 48. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital

basada en el valor Jóvenes ................................................................................................ 93

Figura 49. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital

basada en el valor Niñez .................................................................................................... 94

Figura 50 Crear nuevo usuario de Raspberry .................................................................. 105

Page 12: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

GLOSARIO

Para enfatizar el marco conceptual de este proyecto se definirán algunos términos

relacionados con el área de estudio a continuación, que permitirán delimitarlo aún más.

Gran parte de éstos términos fueron obtenidos del Open Data Handbook (Open knowledge

international, 2016).

API (Application Programming Interface): Una manera en que los programas

informáticos se hablan entre ellos. Puede ser entendido en términos de cómo un

programador envía instrucciones entre los programas.

Anonimización (Anonymisation): El proceso de adaptación de datos de manera que los

individuos no pueden ser identificados a partir de ella.

Conectividad (Connectivity): se relaciona con la habilidad de las comunidades para

comunicarse a Internet, especialmente a la World Wide Web.

Conjunto de datos (Dataset): Cualquier colección de datos organizada. Conjunto de datos

es un término flexible y puede referirse a una base de datos completa, una hoja de cálculo

u otro archivo de datos, o una colección de recursos de datos relacionados.

Creative Commons: Es una organización sin ánimo de lucro fundada en 2001 que

promueve el contenido reusable publicando a número de licencias estándar, algunas de

ellas abiertas (aunque otras incluyen cláusulas no comerciales), que pueden ser usadas

para liberar el contenido para el reúso junto con explicaciones clara cobre su significado.

CSV (Comma-separated values): Valores-separados por comas (CSV) es un formato

estándar para datos de hojas de cálculo. Los datos son representados en un archivo de

texto plano donde cada fila de datos se encuentra en una nueva línea y comas separando

los valores en cada fila. Este formato es extremadamente simple y altamente legible por

máquinas (Machine readable).

Datos (Data): Los datos pueden ser pensados de hecho como declaraciones atómicas sin

procesar. Muy a menudo se refiere a colecciones de información numérica en tablas de

números como hojas de cálculo o bases de datos. Cuando el dato es estructurado y

Page 13: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 13

presentado tal como será utilizado y relevante para un propósito particular, este se

transforma en información disponible para el entendimiento humano.

Datos abiertos (Open Data): Los datos abiertos pueden ser usados para cualquier

propósito. Son datos que son libres para acceder a ellos, usarlos, modificarlos y

compartirlos bajo condiciones que, como mucho, preserven su autoría y su apertura.

Datos abiertos gubernamentales (Open Government Data): “Abrir datos” producidos por

el gobierno. Esto es generalmente aceptado por ser datos recopilados durante el curso de

los negocios, como aquellas actividades habituales que no identifican a los individuos o

sensibilidad comercial. Abrir datos del gobierno es un subconjunto del término: “Información

del Sector público”, el cual es más amplio en su alcance.

Datos estructurados (Structured data): Todos los datos tienen cierta estructura, pero

datos estructurados se refiere a datos donde la relación estructural entre los elementos es

explícita en la forma en que los datos son almacenados en un disco de computadora. XML

y JSON son formatos comunes que permiten representar muchos tipos de estructuras. La

representación interna de, por ejemplo, documentos de procesamiento de texto o

documentos PDF reflejan el posicionamiento de los elementos en la página, pero la

estructura lógica es muy difícil o imposible de extraer automáticamente.

Datos primarios (Raw data): Los datos originales en un formato leíble por máquinas,

independiente de la aplicación, visualización, investigación publicada o interpretación, etc.

Derechos de autor (Copyright): El derecho de los creadores de las obras creativas para

restringir el uso de los demás de esas obras. Un dueño de los derechos de autor tiene

derecho a determinar cómo otros pueden usar ese trabajo.

Derechos de Propiedad Intelectual (Intellectual property rights, IP rights): Monopolios

otorgados a personas para las creaciones intelectuales

DOI (Digital Object Identifier): Es un identificador para un objeto digital (como un

documento o un conjunto de datos) que es asignado por un registro central y donde se

Page 14: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 14

garantiza que es globalmente único: no hay dos objetos digitales en el mundo con el mismo

DOI.

Dominio público (Public domain): No existen derechos de autor sobre el trabajo. No

existen en todas las jurisdicciones.

Editor (Publisher): Quien distribuye y hace disponible los datos u otro contenido. Entre los

editores de Datos se incluyen las entidades gubernamentales y las agencias,

establecimientos de investigación, ONG’s, organizaciones de medios, compañías

comerciales, etc.

Estándar (Standard): Una especificación publicada por ejemplo la estructura de un formato

de archivo en particular, la nomenclatura recomendada para usar en dominio particular, un

conjunto común de los campos de metadatos, etc. Conformar estándares relevantes

incrementa el valor de los datos publicados mejorando el procesamiento por máquinas

(Machine readable) y facilitando la integración de datos.

Estándar abierto (Open standards): En general se entiende estándares técnicos libres de

restricciones de licencias. También puede ser interpretado en el sentido los estándares que

se desarrollan de manera independiente del proveedor.

Información del Sector Público (Public Sector Information): Información recolectada o

controlada por el sector público.

Integración de datos (Data integration): Casi cualquier uso de datos interesante

combinará datos de diferentes fuentes. Para hacer esto es necesario asegurar que las

diferentes fuentes de datos sean compatibles: Se deben usar los mismos nombres para los

mismos objetos, las mismas unidades o coordenadas, etc. Si la calidad de datos no está

bien este proceso de integración de datos podría ser arduo. Una ayuda clave de datos

enlazados (Linked data) es hacer la integración de datos completamente o casi

automatizada. Datos no abiertos son una barrera a la integración de datos, obtener los

datos y establecer los permisos necesarios para usarlos consume tiempo y debe hacerse

de nuevo por cada conjunto de datos.

Page 15: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 15

Procesable por máquinas (Machine-readable): Los formatos procesables por máquinas

son aquellos en que sus datos pueden ser extraídos por programas de computadoras

fácilmente. Los documentos PDF no son procesables por máquinas. Las computadoras

pueden leer el texto muy bien, pero tienen grandes dificultades entendiendo el contexto que

los rodea.

Licencia de atribución (Attribution License): Una licencia que requiere que la fuente

original del material autorizado sea citada (atribuida).

Licencia Share-alike (Share-alike License): Una licencia que requiere que los usuarios

de un trabajo provean el contenido bajo condiciones similares o iguales a las del trabajo

original.

Metadatos (Metadata): Información acerca de un conjunto de datos como su título y

descripción, método de recolección, autor o editor, área y periodo de tiempo cubierto,

licencia, fecha y frecuencia de liberación, etc. Es esencial publicar datos con metadatos

adecuados que ayuden tanto en el descubrimiento como en la usabilidad de los datos.

Métricas (Metrics): Arte que trata de la medida o estructura de los versos, de sus clases y

de las distintas combinaciones que con ellos pueden formarse. En ingeniería de software

son las medidas destinadas a conocer o estimar el tamaño u otra característica de un

software o un sistema de información.

Periodismo de datos (Data journalism): La habilidad de trabajar con los datos es una

parte importante de las armas de un periodista. La habilidad necesaria para investigar y

contar una buena historia basada en datos incluye encontrar datos relevantes, limpiar los

datos, explorar o extraer los datos para entender cuál es la historia es contada y crear

mercancías.

Portal de datos (Data portal): Una plataforma Web para publicación de datos. El fin de un

portal de datos es proveer un catálogo de datos, haciendo que los datos no sólo estén

disponibles sino también con la capacidad de descubrimiento para los usuarios de datos,

mientras ofrecen un conveniente flujo de publicación para organizaciones que publican.

Típicamente las características son interfaces Web para publicar, para buscar y disponer

Page 16: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 16

del catálogo, APIs para habilitar la publicación automática desde otros sistemas y pre-

visualización de los datos.

Para el caso del portal de datos abiertos de Bogotá D.C. se utilizará una API relacionada

con la plataforma CKAN.

• CKAN (Comprehensive Knowledge Archive Network): Es una plataforma de

software open-source para la creación de portales de datos, creado y mantenido por

Open Knowledge. CKAN es usado como la plataforma oficial de publicación de

datos de cerca de 20 naciones y poderes locales, comunidades, científicas y otros

portales de datos. Características como metadatos configurables, interfaz de

usuario amigable para los editores y consumidores de datos, pre-visualización de

datos, niveles de autorización basados en la organización, y APIs que dan acceso

tanto a todas las características como a los datos.

Protección de datos (Data protection legislation): La legislación sobre protección de

datos, no se basa en proteger datos, pero sí en proteger el derecho de los ciudadanos de

poder vivir sin miedo en cuanto a que su información privada no se hará pública. La ley

protege la privacidad (ya sea información sobre el estado económico de una persona, su

salud o posición política), y otros derechos como el derecho a una libertad de circulación.

Por ejemplo, en Finlandia un sistema de tarjeta de transporte se utiliza para registrar todos

las veces que la tarjeta se muestra en la máquina lectora en diferentes líneas de transporte

público. Esto generó un debate desde la perspectiva de la libertad de circulación y la tarjeta

de viaje de recolección de datos fue abandonada sobre la base de la legislación sobre

protección de datos.

Para el caso colombiano la ley de protección de datos es la ley 1712 de 2014 (Colombia,

2014).

Protocolo de Acceso a Datos (Data Access Protocol): Un sistema que le permite a

terceros obtener acceso a bases de datos sin sobrecargar ninguno de los sistemas.

Recurso (Resource): CKAN usa este término para denotar uno de los objetos datos

individuales (ya sea un archivo de hoja de cálculo, or una API) en el conjunto de datos.

Page 17: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 17

Re-uso (Re-use): Uso del contenido de los datos por fuera de su intención original. En

formas que no estaban previstas cuando fueron recolectados, donde el custodio de los

datos lo hace disponible bajo una licencia que permita tal re-uso.

Registro de información (Information Asset Register): IARs son registrados

específicamente para capturar y organizar los meta-datos acerca de las enormes

cantidades de información en poder de los departamentos y organismos gubernamentales.

Un IAR integral incluye bases de datos, antiguos conjunto de archivos, últimos archivos

electrónicos, recopilaciones de datos, la investigación y así sucesivamente. Las IARs

pueden ser desarrollados de diferentes maneras. Los departamentos de Gobierno pueden

desarrollar sus propias IARs y éstas pueden asociarse a IARs nacionales. Las IARs pueden

incluir información del sector público que no ha sido -y quizás no sea- publicada

proactivamente. Por lo tanto, permite a miembros del público identificar información que

existe y puede ser requerida. Para que el público use estos IARs, es importante que cada

registro de información sea lo más completo posible para tener seguridad de que los

documentos puedan encontrarse. Que algunos registros estén incompletos es un problema

porque crea cierto grado de incertidumbre que puede desincentivar a algunas personas de

usarlos para buscar información.

Es muy importante que los metadatos en el IAR sean exhaustivos de manera que los

motores de búsqueda funcionen de manera efectiva. En el espíritu de las iniciativas de

Datos Abiertos de Gobierno, éste debería disponibilizar sus IARs al público en general como

datos crudos bajo licencia abierta, así hackers cívicos pueden usarlos, por ejemplo, para

construir motores de búsqueda o interfaces.

Transparencia: Gobiernos y otras organizaciones deben propender porque su trabajo y

procesos de tomas de decisiones estén bien entendidas, adecuadamente documentadas y

abiertas a escrutinio, Transparencia es uno de los aspectos del gobierno abierto. Un

incremento en la transparencia es uno de los beneficios de los datos abiertos.

Software como servicio, SaaS (Software as a Service): es un programa de software que

se ejecuta, no en la máquina del usuario, sino en las máquinas de una compañía de hosting,

a las cuales el usuario accede desde la Web. El host mantiene asociado el almacenamiento

Page 18: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 18

de los datos y normalmente cobra un valor por el uso del servicio o lo monetiza mediante

otros mecanismos.

URI / URL (Uniform Resource Identifier / Uniform Resource Locator): Una URL es la

dirección web http://… de alguna página o recurso. Cuando una URL es usada para enlazar

datos como el identificador de algún objeto, este no es estrictamente un localizador del

objeto en sí sino de una representación del mismo, entonces en este contexto es conocido

como una URI.

Web API: que es diseñado para funcionar en Internet.

Page 19: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

RESUMEN

Actualmente en Colombia se han dado pasos en dirección a la transparencia institucional y

uno de los componentes más importantes para ese fin es la publicación de información en

formatos los cuales puedan ser analizados por personas mediante sistemas de información

y usando datos abiertos. Gracias a lo anterior se genera conocimiento dentro de las

entidades gubernamentales a partir de datos abiertos gubernamentales. Este proyecto lo

que busca es que los conjuntos de datos abiertos cumplan con requisitos mínimos de

calidad específicamente relacionadas a sus propias métricas de consistencia lógica. Con

esto el conocimiento que se pueda generar a partir de los datos sea un conocimiento fiable.

PALABRAS CLAVE

Gobierno abierto, Transparencia, Datos abiertos, Calidad en datos abiertos, Consistencia

Lógica.

ABSTRACT

Currently in Colombia steps have been taken in the direction of institutional transparency

and one of the most important components for this purpose is the publication of information

in formats which can be analyzed by people through information systems and using open

data. Thanks to the above, knowledge is generated within government entities based on

open government data. This project is looking for open datasets to meet minimum quality

requirements specifically related to its own logical consistency metrics. With this the

knowledge that can be generated from the data is reliable knowledge

KEYWORDS

Open Government, Transparency, Open Data, Open Data Quality, Logical Consistency.

Page 20: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

PARTE I FUNDAMENTO DE LA INVESTIGACIÓN,

DATOS ABIERTOS EN COLOMBIA,

METRICAS DE CALIDAD

Page 21: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 21

CAPÍTULO I DESCRIPCIÓN DE LA INVESTIGACIÓN

Este capítulo contiene:

Planteamiento del problema

Justificación del proyecto

Hipótesis

Objetivo general

Objetivos específicos

Metodología utilizada

Page 22: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

INTRODUCCIÓN

Gracias a las tecnologías de la información, las entidades públicas han podido dinamizar

su interacción con el ciudadano de una manera rápida y efectiva. Liquidación y pagos de

impuestos, pagos de servicios públicos, peticiones y reclamos entre otras son de los

trámites que hoy se pueden hacer vía electrónica tal y como se hicieran presencialmente.

Gracias a esto los ciudadanos tienen más calidad de vida porque ahorran tiempo y dinero

en desplazamientos y en espera de ser atendidos.

Todos esos trámites dejan una traza en la atención realizada vía electrónica la cual es

susceptible de analizar y de la cual se pueden mejorar los modelos de atención, permitiendo

saber la cantidad recursos que se deben asignar para poder atender todas aquellas

solicitudes, y priorizar los servicios más utilizados. A estas trazas se les podrían realizar

una apertura de datos para que tanto el sector gobierno como los mismos ciudadanos

realicen dichos análisis y brinden soluciones que logren resultar en emprendimientos con

todos los beneficios que ello traería.

Los datos abiertos hacen referencia a una pieza de contenido de las organizaciones, la cual

es libre de usar, reusar y redistribuir por cualquier persona y organización. Por esto, el

concepto de datos abiertos de gobierno (Open Government Data) se refiere a los datos que

se ponen a disposición de forma gratuita para el interés del público en general, para difundir

y para su reutilización sin ningún tipo de limitaciones. En el caso ideal los datos abiertos

guiarán a las organizaciones a más transparencia, participación e innovación de la sociedad

(Reiche & Hofig, 2013). Los datos abiertos son así un mecanismo de generación de valor

en sí mismo tanto de información como económico que son de gran utilidad en países con

ciudadanos que como Colombia no son de grandes ingresos.

Este proyecto lo que busca es fijar unas condiciones mínimas de calidad en los conjuntos

de datos abiertos mediante el hallazgo de métricas de consistencia lógica propias de cada

conjunto de datos. Como objeto de estudio se analizó la plataforma distrital de datos

Page 23: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 23

abiertos debido a que es el entorno con que más experiencia cuenta el autor, lo que redujo

la curva de aprendizaje ostensiblemente.

Este libro está dividido en tres grandes partes; En la primera parte se desarrollará el

problema de investigación, el estado actual o el estado del arte correspondiente al área de

conocimiento de los fundamentos de los datos abiertos y las métricas de calidad usadas en

los conjuntos de datos; En la segunda parte encuentra la definición de las reglas de

consistencia lógica y la realización del prototipo; En la tercera parte se desarrollan las

conclusiones, las referencias y los anexos.

Page 24: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

1. PROBLEMA DE INVESTIGACIÓN

1.1 PLANTEAMIENTO DEL PROBLEMA

Los datos abiertos enlazados (Link Open Data, LOD) o Web de datos son un conjunto de

buenas prácticas para la publicación y conexión de datos estructurados, lo que permite a

los proveedores de datos hacer públicos sus datos disponibles y los más importante

enlazarlos a otras fuentes de datos disponibles en la Web. Sin embargo, el principal objetivo

del LOD subyace en la creación de nuevo conocimiento debido a las diferentes

interconexiones entre los conjuntos de datos que se empiezan a dar de manera emergente,

alejadas de la intencionalidad o propósito de quién publica los datos.

Dada la generación de dicho conocimiento mediante la interconexión entre datos, surge la

inquietud de generar un conocimiento no susceptible a errores y por lo tanto se requiere

realizar procedimientos de calidad sobre los conjuntos de datos. Por ejemplo en el artículo

(Zaveri et al., 2013), se puso en evidencia la falta de calidad en los conjuntos de datos que

se encuentran en el buscador semántico DBPedia porque realiza un estudio en donde

encuentra que hay una tasa de 11.93% de problemas que tienen que ver con la calidad de

los conjuntos de datos. Por ejemplo, un análisis semiautomático reveló cerca de 200.000

inconsistencias en las propiedades de los conjuntos de datos en tan solo un valor.

De lo anterior se puede evidenciar que los errores de calidad en los conjuntos de datos son

bastante frecuentes por lo que se hace necesario aplicar métricas para mejorar el

conocimiento que se puede obtener de un conjunto de datos.

1.2 FORMULACIÓN DEL PROBLEMA

¿De qué manera las métricas de consistencia lógica pueden servir para mejorar la calidad

de los conjuntos de datos abiertos de la plataforma distrital de datos abiertos?

Page 25: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 25

1.3 SISTEMATIZACION DEL PROBLEMA

¿Qué mecanismos de aseguramiento de la calidad tanto en la publicación de conjuntos de

datos existen actualmente?

¿Cuáles procedimientos existen para mejorar la calidad de datos en la que no haya

intervención humana?

¿Cuáles son los aspectos técnicos, características y funciones de dichos mecanismos que

pueden aplicarse a los datos abiertos?

¿Cuáles de los mecanismos detectan la inconsistencia lógica de los conjuntos de datos?

¿Cómo conformar las reglas de consistencia lógica para evaluar la calidad de los conjuntos

de datos abiertos?

¿De qué manera la consistencia lógica de diversos conjuntos de datos puede ser medida

sin la intervención humana?

Page 26: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

2. JUSTIFICACION

El estado colombiano ha venido trabajando en como facilitar su relación e interacción con

el ciudadano por lo que en 2014 decretó una estrategia Gobierno En Línea (MinTIC, 2014),

que ya tiene su segunda versión, en la que ha definido que las entidades gubernamentales

deben “aprovechar al máximo las tecnologías de la información y las comunicaciones para

contribuir en la construcción de un estado abierto a sus ciudadanos, más eficiente, más

transparente, más participativo y que preste mejores servicios”. Lo que traduce en que se

deben evolucionar los servicios que prestan a sus ciudadanos a un ambiente no presencial.

Para medir el cumplimiento de dicho decreto se ha adoptado un índice GEL que tiene unos

tiempos de cumplimiento por parte de las entidades.

Uno de los pilares de dicha estrategia es la relacionada con el gobierno abierto que permite

que los ciudadanos tengan acceso a gran parte de la información que producen las

diferentes entidades, esto apoyado a través de la ley 1712 de 2014 conocida como la ley

de transparencia (Colombia, 2014), Dicha ley obliga a las entidades a realizar una apertura

de datos y también establece algunas excepciones a datos que no se deben abrir al público

(datos relacionados con la salud de la población o con la seguridad nacional , entre otros).

Dado el papel activo de Colombia en esta materia, desde el año 2013 ha venido siendo uno

de los países con mayor crecimiento en el campo de datos abiertos no sólo en

Latinoamérica sino también en el mundo. Esto lo dicen dos de los organismos más

importantes encargadas de medir las iniciativas datos abiertos a nivel mundial el Open Data

Barometer, que mide tres aspectos la preparación, la implementación y el impacto, en el

cual Colombia se encuentra en el puesto 28 con un puntaje de 45.39 (World Wide Web

Fundation;Development, 2016); Y el Global Open Data Index, que mide la cantidad y

diversidad de datos en diferentes áreas (estadísticas nacionales, presupuesto y gasto

gubernamental, legislación, resultados electorales, etc.), en el cual Colombia se encuentra

en el puesto 4 (Knowledge, 2016). Y aunque falta mucho camino por recorrer con respecto

a estos, demuestra que tiene gran potencial a nivel de transparencia ya que conllevan a

emprendimientos y a investigaciones académicas y periodísticas.

Page 27: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 27

Aunque estos dos índices mundiales reflejan un crecimiento muy importante de los

colombianos en la publicación de Datos Abiertos, sigue siendo muy pocos las

implementaciones que han logrado darle un uso a adecuado a estos. Debe fortalecerse el

uso de datos abiertos para que existan casos de éxito como por ejemplo las iniciativas

privadas como el Proyecto Bogotá Cómo Vamos el cual se ha creado para evaluar los

cambios en la calidad de vida de la ciudad a través de un seguimiento al cumplimiento del

Plan de Desarrollo de los mandatarios (Cámara de Comercio, El Tiempo, & Corona, 2016).

Por otra parte gracias a un estudio conocido como el Plan Maestro TIC 2016 - 2024,

realizado por un convenio entre la universidad Javeriana y por la Alta Consejería Distrital

de TIC, se hizo evidente que dentro de las entidades distritales sucede algo particular, el

promedio de trabajadores en los departamentos de Ti de las entidades públicas es de 3

personas, sin desconocer que hay entidades con 17 personas y otras entidades en las que

ni siquiera existe un departamento de TI. La falta de personal capacitado y la ausencia de

departamentos de TI dificultan la tarea para hacer apertura de datos. Lo anterior genera la

oportunidad de hacer sistemas cada vez más independientes de la interacción humana.

Existen gran variedad de herramientas para el manejo de datos, tanto de software libre

(Free) y de código abierto (Open Source) como propietario, que prestan sus productos tanto

de tipo aplicación (Standalone) como en la nube mediante software como servicio (SaaS),

muchos de estos son utilizados en Colombia. Sin embargo, mientras se dan a conocer los

usos de estas nuevas tecnologías dentro del distrito se pueden usar herramientas de uso

libre que demuestren fielmente el propósito de agregar valor a la información que se tiene

almacenada en los distintas fuentes de datos, generando conocimiento al interior de las

entidades.

Por eso surge la inquietud de mejorar el modelo de calidad actual que permita hacer análisis

sobre datos con cada vez mejor calidad, que le permita dar valor al uso de los datos

abiertos, y que permita mediante un entorno visual explicar las características básicas de

dichos análisis, lo anterior basado en software libre o de código abierto.. Abrir los datos de

gobierno permitirá entrega de nuevos servicios de alta calidad, reducción de costos de

operación, y estimular la innovación abierta en negocios y organizaciones gubernamentales

(Manyika et al., 2013).

Page 28: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 28

Es de vital importancia asegurar el valor económico de los datos abiertos como un activo

de las organizaciones y considerar las oportunidades de negocios que se puede obtener,

los gobiernos deben desarrollar la capacidad de sostener la disponibilidad de alta calidad

de los datos abiertos como núcleo de entrada para la industria de datos abiertos. Una forma

en que una organización puede darle valor a sus datos abiertos es a través de un modelo

de negocios acorde a los intereses de la organización, teniendo en cuenta los cuatro

componentes descritos en la Figura 1. (Ahmadi Zeleti, Ojo, & Curry, 2016).

Figura 1. Componentes de un modelo de negocio (Ahmadi Zeleti et al., 2016).

Cobra importancia que la apertura de esos conjuntos datos se realice con los debidos

estándares de calidad o sino con un mecanismo que permita evaluar calidad a dichos

conjuntos de datos.

Page 29: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

3. HIPÓTESIS

Se puede mejorar la calidad de los datos abiertos hallando algunas métricas de consistencia

lógica propias de cada conjunto de datos de la plataforma distrital de datos abiertos y luego

aplicando cada métrica al conjunto de datos respectivo para encontrar su porcentaje de

registros válidos.

Page 30: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

4. OBJETIVOS

4.1 OBJETIVO GENERAL

Diseñar un conjunto de reglas que permita crear las métricas de consistencia lógica para

evaluar cada conjunto de datos publicado en la plataforma distrital de datos abiertos que

permita identificar qué registros del conjunto de datos no cumplen con las métricas de

consistencia lógica y así obtener el índice de calidad según cada métrica.

4.2 OBJETIVOS ESPECÍFICOS

1. Recopilar información para elaborar el estado actual de los datos abiertos en el

distrito capital, en cuanto a estructuras de datos, normatividad, políticas y

herramientas utilizadas.

2. Definir las reglas de consistencia lógica a utilizar para el desarrollo del modelo de

integración.

3. Seleccionar el portal de datos abiertos sobre los cuales se evaluará el modelo.

4. Evaluar y aplicar las reglas de consistencia lógica al portal de datos abiertos y

analizar los resultados.

Page 31: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

5. METODOLOGÍA

Esta tesis se realizó teniendo en cuenta el siguiente diseño metodológico:

5.1 RECOPILACIÓN DE LA INFORMACIÓN

Se estimaron los últimos avances en materia de datos abiertos como política de

transparencia en el distrito capital en los siguientes contextos:

Normativo: Relacionado con la reglamentación nacional que afecta al distrito como la propia

distrital enfocados en la determinación, publicación y uso de los conjuntos de datos abiertos.

Técnico: Herramientas utilizadas para extraer, transformar, cargar y publicar los conjuntos

de datos abiertos.

Político: Relacionado con la adopción de dichas políticas por cada uno de los funcionarios

públicos

5.2 SELECCIÓN DE LAS HERRAMIENTAS

Se estimaron las herramientas conceptuales y tecnológicas que permitan el mejoramiento

de los datos abiertos aplicando reglas de consistencia lógica.

Formatos de archivo abiertos, que permitan al usuario acceder mediante el uso de

herramientas de software libre o de código abierto.

Tipos de licenciamiento de los conjuntos de datos. Que permitan extraer información de los

datos sin ninguna restricción.

Calidad de las fuentes de datos, archivos o bases de datos (Estructuradas, no

estructuradas) y/o servicios web, que permitan el acceso a los datos.

Page 32: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 32

Tableros de mando de software libre o de código abierto que permitan conocer el estado

en cada etapa del análisis.

5.3 SELECCIÓN DEL CONJUNTOS DE DATOS

Se seleccionaron los conjuntos de datos de la plataforma distrital de datos abiertos el cual

se está disponible en la URL dispuesta por el distrito. Algunos de estos conjuntos

cumplieron con una calidad mínima para ser útiles para el análisis.

5.4 DISEÑO DEL PROTOTIPO FUNCIONAL

Se diseñó y desarrolló el modelo de calidad propuesto de manera experimental siguiendo

la metodología RUP. De tal forma que se cumpla con los requerimientos provistos en el

objetivo uno y que cumpla con parámetros de calidad mínimos que satisfagan necesidades

del modelo propuesto. Se definió como datos de pruebas el portal de datos abiertos del

Distrito Capital.

Page 33: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

CAPÍTULO II DATOS ABIERTOS, CALIDAD EN

CONJUNTOS DE DATOS

Este capítulo contiene:

DATOS ABIERTOS

Paradigma de datos abiertos

Portales de datos abiertos en Colombia

Informe ODRA del banco mundial para Colombia

CALIDAD EN CONJUNTOS DE DATOS

Métricas de calidad

Calidad basada en Ontología

Page 34: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

6. DATOS ABIERTOS

6.1 PARADIGMA DE DATOS ABIERTOS

Tim Berners-Lee creador de la WWW (World Wide Web), lidera el consorcio para la WWW

(W3C) el cual busca construir una tecnología para soportar la Web de datos, la clase de

datos que se pueden encontrar en una base de datos, la cual tiene como objetivo hacer

más útiles los computadores para trabajar y desarrollar sistemas que puedan soportar

interacciones confiables sobre la red (Kim & Hausenblas, 2012). Debido a este objetivo

surge el concepto de datos abiertos (Open data), los cuales están compuestos por

conjuntos de datos que se pueden enlazar a otros conjuntos de datos, concepto conocido

como datos abiertos enlazados (Linked Open Data, LOD), éstos últimos son la base del

concepto de Web Semántica (Semantic Web)(Tim Berners-Lee, 2006), concepto

relacionado para brindar tanto el significado como el contexto de la información.

Por lo anterior Tim Berners-Lee diseñó un esquema de categorización para los conjuntos

de datos conocida como las 5 estrellas la cual se describe en la siguiente Figura 2. Y donde

los conjuntos de datos deben cumplir con ciertas características para cumplir con el objetivo

final de datos que mediante sus relaciones con otros datos obtengan valor mediante la Web.

Page 35: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 35

Figura 2. Modelo de las 5 estrellas para los datos abiertos enlazados.

Cada nivel de estrellas debe cumplir con los requisitos del nivel anterior tal y como se

explica en la Tabla 1.

Tabla 1. Descripción de los niveles de la categorización de estrellas

★ Datos disponibles en la web con una Licencia abierta (OL, Open license)

para ser datos abiertos.

★★ Disponible como datos procesables por máquinas (RE, Machine-readable)

por ejemplo datos en Excel en vez de imágenes escaneadas de una tabla.

★★★ Datos en formato no propietario. Formato abierto (OF, Open Format). CSV

en vez de Excel.

★★★★ Usar estándares abiertos de W3C (RDF y SPARQL) para identificar los

datos usando un Identificador de recurso universal (URI, Universal Resource

identifier) y así permitir que algunos datos puedan apuntar hacia tus datos.

★★★★★ Enlazar sus datos a datos ya existentes para proveer un contexto. Datos

enlazados (LD, Linked Data).

Page 36: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 36

Los datos abiertos de gobierno (Open Government Data) son considerados abiertos,

primero si cumplen con mínimo la categoría de 3 estrellas y además si son publicados

siguiendo los siguientes principios o características:

• Completos: Todos los datos públicos deben estar disponibles. Los datos públicos

no contemplan datos privados ni limitaciones de seguridad o privilegios.

• Primarios: Los datos deben ser recolectados en la fuente de origen, con el nivel de

granularidad más alto posible, no en forma agregada ni modificada.

• Oportunos: Los datos deben estar disponibles tan rápido como sea necesario para

garantizar el valor de los mismos.

• Accesibles: Los datos deben estar disponibles para el rango más amplio de usuarios

y para el rango más amplio de propósitos.

• Procesables por máquinas: Los datos deben estar estructurados razonablemente

para permitir un procesamiento automático.

• No discriminatorios: Los datos deben estar disponibles para cualquiera persona, sin

requerir un registro.

• No propietarios: Los datos deben estar disponibles en un formato sobre el cual

ninguna entidad tiene un control exclusivo.

• Libres de licencias: Los datos no deben estar sujetos a ningún derecho de autor,

patente, marca registrada o regulaciones de acuerdo de secreto. Se podrán permitir

restricciones razonables de privacidad, seguridad o privilegios.

6.2 PORTALES DE DATOS ABIERTOS EN COLOMBIA

En Colombia, dada la estrategia gobierno en línea y la ley de protección de datos las

entidades distritales deben cumplir con el ítem de transparencia en el componente de

gobierno abierto. Por lo que desde el MinTIC se ha puesto a disposición el sitio de datos

para Colombia (Ministerio de Tecnologías de la Información y las Comunicaciones, 2016)

que está sobre la plataforma SOCRATA. En este portal deben subir los conjuntos de datos

las entidades públicas de carácter nacional. Dado que la publicación de conjuntos de datos

está reglamentada bajo una ley, estas entidades deben cumplir con estas publicaciones

Page 37: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 37

dado que los entes de control (Contraloría, personería y procuraduría), realizan las

auditorías necesarias para que esto se cumpla y así evitar posibles hallazgos.

Dos municipios han realizado su propia implementación de portal de datos abiertos con el

fin de dar cumplimiento a la ley, estos son:

• Bogotá (D.C., 2015) que ha utilizado la plataforma CKAN y en donde se encuentran

35 conjuntos de datos para la disposición de datos.

• y Tuluá (Alcaldía de Tuluá, 2015) que ha utilizado la plataforma JUNAR en donde

existen 14 conjuntos de datos y luego migró su plataforma a CKAN con 214.

En Colombia en los distintos portales de datos abiertos (Nacional, Bogotá y Tuluá) los

conjuntos de datos existentes están en la categoría de 3 estrellas, es decir están en formato

CSV.

Tabla 2. Cantidad de conjuntos de datos por portal a diciembre 1 de 2017

Portal Cantidad de conjuntos de datos

Datos con categoría de 3 estrellas

www.datos.gov.co 6698 6698

datosabiertos.bogota.gov.co 5 5

datos.tulua.gov.co 214 214

6.3 INFORME ODRA DEL BANCO MUNDIAL PARA COLOMBIA

El ministerio TIC en convenio con el banco mundial, realizaron un análisis en el año 2015

sobre el estado actual de los datos abiertos en Colombia utilizando la metodología ODRA

(Open Data Readiness Assesstment), que evalúa 8 dimensiones ver Tabla 3, la cual ha sido

aplicada en varios países de la región. En esta metodología se destaca la estrategia

gobierno en línea en su apoyo al avance de las TIC en el sector público para hacer un

estado abierto, transparente y participativo. En donde una de las cuatro líneas principales

de actuación es el uso de las TIC para una mejor prestación de servicios públicos, que

busca asegurar las interacciones en línea de los ciudadanos con las entidades públicas,

Page 38: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 38

con altos estándares de calidad y atender las necesidades reales de los usuarios. En este

aparte se hace énfasis en la importancia de la calidad en los datos abiertos para el gobierno.

Con respecto a la dimensión 1 en su numeral 3 dice que “Se aprecia una fortaleza

institucional en el entramado de políticas relacionadas con la apertura de datos, con una

mención especial para la estadística pública, que ofrece excelentes resultados en calidad

e innovación.”

“Uso de las TIC para una mejor prestación de servicios públicos, que buscan asegurar las

interacciones en línea de los ciudadanos con las entidades públicas, con altos estándares

de calidad y atender las necesidades reales de los usuarios.” Para esto se debe contar con

datos con requisitos mínimos de calidad que sirvan de fuente para los procedimientos de

análisis y búsqueda de nuevos conocimientos.

Tabla 3 Dimensiones metodología ODRA

DIMENSIÓN 1 ALTO LIDERAZGO

DIMENSIÓN 2 POLÍTICAS Y MARCO LEGAL

DIMENSIÓN 3 ESTRUCTURAS INSTITUCIONALES, RESPONSABILIDADES Y

CAPACIDADES EN EL GOBIERNO

DIMENSIÓN 4 GESTIÓN Y DISPONIBILIDAD DE DATOS PÚBLICOS

DIMENSIÓN 5 DEMANDA DE DATOS ABIERTOS

DIMENSIÓN 6 CAPACIDAD Y COMPROMISO EN LA SOCIEDAD

DIMENSIÓN 7 FINANCIACIÓN DE LA INICIATIVA DE DATOS ABIERTOS

DIMENSIÓN 8 DESARROLLO TECNOLÓGICO Y SOCIEDAD DE LA

INFORMACIÓN

Con respecto a la dimensión 2 en su numeral 3 se resalta La Resolución 052 de 2009 de la

Comisión de Regulación de Comunicaciones. Con relación a la seguridad de los datos e

información se establece que los proveedores de redes y/o servicios de

telecomunicaciones, deberán adoptar mecanismos que garanticen el manejo confidencial,

la integridad y la disponibilidad de los datos de los suscriptores y usuarios.

Page 39: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 39

Con respecto a la dimensión 3 en su numeral 4 muestra que entre 2008-2014 Colombia

emprende aún una nueva reforma de su sistema de monitoreo y evaluación, con la

colaboración del Banco Mundial, en el marco del proyecto “Fortalecimiento de la

información pública, seguimiento y evaluación para la gestión por resultados en

Colombia(World Bank, 2015)” (CONPES 3515). Con esta reforma se pretendía minimizar

los problemas detectados en el período anterior, profundizar en la implantación del sistema

en los niveles subnacionales y acercar la rendición de cuentas a la ciudadanía. Esta consta

de cuatro componentes, donde el cuarto reza “Componente 4: Establecer mecanismos para

mejorar la calidad y la relevancia de la información pública”.

Con respecto a la dimensión 3 en su numeral 5 resalta que el Departamento Administrativo

Nacional de Estadística (DANE) coordina el Sistema Estadístico Nacional (SEN) (DANE,

2015) conformado por productores, instrumentos, fuentes de información, principios,

normas, infraestructura humana y técnica, políticas y procesos técnicos. Esta función de

coordinación se ejerce a través de los instrumentos de planificación, normas y estándares

y calidad estadística, en cumplimiento del decreto Ley 4178 de 2011, Decreto 3851 de 2006

y Decreto 262 de 2004.

La producción de las estadísticas oficiales, que deben ser avaladas por el DANE, se da a

través de la aplicación de procesos estadísticos (censos, encuestas, uso de registros

administrativos), metodologías, normas, estándares y la aplicación de parámetros de

calidad internacionalmente aceptados. Hay un fuerte enfoque hacia la producción de datos

de calidad, haciendo uso de los registros administrativos como fuente preferente, y hacia el

apoyo a la toma de decisiones públicas.

Para el fortalecimiento del SEN, el DANE estableció el Código Nacional de Buenas

Prácticas para las Estadísticas Oficiales (Sistema Estadístico Nacional, 2015). Este es un

conjunto de reglas prácticas que permite el mejoramiento de la calidad y la credibilidad de

las estadísticas requeridas para el diseño, la formulación, el seguimiento y la evaluación de

planes, programas y políticas públicas.

Page 40: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 40

El DANE publica datos en abierto de buena calidad y utiliza estándares para la definición

de metadatos: DDI, RDF, Dublin Core. Con 78 conjuntos de datos, es la entidad que más

conjuntos de datos aporta al portal de datos abiertos.

Con respecto a la dimensión 4 en su numeral 1 por su parte y en cumplimiento de sus

funciones, MinTIC viene implementando una serie de elementos de soporte para apoyar el

proceso de apertura de datos conocido como guías para la depuración y control de calidad

de datos abiertos

Con respecto a la dimensión 4 numeral 2 hablan en cuanto a la información que se recoge

en los registros de activos, es relevante la adecuación del formato actual de la plantilla de

activos a los estándares internacionales para la gestión de metadatos en la publicación de

datos abiertos. No obstante, se echa en falta una adaptación de la plantilla para indicar qué

metadatos deben ser de obligada inserción y cuáles pueden tener un carácter opcional, con

el fin de facilitar la tarea de preparación para la publicación como datos abiertos y de esta

forma la calidad de los metadatos.

Con respecto a la dimensión 4 numeral 3 se refieren al dominio de información, el marco

de referencia de la Arquitectura Empresarial establece los principios de fuente única y oficial

de la información, de calidad, como bien público, en tiempo real, segura y orientada a

servicio.

Si bien se trata de un marco de referencia exhaustivo, se detecta una falta de sincronía con

la política de datos abiertos. Un ejemplo de ello es la guía técnica para el gobierno del dato

que a pesar de tratar de describir los pasos del gobierno del dato desde diferentes enfoques:

administración del dato maestro, arquitectura del dato, custodia, calidad y gestión de la

demanda, no se tiene en cuenta explícitamente la vinculación con la apertura de datos

desde el punto de vista de su exposición y consumo a través de la plataforma de datos

abiertos. Se introduce incluso el concepto de ‘tienda de datos’ para describir un ecosistema

participativo y colaborativo de intercambio de información pública sin aludir a la existencia

del portal de datos abiertos.

La situación actual respecto a la gestión de TI en las entidades muestra un escenario poco

favorable para incluir la política de apertura de datos abiertos como servicio en las entidades

Page 41: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 41

del Estado. En lo concerniente a la calidad de los datos y según las evidencias obtenidas

de conversaciones mantenidas con gestores TI de nivel alto se infiere que en las entidades

existen múltiples fuentes de información no consolidadas ni soportadas por los mismos

sistemas. No hay planes de oficialización y producción de información. Muchos orígenes de

datos se limitan a documentos en Excel en posesión de empleados públicos para el

cumplimiento de sus funciones. Esto produce una fuerte debilidad en la calidad de los datos.

La visión de forma general que tienen algunos reutilizadores del ámbito académico sobre

el estado de preparación de las entidades para la apertura de datos, es la de que, las

entidades están poco preparadas para llevar adelante una práctica de apertura de datos de

forma sistemática. Señalan varios problemas: inestabilidad de los sitios web para descarga

de ficheros que contienen datos (orientación de sitios web a contenidos estáticos); la calidad

de los datos es baja; no hay APIs públicas para gestionar eficientemente los accesos a

fuentes de datos y el acceso a bases de datos de alto valor se suele realizar a través de la

formalización de convenios de colaboración (y no en pocos casos, lo que funciona

realmente es la relación personal).

Con respecto a la dimensión 4 numeral 5 hacen referencia al Plan Nacional de Desarrollo

(PND) 2010-2014, que incidía en la necesidad de definir las políticas y el marco normativo

necesario para que las entidades dispusieran de forma asequible, segura y con calidad de

datos de interés público para su reutilización. Es en el PND 2014-2018, donde se insta a

las entidades estatales a adoptar y aplicar los estándares, modelos, lineamientos y normas

técnicas definidos por el MinTIC para el impulso de la publicación de datos abiertos.

Además, Colombia se encuentra participando en el proceso de discusión y adopción de la

declaración G8 Open Data Charter, cuyo principio 1 es precisamente Datos Abiertos por

defecto.

Sin embargo, los responsables de la iniciativa declaran que existen problemas para el

sostenimiento de la iniciativa, entre otros: falta de entendimiento por parte de las entidades

municipales sobre las oportunidades de la apertura de datos, débil control de calidad de los

datos, carga de datos absolutamente manual (no se han planteado la implementación de

ETLs de acceso a orígenes de datos) y escaso fomento de la reutilización.

Page 42: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 42

Con respecto a la dimensión 4 numeral 7 el IGAC e IDEAM son entidades especializadas

en el tratamiento y publicación de información de contenido geo-referenciado, al igual que

IDECA de la Alcaldía de Bogotá. Muchos de los datos alfanuméricos que publican las

entidades carecen de procesos de geo-referenciación de tales datos lo cual afecta en la

calidad de los datos.

Entre los sectores estratégicos planteados en el mapa de ruta de Gobierno en Línea para

el año 2015, el sector estratégico de Educación y concretamente calidad y cobertura

educativa, presenta el escenario más favorable para desarrollar una estrategia de apertura

con garantía de éxito que ayude a dinamizar la apertura de datos en el resto de sectores.

Existe una iniciativa ciudadana organizada en varias ciudades (también en otros países):

Red de ciudades “Cómo Vamos” (Barranquilla, Yumbo, Valledupar, Pereira, Medellín,

Manizales, Ibagué, Cartagena, Cali, Bucaramanga, Bogotá) que está conformada por

diferentes entidades como empresas privadas, la academia, medios de comunicación y

Cámaras de Comercio. Anualmente hacen seguimiento de distintos temas de ciudad y

sistemáticamente emiten datos comparativos de la percepción ciudadana de cómo va la

ciudad en gobierno, salud, educación, seguridad, movilidad calidad de vida, servicios

públicos, recreación, etc

Con respecto a la dimensión 5 numeral 4 dice que la periodicidad de la publicación es

variable en función del tipo de información. Según perciben los demandantes de

información entrevistados, los plazos exigidos por la ley de acceso a la información si se

cumplen en su mayoría, sin embargo, su satisfacción respecto a la calidad de la información

obtenida no es alta, ya que manifiestan que muchas veces esta información ofrecida o es

incomprensible o difícil de extrapolar, o los formatos no son los adecuados para el

tratamiento.

Con respecto a la dimensión 7 numeral 1 Los periodistas aseguran que el actual portal de

datos abiertos del gobierno de Colombia no es una fuente a la que recurran porque

desconfían de la calidad de los datos, y lo consideran insuficiente. Aseguran que el portal

no cuenta con conjuntos de datos ni de alta calidad, ni gran cantidad, ni con gran valor o

interés para ellos. Así mismo aseguran que sus propios colegas de profesión desconocen

Page 43: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 43

la existencia del propio portal por lo que no lo tienen considerado como una fuente de

información a la que recurrir, ni esporádica, ni asiduamente.

Los periodistas entrevistados reclaman capacitación, apoyo económico de los medios y

apertura de datos de calidad por parte del Estado.

Con respecto a la dimensión 7 numeral 3 se refiere a que se cuenta además con un equipo

humano dedicado en exclusiva a la gestión de la iniciativa, control de calidad de conjuntos

de datos, apoyo técnico a las entidades y formación y capacitación de los agentes

colaboradores.

6.3.1 Recomendaciones con respecto a algunas entidades

DANE ya está ofreciendo una amplia variedad de servicios en abierto de alta calidad sin

embargo debe potenciar el uso de datos geo-referenciados por parte de las entidades

(escasa utilización de servicios de mapas WMS). El trabajo contemplando el cumplimiento

de estándares (DDI y Dublin Core), la disponibilidad de metadatos en RDF, el contar con

una sección operativa de investigación aplicada, hacen de DANE una entidad técnicamente

preparada para una apertura masiva de datos.

De cara a las elecciones de 2015 se recomienda acometer un proceso de apertura de datos

electorales y optar a diversificar la presentación de resultados por medio de visualizaciones,

infografías o aplicaciones para celulares en colaboración con el sector reutilizador.

DANE tiene la oportunidad con el II Censo agropecuario de disponer en abierto datos geo-

referenciados de calidad en colaboración con IGAC.

Promover y dar a conocer los principios de los datos abiertos entre los partidos y

movimientos políticos.

Indudablemente la rendición de cuentas es uno de los elementos fundamentales de las

políticas de Gobierno Abierto. Colombia está otorgando a este aspecto la importancia que

se merece. Las entidades están obligadas a implementar procedimientos de rendición de

cuentas.

Page 44: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 44

De forma general, las entidades muestran un cierto grado de temor a la fiscalización del

dato en función de su calidad por parte de sus responsables de alta dirección, lo cual puede

frenar un proceso de apertura de mayor nivel. Este riesgo se puede convertir en una

oportunidad estableciendo los mecanismos de diálogo creativo adecuado que coadyuven a

corregir las posibles anomalías en los datos detectadas a través de la reutilización.

En todos los sectores, pero especialmente en Educación y Salud, el uso y re-uso de datos

tenderá a mejorar la interoperabilidad intra e intersectorial, un aspecto clave para el

desarrollo y evolución de los servicios que prestan.

6.3.2 Conclusiones del informe ODRA con respecto a la calidad en

datos abiertos

A pesar de la obligatoriedad que tienen las entidades de cumplir con el mandato legal de

apertura de datos, el cometido se lleva a cabo por éstas con extrema lentitud y falta de

interés, bien por desconocimiento del potencial de la iniciativa, bien por carencia de

capacidades técnicas, pero sobre todo por la existencia de barreras que reaccionan

negativamente a la reutilización como consecuencia de una consciente debilidad en la

calidad del dato.

Reconocen algunos demandantes de datos abiertos, que actualmente no son consumidores

muy activos debido a experiencias frustradas. En este sentido las causas de algunos

fracasos son muy variadas, por lo que se deberían intentar corregir. En relación a los datos

abiertos, las reivindicaciones se basan en sensaciones y percepciones; y muchas veces se

centran en la relación necesaria con el funcionariado público para acceder a los datos, la

calidad de los mismos, su difícil accesibilidad y sobre todo encuentran un problema de

comunicación ya que desconocen dónde encontrar los conjuntos de datos o la mera

existencia de los mismos. La excesiva burocracia, y la falta de capacitación en algunos

casos dificulta la relación entre la oferta y la demanda de los datos.

El riesgo a mitigar es la calidad del dato. Se trata de un tipo de información con un alto

potencial de consumo, y de forma previa a su publicación se debe asegurar, realizando

tareas de depuración de datos, un umbral de calidad aceptable. Sobre esta circunstancia

Page 45: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 45

impacta el hecho de que muchos sistemas de información misionales para la gestión de

información, como es el caso del Sistema estratégico para la gestión de información de la

infraestructura nacional, están externalizados.

Se aprecia una fortaleza institucional en el entramado de políticas relacionadas con la

apertura de datos, con una mención especial para la estadística pública, que ofrece

excelentes resultados en calidad e innovación.

La Estrategia de Gobierno en línea se orienta a la máxima utilización de las TIC para la

construcción de un Estado abierto, más eficiente, más transparente y más participativo, que

ofrezca mejores servicios a los ciudadanos. Su ámbito de aplicación se define por 4 líneas

principales de actuación y el que hace énfasis en el tema de investigación dice que el “Uso

de las TIC para una mejor prestación de servicios públicos, que buscan asegurar las

interacciones en línea de los ciudadanos con las entidades públicas, con altos estándares

de calidad y atender las necesidades reales de los usuarios”.

Page 46: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

7. CALIDAD EN CONJUNTOS DE DATOS

En el artículo “Implementación de métricas de calidad en metadatos y aplicación en el datos

abiertos de gobierno” (Reiche & Hofig, 2013), se aborda la calidad de datos como el marco

de credibilidad atado a la calidad del contenido y la capacidad de descubrimiento que está

atado a la calidad del metadato.

Si la evaluación de la calidad es más confiable cuando es realizada por un humano experto,

entonces una evaluación automática de la calidad de los metadatos debe ser una meta,

dada la cantidad de conjuntos de datos que se crean en el país. Para esto se proponen 5

métricas para ser aplicadas: completitud, completitud priorizada, exactitud, accesibilidad y

riqueza de la información (Reiche & Hofig, 2013).

La conveniencia de los metadatos podría definirse por la efectividad del apoyo a los

requerimientos funcionales del sistema para el que fue diseñado (Guy, Powell, & Day,

2004). Evaluar la calidad de los metadatos de un repositorio puede ayudar a medir la

eficiencia, identificar la baja calidad en los metadatos de los registros y entender las razones

del origen de la baja calidad.

7.1 MÉTRICAS DE CALIDAD

Para realizar pruebas de calidad a los datos (Data quality) se aplican ciertas métricas o

dimensiones de calidad, en estas se definen previamente que se va a medir y como se van

a medir, el artículo Valoración de la calidad de datos (Pipino, Lee, & Wang, 2002) se ha

dedicado a definir esto, en la Tabla 4 se describen las métricas aplicadas a los datos.

Las métricas de calidad propuestas son evaluadas mediante la utilización de distintos tipos

de índices los cuales se describen a continuación:

Page 47: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 47

Tabla 4. Métricas de calidad para los datos (Pipino, Lee, & Wang, 2002)

Métrica Definición

Accesibilidad Cuales datos están disponibles, y recuperados fácil y rápidamente.

Cantidad de datos apropiados

Cuál es el volumen de datos apropiado para la tarea en cuestión.

Credibilidad Cuales datos se pueden considerar verdaderos y creíbles.

Completitud Cuales datos no faltan y es de suficiente amplitud y profundidad para la tarea en cuestión.

Representación concisa Cuales datos son representados de manera compacta.

Representación consistente

Cuales datos son representados en el mismo formato.

Facilidad de manipulación

Cuales datos son fáciles de manipular y aplicar a diferentes tareas.

Libres de error Cuales datos son correctos y confiables.

Interpretación Cuales datos están en lenguajes, símbolos y unidades apropiadas y su definición es clara.

Objetividad Cuál dato está sin sesgo, sin prejuicio y es imparcial.

Relevancia Cuál es dato es aplicable y útil para la tarea en cuestión.

Reputación Cuál dato es considerado en términos de su fuente o contenido.

Seguridad Cuales datos tienen accesos apropiadamente restringidos para mantener la seguridad.

Puntualidad Cuales datos son suficientemente actualizados para la tarea.

Comprensión Cuales datos son fácilmente comprendidos.

Valor Agregado Cual dato es benéfico y provee ventajas en su uso.

Completitud (Completeness): Mide que tan completos están los metadatos del conjunto de

datos (Ochoa & Duval, 2006) y (Reiche & Hofig, 2013). Esto se mide contando la cantidad

de campos que contienen valores usando la siguiente fórmula.

Page 48: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 48

Completitud priorizada (Weighted Completeness): Se analiza la completitud teniendo en

cuenta la importancia de cada metadato (Ochoa & Duval, 2006) y (Reiche & Hofig, 2013).

Además de si tienen valor o no se le da un peso para darle más prioridad a unos que a

otros.

Exactitud (Accuracy): Mide si el valor de los registros es correcto teniendo en cuenta a la

fuente (Ochoa & Duval, 2006) y (Reiche & Hofig, 2013). Esto se mide haciendo una

distancia semántica, entre menos distancia tenga más exacto es.

Riqueza de la información (Richness of information): Mide el nivel de importancia para el

usuario, según el vocabulario y la descripción usada en un registro de metadato (Ochoa &

Duval, 2006) y (Reiche & Hofig, 2013). Esto se mide según la cantidad de información única

presente en los metadatos.

Donde P(value) es la probabilidad de que el valor ocurra en el conjunto de datos.

Page 49: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 49

Para texto libre se propone el termino frecuencia inversa de la frecuencia del documento

(tf-idf)

Donde tf es la frecuencia de una palabra en el metadato, df es el total de documentos donde

aparece la palabra. El número de documentos está dado por m y el número de diferentes

palabras por n.

Accesibilidad (Accessibility): Mide el grado por el cual se describe que tan fácil el usuario

puede comprender de que se trata la fuente a través de la lectura del registro de metadatos

(Ochoa & Duval, 2006) y (Reiche & Hofig, 2013). También si el usuario encuentra o no lo

que está buscando.

Además de estas métricas aplicadas otro artículo describe otras métricas es “Métricas de

Calidad para metadatos de objetos de aprendizaje” (Ochoa & Duval, 2006).

Procedencia (Provenance): Mide el nivel de reputación que un registro de metadato y su

autor tiene en la comunidad. En los repositorios CKAN y Socrata no es fácil poder aplicar

esta métrica debido a sus API´s. Esta es similar a la métrica llamada Reputación (Pipino et

al., 2002).

Consistencia lógica y coherencia (Logic consistency and coherence): Debido a que evalúa

la interdependencia de los campos esta métrica no se puede aplicar automáticamente a los

campos debido a que en los esquemas por defecto de CKAN y Socrata no soportan aplicar

la métrica, En la Tabla 5 se muestra la aplicación de la métrica siguiendo el estándar LOM

(Learning Object Metadata) (IEEE Standards, 2003).

Page 50: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 50

Tabla 5. Campos a comparar para acceder a la coherencia

Campo 1 Campo 2 Ejemplo

1. 7 Structure 1.8 Aggregation Level Structure=atomic => an aggregation

level=1

5.1 Interactivity Type

5.3 Interactivity Level

Interactivity type=active => high

values of Interactivity level

5.2 Learning resource

type

5.1 Iteractivity Level Learning resource type=narrative

text => interactivity level=expositive

5.4 Semantic Density

5.8 Difficulty A high semantic density => a high

difficulty

5.6 Context 5.7 Typical Age Range If context=higher education=>age

range should start at least at 17

years

Esta es una métrica complementaria a la propuesta en (Pipino et al., 2002) llamada

Representación consistente, ya que analiza únicamente la relación lógica entre los campos.

Prontitud o puntualidad (Timeliness): Describe el grado de que un registro de metadato

permanece actual entre la comunidad. Ésta métrica requiere de históricos de frecuencias

de uso durante un largo periodo de tiempo.

Ahora como se pudo observar cada una de estas métricas toman tres formas funcionales

para valorar la calidad de datos, estas pueden ser tasas simples, en donde la métrica esn

medida mediante índices; operaciones de máximos y mínimos, en donde se manejan

múltiples indicadores (de tasa simple) de calidad de datos se pueden estimar limites

máximos o mínimos; Y de promedio priorizado en donde se puede dar prioridad diferente a

cada campo medido, según su importancia.

Page 51: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 51

7.2 CALIDAD BASADA EN ONTOLOGÍA

En el artículo “Representando la calidad de los metadatos de un conjunto de datos usando

vistas multidimensionales” (Debattista, Lange, & Auer, 2014), evalúan la calidad de un

conjunto de datos desarrollando la ontología de calidad en conjuntos de datos daQ (Dataset

Quality Ontology) basado en el concepto de ajuste para el uso (fitness for use) y teniendo

en cuenta los siguientes casos de uso:

Análisis de versiones de datos: En donde analizan las métricas de calidad obtenidas por

cada versión del conjunto de datos.

Ajuste del conjunto de datos para la recuperación: en donde se analiza como un usuario

puede encontrar el conjunto de datos adecuado por criterios relacionados con el contenido,

los enlaces para desde y hacia otros conjuntos de datos, el vocabulario utilizado en el

dataset. El modelo daQ permite observar la mejora de la calidad del conjunto de datos en

el tiempo.

Identificación de enlaces: Este es uno de los propósitos del Linked Open Data, identificar

los enlaces entre los diferentes conjuntos de datos existentes. El daQ asegura que cualquier

métrica definida por terceras personas puede ser integrada por cualquier solución que

soporte esa calidad del metadato para los enlaces.

Extensión del esquema de 5 estrellas: Se propone para medir la reusabilidad el conjunto de

datos como una sexta estrella del esquema y define unos criterios para dicha reusabilidad.

El daQ intenta presentar un grafo de calidad, que presenta un número de diferentes

categorías, las cuales poseen un número de dimensiones, en donde cada dimensión de

calidad agrupa a una o más métricas de calidad.

También en el artículo (Behkamal, Kahani, Bagheri, & Jeremic, 2014) se habla de la calidad

inherente basada en 5 métricas, exactitud sintáctica, exactitud semántica, unicidad,

consistencia y completitud. La métrica de exactitud (Accuracy) en donde la dividen en dos

vertientes. Por un lado, se encuentra la exactitud sintáctica, en donde los valores de los

datos son cercanos a un conjunto de valores definidos en un dominio considerado

Page 52: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 52

sintácticamente correcto (ISO, 2008); y por el otro la exactitud semántica, en donde se mide

el grado de exactitud y validez de un dato en comparación con los valores del mundo real

o con valores que se han acordado previamente. Unicidad (Uniqueness), que mide el grado

en que un dato está libre de redundancias en amplitud, profundidad y alcance. En amplitud

las propiedades y clases representadas, En alcance, una base de conocimiento en donde

múltiples ejemplares representan el mismo objeto; En profundidad donde múltiples valores

de una propiedad son únicos. Consistencia (Consistency), datos en los que sus atributos

están libres de contradicción y son coherentes con otros datos en un caso específico de

uso. Completitud (Completeness), significa que toda la información requerida para describir

un concepto es presentada con el suficiente nivel de detalle.

Page 53: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

PARTE II PLANTEAMIENTO DE LA PROPUESTA

Page 54: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 54

CAPÍTULO III REGLAS DE CONSISTENCIA LÓGICA

Este capítulo contiene:

Generalización de reglas de consistencia lógica

Estandarización de estructuras de datos en Colombia

Generalización de reglas de consistencia lógica

Page 55: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

1. GENERALIZACIÓN DE REGLAS DE CONSISTENCIA LÓGICA

Luego de la recopilación realizada sobre las métricas de calidad en conjuntos de datos

abiertos se debe analizar la métrica de consistencia lógica para el contexto colombiano y

específicamente del distrito capital. Estas reglas fueron obtenidas de algunos avances en

estandarización de datos que han brindado algunas entidades como MINTIC y la Alcaldía

Mayor de Bogotá.

Al analizar estas estructuras de datos encontradas en dicha estandarización se identifican

y se propone una generalización para la aplicación de las reglas de consistencia lógica que

permitan la generación de métricas de consistencia lógica a los conjuntos de datos abiertos.

Esta generalización busca identificar la estructura de esas reglas aplicables únicamente a

un contexto definido y apropiarlas de tal manera que la misma regla pueda ser utilizada en

diferentes contextos. Para esto se definió una sintaxis concreta para la generalización de

cada regla.

1.1 ESTANDARIZACIÓN DE ESTRUCTURAS DE DATOS EN COLOMBIA

1.1.1 Lenguaje común de intercambio de información

El MinTIC a través de su estrategia gobierno en línea y en su marco de interoperabilidad el

cuál es el conjunto de herramientas necesarias para que los sistemas de información

conversen entre sí, ha dispuesto un portal conocido como el lenguaje común de intercambio

de información entre aplicaciones, basado en GEL-XML, en la cual busca la estandarización

de los elementos datos que se usan dentro de las entidades (MinTIC, 2011).

En esta plataforma al buscar un elemento dato de interés en el resultado se muestran una

serie de posibles elementos datos asociados al termino ingresado en la búsqueda Figura

3, al escoger uno de los elementos datos nos muestra que significa el elemento dato con

una breve descripción Figura 4, qué formato debe tener el dato Figura 5, como algunas

observaciones sobre en qué entidades ha sido utilizado Figura 6.

Page 56: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 56

Cabe anotar que en la validación mostrada en la Figura 5 se especifica con un mayor grado

de profundidad las características relacionadas con el elemento dato seleccionado. En este

campo puede encontrarse si tiene relación con otros elementos dato.

Figura 3. Búsqueda de elementos dato

Se puede evidenciar que al solicitar una de variable mediante su nombre este sugiere los

diferentes tipos de nombre que puede adoptar el campo y además se puede vincular el

sistema de información o aplicación en el que fue utilizado dicho campo.

Entre otras características de la especificación se indica el tipo de dato de tal manera si es

alfanumérico y además se puede relación entre otro la longitud máxima y una expresión

regular con la que se puede verificar el valor contenido almacenado en la variable.

Page 57: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 57

Figura 4. Descripción del elemento dato

Figura 5. Formato y validación del dato

Page 58: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 58

Figura 6. Qué entidades usan el elemento dato buscado

También se puede indicar cuales de los sistemas de información requieren de dicho campo

en sus sistemas.

1.1.2 Directiva 22 de 2011

La directiva 22 de 2011 (Alcaldía Mayor de Bogotá, 2011) también es un buen ejemplo de

especificación de estructuras de datos, en esta directiva se relacionan 72 campos para la

caracterización de las personas que reciben atención en cualquier entidad del distrito,

desafortunadamente su contenido está relacionado con datos privados y sensibles que

están protegidos por la ley 1712 (Colombia, 2014). Sin embargo, esta directiva cuenta

además con reglas de validación por ejemplo como se muestra en la Figura 7 en dónde se

muestran 2 campos, estos campos están relacionados entre sí.

Figura 7. Estructura de la directiva 22 de 2011

Page 59: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 59

El primer campo solo puede tomar uno de los valores CL,DG ,AC,KR, TV, AK y AV. Mientras

el segundo solo puede tener los valores S y E. Si no se cumple esto en alguno de los

registros se estaría violando la métrica de exactitud. Lo interesante de este ejemplo es que

empieza a evidenciarse la consistencia lógica en donde un dato es válido si la relación entre

los valores de los campos se cumple, es decir no pueden existir valores de CL y E o KR y

S en un mismo registro.

Es necesario tener en cuenta que esta regla es un caso particular para esta estructura de

datos, sin embargo, este tipo de regla se puede generalizar para que sea aplicada a otros

contextos y con otros conjuntos de datos.

1.2 GENERALIZACIÓN DE REGLAS DE CONSISTENCIA LÓGICA

Uno de los principales inconvenientes en la automatización de la evaluación de la

consistencia lógica dentro de un conjunto de datos abiertos es que cada conjunto de datos

hace referencia a un contexto específico, este contexto provee unas relaciones entre los

campos únicas para ese conjunto de datos. Por ejemplo, dentro de los conjuntos de datos

disponibles en el portal distrital de datos abiertos tomado como caso de estudio existen 12

conjuntos de datos distintos cada uno con un tema distinto y provienen de entidades

distritales distintas.

Sin embargo, se pueden identificar los siguientes aspectos de los conjuntos de datos:

• Cada campo del conjunto de datos tiene un nombre.

• Cada campo tiene un tipo de dato definido puede ser tipo alfanumérico, numérico,

fecha, etc.

• Cada campo puede tener un valor con una longitud máxima o mínima definida.

• Cada campo en el conjunto de datos puede almacenar valores bien definidos o

pueden ser valores únicos por cada registro (heterogéneos).

Es relevante anotar que lo que lo importante de la consistencia lógica a evaluar en este libro

es la relación existente entre los campos de un conjunto de datos.

Page 60: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 60

Dado el ejemplo de la Figura 7 se puede identificar una generalización de la regla de

consistencia lógica entre los campos del conjunto de datos expuesto. Se debe partir de la

columna observaciones en donde se encuentras descritas las reglas en breves premisas

semánticas.

• El valor S solo es válido para vías principales de tipo CL, AC o DG.

• El valor E solo es válido para vías principales de tipo KR, AK o TV.

1.2.1 Reglas basadas de valor a valor

Dado lo anterior podemos observar que los valores van desde un dominio hacía un rango

así los únicos valores permitidos se observan en la Tabla 6. Esta regla tiene la peculiaridad

de que por cada valor en el dominio debe existir uno de tres posibles valores en el rango.

Para simbolizar este tipo de regla “Un VALOR en el dominio un VALOR de un conjunto de

valores en el rango” utilizaremos el símbolo (- >), esta regla solo aplicaría para campos que

tengan su dominio y rango bien definidos, es decir que los valores aparezcan varias veces

en los registros del conjunto de datos.

Tabla 6. Extracción de la regla de consistencia lógica valor por valor

Campo 1 Regla Campo 2

S - > CL

S - > AC

S - > DG

E - > KR

E - > AK

E - > TV

7.2.1

1.2.2 Reglas basadas en un valor hacia expresiones regulares

Existe otro caso en el que los valores de los campos también tienen un dominio definido

pero el rango se define mediante una comparación de longitud de las cadenas de caracteres

contenidas en los valores. Por ejemplo, en la directiva aparece que para el campo tipo de

identificación (Tip_ID) solo se permiten los valores RC, NUIP, TI, CC, PA, TE, CE y para el

Page 61: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 61

campo número de identificación los valores posibles son alfanuméricos sin embargo varían

según el valor del campo Tip_ID tal como se muestra en la Tabla 7.

Para este tipo de reglas las cuales se denominarán por expresión y se simbolizará con el

símbolo (E), debido a que la forma de evaluarlo se hace mediante el uso de expresiones

regulares y de las cuales se conocerá como “Un VALOR en el dominio un VALOR y una

CARACTERISTICA en el rango”.

Tabla 7. Consistencia lógica a partir de longitud de las cadenas en el rango

Campo 1 Regla Campo 2

RC E Alfanumérico de longitud 10 Numérico de longitud 11

NUIP E Alfanumérico de longitud 10 Numérico de longitud 11

TI E Numérico de longitud 10 u 11

CC E Numérico de longitud entre 6 a 10

PA E Alfanumérico

TE E Alfanumérico

CE E Alfanumérico

Figura 8. Extracción de regla de longitud de cadenas

Cabe anotar que la construcción de las expresiones regulares para el campo 2, debe

hacerse con el conocimiento necesario del conjunto de valores en el dominio. Esta

construcción debe realizarse por un humano. Esto dificulta la automatización de la regla.

Page 62: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 62

1.2.3 Reglas de un valor hacia un rango de valores

Este caso hace referencia a valores en el dominio que tienen un conjunto de valores

numéricos en el rango. Como condición se encuentra que el valor en el rango debe ser un

número.

Por ejemplo, en un conjunto de datos sobre los niveles del rio Bogotá. Campo 1 es igual al

nombre de la estación y el campo 2 sería la medición en altura del nivel del agua en cm

como se muestra en la Tabla 8.

Se puede observar que para el nombre de la estación “EL ESPINO” se detectan varios valores

de Medición que se encuentran entre 2246 y 2988 por lo que en la Tabla 9, se puede definir

dos reglas que permitan determinar si un valor de campo 2 es mayor que cierto número y

si un valor en campo 2 es menor que otro número. Dado esto se puede definir una regla

para cada uno de los eventos.

Para simbolizar el tipo de regla “Un Valor en el dominio y una restricción en el valor del

rango” se utilizaràn los simbolos (=,>,<).

Tabla 8. Extracto de valores del conjunto de datos niveles del rio Bogotá

Nombre Estación Ubicación Medición Fecha Medición

EL ESPINO RIO BOGOTA 2906 2014-07-18 00:00:00.000

EL ESPINO RIO BOGOTA 2954 2014-07-19 00:00:00.000

EL ESPINO RIO BOGOTA 2988 2014-07-20 00:00:00.000

EL ESPINO RIO BOGOTA 2761 2014-07-21 00:00:00.000

EL ESPINO RIO BOGOTA 2806 2014-07-22 00:00:00.000

EL ESPINO RIO BOGOTA 2524 2014-07-23 00:00:00.000

EL ESPINO RIO BOGOTA 2246 2014-07-24 00:00:00.000

Tabla 9 Regla de consistencia de un valor hacia un rango de valores

Campo 1 Regla Campo 2

EL ESPINO > 2246

EL ESPINO < 2988

Page 63: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

CAPÍTULO IV PROTOTIPO

Este capítulo contiene:

DISEÑO DE PROTOTIPO

RESULTADOS

8. PROTOTIPO

Para encontrar reglas de consistencia lógica en los conjuntos de datos del distrito fue

necesario desarrollar un prototipo de software que permitiera automatizar la tarea ya que la

Page 64: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 64

cantidad de posibles relaciones entre los campos tiende a ser de complejidad NxM y hacerlo

vía manual iba tomar algún tiempo. Por lo anterior el prototipo debe cumplir con algunas

características funcionales específicas.

El sistema propuesto tiene como nombre Quality Inspector Linked Open Government Data

(QILOGD). Para ver la especificación completa (575 páginas) debe verse en el documento

Especificación Arquitectural adjunto. Esta especificación se realizó usando Enterprise

Architect 13.

8.1 VISTA DE ANÀLISIS

Figura 9. Vista de Análisis

Page 65: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 65

8.2 MODELO DE REQUERIMIENTOS

Figura 10. Modelo de requerimientos.

Figura 11. Requerimientos funcionales

Page 66: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 66

Figura 12. Reglas del negocio

Figura 13. Requerimientos no funcionales

Page 67: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 67

Figura 14. Transporte

Figura 15. Persistencia

Page 68: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 68

8.3 MODELO DE CASOS DE USO

Figura 16. Modelo de Casos de Uso

Figura 17. Actores

Page 69: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 69

Figura 18. Casos de Uso Primarios

Page 70: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 70

8.4 MODELO DE DOMINIO DE DATOS

Figura 19. Modelo de Dominio

Page 71: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 71

8.5 MODELO ESTRUCTURAL

Figura 20. Modelo estructural

Page 72: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 72

Figura 21. Modelo de Clases del Sistema

Page 73: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 73

Figura 22. Paquete Modelo

Page 74: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 74

Figura 23. Paquete Controlador

Page 75: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 75

Figura 24. Paquete inspector

Page 76: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 76

Figura 25. Paquete Datos

Figura 26. Paquete Portales

Page 77: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 77

Figura 27. Paquete Archivos

Figura 28. Excepciones

Page 78: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 78

Figura 29. Frameworks

Page 79: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 79

8.6 MODELO DINÀMICO

Figura 30. Diagrama secuencia (DS) Iniciar Aplicación

Page 80: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 80

Figura 31. DS Conectar al portal de datos abiertos

Page 81: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 81

Figura 32. DS Obtener listado de conjuntos de datos

Page 82: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 82

Figura 33. DS Descargar conjuntos de datos

Page 83: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 83

Figura 34. DS Cargar datos de archivos al sistema

8.7 MODELO DE DESPLIEGUE

Figura 35. Modelo de despliegue

Page 84: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 84

Figura 36. Despliegue

Figura 37. Artefactos

Page 85: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 85

8.8 INTERFAZ GRÁFICA DE USUARIO

Luego de iniciar la aplicación se presenta la ventana de la ¡Error! No se encuentra el

origen de la referencia., que tiene como objetivo obtener el listado de conjuntos de datos

abiertos que se encuentran en un portal CKAN.

Figura 38. Vista de portal de datos

Page 86: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 86

El sistema puede parametrizarse para un mejor funcionamiento. Ver la configuración del

sistema se puede ver en la ¡Error! No se encuentra el origen de la referencia..

Figura 39. Vista de parametrización del sistema

Se puede ver alguna información sobre el nombre y el autor de la aplicación en la Figura

40. Vista Acerca De.

Figura 40. Vista Acerca De

Page 87: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 87

Una vez se hayan obtenido y descargado los archivos de los conjuntos de datos que se

encuentren en el portal se puede acceder a la información de cada conjunto de datos ¡Error!

No se encuentra el origen de la referencia..

Figura 41. Vista de Conjunto de datos

Page 88: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 88

A través de la ¡Error! No se encuentra el origen de la referencia. se pueden listar los

valores que el conjunto de datos proveyó al sistema.

Figura 42. Vista para dominios, datos y reglas de consistencia

Page 89: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

9. RESULTADOS

Los datos abiertos en Colombia se han convertido en una política de estado y como

resultado de esto se han abierto una buena cantidad de conjuntos de datos abiertos, lo que

hace que nuestro país se encuentre bien posicionado en los diferentes índices mundiales

de medición de conjuntos abiertos.

Se encontró que ya existe una conceptualización de métricas aplicadas a la calidad de los

datos. De estas métricas se partió para empezar a realizar un modelo de calidad para los

conjuntos de datos abiertos.

Colombia se encuentra actualmente en el nivel de tres estrellas del esquema de datos

abiertos propuesto por Tim Berners-Lee porque la totalidad de los datos que se encuentran

en los diferentes portales de datos abiertos están dispuestos en formato abierto CSV.

Como resultado de que los datos abiertos en Colombia se han convertido en una política

de estado se ha procurado por estandarizar los campos para facilitar la interoperabilidad.

Hay iniciativas tanto nacionales como distritales para la realizar la estandarización lo que

ha permitido realizar un inventario de posibles reglas de consistencia lógica.

Se logró realizar la generalización de una regla de consistencia lógica a partir de premisas

semánticas, esto permitirá aplicar mediante un validador la regla a diferentes conjuntos de

datos.

9.1 APLICACIÓN DEL PROTOTIPO EN LA PLATAFORMA DISTRITAL DE

DATOS ABIERTOS.

Una vez realizado el prototipo se ejecutó en la URL datosabiertos.bogota.gov.co con los

siguientes resultados:

Detalle Total

Conjuntos de datos en el portal 44

Conjuntos de datos con archivo de datos 32

Conjuntos de datos con descripción 32

Conjuntos de datos legibles por máquinas 30

Page 90: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 90

Se pudo evidenciar que algunos de los conjuntos de datos no cuentan con una estructura

adecuada lo que no permite que se realice una adecuada lectura mediante máquinas.

No existe una política dentro del distrito en el uso del separador por lo que algunos están

separados por comas (,) y otros por punto y comas (;).

También se observa que no se cumple con el principio de granularidad y de atomicidad de

los datos, no presentan una debida clasificación de los datos. Por otra parte, presentan

datos con valores nulos. Estos ítem hacen parte de la calidad de los datos y no permite

hacer análisis adecuados debido a que no se sabe que quisieron decir dejando el campo

nulo.

Como caso de prueba demostrativo dentro del portal distrital se eligió el conjunto de datos

“actividades-de-entidades-sin-animo-de-lucro” que cuenta con 40911 registros de los

cuales 5426 datos son nulos. Lo anterior da un 13% de error.

Al aplicar las reglas de consistencia al conjunto de datos “actividades-de-entidades-sin-

animo-de-lucro” se pude observar que cuenta con la siguiente estructura de campos.

Campo Tipo Observaciones

ID ESAL Alfanumérico ID DE IDENTIFICACIÓN ÚNICO EN EL SISTEMA DE LAS ESAL

CATEGORÍA Alfanumérico ACTIVIDADES QUE DESARROLLA LA ESAL

POBLACIÓN SEGÚN CICLO VITAL

Alfanumérico POBLACIÓN SEGÚN UN RANGO DE EDADES

POBLACIÓN POR CONDICIÓN

Alfanumérico POBLACIÓN SEGÚN EL NIVEL SOCIAL, ECONÓMICO

POBLACIÓN POR GRUPO

Alfanumérico POBLACIÓN CLASIFICADA POR GRUPO

LOCALIDAD Alfanumérico DIVISIÓN TERRITORIAL DONDE SE ENCUENTRA LA ESAL

Page 91: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 91

El conjunto de datos se puede encontrar en la siguiente URL:

http://datosabiertos.bogota.gov.co/dataset/f24fc0a1-66c3-458b-ae53-

fccecd6341fd/resource/c70db798-8417-49db-aebe-

e2a103229c5b/download/datosabiertos2.csv

Teniendo claro la cantidad de campos se elige la primera combinación entre categoría y

Población ciclo vital dónde tienen los valores descritos en la Tabla 10. Valores de campos

categoría y población ciclo vital.

Tabla 10. Valores de campos categoría y población ciclo vital

CATEGORÍA POBLACIÓN CICLO VITAL

Cultura democrática, paz y convivencia ciudadana

No aplica

Desarrollo comunitario Adultos mayores (hombres y mujeres mayores de 60 años).

De salud Niñez (niños y niñas entre 6 y 11 años).

De educacion Jóvenes (hombres y mujeres entre 12 y 26 años).

Medio ambiente y recursos naturales Primera infancia (comprende desde el período de la gestación hasta los 5 años de edad).

Prevención y atención de emergencias

Desarrollo productivo y generación de ingresos

Adultos (hombres y mujeres entre 26 y 60 años).

Ideológicas Todas

Habitat

Movilidad y espacio publico

Cultura

Ciencia y tecnología

Desarrollo institucional

Recreación y deporte

Voluntariado

Propiedad intelectual

Comunicaciones

Teniendo en cuenta los valores de los campos se puede observar que cada campo tiene

un conjunto de valores bien definido y además son de tipo alfanumérico. Por lo que se debe

aplicar la regla de tipo valor a valor. Los resultados obtenidos son los siguientes:

Page 92: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 92

Figura 43. Aplicación de métrica de consistencia lógica, Categoría -> Poblaciòn ciclo vital basada en el valor Primera infancia

Figura 44. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor No aplica

Figura 45. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Todas

Page 93: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 93

Figura 46. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Adultos

Figura 47. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Adultos mayores

Figura 48. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Jóvenes

Page 94: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 94

Figura 49. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Niñez

En el conjunto de datos existen campos nulos los cuales favorecieron la implementación de

las reglas de consistencia.

Que en este conjunto de datos efectivamente hay errores detectados por las reglas de

consistencia lógica.

El índice de error del conjunto de datos se encuentra entre el 7% y el 19%. Lo que en

términos prácticos quiere decir que, de 40911 registros, entre 2864 y 7773 registros

erróneos.

Índice bastante alto y que requiere un análisis de procedimiento de calidad del sistema del

cual es obtenido el conjunto de datos, además de contrastar con un profesional relacionado

con el área de conocimiento del conjunto de datos.

Page 95: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

PARTE III CONCLUSIONES, REFERENCIAS, ANEXOS

Page 96: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 96

CAPÍTULO V CONCLUSIONES, RECOMENDACIONES,

REFERENCIAS

Este capítulo contiene:

CONCLUSIONES

RECOMENDACIONES

REFERENCIAS

Page 97: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 97

1. CONCLUSIONES

1.1 MATRIZ DE CONTRASTACIÓN DE OBJETIVOS

Objetivo Evidencia

Recopilar información sobre datos abiertos en el distrito capital.

Estado actual de los datos abiertos (Capítulos 1 y 2, títulos del 5 al 7)

Definir las reglas de consistencia lógica. Generalización de reglas (Capítulo 3, título 8)

Seleccionar el portal de datos abiertos datosabiertos.bogota.gov.co

Evaluar y aplicar las reglas de consistencia lógica al portal

Prototipo y resultados (Capítulos 4, títulos 9 y 10)

En el desarrollo de esta investigación ejercicio se puso en evidencia que:

Así como en otras implementaciones de datos abiertos en países líderes (UK, USA), es

muy posible que se pueden presentar deficiencias en la calidad de los datos, tanto en su

descripción como en su contenido.

Que el modelo de calidad actual es acertado en la búsqueda de deficiencias en los datos

abiertos, y que este modelo se puede mejorar integrando reglas de consistencia lógica en

los campos de los diferentes conjuntos de datos.

Como los conjuntos de datos abiertos en Colombia se encuentra en la categoría de 3

estrellas se puede realizar un procesamiento automático en los conjuntos de datos y por lo

tanto se pueden aplicar métricas de consistencia lógica también de manera automática.

Los avances en la estandarización de las estructuras de datos permiten tener una fuente

de conocimiento que sirva de guía para nombrar los campos de una manera apropiada.

Page 98: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 98

La generalización de reglas permite una visión más apropiada para el entendimiento del

concepto que servirá en la aplicación del prototipo funcional que valide dichas reglas.

Se evidencia la inexistencia de estándares de separadores y de delimitadores dentro del

protocolo de la plataforma distrital de datos abiertos.

En la plataforma distrital de datos abiertos no se evidencia la necesidad de la gestión de

metadatos de los conjuntos de datos.

Cada conjunto de datos tiene sus propias reglas de consistencia lógica.

Los avances en la estandarización de las estructuras de datos permiten tener una fuente

de conocimiento que sirva de guía para nombrar los campos de una manera apropiada.

La generalización de reglas permite una visión más apropiada para el entendimiento del

concepto que servirá en la aplicación del prototipo funcional que evalúe la calidad de un

conjunto de datos.

Page 99: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

10. RECOMENDACIONES

En el desarrollo de esta investigación se pusieron en evidencia los siguientes campos de

investigación:

Realizar ajustes para aceptar conjuntos de datos de portales de datos abiertos diferentes a

CKAN como los basados en SOCRATA o JUNAR.

Crear reglas y métricas de consistencia lógica basándose en alguna técnica de inteligencia

artificial.

Aplicar los métodos de “Un valor hacia un rango de valores” Y el de “Reglas basadas en

expresiones regulares” en un prototipo.

Implementar mecanismos de análisis estadístico que faciliten la detección de errores

basado en reglas de consistencia lógica.

Implementar este prototipo usando servicios Web.

Page 100: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

11. REFERENCIAS

Ahmadi Zeleti, F., Ojo, A., & Curry, E. (2016). Exploring the economic value of open government data. Government Information Quarterly. http://doi.org/10.1016/j.giq.2016.01.008

Alcaldía de Tuluá. (2015). Datos abiertos de Tuluá. Retrieved from http://www.datos.tulua.gov.co/

Alcaldía Mayor de Bogotá. (2011). Directiva 22 de 2011, 4.

Behkamal, B., Kahani, M., Bagheri, E., & Jeremic, Z. (2014). A metrics-driven approach for quality assessment of linked open data. Journal of Theoretical and Applied Electronic Commerce Research, 9(2), 64–79. http://doi.org/10.4067/S0718-18762014000200006

Cámara de Comercio, de B., El Tiempo, C. E., & Corona, F. (2016). Red de Ciudades Cómo Vamos | Generamos información confiable, imparcial y comparable sobre calidad de vida. Retrieved from http://redcomovamos.org/

Colombia, C. de la republica de. (2014). Ley 1712. Retrieved May 24, 2016, from http://www.alcaldiabogota.gov.co/sisjur/normas/Norma1.jsp?i=56882

D.C., A. M. de B. (2015). Bienvenida - Datos Abiertos. Retrieved June 20, 2016, from http://datosabiertos.bogota.gov.co/

DANE. (2015). Sistema Estadístico Nacional (SEN). Retrieved December 10, 2016, from https://www.dane.gov.co/index.php/sistema-estadistico-nacional-sen

Debattista, J., Lange, C., & Auer, S. (2014). Representing Dataset Quality Metadata using Multi-Dimensional Views Jeremy. SEM’14 Proceedings of the 10th International Conference on Semantic Systems, 92–99. http://doi.org/10.1145/2660517.2660525

Guy, M., Powell, A., & Day, M. (2004). Improving the Quality of Metadata in Eprint Archives. Ariadne, (38). Retrieved from http://www.ariadne.ac.uk/issue38/guy/

IEEE Standards. (2003). IEEE Standard for Learning Metadata Object (Vol. 2002). http://doi.org/10.1109/IEEESTD.2002.94130

ISO. (2008). ISO/IEC 25012:2008 - Software engineering -- Software product Quality Requirements and Evaluation (SQuaRE) -- Data quality model. Retrieved September 5, 2016, from http://www.iso.org/iso/catalogue_detail.htm?csnumber=35736

Kim, J. G., & Hausenblas, M. (2012). 5 estrellas de Datos Abiertos. Retrieved August 30, 2016, from http://5stardata.info/es/

Knowledge, O. (2016). Place overview | Global Open Data Index by Open Knowledge. Retrieved May 22, 2016, from http://index.okfn.org/place/

Manyika, J., Chui, M., Groves, P., Farrell, D., Van Kuiken, S., & Doshi, E. A. (2013). Open Data: Unlocking Innovation and Performance with Liquid Information. McKinsey, (October), 24. http://doi.org/http://www.mckinsey.com/~/media/McKinsey/dotcom/Insights/Business%20Technology/Open%20data%20Unlocking%20innovation%20and%20performanc

Page 101: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 101

e%20with%20liquid%20information/MGI_Open_data_Full_report_Oct_2013.ashx

Ministerio de Tecnologías de la Información y las Comunicaciones. (2016). Datos Abiertos Colombia. Retrieved June 20, 2016, from https://www.datos.gov.co/

MinTIC. (2011). Lenguaje común para intercambio de información - Consulta elementos de dato. Retrieved December 15, 2016, from http://lenguaje.intranet.gov.co/web/gelxml/si/consultadeelementos

MinTIC. (2014). Decreto 2573, 1–9. Retrieved from http://www.mintic.gov.co/portal/604/articles-14673_documento.pdf

Ochoa, X., & Duval, E. (2006). Quality Metrics for Learning Object Metadata. World Conference on Educational Multimedia, Hypermedia and Telecommunications, (2004), 1004–1011.

Open knowledge international. (2016). The Open Data Handbook - Glossary. Retrieved July 30, 2016, from http://opendatahandbook.org/glossary/en/

Pipino, L. L., Lee, Y. W., & Wang, R. Y. (2002). Data quality assessment. Communications of the ACM, 45(4), 211. http://doi.org/10.1145/505248.506010

Reiche, K. J., & Hofig, E. (2013). Implementation of metadata quality metrics and application on public government data. Proceedings - International Computer Software and Applications Conference, 236–241. http://doi.org/10.1109/COMPSACW.2013.32

Sistema Estadístico Nacional. (2015). Código Nacional de Buenas Prácticas para las Estadísticas Oficiales.

Tim Berners-Lee. (2006). Linked Data - Design Issues. Retrieved July 20, 2016, from https://www.w3.org/DesignIssues/LinkedData.html

World Bank. (2015). Colombia - Strengthening Public Information, Monitoring, Evaluation for Results Management in Colombia : P099139 - Implementation Status Results Report : Sequence 11.

World Wide Web Fundation;Development, O. data for. (2016). ODB, Open Data Barometer 2015. Retrieved May 22, 2016, from http://opendatabarometer.org/data-explorer/?_year=2015&indicator=ODB&open=COL&comparew=BRA,GBR

Zaveri, A., Kontokostas, D., Sherif, M. a, Bühmann, L., Morsey, M., Auer, S., & Lehmann, J. (2013). User-driven quality evaluation of dbpedia. Proceedings of the 9th International Conference on Semantic Systems, 97–104. http://doi.org/10.1145/2506182.2506195

Page 102: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

CAPÍTULO VI ANEXOS

Este capítulo contiene:

ANEXOS

Arquitectura del prototipo

Manual técnico

Page 103: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

ANEXO A: ARQUITECTURA DEL PROTOTIPO

Remitirse a documentos en el CD Especificación Arquitectura.

Page 104: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

ANEXO B: MANUAL TÉCNICO

Para el desarrollo del prototipo funcional se tuvo en cuenta lo siguiente:

Cantidad de personas en el desarrollo de la aplicación: 1 persona.

Equipos para el desarrollo de la aplicación: 2 equipos.

Software licenciado para la puesta en producción del prototipo: Ninguno.

Por lo que la propuesta para el desarrollo y el despliegue del prototipo fue:

• Arquitectura de tres capas

Se hizo necesario tener una arquitectura de tres capas en la cual se independicen los datos,

de la capa de negocio y de la presentación.

• Desarrollo en aplicaciones de código abierto o software libre

En este aparte se analizaron diferentes aspectos como:

Lenguaje de desarrollo: JAVA versión 1.8.

Entorno de desarrollo (IDE): Netbeans versión 8.2.

Administrador de bases de datos: PostgreSQL versión 9.4 .

• Patrón de diseño.

Se optó por el patrón de desarrollo Modelo, Vista, Controlador, apoyado con el uso de API’s

para apoyar la implementación de los objetivos.

Se utilizaron API’s como:

Page 105: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 105

• JaCKAN para tener acceso a los conjuntos de datos del portal.

• OpenCSV para leer los archivos CSV del portal de datos.

• JPA para el manejo de la persistencia de los datos.

• UnitTest

• PostgreSQL JDBC Driver para la correcta comunicación entre la aplicación y la base

de datos.

Un entorno de desarrollo y de producción dadas las restricciones del equipo de desarrollo.

• CONFIGURACIÓN DEL AMBIENTE DE DESARROLLO EN RASPBERRY

Placa Raspberry Pi 3 model B.

Sistema operativo Raspbian

o Configuración usuario

Si ya se ha ejecutado raspi-config se hace necesario cambiar la contraseña del usuario por defecto 'pi', para hacer Raspberry Pi un poco más segura, porque incluso con la contraseña del usuario 'pi' cambiada tenemos la mitad del camino abierto para gente con ganas de curiosear lo ajeno. Vamos a crear en este caso el usuario ‘jhmendez’:

sudo adduser jhmendez

Al crear el nuevo usuario, nos pedirá su contraseña dos veces, y luego opcionalmente podemos incluir los datos de contacto:

Figura 50 Crear nuevo usuario de Raspberry

Page 106: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 106

o CONFIGURACIÓN DE POSTGRES

o CONFIGURACIÓN DE JAVA

Instalar Java SE Development Kit en la versión 8.0.1

Descargar Java Development Kit puede ser la distribución OpenJDK-8 o la versión

suministrada por Oracle (versión escogida)

sudo apt-get install java

PROBAR VERSIÓN DE JAVA INSTALADA

Luego de instalar java se debe corroborar la versión usando los siguientes comandos:

java -version

Jjava version "1.8.0_65" Java(TM) SE Runtime Environment (build 1.8.0_65-b17) Java HotSpot(TM) Client VM (build 25.65-b01, mixed mode)

javac -version

javac 1.8.0_65

CONFIGURACIÓN JBOSS

Page 107: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 107

Descargar jboss Enterprise Aplication Server (EAP) desde la página web:

https://developers.redhat.com/download-manager/file/jboss-eap-7.0.0-installer.jar

Mediante el siguiente comando se instala la version de jboss descargada

sudo java -jar jboss-eap-7.0.0-installer.jar

Se sigue el siguiente paso a paso:

Posteriormente se deben editar los archivos standalone.xml o standalone-full.xml (jboss_home/standalone/configurations/)

<interfaces>

<interface name="management">

<inet-address

value="${jboss.bind.address.management:0.0.0.0}"/>

</interface>

<interface name="public">

<inet-address value="${jboss.bind.address:0.0.0.0}"/>

</interface>

<interface name="unsecure">

<inet-address

value="${jboss.bind.address.unsecure:0.0.0.0}"/>

</interface>

</interfaces>

Para conectar la base de datos PostgreSQL con el servidor de aplicaciones JBOSS se debe descargar el driver de Postgres que se necesite como un .jar-file (http://jdbc.postgresql.org/download.html) Vaya al directorio de JBoss y encuentre el directorio modules\org\postgresql\main y verifique que el archivo modules.xml y el archivo .jar se encuentren en dicha carpeta. Verifique que el contenido de modules.xml sea el siguiente:

<?xml version="1.0" encoding="UTF-8"?>

Page 108: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 108

<module xmlns="urn:jboss:module:1.0" name="org.postgresql">

<resources>

<resource-root path="postgresql-Y.X-Z.jdbcV.jar"/>

</resources>

<dependencies>

<module name="javax.api"/>

<module name="javax.transaction.api"/>

</dependencies>

</module>

Verifique que el contenido de standalone.xml entre las etiquetas <datasources><drivers> sea el siguiente:

<driver name=”postgresql” module=”org.postgresql”>

<xa-datasource-class>

org.postgresql.xa.PGXADataSource

</xa-datasource-class>

</driver>

• CONFIGURAR VARIABLES DE ENTORNO

Usando el editor de texto preferido (nano en este caso) editaremos el archivo, agregando al final de este las variables de entorno para el uso de java y jboss.

sudo nano ~/.bashrc

export JAVA_HOME=/usr/lib/jvm/jdk-8-oracle-arm32-vfp-hflt

export PATH=$JAVA_HOME/bin:$PATH

export JBOSS_HOME=/opt/jboss/

export PATH=$JBOSS_HOME/bin:$PATH

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64

export PATH=$JAVA_HOME/bin:$PATH

export JBOSS_HOME=/opt/jboss/jboss-eap7

export PATH=$JBOSS_HOME/bin:$PATH

Reiniciar consola y probar.

echo $JBOSS_HOME

echo $JAVA_HOME

vystup:

/opt/jboss/

//usr/lib/jvm/jdk-8-oracle-arm32-vfp-hflt

Ahora se debe crear un nuevo grupo y un nuevo usuario llamados jboss. Haciendolo propietario de los archivos de jboss.

addgroup jboss

Page 109: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 109

useradd -g jboss jboss

chown -R jboss:jboss /opt/jboss/jboss-eap7/

Cree un script para que jboss se inicie automáticamente, establezca permisos de acceso, cree directorios y enlaces simbólicos desde /etc/init.d/jboss_eap7 a etc/rc.d/init.d/jboss_eap7

sudo touch /etc/rc.d/init.d/jboss-eap7

sudo mkdir /etc/rc.d

sudo mkdir /etc/rc.d/init.d

sudo ln -s /etc/rc.d/init.d/jboss-eap7 /etc/init.d/jboss-eap7

sudo chmod +x /etc/init.d/jboss-eap7

Inserte en etc/init.d/jboss-eap7 lo siguiente:

#!/bin/sh

### BEGIN INIT INFO

# Provides: jboss

# Required-Start: $local_fs $remote_fs $network $syslog

# Required-Stop: $local_fs $remote_fs $network $syslog

# Default-Start: 2 3 4 5

# Default-Stop: 0 1 6

# Short-Description: Management of JBoss AS v7.x

### END INIT INFO

#Defining JBOSS_HOME

JBOSS_HOME=/opt/jboss/

case "$1"

in

start)

echo "Starting JBoss EAP7..."

sudo -u jboss sh ${JBOSS_HOME}/bin/standalone.sh &

;;

stop)

echo "Stopping JBoss EAP7..."

sudo sh ${JBOSS_HOME}/bin/jboss-cli.sh --connect

command=:shutdown

;;

log)

echo "Showing server.log..."

tail -1000f ${JBOSS_HOME}/standalone/log/server.log

;;

*)

echo "Usage: /etc/init.d/jboss-eap7 {start|stop|log}"

exit 1

;; esac

exit 0

Crear enlaces de ejecución a jboss desdes los respectivos directivos

Page 110: Mejoramiento De Calidad En Conjuntos De Datos Abiertos ...repository.udistrital.edu.co/bitstream/11349/8032/... · Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En

Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De

Consistencia Lógica

Página | 110

sudo apt-get install chkconfig

cd /etc/init.d/

sudo chkconfig --add jboss-eap7

cd /etc/init.d/

sudo update-rc.d jboss-eap7 defaults

comandos para iniciar los servicios de jboss:

service jboss-eap7 start

service jboss-eap7 stop

service jboss-eap7 log

CONFIGURACIÓN AMBIENTE DE DESARROLLO EN NETBEANS

Configuración Dependencias Maven

API de CKAN para java JACKAN

<dependency>

<groupId>eu.trentorise.opendata</groupId>

<artifactId>jackan</artifactId>

<version>0.4.2</version>

</dependency>