Seminario de Análisis Documental

12
Seminario de Análisis Documental Presenta: Lilian Martínez Carrillo Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus Ley de Zipf y sus aplicaciones aplicaciones en el Análisis en el Análisis Documental Documental

description

Ley de Zipf y sus aplicaciones en el Análisis Documental. Seminario de Análisis Documental. Presenta: Lilian Martínez Carrillo Profesor: Georgina Araceli Torres. México, D.F., 2011. George Kingsley Zipf (1902-1950). - PowerPoint PPT Presentation

Transcript of Seminario de Análisis Documental

Page 1: Seminario de Análisis Documental

Seminario de Análisis Documental

Presenta: Lilian Martínez Carrillo Profesor: Georgina Araceli Torres

México, D.F., 2011

Ley de Zipf y sus aplicaciones Ley de Zipf y sus aplicaciones

en el Análisis Documentalen el Análisis Documental

Page 2: Seminario de Análisis Documental

George Kingsley Zipf(1902-1950)

Fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas.

Page 3: Seminario de Análisis Documental

LEY DE ZIPF

En 1935, George Kingsley Zipf, después de estudiar la ocurrencia de palabras en varios textos, formuló lo que se conoce como ley de Zipf.

Dice: si tomamos cualquier longitud de palabras de un texto, y se analiza la ocurrencia de las mismas, en orden decreciente de frecuencia y se multiplica por su frecuencia, esto es igual a la constante.

Page 4: Seminario de Análisis Documental

LEY DE ZIPF

Rango Palabras Frecuencia Porcentaje Constante

Orden Ocurrencias del Total (FxR=C)

1 the 7.398.934 5.9 7.398.934

2 of 3.893.790 3.1 7.787.580

3 to 3.364.653 2.7 10.093.959

4 and 3.320.687 2.6 13.282.748

5 in 2.311.785 1.8 11.558.925

6 is 1.559.147 1.2 9.354.882

7 for 1.313.561 1 9.194.927

8 The 1.144.860 0.9 9.158.880

9 that 1.066.503 0.8 9.598.527

10 said 1.027.713 0.8 10.277.130

Page 5: Seminario de Análisis Documental

La frecuencia por el rango es igual a la constante

FxR=C

CF=R

LEY DE ZIPF

La frecuencia de aparición (F) de una palabra en un texto es inversamente

proporcional a su rango (R)

Page 6: Seminario de Análisis Documental

La ley de Zipf también da la dependencia de la frecuencia de ocurrencia de una palabra con respecto al número de palabras que se usen, o sea, a la amplitud del vocabulario utilizado. Mientras menor sea el vocabulario, mayor será la frecuencia de las palabras en los primeros rangos.

LEY DE ZIPF

Ley del mínimo esfuerzo

Page 7: Seminario de Análisis Documental

LEY DE ZIPF Y EL AD

Indización automática.

Recuperación de información

Page 8: Seminario de Análisis Documental

LEY DE ZIPF Y EL ADIndización automática y la generación de Tesauros

1. Identificación y adquisición de componentes representativos de un dominio• Análisis léxico• Tratamiento de palabras vacías• Tratamiento de términos flexionados• Tratamiento de palabras compuestas• Filtrado de términos

2. Obtención de relaciones entre componentes

Page 9: Seminario de Análisis Documental

LEY DE ZIPF Y EL ADIndización automática y la generación de Tesauros

Análisis léxicoAdquisición de componentes (términos que representan un

significado colectivo)

Tratamiento de palabras vacías [artículos, preposiciones, conjunciones]

Eliminación de palabras vacías (con listas construidas previamente o después del filtrado)

Descriptores simples o Compuestos

Tratamiento de términos flexionados [términos relacionados morfológicamente, variaciones de género, número o tiempo verbal]

Reducción a términos canónicos (efectividad en la recuperación de información, reducir el tamaño de los resultados)

Tratamiento de palabras compuestasAlgoritmos (relaciones entre descriptores y relaciones

jerárquicas)

Page 10: Seminario de Análisis Documental

Filtrado de términosIdentificación de términos representativosIDF [Indización estadística de Términos por Frecuencia]

LEY DE ZIPF Y EL ADIndización automática y la generación de Tesauros

La zona media representa el documento

En el caso de que un término tenga una frecuencia en un documento mayor que la media fijada en el resto de documentos se tomara como descriptor para todos. No es necesario que un término aparezca en todos los documentos a filtrar para que sea descriptor.

Método N-grams

Page 11: Seminario de Análisis Documental

LEY DE ZIPF Y EL ADIndización automática y la generación de Tesauros

1. Obtención de relaciones entre componentesObtención de relaciones jerárquicasAsociaciones temáticas(proceso de clusterización que agrupa en clases aquellos

descriptores que responden a una serie de características comunes)

1. Encontrar la raíz• Calculo del centroide• Descriptor más general del cluster (mayor numero

de apariciones en el total de docs del corpus)• Descriptor más general del cluster (el que aparezca

en un mayor número de documentos)• Descriptor más general (combinando las dos ideas

anteriores)2. Agrupación de clases

Page 12: Seminario de Análisis Documental

Gracias por su atenciónGracias por su atención