Análisis sintáctico
GRIAL – UB
KNOW
Análisis sintàctico
Situación actual del análisis sintáctico del español
Desarrollo de una gramática
Adquisición de información para guiar el análisis sintáctico
Situación actual
Analizadores existentes ‘asequibles’ análisis total Hispal Conexor Freeling
Evaluación cualitativa
Análisis comparativo de los resultados
- constituyentes, oraciones subordinadas - mala identificación de la función sintáctica - sintagmas preposicionales - complementos directos con ‘a’ - identificación de constituyentes coordinados - multiword expressions - adverbiales vs. objeto directo - elipsis del verbo principal en una cláusula
Comparación
Fenómeno observado HISPAL FreeLing Connexor
Syntactic Function Misidentification
(1.El partido se convirtió en la pesadilla que había pronosticado Luís.
2. Papel fundamental han desempeñado en esta recuperación los evangelios… )
1. + 2. OK NoLuis, los evangelios – objeto directo
NoLuis, los evangelios – objeto
directo
Grouping of Constituents(Esa expresión del deseo de ver
convertida en candidata a alcaldesa de Madrid a la vicepresidenta del Gobierno refleja la
realidad.)
NOimpossibility of
the three parsers to group the constituents of compound subjects.
NOimpossibility of the three parsers to group
the constituents of compound subjects.
NOimpossibility of the three parsers to group
the constituents of compound subjects.
Prepositional Phrases with a(1. Ven a la tienda oficial esta
tarde.2. Pero el colmo es ver a
Lucio subiendo al ataque..)
OK NO 1. si 2. no
Comparación
Ellipsis of the main verb in a clause( Juan bebió vino y María cerveza.)
OK NOgrup-verb/top/(bebió beber VMIS3S0) sn/subj/(Juan juan NP00000) coor-n/obj/(y y CC) sn/co-n/(vino vino NCMS000) sn/co-n/(María maría NP00000) sn/obj/(cerveza cerveza NCFS000)
NO1 Juan juan subj:>2 @NH N MSC SG Prop2 bebió beber main:>0 @MAIN V IND PRET SG P33 vino vino obj:>2 @NH N MSC SG4 y y @CC CC5 María maría adc:>6 @NH N FEM SG Prop6 cerveza cerveza @NH N FEM SG
Inversion of objects and subjects(Averigua en qué lugar está la casa.)
No especifica qué es casa
NO (casa – objeto directo) No especifica qué es casa
Treatment of multiword names(1. Ángel Amor se llama el individuo.2. Anier García le dio el lunes a Cuba su primera medalla dorada.)
1. no analiza ángel amor
como un todo, quiza
porque Amor coincide con el sustantivo
amor2.
Anier_garcia (un todo)
1. no analiza ángel amor como un todo
2. Anier_garcia (un todo)
1. OK ángel modifica a amor2. El mismo análisis como en 1.
Yes / No Questions(¿Renuncia España al veto en los fondos de cohesión?)
OK NO, renuncia como sustantivo y no como verbo
NO, renuncia como sustantivo y no como verbo
Gramática
RASP Constituyentes básicos : sn, sv, sadj, sadv,sp,
coordinación léxica y sintagmática Construcciones principales Oraciones subordinadas relativas y completivas
Metarreglas??? Gramática completa
Gramática del español
RASP gramática de unificación:
GPSG rasgos reglas de estructura de
frase metarreglas ? no incluye lemas código cerrado gramática completa
FREELING gramática de
dependencias clases reglas a pares funciones de situación en
el árbol incluye lemas código “abierto” gramática de la oración
Adquisición de Patrones de Subcategorización
Objetivo
Obtener clases de comportamiento sintáctico de los verbos a partir de SENSEM
Extrapolar estos comportamientos a verbos desconocidos adquisición
Fases
Crear una clasificación inducida a partir de los ejemplos / sentidos de SENSEM Aprender el clasificador Aplicar el clasificador sobre verbos no conocidos
Metodología
Corpus etiquetado manualmente
Reducción de los casos PS
Inducción de clases clasificación
Evaluación y selección de la solución
Clasificador a partir de los ejemplos Analizados manual/automáticamente Agrupación por sentidos /ejemplos
Asignación de clases a ejemplos no vistos
SenSem
Corpus etiquetado:
Delimitación de constituyentes Categoría sintáctica Función sintáctica Rol semántico Clase eventiva
Reducción
Patrones de Subcats Argumentos Sin variedad de orden Compactación de categorías
sn v sp sn(sto) v sp(oprep) sn(sto-exp) v sp(oprep-tema)
Patrones
998 sentidos 250 lemas verbales
Patrones
todos > 5 >10
C 240 98 69
C+F 785 213 130
C+F+R 2854 464 317
Clasificación
sentido verbal
cada sentido se representa como un vector las dimensiones de los vectores son todos los esquemas de subcategorización
que se dan en el corpus los valores de cada vector para cada dimensión son el número de veces que
ocurre el sentido con el esquema anotación manual
ejemplos individuales
cada ejemplo se representa como un vector las dimensiones de los vectores son todos los esquemas de subcategorización
que se dan en el corpus los valores de cada vector para cada dimensión son binarios: o el ejemplo tiene
el esquema de la dimensión o no lo tiene anotación automática
Clasificación
Clustering
Simple Kmeans Expectation-Maximization
Clusters Subclusters
Evaluación de las clasificaciones Evaluación
Tienen sentido los vectores: diátesis (compactadas)
Distribución de la población en clases Parejas de verbos similares Distinguibilidad de sentidos Overlap de patrones Aplicación de diferentes clasificadores con
diferentes configuraciones
Solucion C+F 3 clases
Clase 1: 704 sentidos verbales. Clase mixta83% alternante: omisión de complemento16% único patrón: trans, intrans y prep
Subclustering: 5 clases una clase mayoritaria con esquemas de subcategorización muy dispares diversas clases más pequeñas que agrupan verbos con comportamientos mucho más
definidos.
Clase 2: 153 sentidos verbales esquemas transitivos. Diátesis: trans intrans trans ditrans
Clase 3: 39 sentidos verbales esquemas preposicionales y alta frecuencia de
atributivos/circunstanciales/predicativos diátesis se caracterizan por la omision/elisión de algunos preposicionales preposicional - intransitiu
Solución C+F >10 subcluster clase 5 (477)
Diatesis: transitivos e intransitivos y en algún caso con preposicionales. subclaseslas subclases 5.5, 5.3 y 5.2 esquemas transitivos e intransitivos, las subclases 5.4, 5.6, 5.7 y 5.8 la alternancia intransitivo/preposicional
clase 2 (163) Diatesis: preps intrans y ditrans preps subclases 2.2 esquemas ditranstivos 2.1.esquemas con circunstanciales .
Solución C+F >10 sublcuster Clase 1 (103) y clase 3 (68)
Diatesis; transtiva/ditransitiva/intransitivaEstas clases no presentan subclases.
Clase 4Diatesis: preposicionales intransitivos presencia de atributos. subclases 4.1 Diatesis: preposicional/intransitiva con atributos 4.2 Totalmente preposicional 4.3 Diatesis: transitivos preposicionales.
Aplicación del Classificador
Porcentaje de sentidos bien clasificados en el primer nivel de clustering para la aproximación con esquemas de función y
categoría que ocurren más de 10 veces 5 clases
0
20
40
60
80
NaiveBayes IBk Bayes J48 JRip OneR
manual--sentidosautomático--sentidosmanual--ejemplosautomático--ejemplos
Porcentaje de sentidos bien clasificados en el segundo nivel de clustering para la aproximación con esquemas de función y categoría que ocurren más de 10 veces. 12 clases
0
20
40
60
80
NaiveBayes IBk Bayes J48 JRip OneR
manual--sentidosautomático--sentidosmanual--ejemplosautomático--ejemplos
Pendiente…
Decidir el mejor clasificador Reconsiderar la clasificación en función de los resultados del
clasificador? Compactar clases? evaluación
WSD automática sobre SenSem Aplicación y evaluación de WSD Aplicación del clasificador
Aplicación del clasificador sobre corpus desambiguados automáticamente adquisición
Estudiar la posible generalización de los vectores (alternancias de diátesis)
Top Related