Creado el 03/03/2014
Última versión: 09/12/2015
M. Antònia Martí i Mariona Taulé, Universitat de Barcelona
Esta obra está bajo una licencia de Creative Commons
Reconocimiento-CompartirIgual 3.0 Unported.
Recursos y representación del significado léxico
La desambiguación semántica automática
Basada en fuentes de conocimiento
Maria Antònia Martí nos va hablar de semántica y pragmática como niveles de análisis del lenguaje. Esta lección la ha realizado conjuntamente con Mariona Taulé y ambas son doctoras de la Universitat de Barcelona.
Semántica y Pragmática son dos disciplinas de la lingüística estrechamente relacionadas. Ambas tienen en común el estudio del significado.
La Semántica se circunscribe al estudio del significado de las palabras y de las oraciones contenidas en los enunciados orales o escritos producidos por los hablantes. Para la semántica, la oración es la unidad máxima del análisis.
El objetivo de la Pragmática es el estudio del uso del lenguaje, teniendo en cuenta tanto el contexto lingüístico como el contexto extralingüístico. Se trata por lo tanto del estudio del lenguaje en el marco de la comunicación humana.
¿Qué otras disciplinas tienen también como objetivo el estudio del significado además de la lingüística?
Dentro de la psicología, la psicolingüística tiene como objetivo el estudio experimental de cómo los significados se representan en la mente y qué procesos mentales tienen lugar en la producción y comprensión de los mensajes.
Un ejemplo prototípico de experimento psicolingüístico es medir el tiempo de respuesta de los informantes ante el reconocimiento de palabras que se distinguen por su carácter más o menos abstracto (por ejemplo ‘dolor’ frente a ‘cuchara’), por su longitud (por ejemplo ‘sol’ frente a ‘desconsideración’) o por su frecuencia (por ejemplo ‘está’ frente a ‘quijada’).
La neurolingüística se interesa por el modo en que los procesos de comprensión y producción están implementados a nivel neuronal y la localización en el mapa cerebral de la actividad lingüística.
Por otra parte, el significado es un componente indispensable en cualquier sistema de signos, como son el código de circulación, la iconografía, etc. y, por lo tanto, es también objeto de estudio de la semiótica o ciencia general de los signos.
¿Qué incluye el análisis semántico del lenguaje?
Dentro del análisis semántico del lenguaje distinguiremos la semántica léxica o semántica de las palabras tomadas individualmente y la semántica oracional que estudia cómo se combinan las palabras para formar significados complejos.
La Semántica léxica estudia el significado de las palabras, que en su conjunto constituyen el vocabulario de una lengua. Corresponde, en gran medida, al contenido de los diccionarios.
El vocabulario de una lengua incluye dos grandes grupos de palabras:
El objeto de estudio de la semántica léxica es, fundamentalmente, las clases abiertas. El signo lingüístico, unidad básica del lenguaje, consiste en la asociación entre una ‘forma fónica’ (una palabra, una construcción…) y su representación conceptual, que se denomina ‘sentido’ o 'intensión'. El ‘referente’ o 'extensión' es el conjunto de objetos y situaciones del mundo a los que podemos referirnos mediante el signo.
Tanto en teoría semántica como en semántica computacional un tema fundamental es como se representa o formaliza el sentido de las palabras. La representación o formalización del significado léxico es un tema común y compartido entre la lexicografía, la semántica lingüística y la semántica computacional: los diccionarios en soporte electrónico, los léxicos derivados de las diferentes teorías gramaticales y los recursos léxicos desarrollados en semántica computacional son utilizados como fuente de información y como modelo de representación en todas estas disciplinas. El contenido léxico es tan extenso y complejo que necesariamente se reutilizan los materiales existentes desarrollados desde diferentes ámbitos de conocimiento.
Un ejemplo representativo lo tenemos en la DBpedia, una red de redes semánticas interconectadas mediante una ontología común.
El léxico es un componente imprescindible en cualquier sistema de Procesamiento del lenguaje. Aquí nos ceñiremos a tratar exclusivamente el contenido semántico del léxico.
El sistema de representación más común y con un nivel de formalización mínimo, son los diccionarios, actualmente disponibles en soporte electrónico. Las definiciones constituyen una manera sistemática de representar el significado de las palabras. Siguen unas pautas preestablecidas que garantizan su comprensión. Así, las definiciones nominales suelen empezar con el término genérico o hiperónimo de las palabras que se definen. Los adjetivos se definen generalmente, mediante sinónimos, y los verbos mediante sinónimos o bien hiperónimos.
En el caso de partido,
Como se puede observar, el término genérico clasifica los diferentes sentidos según el campo semántico al que pertenecen. Además de la definición, en los diccionarios se suele incluir para cada sentido, sus sinónimos y ejemplos de uso.
Un paso más en la formalización del significado léxico lo tenemos en las redes semánticas, como WordNet (véase la presentación de Antoni Oliver). En este caso los sentidos se representan mediante las relaciones de sinonimia, hiperonimia, hiponimia, meronimia, etc.
Finalmente, desde la semántica teórica y computacional tenemos una gran variedad de propuestas para la representación del significado léxico, siendo las estructuras de rasgos el tipo de formalización más extendido. Las estructuras de rasgos se basan en la idea de que el significado de las palabras se puede analizar y descomponer en primitivas (o átomos de significado).
Como hemos podido observar en el ejemplo de ‘partido’, las palabras pueden tener más de un sentido. Una palabra es monosémica cuando tiene un único sentido (es el caso de ‘cronómetro’), y polisémica cuando tiene dos o más sentidos que guardan una relación entre sí, como es el caso de ‘sierra’.
En teoría SEMÁNTICA la relación entre forma (fónica o gráfica) y significado léxico presenta una casuística que debe ser tenida en cuenta.
Son homónimas aquellas formas que tienen la misma categoría y forma gráfica (y fónica) pero cuyos significados no tienen ningún tipo de relación, como vemos en el ejemplo de atracar-1 y atracar-2. En atracar-2 tenemos, a su vez, un caso de polisemia, dos sentidos diferentes pero relacionados etimológicamente, es decir con un origen común.
Si bien en Lingüística es importante la distinción entre homonimia y polisemia, ya que el estudio histórico del vocabulario constituye una parte importante del conocimiento de una lengua, desde la lingüística computacional y el procesamiento del lenguaje natural la diferencia no es relevante ya que en último término el problema que se plantea es en términos de una forma y varios significados, independientemente de si están relacionados o no. Es por ello que en lingüística computacional esta distinción no tiene efecto y se habla siempre de polisemia.
La resolución de la polisemia es uno de los problemas claves de los sistemas de PLN: la asignación del sentido correcto a una forma es la tarea fundamental de la Desambiguación semántica automática (Word Sense Disambiguation, WSD), tema sobre el que volveremos más adelante.
Son homógrafas aquellas formas que coinciden casualmente en la forma gráfica pero que no tienen la misma categoría y cuyo significado es totalmente distinto. Es el caso de ‘sobre’ preposición y ‘sobre’ sustantivo masculino.
Formas homófonas son aquellas que presentan una misma forma fónica y diferente forma gráfica y significado. Es el caso de ‘haya’ del verbo ‘haber’ y ‘aya’, sustantivo femenino.
Unidades en lexicografía: Un problema básico de la semántica léxica es la delimitación sintagmática de sus unidades. Veamos unos ejemplos:
‘Ha llegado’ es una forma compuesta del verbo llegar y debería considerarse como una única unidad. ‘Acordarse_de’ tiene un sentido totalmente diferente de ‘acordar’, lo que nos permite concluir que ‘acordarse_de’ constituye una única unidad léxica. El significado de ‘a pies juntillas’ no es compositivo y va asociado a la expresión en su conjunto. Finalmente, ‘clamor popular’ si bien se puede interpretar de manera compositiva, es decir, el significado del conjunto es la suma del significado de las partes, la frecuencia de coaparición es alta lo que es indicio de su proceso de lexicalización, es decir, de constituirse como una única unidad.
La mayoría de los ejemplos que acabamos de ver corresponden a lo que en LC Y EN PLN se denominan expresiones o unidades multipalabra (Multi Word Expressions, MWE). La importancia de su detección e interpretación automática queda demostrada por el creciente número de workshops y grupos de discusión para su tratamiento.
Actualmente, la mayoría de sistemas de PLN resuelve estas expresiones tratándolas en una lista con la información idiosincrática asociada a cada una de ellas. Dada la gran cantidad y variedad de expresiones multipalabra de una lengua, se están realizando esfuerzos en su detección o extracción automática. A pesar de todo, de momento, su tratamiento requiere un componente importante de trabajo manual.
Son muchos los sistemas de PLN que requieren tratar el significado léxico, y por lo tanto deben resolver la ambigüedad a que da lugar la polisemia y la homonimia. Es el caso de los sistemas de traducción automática o los sistemas de pregunta-respuesta. A la tarea de resolución de la polisemia se la denomina ‘desambiguación semántica automática’ (Word Sense Disambiguation, WSD).
Como podemos ver en el ejemplo, una misma forma en español debe recibir diferentes traducciones al inglés puesto que el significado es distinto.
La polisemia es un fenómeno muy habitual en las lenguas. Si observamos las entradas de un diccionario comprobaremos que muchas de ellas -alrededor del 50 %- tienen más de una definición o sentido.
Esta pluralidad de sentidos no interfiere, en la práctica, en la comunicación humana ya que el contexto, tanto lingüístico como extralingüístico, desambigua su significado como se puede ver en los ejemplos:
El problema fundamental de los sistemas de desambiguación semántica automática es como proporcionar al sistema el conocimiento necesario para conseguir un resultado correcto.
Existen dos aproximaciones fundamentales:
Veremos en primer lugar la desambiguación semántica basada en corpus anotados.
Un corpus anotado semánticamente a nivel de palabra tiene asociado a cada palabra su sentido o significado según una determinada fuente léxica (un diccionario, WordNet, etc.). A partir de un corpus de estas características, los sistemas de desambiguación semántica basados en aprendizaje automático ‘aprenden’ los contextos más habituales de los sentidos de cada palabra y utilizan posteriormente este conocimiento para etiquetar nuevos corpus.
El conocimiento que adquieren estos sistemas consiste en las palabras que en el texto rodean la palabra que se quiere desambiguar. Estas palabras del contexto son los rasgos que utiliza el clasificador para predecir el significado de nuevas ocurrencias.
Los sistemas de desambiguación automática basados en fuentes de conocimiento asignan los sentidos a las palabras a partir de reglas heurísticas que relacionan la palabra que se quiere desambiguar con sus descripciones, definiciones o ejemplos en la fuente de conocimiento.
Si la fuente de conocimiento es un diccionario, las reglas utilizarán las definiciones, si es un red semántica utilizará las relaciones semánticas o los ejemplos, según el material que esté disponible.
Maria Antònia Martí nos va hablar de semántica de la oración como otro aspecto del análisis semántico. Esta lección la ha realizado conjuntamente con Mariona Taulé y ambas son doctoras de la Universitat de Barcelona.
La semántica oracional estudia cómo se combinan los significados de las palabras para formar significados complejos. El significado de una oración no se basa únicamente en el significado de las palabras que la conforman, sino que depende también de la manera en qué estas palabras se agrupan, se ordenan y se relacionan. Es por este motivo que el análisis semántico de la oración se realiza a partir del análisis sintáctico, encargado de dar cuenta de las relaciones estructurales –de dependencia y de orden- que se establecen entre las palabras.
Por lo tanto, el significado de la oración se basa parcialmente en la estructura sintáctica de la misma y consiste en la identificación de las relaciones semánticas (papeles temáticos) que hay entre los predicados (principalmente el verbal) y sus complementos. Esto implica establecer, para cada predicado, la correspondencia (‘mapping’) entre constituyentes sintácticos y papeles temáticos.
En los siguientes ejemplos podemos observar como la misma función sintáctica ‘sujeto’ tiene asociados diferentes papeles temáticos en función de la relación semántica que se establece entre el argumento y el predicado verbal.
‘Juan’ es el sujeto sintáctico de todas estas oraciones. La idea de ‘sujeto’ nos dice muy poco ya que vemos claramente cuán diferente es la relación de ‘Juan’ con los diferentes predicados verbales. La información sintáctica resulta pues muy limitada para proceder a la interpretación semántica de las oraciones. Siguiendo con el ejemplo, Juan es el AGENTE de leer, es el TEMA de llegar, el EXPERIMENTADOR de soñar y la CAUSA de romper. La asignación de relaciones semánticas o roles semánticos contribuye significativamente a la interpretación semántica de los textos.
En este otro ejemplo analizamos las diferentes relaciones semánticas entre el CD y el predicado verbal:
Es evidente que ‘periódico’, ‘5 kilómetros’ y ‘puerta’, a pesar de ser todos CDs del predicado verbal, la relación semántica que establecen con el mismo es muy diferente. Así, desde el análisis semántico, ‘periódico’ es el PACIENTE de ‘leer’, ‘5 km’ es la EXTENSIÓN de ‘correr’ y ‘puerta’ es el TEMA de ‘abrir’.
En Lingüística Computacional, la tarea encargada de realizar este tipo de análisis son los sistemas de etiquetado de roles semánticos (Semantic Role Labeling, SRL). Estos sistemas se encargan de interpretar/identificar las relaciones semánticas que se establecen entre los predicados y los argumentos mediante papeles temáticos o roles semánticos (agente, paciente, tema, beneficiario, etc.).
¿Qué utilidad puede tener un análisis de este tipo?
El análisis con roles semánticos es una representación superficial del significado que permite, por un lado, hacer inferencias que no podrían realizarse a partir de un árbol de análisis sintáctico que sólo expresa las relaciones de orden y dependencia.
Por otro lado, permite establecer relaciones de significado sistemáticas entre construcciones gramaticales diferentes:
En estas oraciones, ‘ventana’ realiza diferentes funciones sintácticas: CD en la primera y tercera, y Sujeto en la segunda. Sin embargo, desde un punto de vista semántico el rol asignado en todas ellas sería el de PACIENTE.
El proceso de interpretación semántica requiere disponer de léxicos en los que se especifique para cada tipo de clase de predicados, qué rol semántico corresponde a cada función sintáctica subcategorizada por el verbo:
Hola. Continuando con la serie de materiales relativos al análisis semántico de textos, Maria Antònia Martí nos va hablar de pragmática. Esta lección la ha realizado conjuntamente con Mariona Taulé y ambas son doctoras de la Universitat de Barcelona.
El objetivo de la Pragmática es el estudio del uso del lenguaje en el marco de la comunicación humana: el ámbito del análisis en este caso ya no es la frase, sino el discurso.
¿Qué entendemos por discurso?
Se entiende por discurso cualquier fragmento del habla o de texto escrito que versa sobre un tema determinado, que está compuesto por 2 o más oraciones relacionadas entre si, que tiene una particular intención comunicativa y que se encuentra contextualmente ubicado.
Las dos variantes de discurso más habituales son el monólogo (cuando tenemos un único narrador) y el diálogo, cuando alternan los turnos de habla dos o más participantes.
Caben también dentro del estudio de la pragmática lingüística, aunque han tenido poco desarrollo en LC, el estudio de los actos de habla y de las intenciones comunicativas. Se trata del conocimiento que todo hablante tiene sobre el uso de la lengua y que, ante preguntas como “¿tienes hora?”, sabe que debe responder dando la hora, y no con un simple “¡sí!”.
Por otro lado, dentro de las aplicaciones de Procesamiento del Lenguaje encontramos diferentes líneas de investigación que situaríamos dentro del ámbito de la Pragmática:
Todas ellas se tratan en otros módulos del curso.
En este módulo nos centraremos en los temas clave de la pragmática lingüística referentes a cómo se estructura, organiza y distribuye la información en el discurso.
(ejemplo1)
Juan llegó a casa a las 7 (O1). Fue entonces cuando se dio cuenta del robo (O2). Enseguida reaccionó y llamó a la policia (O3).
(ejemplo 2)
Juan llegó a casa a las 7 (O1). Ella misma cogió el teléfono y llamó al servicio médico de urgencias(O2). Se da cuenta de que habían robado (O3).
Para que un conjunto de dos o más oraciones sean calificadas como ‘discurso’ deben cumplir los principios de cohesión y coherencia, dos propiedades estrechamente ligadas a la comprensión y la producción de textos. En los ejemplos, el primero cumpliría ambos principios, mientras que el segundo, no.
Trataremos en primer lugar la COHERENCIA. Las relaciones de coherencia son aquellas que se establecen entre palabras y oraciones de un texto para dotarlo de unidad, nos remiten a su significado global y permiten hacer inferencias. Son aquellas propiedades del discurso que garantizan su interpretabilidad.
Así el ejemplo 1 expresa verbalmente una secuencia temporal de hechos con un mismo protagonista, Juan: Juan llega a casa (oración 1), se da cuenta de que le han robado (oración 2) y llama a la policía (oración 3).
En el ejemplo 2 no se cumplen los principios básicos de coherencia discursiva debido a diferentes razones:
En este caso decimos que el ejemplo 2 es un texto “incoherente”: no nos permite obtener una interpretación global del contenido, no sabemos qué se nos está exponiendo.
Veamos otros ejemplos que reflejan el discurso coherente e incoherente:
COHESIÓN
La cohesión discursiva hace referencia a la manera en que las unidades textuales están relacionadas. Su naturaleza es sintáctica y léxico-semántica. Un discurso bien cohesionado nos permite identificar de manera no ambigua los elementos correferentes.
Si la coherencia es la dimensión interpretativa del discurso, la cohesión sería la dimensión lingüística, que tiene una expresión formal.
(ejemplo1)
Juan llegó a casa a las 7 (O1). Fue entonces cuando se dio cuenta del robo (O2). Enseguida reaccionó y llamó a la policía (O3).
(ejemplo 2)
Juan llegó a casa a las 7 (O1). Ella misma cogió el teléfono y llamó al servicio médico de urgencias(O2). Se da cuenta de que habían robado (O3).
Así, en el ejemplo (1) se identifica claramente que Juan es el sujeto agente/paciente de ‘llegar’, ‘darse cuenta’ y ‘llamar a la policía’: la elisión formal del sujeto en O2 y en O3 indica que se asume que es el mismo que el de la primera oración. El ejemplo-1 tiene cohesión.
En el ejemplo 2, en cambio, no tenemos manera posible de saber el referente de ‘ella misma’, por lo que constituye un elemento del discurso que no enlaza con ningún otro elemento. Desconocemos, además, cuál es el sujeto/agente de la O3, está elidido y no podemos asignarle referente puesto que hay más de un candidato posible. Se trata de un texto no cohesionado, donde los elementos que lo constituyen no están interrelacionados.
La cohesión discursiva es la que nos permite responder a preguntas como:
Contribuyen a la expresión de la cohesión el uso de los marcadores discursivos y las relaciones de correferencia entre las entidades del discurso. Estos son los temas que trataremos a continuación.
Marcadores y estructura del discurso
En el área de la Lingüística Computacional, la estructura del discurso constituye un conocimiento clave en los sistemas de extracción y recuperación de información y resumen automático ya que nos permite:
Marcadores del Discurso
Los marcadores del discurso pueden contribuir en la identificación de la estructura discursiva. Desde un punto de vista lingüístico estos elementos son palabras, locuciones o unidades multipalabra (en negrita en los ejemplos), sin función sintáctica dentro de la oración, cuya función básica es conectar los distintos fragmentos de que se compone un texto con la totalidad del mismo.
En algunas aplicaciones, como en resumen automático, pueden ayudar a detectar cual es el núcleo de la información —elisión de los segmentos amarillos—:
(1) Abusar de la pila, como por ejemplo recargándola, puede resultar en goteo o rotura.
(2) Es posible que sólo lo descubran cuando ya sea tarde, es decir, cuando surja una controversia.
(3) La UE ha decidido subvencionar a los países cuya deuda sea inferior al PIB. Así pues, sólo se benefician con medidas de alivio los países cuyo nivel de deuda se considere insostenible.
(4) La defensa intervino de forma contundente. Ahora bien, en el expediente hay abundantes pruebas de actividad delictiva.
La mayor parte de las veces su significado es prácticamente nulo y pueden elidirse sin que por ello cambie el contenido del texto.
‘Bien’, ‘entonces’, ‘quiero decir’, ‘ya sabes, ‘por otro lado’, ‘como por ejemplo’, o ‘francamente’ son ejemplos de marcadores:
Los marcadores del discurso son específicos de cada lengua y, además de elementos de base léxica, incluyen también los signos de puntuación y elementos paratextuales como el tipo y tamaño de las letras. En la lengua oral, son marcadores, la entonación, las pausas y el tono.
La correferencia es un fenómeno que se da a nivel del discurso y contribuye a establecer la cohesión del mismo.
Cuando en un texto (oral o escrito, narrativo o dialogado) dos o más entidades comparten un mismo referente en el discurso, decimos que son correferentes. En el fragmento corresponde a los elementos marcados con el mismo color y variable.
Un texto como ejemplo de correferencia. Las variables y colores marcan el objeto de las referencias. El símbolo [Ø] la elipsis.
Juanjo Rodríguez(1) estudió Ingeniería Informática(2) en la Universitat Politécnica de Catalunya(3) y al [Ø](1) acabar [Ø](2) [Ø](1) decidió quedarse para preparar su(1) tesis doctoral sobre lenguaje natural, a la vez que [Ø](1) daba clases. Todo hacía suponer que su(1) futuro estaba en la UPC(3) pero, en el 2011, Juanjo(1) recibió un e-mail de Facebook(4) en el que le(1) [Ø](4) invitaban a entrar en su(4) proceso de selección de personal.
Las entidades en el discurso pueden aparecer expresadas de dos modos:
Cuando la correferencia se da entre dos (o más) formas plenas, tenemos correferencia definida; cuando se da entre una forma plena y una o más formas abreviadas, tenemos correferencia anafórica o simplemente anáfora.
La importancia de la correferencia en la comprensión y la producción del lenguaje es capital ya que nos permite identificar de qué estamos hablando en cada momento del desarrollo discursivo.
En el texto, la correferencia anafórica y definida nos permite identificar que:
Es por ello que identificar las cadenas correferenciales en el discurso es un factor clave en muchas aplicaciones y técnicas de PLN. Si no se dispone de un buen mecanismo de detección de las cadenas correferenciales:
Actualmente la resolución automática de la correferencia es un tema clave en los buscadores de internet ya que permitiría recuperar más información y más precisa.
Los sistemas de resolución automática de la correferencia, distinguen la resolución de la correferencia anafórica o de la anáfora de la resolución de la correferencia definida.
En el primer caso, el problema consiste en hallar el antecedente de una forma pronominal o de una elipsis, normalmente un sintagma nominal. La información que suelen usar los sistemas de resolución automática de la anáfora es la concordancia de género, número y persona (cuando ello es posible) o la proximidad en el texto. En el ejemplo, consistiría en hallar los antecedentes de las formas pronominales ‘su’ y ‘le’ (Juanjo Rodríguez o Facebook) y de los sujetos elípticos.
La resolución de la correferencia definida consiste en identificar aquellos elementos del texto que se refieren a una misma entidad del discurso.
Los sistemas de resolución automática de la correferencia suelen recurrir a la identidad total o parcial de formas (en el ejemplo, Juanjo Rodríguez y Juanjo).
La resolución de relaciones de correferencia cuando las entidades no son idénticas o parcialmente semejantes en la forma como ocurre con ‘Universitat Politécnica de Catalunya’ y ‘UPC’ es más compleja y se suele recurrir a la información del contexto, de la estructura sintáctica o argumental cuando es posible, o bien a listas de entidades con sus posibles variantes. Este último recurso es muy común cuando se trata de nombres propios.
La resolución automática de la referencia anafórica y definida es crucial en muchas de las aplicaciones del procesamiento del lenguaje:
Un tema que actualmente despierta mucho interés es la resolución de la correferencia entre documentos (cross-document co-reference resolution). Esta técnica se centra en la extracción de oraciones que hacen referencia a una misma entidad (p.e. José Ignacio Wert) en una colección de documentos, como por ejemplo Internet. Para ello es necesario disponer de mecanismos de desambiguación ya que una misma entidad (en este caso, un mismo nombre propio) puede tener más de un referente.