Creado el 27/01/2014
Última versión: 17/12/2015
Antoni Oliver, Universidat Oberta de Catalunya
Esta obra está bajo una licencia de Creative Commons
Reconocimiento-CompartirIgual 3.0 Unported.
Basado en corpus y basado en conocimiento
Aproximaciones basadas en corpus
¿Qué es un corpus lingüístico?
Niveles de anotación de los corpus
Aproximaciones basadas en conocimiento
Los diccionarios y enciclopedias como fuentes para el conocimiento del mundo
SUMO (Suggested Upper Merged Ontology)
En este tema vamos a ver dos estrategias para el tratamiento computacional de fenómenos lingüísticos: las aproximaciones basadas en corpus y las aproximaciones basadas en conocimiento. Como pasa en muchas otras clasificaciones sobre otras técnicas de las tecnologías del lenguaje, la frontera entre estas dos aproximaciones no es clara.
Las aproximaciones basadas en corpus utilizan estos recursos para obtener la información que necesitan para resolver la tarea. En el siguiente apartado recordaremos el concepto de corpus y los diferentes niveles de anotación (es decir, de información que pueden contener).
Las aproximaciones basadas en conocimiento utilizan diferentes tipos de información para resolver la tarea. Esta información se podría considerar como conocimiento del mundo y se trata de información no contenida de manera implícita en los corpus. Un ejemplo de conocimiento sería por ejemplo que un gato es un animal pero que también puede ser una herramienta. Más adelante veremos diferentes fuentes de información que se pueden utilizar para resolver tareas lingüísticas.
Para finalizar este tema veremos cómo utilizar una y otra aproximación en una tarea concreta: la desambiguación de sentidos (WSD - Word Sense Disambiguation).
Veamos una definición sencilla de corpus: [fuente Wikipedia]
Un corpus lingüístico es un conjunto, habitualmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (lo más común) o muestras orales (generalmente transcritas).
En el resto de este tema consideraremos corpus de textos.
Los corpus pueden tener diferentes niveles de anotación, es decir, diferentes tipos de información que puede estar asociada al corpus. La manera de asociar esta información al corpus puede ser tanto manual, como automática así como (opción muy frecuente) automática con revisión manual.
Así, los diferentes niveles de anotación pueden ser:
En este caso el corpus no dispone de ninguna información asociada. Incluso en este caso el corpus proporciona información sobre cómo es el corpus, el tipo de textos, si es lenguaje general o especializado. Esta mínima información puede ya ser útil para intentar resolver alguna tarea concreta.
Cada palabra del corpus tiene asociada su lema (forma base) y una etiqueta que indica su categoría gramatical y ciertas subcategorizaciones. En el siguiente ejemplo vemos una oración etiquetada a nivel morfosintáctico (la anotación se ha realizado automáticamente con la herramienta Freeling)
Fijaos que esta oración contiene una palabra muy ambigua a nivel morfosintàctico (bajo) que tanto puede ser sustantivo, verbo, adjetivo o preposición.
En este caso las oraciones del corpus están analizadas sintácticamente. A este tipo de corpus a menudo se denominan Treebanks. Veamos un ejemplo de análisis sintáctico (realizado también automáticamente con Freeling).
Esta misma estructura se puede representar a nivel textual de la siguiente manera:
+grup-verb_[
sn_[
espec-ms_[
+j-ms_[
+(El el DA0MS0 -)
]
]
+grup-nom-ms_[
+n-ms_[
+(gato gato NCMS000 -)
]
]
]
+verb_[
+(come comer VMIP3S0 -)
]
sn_[
+grup-nom-ms_[
+n-ms_[
+(pescado pescado NCMS000 -)
]
]
]
]
En este caso las palabras (si no todas, al menos algunas) tienen una etiqueta que indica el sentido de la palabra. Estas etiquetas pueden ser de diferentes tipos, pero una de las más extendidas son los llamados synsets de WordNet. Veremos un poco más adelante que es el WordNet. Pongamos unos ejemplos:
Necesito un gato para cambiar la rueda del coche.
Necesito necesitar VMIP1S0 01188725-v
un uno DI0MS0
gato gato NCMS000 03588951-n
para para SPS00
cambiar cambiar VMN0000 00126264-v
la el DA0FS0
rueda rueda NCFS000 04574999-n
de de SPS00
el el DA0MS0
coche coche NCMS000 02959942-n
. . Fp 1 -
Tengo un gato de color negro que come mucho pescado.
Tengo tener VMIP1S0 02205098-v:
un uno DI0MS
gato gato NCMS000 02121620-n
de de SPS00
color color NCMS000 04956594-n
negro negro AQ0MS0 00392812-a
que que PR0CN000
come comer VMIP3S0 01166351-v
mucho mucho DI0MS0
pescado pescado NCMS000 07775375-n
. . Fp 1 -
En la primera oración la etiqueta que ha recibido la palabra gato es el synset de WordNet 03588951-n correspondiente al sentido de herramienta para elevar objetos pesados o para ejercer presiones elevadas. En cambio en la segunda oración ha recibido la etiqueta 02121620-n, correspondiente al sentido mamífero felino generalmente tienen piel gruesa y suave sin capacidad de rugir.
Puede haber otros tipos de etiquetados, pero los expuestos aquí son los más frecuentes.
Desde los orígenes del tratamiento informático del lenguaje se ha visto que la resolución de muchas de las tareas relacionadas con este ámbito no se podían resolver de manera satisfactoria sin disponer de lo que se ha denominado a menudo conocimiento del mundo; es decir, el conocimiento general que tienen los hablantes de una lengua para poder mantener una conversación. Este conocimiento del mundo, también denominado a menudo conocimiento enciclopédico, es pues la información que una persona tiene almacenada en su memoria a partir de lo que ha experimentado, vivido o aprendido.
Los sistemas de Procesamiento del Lenguaje Natural a menudo han utilizado diccionarios y enciclopedias como fuentes para obtener este deseado conocimiento del mundo.
Si consultamos la entrada de gato del Diccionario de la Real Academia de la Lengua Española, obtenemos hasta 17 acepciones o significados diferentes:
gato1.
(Del lat. cattus).
1. m. Mamífero carnívoro de la familia de los Félidos, digitígrado, doméstico, de unos cinco decímetros de largo desde la cabeza hasta el arranque de la cola, que por sí sola mide dos decímetros aproximadamente. Tiene cabeza redonda, lengua muy áspera, patas cortas y pelaje espeso, suave, de color blanco, gris, pardo, rojizo o negro. Es muy útil en las casas como cazador de ratones.
2. m. Bolso o talego en que se guardaba el dinero.
3. m. Dinero que se guardaba en él.
4. m. Instrumento de hierro que sirve para agarrar fuertemente la madera y traerla a donde se pretende. Se usa para echar aros a las cubas, y en el oficio de portaventanero.
5. m. Máquina compuesta de un engranaje de piñón y cremallera, con un trinquete de seguridad, que sirve para levantar grandes pesos a poca altura. También se hace con una tuerca y un husillo.
6. m. Trampa para coger ratones.
7. m. Instrumento que consta de seis o más garfios de acero, y servía para reconocer y examinar el alma de los cañones y demás piezas de artillería.
8. m. coloq. Ladrón, ratero que hurta con astucia y engaño.
9. m. coloq. Hombre sagaz, astuto.
10. m. coloq. Hombre nacido en Madrid.
11. m. Carp. Instrumento de hierro o de madera compuesto de dos planchas con un tornillo que permite aproximarlas de modo que quede fuertemente sujeta la pieza que se coge entre ambas.
12. m. Zool. Nombre aplicado a todos los félidos en general.
13. m. Arg. y Ur. Baile de movimientos rápidos, de pareja suelta que suele acompañarse de coplas cuya letra coincide con las distintas figuras.
14. m. Arg. Música que acompaña ese baile.
15. m. C. Rica. Variedad de pastel, cortado rectangularmente, compuesto de dos tapas unidas con miel o conserva.
16. m. El Salv. bíceps braquial.
17. m. despect. coloq. El Salv. y Méx. servidor (‖ persona que sirve como criado).
Cada una de estas acepciones están acompañadas de una definición. Esta definición puede contener muchas pistas para resolver algunas tareas de procesamiento del lenguaje.
Otra fuente de información clásica son las enciclopedias. En este sentido la enciclopedia libre Wikipedia (http://wikipedia.org) ha obtenido una gran relevancia. Se trata de un proyecto colaborativo, donde cualquier usuario puede crear o mejorar artículos. Existen versiones de la Wikipedia en muchísimas lenguas y además las diferentes versiones lingüísticas están enlazadas entre ellas a nivel de artículo. La WIkipedia se puede consultar por Internet y además se puede descargar en diferentes formatos, con lo que se facilitan las tareas de procesamiento informático,
Veamos que nos muestra la Wikipedia española si realizamos la consulta gato.
Vemos que nos muestra la entrada correspondiente al significado más habitual, pero en la primera línea ya nos indica que existen otros significados que se pueden consultar en la entrada de desambiguación. Si accedemos a esta entrada veremos muchos otros significados que puede tener esta palabra:
Gato (animal)[
Plantas
Motes de personas
Otros
El contenido de la Wikipedia puede ser de gran interés para diversas aplicaciones de Procesamiento del Lenguaje Natural. El contenido de la Wikipedia es básicamente textual (aunque contiene imágenes y otros elementos multimedia) y la estructura de los artículos es libre. Existen otros elementos que pueden ser de gran ayuda para obtener información de la Wikipedia, como pueden ser los enlaces con otros artículos y los enlaces interlingüísticos. No obstante, es deseable disponer de esta misma información de una manera que sea más efectiva desde el punto de vista del procesamiento informático. La dBpedia es uno de estos intentos de estructurar y ofrecer la información de la Wikipedia de una manera más fácil de procesar.
En la versión inglesa de esta base de datos se describen 3,77 millones de entidades, entre ellas al menos 764 mil personas, 563 mil lugares, 112 mil álbumes de música, 72 mil películas y 18 mil videojuegos.
Veamos la información de Gato en la dBpedia española:
Property | Value |
dbpedia-owl:wikiPageID |
|
dbpedia-owl:wikiPageRedirects |
|
dbpedia-owl:wikiPageRevisionID |
|
dbpedia-owl:wikiPageWikiLink |
|
dcterms:subject |
|
rdf:type |
|
rdfs:label |
|
http://www.w3.org/ns/prov#wasDerivedFrom |
|
foaf:isPrimaryTopicOf |
|
is dbpedia-owl:ethnicity of |
|
is dbpedia-owl:wikiPageWikiLink of |
|
is prop-es:raza of |
|
is prop-es:tipo of |
|
is skos:subject of |
|
is foaf:primaryTopic of |
|
WordNet es una base de datos de conocimiento léxico del inglés en la que los sustantivos, verbos, adjetivos y adverbios se organizan en conjuntos de sinónimos que reciben el nombre de synsets. Cada synset representa un concepto lexicalizado en inglés, y se conecta con los otros synsets mediante relaciones semánticas. Las principales relaciones que ofrece el WordNet son la hiponimia o relación de especificidad entre una palabra (el hipónimo) y otra de significado más genérico (el hiperónimo), la antonimia o relación entre palabras que tienen un significado directamente opuesto, la meronimia o la relación entre una parte y un todo, y la troponímia o implicación léxica, una relación que se da entre verbos y que se puede considerar en cierto modo equivalente a la relación de hiponimia para los sustantivos.
Por ejemplo, el synset 02121620-n del WordNet 3.0 español tiene asociada una variant o palabra: gato y tambié tiene asociada una glosa o definición: mamífero felino generalmente tienen piel gruesa y suave sin capacidad de rugir: gatos domésticos, gatos monteses. Este synset tiene dos hipónimos: el 02121808-n (gato doméstico) y el 02124623-n (gato salvaje). A su vez, tiene un hiperónimo, el 02120997-n (felino).
Por otro lado el synset 035889851-n (gato) (en el sentido de herramienta) tiene un hiperónimo, el 04451818-n (instrumento, utensilio, herramienta).
Así pues, WordNet nos proporciona una información muy útil sobre los sentidos de las palabras y sus relaciones con otros conceptos y palabra.
BabelNet es tanto un diccionario enciclopédico multilingüe con una cobertura lexicográfica y enciclopédica de los términos, como una ontología que conecta los conceptos y las palabras en una extensa red de relaciones semánticas construida a partir de más de 9 millones de entradas, denominadas synsets Babel. Cada synset Babel representa un significado dado y contiene todos los sinónimos que expresan este significado en una gran cantidad de lenguas.
Las versiones iniciales de BabelNet se construyeron combinando el conocimiento lexicográfico de WordNet y el conocimiento enciclopédico de la Wikipedia.
BabelNet 2.0 cubre 50 lenguas y se ha obtenido mediante la integración automática de los siguientes recursos:
A continuación podemos observar la entrada de Babelnet para gato en el sentido de animal:
bn:00016606n WN 02121620n CONCEPT 111 WN:EN:cat WN:EN:true_cat WN:ZH:喵 WN:DA:kat WN:DA:mis WN:DA:missekat WN:FI:kissa WN:FI:kissaeläin WN:HE:חָתוּל WN:IT:gatto WN:JA:にゃんにゃん WN:JA:キャット WN:JA:ネコ WN:JA:猫 WN:CA:gata WN:CA:gat WN:EU:katu WN:GA:gato WN:ES:felis silvestris catus WN:ES:gata WN:ES:gato WN:ID:kucing WN:MS:kucing WN:NO:katt WN:NO:pus WN:NO:pusekatt WNTR:SV:sann_katt:1.0_0_0 WNTR:HE:חתול_אמיתי:1.0_0_0 WNTR:GA:cat_fíor:1.0_0_0 WNTR:ID:benar_kucing:1.0_0_0 WNTR:ZH:真正的猫:1.0_0_0 WNTR:DA:sand_kat:1.0_0_0 WNTR:IT:vero_gatto:1.0_0_0 WNTR:FA:گربه_واقعی:1.0_0_0 WNTR:SL:res_mačka:1.0_0_0 WNTR:CA:gat_veritable:1.0_0_0 WNTR:EL:αληθινή_γάτα:1.0_0_0 WNTR:FR:vrai_chat:1.0_0_0 WNTR:SK:pravda_mačka:1.0_0_0 WNTR:PL:prawdziwy_kot:1.0_0_0 WNTR:RO:adevărat_pisica:1.0_0_0 WNTR:JA:真の猫:1.0_0_0 WNTR:ES:gato_verdadero:1.0_0_0 WNTR:IS:sannur_köttur:1.0_0_0 WNTR:BG:вярно_котка:1.0_0_0 WNTR:CS:pravda_kočka:1.0_0_0 WNTR:AF:ware_kat:1.0_0_0 WNTR:NL:echt_cat:1.0_0_0 WNTR:LT:tiesa_katė:1.0_0_0 WNTR:UK:істинна_кішка:1.0_0_0 WNTR:SW:kweli_paka:1.0_0_0 WNTR:TR:gerçek_kedi:1.0_0_0 WNTR:ET:tõsi_kass:1.0_0_0 WNTR:DE:wahre_cat:1.0_0_0 WNTR:SR:истина_мачка:1.0_0_0 WNTR:HU:true_macska:1.0_0_0 WNTR:AR:صحيح_القط:1.0_0_0 WNTR:MS:kucing_benar:1.0_0_0 WNTR:RU:истинная_кошка:1.0_0_0 WNTR:FI:true_kissa:1.0_0_0 WNTR:PT:gato_verdadeiro:1.0_0_0 WNTR:HR:istina_mačka:1.0_0_0 WNTR:CY:cat_gwir:1.0_0_0 WNTR:MT:vera_qattus:1.0_0_0 WNTR:LV:taisnība_kaķis:1.0_0_0WNTR:HI:सच_बिल्ली:1.0_0_0 WNTR:NO:sanne_katt:1.0_0_0 WNTR:TL:totoo_cat:1.0_0_0 WNTR:KO:사실_고양이:1.0_0_0 WNTR:SQ:cat_e_vërtetë:1.0_0_0 WNTR:VI:đúng_con_mèo:1.0_0_0 WNTR:SK:mačka:0.66667_8_12 WNTR:SQ:mace:0.50000_6_12 WNTR:ZH:猫:0.66667_8_12 WNTR:TR:kedi:0.83333_10_12 WNTR:BG:котка:0.66667_8_12 WNTR:LT:katė:0.83333_10_12 WNTR:LV:kaķis:0.83333_10_12 WNTR:CY:gath:0.41667_5_12 WNTR:CA:gat:0.75000_9_12 WNTR:SV:katt:0.75000_9_12 WNTR:ET:kass:0.75000_9_12 WNTR:HI:बिल्ली:0.75000_9_12 WNTR:TL:pusa:0.83333_10_12 WNTR:FR:chat:0.83333_10_12 WNTR:FA:گربه:0.58333_7_12 WNTR:SR:мачка:0.58333_7_12 WNTR:VI:mèo:0.66667_8_12 WNTR:FI:kissa:0.75000_9_12 WNTR:CS:kočka:0.66667_8_12 WNTR:SL:mačka:0.66667_8_12 WNTR:SW:paka:0.58333_7_12 WNTR:PT:gato:0.75000_9_12 WNTR:AF:kat:0.83333_10_12 WNTR:HE:חתול:0.41667_5_12 WNTR:ID:kucing:0.75000_9_12 WNTR:MS:kucing:0.83333_10_12 WNTR:DA:kat:0.75000_9_12 WNTR:MT:qattus:0.50000_6_12 WNTR:DE:katze:0.75000_9_12 WNTR:IS:köttur:0.66667_8_12 WNTR:PL:kot:0.58333_7_12 WNTR:NL:kat:0.91667_11_12 WNTR:HR:mačka:0.58333_7_12 WNTR:EL:γάτα:0.75000_9_12 WNTR:ES:gato:0.75000_9_12 WNTR:NO:katt:0.66667_8_12 WNTR:GA:cat:0.75000_9_12 WNTR:RO:pisică:0.41667_5_12 WNTR:HU:macska:0.83333_10_12 WNTR:IT:gatto:0.83333_10_12 85 1_26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70 0_71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110 0 0 14 @ bn:00033982n ~ bn:00028153n ~ bn:00081209n gmono bn:00102882a gmono bn:00028153n gmono bn:00114778r gmono bn:00053079n gdis bn:00102882a gdis bn:00028153n gdis bn:00114778r gdis bn:00053079n gdis bn:00083380v gdis bn:00081209n gdis bn:00036883n
SUMO y sus ontologías por dominio forman la ontología formal de mayor tamaño accesible públicamente. SUMO está relacionada en su totalidad con WordNet. Vemos que la información de la palabra cat en inglés está íntimamente relacionada con la información de WordNet:
SUMO ofrece ontologías específicas de los siguientes ámbitos:
|
ConceptNet es una red semántica que contiene un montón de cosas que los ordenadores tendrían que saber sobre el mundo, especialmente para la comprensión de textos escritos por personas. Está construido a partir de nodos que representan conceptos en la forma de palabras o pequeñas frases en lenguaje natural. Estos nodos están etiquetados mediante relaciones con otros nodos.
ConceptNet contiene conocimiento básico del día a día:
así como conocimiento cultural:
y conocimiento científico:
Y además contiene también relaciones en otras lenguas:
FrameNet
FrameNet es una base de datos léxica del inglés que se ha creado mediante la anotación del uso real de las palabras en los extos. FrameNet se basa en una teoría sobre el significado denominada frame semantics (semántica de marcos). La idea básica de esta teoría es que el significado de la mayoría de palabras se puede representar mediante un semantic frame (marco semántico): una descripción de un tipo de evento, relaciones o entidades y de sus participantes. Existe también una versión de FrameNet para el español. Veamos un ejemplo de Carlos Subirats Rüggember en su artículo La integración de la semántica de marcos y la semántica de simulación en la aplicación al procesamiento semántico automático del español:
[El juez SPEAKER] [le ADDRESSEE] hizo la promesa [de que atendería su petición MESSAGE]
El grupo nominal el juez es la realización del rol semántico de SPEAKER, el pronombre
clítico le desempeña el rol de ADDRESSEE y la oración subordinada preposicional de que
atendería su petición es el MESSAGE, mediante el que el SPEAKER le manifiesta a su
ADDRESSEE que se compromete a llevar a cabo una acción determinada.
Otras fuentes de conocimiento
Existen muchas otras fuentes de conocimiento que se pueden aplicar a tareas de procesamiento del lenguaje natural. Algunas de estas fuentes son:
Conclusiones
En este tema hemos visto dos aproximaciones diferenciadas para la resolución de tareas lingüísticas: las basadas en corpus y las basadas en conocimiento. Aunque existe una diferencia de base entre estas aproximaciones, no siempre se puede marcar una frontera clara entre una y otra, ya que la utilización de un corpus ya supone en sí una fuente de conocimiento y si etiquetamos con muchísima información un corpus lingüístico, su uso se aproxima más a las aproximaciones basadas en conocimiento.
En este apartado vamos a ver como se puede aplicar todo esto que hemos visto (tanto las técnicas basadas en corpus como las técnicas basadas en conocimiento) en una tarea denominada desambiguación de sentidos (Word Sense Disambiguation).
Consideremos estas dos oraciones:
A. Juan quería comprase unos zapatos nuevos y fue al banco a retirar dinero de su cuenta.
B. Después de pasear por muchas tiendas se encontraba muy fatigado y se fue a sentar en un banco para descansar un rato.
En estas dos oraciones la palabra banco se refiere a dos significados diferentes: entidad bancaria o mueble urbano o de jardín que sirve para sentarse (en realidad la palabra banco puede tener muchos más sentidos). Vamos a ver algunas de las técnicas que podemos aplicar para determinar.
Para empezar veamos cómo podemos aplicar corpus para resolver esta tarea. Si disponemos únicamente de corpus sin anotar la resolución será complicada, ya que tampoco sabremos a qué sentido se refieren las ocurrencias de esta palabra en el corpus. Si el corpus es temático sobre un tema relacionado con la banca, podremos presuponer que muchas de las apariciones se referirán al sentido bancario.
Si tomamos el corpus del Banco Central Europeo en castellano, que tiene 116.113 oraciones, podemos constatar que en:
en cambio
De aquí podemos deducir que que en la oración A el sentido de la palabra banco es el de entidad bancaria.
Si disponemos de un corpus etiquetado semánticamente podremos realizar deducciones similares. Desgraciadamente, existen pocos corpus etiquetados semánticamente para el español. Simularemos que disponemos de un corpus de este estilo, que contiene 5 oraciones correspondientes al sentido bancario y 5 al sentido de mueble (subrayamos las palabras que también se encuentran el la frase A y B
Sentido de entidad bancaria:
Aunque la cuenta esté vacía, el banco sigue estando obligado a pagar la factura a final de mes.
Si el banco, la cooperativa de ahorros y crédito paga intereses en una ETA, éste se reserva el derecho de solicitar un aviso escrito con siete (7) días de anticipación a la fecha de retiro de los fondos.
Antes de trabajar en mercadeo en red, Shawn Herrick fue un cajero de banco y un estudiante universitario.
Pero cuando hay un riesgo moral, el banco puede elegir un tipo de interés demasiado elevado.
Esto ayuda a facilitar el acceso a pensiones y cuentas en el banco de la persona desaparecida.
Sentido de mueble:
De vez en cuando, todos necesitamos encontrar algo que nos sirva de alto en el camino, como un banco en el que podamos sentarnos un rato y pararnos a descansar.
El área cuenta con rejas para mayor privacidad y un banco para sentarse a descansar mientras se reflexiona.
Quizás toma el transporte público, ¿tiene la parada de autobús un banco donde una persona mayor pueda sentarse mientras espera?
En el camino se van encontrando bancos que invitan a sentarse y contemplar el entorno.
Un café especial, comprarse una flor o simplemente sentarse en un banco con los ojos cerrados a escuchar el canto de los pájaros puede ser una excelente forma de desconectar.
Estas coocurrencias nos pueden dar pistas para determinar el sentido de la palabra banco en las oraciones A i B.
Veamos ahora la entrada de banco en el diccionario de la Real Academia de la Lengua Española:
banco.
(Del fr. ant. bank, y este del germ. *banki).
1. m. Asiento, con respaldo o sin él, en que pueden sentarse varias personas.
2. m. Madero grueso escuadrado que se coloca horizontalmente sobre cuatro pies y sirve como de mesa para muchas labores de los carpinteros, cerrajeros, herradores y otros artesanos.
3. m. cama (‖ del freno). U. m. en pl.
4. m. En los mares, ríos y lagos navegables, bajo que se prolonga en una gran extensión.
5. m. Conjunto de peces que van juntos en gran número.
6. m. Establecimiento público de crédito, constituido en sociedad por acciones.
7. m. Establecimiento médico donde se conservan y almacenan órganos, tejidos o líquidos fisiológicos humanos para cubrir necesidades quirúrgicas, de investigación, etc.Banco de ojos, de sangre
8. m. Arq. sotabanco (‖ piso habitable).
9. m. Geol. Estrato de gran espesor.
10. m. Ingen. Macizo de mineral que presenta dos caras descubiertas, una horizontal superior y otra vertical.
11. m. Ven. Extensión de terreno con vegetación arbórea que sobresale en la llanura.
12. m. p. us. Persona que cambia moneda.
Vemos que nos ofrece hasta 12 posibles significados. Si nos centramos en los dos significados de este ejemplo veremos que las definiciones son:
1. m. Asiento, con respaldo o sin él, en que pueden sentarse varias personas.
6. m. Establecimiento público de crédito, constituido en sociedad por acciones.
En el primer significado tenemos también una palabra coincidente con nuestra frase de ejemplo, lo que nos permetiría decidir que se utiliza en la oración con este significado. Para el banco como entidad financiera no tenemos ninguna palabra coincidente.
Veamos ahora qué nos cuenta la Wikipedia sobre bancos.
Como significado principal nos ofrece el de entidad financiera, aunque en la primera línea ya nos advierte de la existencia de otros usos y nos dirige a la página de desambiguación.
Veamos ahora cuantas veces aparecen las palabras que acompañan a banco en nuestra frase A en las páginas de la Wikipedia dedicadas a banco como entidad bancaria y banco como mueble:
A. Juan quería comprase unos zapatos nuevos y fue al banco a retirar dinero de su cuenta.
entrada de banco como entidad financiera en la Wikipedia | entrada de banco como mueble en la Wikipedia | |
comprar | 0 | 0 |
zapatos | 0 | 0 |
retirar | 0 | 0 |
dinero | 20 | 0 |
cuenta | 12 | 0 |
Vemos que algunas palabras como comprar o zapatos están en la frase de manera accidental y nada tienen que ver con la palabra banco. En la tabla se observa que las palabras que co-ocurren con banco en la oración A y aparecen con mayor frecuencia en la Wikipedia tienen que ver con el sentido de entidad financiera (dinero aparece 20 veces y cuenta 12). En cambio ninguna palabra de la frase A aparece en la entrada de la Wikipedia correspondiente a banco como mueble. Podemos deducir de manera clara que en la frase A banco tiene el significado de entidad financiera.
Observemos qué ocurre en la frase B:
B. Después de pasear por muchas tiendas se encontraba muy fatigado y se fue a sentar en un banco para descansar un rato.
entrada de banco como entidad financiera en la Wikipedia | entrada de banco como mueble en la Wikipedia | |
pasear | 0 | 0 |
tienda | 1 | 0 |
encontrar | 0 | 0 |
fatigado | 0 | 0 |
sentar | 0 | 1 |
descansar | 0 | 0 |
rato | 0 | 0 |
En este caso la cosa no está tan clara. Para acabarnos de decidir tenemos que tener en cuenta que la entrada de la WIkipedia de banco como entidad financiera es mucho más grande (2810 palabras) que la de banco como mueble (con sólo 331 palabras). En este caso podemos dar un peso mucho mayor a la aparición de sentar en la entrada de la WIkipedia como mueble para decidir que este es el sentido que le corresponde a banco en la frase b.
Observemos ahora qué información nos proporciona WordNet sobre estos dos sentidos de la palabra banco.
08420278-n banco una institución financiera que acepta depósitos y canaliza el dinero en actividades de préstamo; ese banco tiene la hipoteca de mi casa; cobrar un cheque en el banco
1 hiperónimo: 08054721-n institución financiera, organización financiera
diversos hipónimos: 08234628-n asociación de crédito, cooperativa de crédito; 08422524-n entidad de ahorros; 08419163-n banco comercial, banco de negocios; banco financiero; banco mercantil; etc.
algunos conceptos relacionados como 02310855-v depositar, ingresar; 02343374-v operar en banca
02828884-n banco asiento largo para más de una persona
1 hiperónimo 04161981-n asiento
diversos hipónimos 0278838-n banqueta, banquillo, taburete; 04002371-n reclinatorio; 04177920-n escaño
Para utilizar WordNet en la tarea de desambiguación de sentidos podríamos utilizar una estrategia similar a la utilizada con las definiciones del diccionario, utilizando las glosas (o definiciones) de WordNet. Pero WordNet nos proporciona un mecanismo mucho más potente mediante las relaciones que ofrece entre los conceptos. Estas relaciones nos permiten calcular distancias semánticas entre diferentes conceptos. Una de las medidas más sencillas de distancia semántica es la llamada distancia de caminos (path similarity) que se basa en el cálculo del camino más corto entre dos sentidos en la taxonomía es_un (is_a) (hiperonimia/hiponimia). Así, por ejemplo, podemos calcular las distancias semánticas entre los conceptos banco (como entidad financiera 08420278-n) y dinero (13384557-n) y cuenta (13929037-n) y de banco (como mueble 02828184-n) estos mismos conceptos. Veamos los resultados en la siguiente tabla:
banco (entidad financiera) 08420278-n | banco (mueble) 02828184-n | |
dinero - 13384557-n | 0.0833 | 0.0625 |
cuenta - 13929037-n | 0.0909 | 0.0666 |
Estas distancias nos permitirían deducir que el sentido de banco en la oración A es el correspondiente a entidad financiera.
Veamos por último la información que contiene ConceptNet 5 sobre banco (en español)
banco | TranslationOf | bench |
banco | TranslationOf | school_of_fish |
banco | TranslationOf | shoal, group of fish |
banco | TranslationOf | bank (institution) |
banco | TranslationOf | bank |
banco | ConceptuallyRelatedTo | bancario |
banco | ConceptuallyRelatedTo | bancada |
banco | ConceptuallyRelatedTo | banqueta |
banco | ConceptuallyRelatedTo | banca |
banco | ConceptuallyRelatedTo | banquito |
banco | ConceptuallyRelatedTo | banquillo |
banco | Synonym | banca |
Esta información no está desembiguada por sentidos por lo que no es directamente aplicable a la tarea del ejemplo.
Conclusiones
En este tema hemos visto dos aproximaciones diferenciadas para la resolución de tareas lingüísticas: las basadas en corpus y las basadas en conocimiento. Aunque existe una diferencia de base entre estas aproximaciones, no siempre se puede marcar una frontera clara entre una y otra, ya que la utilización de un corpus ya supone en sí una fuente de conocimiento y si etiquetamos con muchísima información un corpus lingüístico, su uso se aproxima más a las aproximaciones basadas en conocimiento.
En el último apartado hemos esbozado una serie de técnicas para tratar la tarea de desambiguación de sentidos (Word Sense Disambiguation)