21522 Anàlisi Lingüística i Corpus

Curs 2012-13

Professors: Alba Coll, Amor Montané i Lluís de Yzaguirre

Seminari

PRÀCTICA 9: ALINEACIÓ

 

L’objectiu d’aquesta pràctica és conèixer el funcionament dels sistemes d’alineació automàtica de textos paral·lels.

En primer lloc, entreu al programa de coavaluació i apunteu-vos-hi.

A continuació, creeu una carpeta per a la novena pràctica (ALIC_Uxxxxx_p9) i creeu-hi un document de text per anar emmagatzemant els resultats.

Per començar la pràctica, accediu al sistema d’alineació i seguiu els passos següents:

1. Escolliu una mostra; cadascú, una de diferent.

2. Cliqueu a l’enllaç “gràfica” (situat en el primer punt). Apareix la informació següent:

3. Del quadre que apareix a la dreta, escolliu un punt de color verd (que representa l'alineació de dues frases) i cliqueu-hi. Apareix la informació següent:

4. Del quadre que apareix a la part inferior dreta, heu d’escollir un punt de color verd (que representa un element alineat, és a dir, un parell) i clicar-hi. Canvia la informació de l’esquerra (on apareix una taula amb l’element en català a la primera columna; en castellà, a la segona; i l'aportació a la valoració -que surt al peu de la taula-, a la tercera), com en aquest exemple:

5. Us heu de fixar en el parell que apareix en la taula i, per a la pràctica, triar un parell (dels primers) que tingui un substantiu a la columna esquerra. Aquest substantiu ha d’estar ben etiquetat (a la cinquena fila hi ha d’aparèixer una etiqueta iniciada per N5) i ben lematitzat (és a dir, el lema, a la tercera fila, ha de ser correcte). Aneu clicant sobre el signe '>' del “Mot 1” fins a trobar-ne un que compleixi aquestes característiques bàsiques.

6. Copieu la taula (des de “Mot inicial” fins a “Valoració del parell xxx”) i enganxeu-la al vostre document de text.

7. Enganxeu les deu taules dels deu mots o signes de puntuació que segueixen el de la dreta. Per fer-ho, ens movem amb el signe '>' del “Mot 2”.

 

8. Ordeneu les deu taules segons el valor de “Valoració del parell XXX” en ordre decreixent.

9. Ressalteu amb color les línies que són iguals (etiquetes) o amb emparellament correcte (mots).

10. Al final, feu un comentari sobre si es confirma que el ressaltat de color va decreixent com més dissemblant és la paraula de la dreta -de cada parell- o no es tracta d'una paraula, o sigui que l'alineador ha sabut extreure de les informacions lingüístiques paràmetres numèrics que li han permès prendre la decisió adequada.

Vegeu un fragment d’exemple del resultat de la pràctica:


Mot inicial: 369 vs 349

395

373

100

passatge

pasaje

225

passatge

pasaje

225

pasatge

pasaje

300

N5MS

N5MS

200

Valoració del parell 600

Mot inicial: 369 vs 349

395

377

96

passatge

actor

-25

passatge

actor

-25

pasatge

actor

N5MS

N5MS

200

Valoració del parell 296

Mot inicial: 369 vs 349

395

375

98

passatge

era

-75

passatge

ser

-75

pasatge

ser

-50

N5MS

VDA6S

Valoració del parell 98

En acabar la pràctica, si ja som en els minuts finals del seminari, deseu el document, comprimiu la carpeta corresponent en format .ZIP, entreu de nou al programa de coavaluació, consulteu els resultats del repartiment i envieu la pràctica a qui correspongui seguint les instruccions per enviar les pràctiques.

Reelaborat a partit de la versió feta amb l'Araceli Alonso 

Universitat Pompeu Fabra – Alba Coll, Amor Montané i Lluís de Yzaguirre

Aquests materials formen part del curs de Lingüística de Corpus que els seus autors imparteixen a la UPF