21522 Anàlisi Lingüística i Corpus

Curs 2012-13

Professors: Alba Coll, Amor Montané i Lluís de Yzaguirre

Seminari

PRÀCTICA 7: TEXTSTAT

 

L’objectiu d’aquesta pràctica és conèixer les possibilitats del programa TEXTSTAT per gestionar un corpus personal.

En primer lloc, entreu al programa de coavaluació.

En segon lloc, creeu una carpeta (i, opcionalment, un document) on guardareu els resultats de la pràctica. Seguiu les instruccions habituals. Avui, el document servirà, si fos el cas, per deixar constància dels problemes imprevistos que podríeu tenir (per exemple, per instal·lar el programa). La resta seran documents de resultats que es guardaran a la carpeta.

Descarregueu-vos el programa gratuït TEXTSTAT i instal·leu-lo a la C:.

Tot seguit, baixeu-vos el text amb què farem les proves: una versió antiga del Quixot en anglès (per evitar-nos problemes amb els accents, etc).

Per poder usar el TEXTSTAT l’heu de descomprimir, accedir a la carpeta i executar TEXTSTAT.EXE:

Arribats en aquest punt, obrirem (amb clic+botó dret per tal que s’obri en una altra pestanya) un PDF que té tots els passos que haurem de fer.

Anirem guardant alguns resultats personalitzats:

1) després de demanar ing.$, l’exportarem amb l’opció EXPORT > Frequency list > CSV amb el nom llistat1.txt

Després de demanar BRINGS com a concordança amb la forma destacada, repetirem la mateixa petició amb un altre mot que ha de ser diferent del dels companys a dreta i esquerra. L’exportarem amb l’opció EXPORT > Concordance list > TXT amb el nom llistat2.txt

Després d’haver cercat concordances complexes del tipus b(igg|ett)er(\W+\w+){0,9}\W+than farem una petició semblant personalitzada, on també hi hagi un context variable de X paraules interposades entres les dues que ens interessen i l’exportarem amb l’opció EXPORT > Concordance list > TXT amb el nom llistat3.txt

En síntesi, al llarg de la pràctica anirem provant tots plegats els exemples del PDF que hem obert abans i desarem tres llistats a la carpeta que cal enviar.

Si ja som en els minuts finals del  seminari, entreu al programa de coavaluació per saber qui us coavaluarà i ja podeu enviar-li, seguint les intruccions habituals, la carpeta enzipada. Assegureu-vos que la carpeta enviada no conté ni el fitxer del Quixot en anglès ni el programa TEXTSTAT.

ANNEX 1: informació

Documentation: To start with TextSTAT, please refer to the Quickstart Guide to text analysis with TextSTAT from the 'Humanities Resource Centre' at Princeton University. And Gena Bennett wrote a useful TextSTAT 2.7 User's Guide.

ANNEX 2: podem provar els límits en la nostra màquina amb la REGEX següent:

(arisen|awoken|been|borne|beaten|beat|become|begun|bent|bet|bitten|bled|blown|broken|brought|built|burned|burnt|burst|bought|caught|chosen|clung|come|cost|crept|cut|dealt|dug|dived|done|drawn|dreamed|dreamt|drunk|driven|eaten|fallen|fed|felt|fought|found|fit|fitted|fled|flung|flown|forbidden|forbade|forgotten|forgiven|forgone|frozen|gotten|got|given|gone|ground|grown|hung|hanged|had|heard|hidden|hit|held|hurt|kept|knelt|kneeled|knitted|knit|known|laid|led|leapt|leaped|left|lent|let|lain|lit|lighted|lost|made|meant|met|paid|proved|proven|put|quit|read|ridden|rung|risen|run|sawed|sawn|said|seen|sought|sold|sent|set|sewn|sewed|shaken|shaved|shaven|sheared|shorn|shone|shined|shot|shown|showed|shrunk|shrunken|shut|sung|sunk|sat|slain|slept|slid|sneaked|snuck|spoken|sped|spent|spilled|spilt|spun|spat|spit|split|spread|sprung|stood|stolen|stuck|stung|stunk|strewn|struck|stricken|striven|strived|sworn|swept|swum|swung|taken|taught|torn|told|thought|thrived|thriven|thrown|undergone|understood|upset|woken|waked|worn|woven|wept|won|wound|withdrawn|wrung|written)

versió compactada amb formes de TO HAVE i tres mots interposats:

\Wha(v(e|ing)|[ds])(\W+\w+){3,3}\W(arisen|awoken|be(en|aten|at|come|gun|n?t)|bitten|bled|blown|borne|broken|brought|bu(ilt|rned|rnt|rst)|bought|caught|chosen|clung|come|cost|crept|cut|dealt|dug|dived|done|dr(awn|eamed|eamt|unk|iven)|eaten|fallen|fed|felt|fought|found|fit|fitted|fled|flung|flown|for(bidden|bade|gotten|given|gone)|frozen|gotten|got|given|gone|ground|grown|hung|hanged|had|heard|hidden|hit|held|hurt|kept|kn(elt|eeled|itted|it|own)|laid|led|leapt|leaped|left|lent|let|lain|lit|lighted|lost|made|meant|met|paid|proved|proven|put|quit|read|ridden|rung|risen|run|sa(wed|wn|id|t)|se(en|n?t|wn|wed)|sh(aken|aved|aven|eared|orn|one|ined|ot|own|owed|runk|runken|ut)|sought|sold|sung|sunk|slain|slept|slid|sneaked|snuck|sp(oken|ed|ent|illed|ilt|un|at|it|lit|read|rung)|st(ood|olen|uck|ung|unk)|str(ewn|uck|icken|iven|ived)|sw(orn|ept|um|ung)|taken|taught|torn|told|thought|thr(ived|iven|own)|under(gone|stood)|upset|woken|waked|worn|woven|wept|won|wound|withdrawn|wrung|written)\W

Universitat Pompeu Fabra – Alba Coll, Amor Montané i Lluís de Yzaguirre

Aquests materials formen part del curs de Lingüística de Corpus que els seus autors imparteixen a la UPF