21522 Anàlisi Lingüística i Corpus

Curs 2012-13

Professors: Alba Coll, Amor Montané i Lluís de Yzaguirre

Seminari

PRÀCTICA 8: TEXTSTAT, la constitució d’un corpus

 

L’objectiu d’aquesta pràctica és continuar explorant el TEXTSTAT. En aquesta sessió consolidarem els coneixements adquirits al seminari 7 i, com a novetat, constituirem un corpus personal. En aquest corpus aplicarem les funcions que vam aprendre a la sessió anterior.

En primer lloc, entreu al programa de coavaluació.

En segon lloc, creeu una carpeta (i, opcionalment, un document) on guardareu els resultats de la pràctica. Seguiu les instruccions habituals. Com a la sessió anterior, el document servirà, si fos el cas, per deixar constància dels problemes imprevistos que podríeu tenir (per exemple, constituir el corpus). La resta seran documents de resultats que es guardaran a la carpeta.

Aquesta setmana haurem de descarregar de nou el programa TEXTSTAT i instal·lar-lo a la C:; en realitat, només l’heu de descomprimir, accedir a la carpeta i executar TEXTSTAT.EXE:

A continuació, cercarem a Google un URL que contingui informació sobre algun tema lingüístic que us interessi, en anglès. Guardarem l’URL.

Arribats en aquest punt, obrirem (amb clic+botó dret per tal que s’obri en una altra pestanya) un PDF que té tots els passos que haurem de fer.

Anirem guardant alguns resultats personalitzats:

1) El resultat de la diapositiva 4 l’exportarem amb l’opció EXPORT > Frequency list > CSV amb el nom llistat1.txt

Després de demanar un mot (a l’exemple es demana CATALÀ) com a concordança amb la forma destacada, l’exportarem amb l’opció EXPORT > Concordance list > TXT amb el nom llistat2.txt

Després d’haver cercat concordances complexes del tipus b(igg|ett)er(\W+\w+){0,9}\W+than farem una petició semblant personalitzada, on també hi hagi un context variable de X paraules interposades entres les dues que ens interessen i l’exportarem amb l’opció EXPORT > Concordance list > TXT amb el nom llistat3.txt. Per a la cerca personalitzada, s’ha d’utilitzar la informació de l’annex 1.

Finalment, entreu al programa de coavaluació i envieu, seguint les instruccions habituals, la carpeta enzipada. Assegureu-vos que la carpeta enviada no conté el programa TEXTSTAT.

ANNEX 1. Pistes per a la petició personalitzada:

http://visca.com/apac/pv/phrasal-verbs.html

Triem un verb, com ara CUT

i convertim la llista de preposicions en una condició OR (prescindim de cut back on i de cut down on):

\Wcut(\W+\w+){0,5}\W(across|away|back|down|in|into|off|out|up)\W

Evidentment, si el corpus està en anglès i procurant no triar el mateix verb que els veïns de taula. Amb el text del Quixot en anglès, el CUT frasal dóna això:

Universitat Pompeu Fabra – Alba Coll, Amor Montané i Lluís de Yzaguirre

Aquests materials formen part del curs de Lingüística de Corpus que els seus autors imparteixen a la UPF