�IFI6223.DT Keel ja tehnoloogia
Keeleressursside töötlus, haldus ja jagamine.
Korpuslingvistika. Eesti keeleressursid
5. ja 12. september 2024
Keeleressursid – keeletehnoloogia eeldus
Vt https://www.keeleressursid.ee/et/keeleressursid, https://metashare.ut.ee/repository/search/
Keeleressursside jaotus
ühekeelsed ja paralleelkorpused,
varustatud eri liiki lisainfo e märgendusega
Keelekorpused
Vt Muischnek & Lindström (2020), Kilgariff & Grefenstette (2003), McEnery & Wilson (2001), Bennett (2010)
Kirjaliku keele kogud Eestis
Kirjaliku keele kogud Eestis (2)
Vt https://dea.digar.ee/, https://www.digar.ee/arhiiv ja
Suulise keele kogud Eestis
Vt https://keeleressursid.ee/et/83-article/clutee-lehed/223
vt https://www.murre.ut.ee/mkweb/murdekorpus.html
Suulise keele kogud Eestis (2)
Leksikaalsed ressursid Eestis
Leksikaalsed ressursid Eestis (2)
Arutelu kodulugemise põhjal: toetavad küsimused
Korpuslingvistika
Korpuspõhine (corpus-based) vs.
korpusest tulenev (corpus-driven) uurimissuund
Eelnev hüpoteeside seadmine lingvistiliste teooriate põhjal ja korpusmaterjalist neile kinnituse otsimine
vs.
korpusmaterjalist seaduspärade otsimine ilma kindlate oletusteta – keelekasutuse kirjeldusest endast võrsuvad uurimisküsimused, sünnivad uued teadmised teooriate jaoks.
Keeleressursside töötlus ja haldus
Märgendamine
TEI-standard
Morfosüntaktiline märgendus
Eesti kitsenduste grammatika (ESTKG) süntaksianalüsaator:
Sõna tüvi 🡪 sõnaliik 🡪 täpsem morfoloogiline analüüs 🡪 pindsüntaktiline analüüs (funktsioon) 🡪 sõltuvussüntaktiline analüüs (allumine)
Märgendite seletus: https://korpused.keeleressursid.ee/syntaks/dokumendid/syntaksiliides_ee.pdf
Semantiline analüüs
Ingliskeelse teksti semantiline analüüs Lancasteri ülikooli rakendusega USAS.
Every_N5.1+ human_S2mf has_A9+ a_Z5 unique_N5--- personality_S1.2 ._PUNC
Märgendite seletus: http://ucrel.lancs.ac.uk/usas/USASSemanticTagset.pdf
Näide dialoogi märgendusest
((403a2 telefonikõne lennufirmasse))
((automaatvastaja teade kõnejärjekorra kohta, ootemuusika))�V: tere õhtust Alma kuuleb?�H: tere õhtust. .hh ma sooviksin teada (.) ä `Frankfurdi: `lennu kohta kui palju `pilet maksab, (.) edasi tagasi.�(0.5)�V: a millal `sõit peaks `olema.�H: see võiks `olla nüd kahekümne=`kaeksandal det`sembril.�(1.0)�V: * kakskend kaheksa * ja `tagasi millal�H: no `tagasi näiteks `kolmandal jaanuaril.�(34.0)
Vt Hennoste jt (2013: 28), https://cl.ut.ee/suuline/Transk.php?lang=et ja https://www.cl.ut.ee/suuline/Tr_naide.php?lang=et
Märgendamisvõimalused
Keeleressursside haldamise keskkonnad
Rahvusvahelise koostöö suunad
KORP – veebipõhine korpusepäring
Avatud juurdepääs ja litsentsid
TEI-märgenduse harjutus
https://colab.research.google.com/drive/10uclDfI5T1s-QfdZuCRBi1g-GjVUpCv0?usp=sharing
Kordavalt
Pixabay
Kirjandust