1 of 31

�IFI6223.DT Keel ja tehnoloogia

Keeleressursside töötlus, haldus ja jagamine.

Korpuslingvistika. Eesti keeleressursid

5. ja 12. september 2024

2 of 31

Keeleressursid – keeletehnoloogia eeldus

Masinloetaval kujul keelelised andmekogumid, mida kasutatakse arvutites

loomuliku keele uurimiseks
keeletehnoloogia arendamiseks

Praktikas peetakse keeletehnoloogia all silmas ressursse + tarkvara

Vt https://www.keeleressursid.ee/et/keeleressursid, https://metashare.ut.ee/repository/search/

3 of 31

Keeleressursside jaotus

Tekstikorpused

üldised ja valdkonnapõhised,

ühekeelsed ja paralleelkorpused,

varustatud eri liiki lisainfo e märgendusega

Kõnekorpused ja -andmebaasid

helisalvestised ja transkribeeritud tekst, kõnesalvestuste andmebaasid kõnesünteesi jaoks

Leksikaalsed ressursid jm eriressursid

sõnastikud, termini- ja mõisteandmebaasid, sagedusloendid jm

4 of 31

Keelekorpused

Laiemalt: tekstikollektsioonid
Kitsamalt: süstemaatilised autentsete keelenäidete kogud, tänapäeval mahukad ja elektroonilised
Kasutatakse kindlal eesmärgil

keeleuurimine, õpikute ja sõnaraamatute koostamine, keeletehnoloogia arendamine

Peaks sisaldama esinduslikku valimit uuritavast keelest/ keelevariandist

Vt Muischnek & Lindström (2020), Kilgariff & Grefenstette (2003), McEnery & Wilson (2001), Bennett (2010)

5 of 31

Kirjaliku keele kogud Eestis

Tartu Ülikoolil

peamised eesti kirjakeele korpused (aja- ja ilukirjandus, teaduskeel), lisaks vana kirjakeele korpus, murdekorpus, paralleelkorpused, meditsiinikeele korpus, uue meedia ja seadustekstid. https://cl.ut.ee/korpused/

Eesti Keele Instituudil

veebitekste sisaldavad ühendkorpused (2023 – 3,8 mld tekstisõna), aja- ja ilukirjandustekstid, emotsioonimärgendusega ajalehetekstid, piiblitõlgete andmebaas, eesti keele õpikute korpused. https://eki.ee/keeletehnoloogia/keelekorpused/

Tallinna Ülikoolil

eesti vahekeele ehk õppijakeele korpus, sh akadeemilised tekstid http://elle.tlu.ee/

6 of 31

Kirjaliku keele kogud Eestis (2)

Eesti Rahvusraamatukogul

DIGARi Eesti artiklite andmebaas (ajaleheartiklid alates 1821, ajakirjaartiklid alates 2017, DIGARi digitaalarhiiv (raamatud ja perioodika kuni 2016), Eesti veebiarhiiv, presidentide kõned

Vt https://dea.digar.ee/, https://www.digar.ee/arhiiv ja

https://veebiarhiiv.digar.ee/

Eesti Kirjandusmuuseumil

Digiteeritud materjalide infosüsteem KIVIKE, sh Eesti rahvaluule arhiivi materjalid. Vt https://kivike.kirmus.ee

7 of 31

Suulise keele kogud Eestis

Tartu Ülikoolil

suulise eesti keele korpus: koostamist alustati 1997, avatud korpus, erinevat tüüpi kõne – argisuhtlus ja avalik suhtlus, spontaanne ja ettevalmistatud kõne, monoloog ja dialoog.

Vt https://keeleressursid.ee/et/83-article/clutee-lehed/223

eesti keele spontaanse kõne foneetiline korpus (dialoogid ja monoloogid), vt https://foneetikakorpus.ut.ee/ekskfk_info.html
eesti murrete korpus,

vt https://www.murre.ut.ee/mkweb/murdekorpus.html

Eesti Keele Instituudil

kõnesünteesikorpused, vt https://koneveeb.ee/korpused/
emotsionaalse kõne korpus, vt http://peeter.eki.ee:5000/
eesti murrete ja soome-ugri keelte heliarhiiv, vt http://emsuka.eki.ee/

8 of 31

Suulise keele kogud Eestis (2)

Tallinna Tehnikaülikoolil

eestikeelse kõne andmebaas kõne- ja kõnelejatuvastuse uuringuteks ning rakenduste treenimiseks
loengukõnede, raadiointervjuude ja uudiste korpus, aktsendikorpus (eesti keelt võõrkeelena kõnelevate isikute kõnenäited), laste ja noorte kõnekorpused, multimodaalsed korpused (kõne + video), vt https://www.taltech.ee/en/laboratory-language-technology

Tallinna Ülikoolil ja Tartu Ülikoolil

CHILDESi eesti lastekeele korpus, 9 alamkorpust, vt https://childes.talkbank.org/access/Other/

9 of 31

Leksikaalsed ressursid Eestis

Eesti Keele Instituudil

eesti keele sõnaraamatud, murdesõnastikud, kaks- ja kolmkeelsed sõnaraamatud, koha- ja isikunimede andmebaasid, terminisõnastikud, vt https://keeleressursid.ee/et/keeleressursid/leksikaalsed-ressursi d

Tartu Ülikoolil

Wordnet-tüüpi sõnaseoste sõnaraamat, tegusõna püsiühendite andmebaas, sagedussõnastikud ja -loendid, vt https://cl.ut.ee/ressursid/

10 of 31

Leksikaalsed ressursid Eestis (2)

Eesti Kirjandusmuuseumil

eesti fraseologismide (sõnade püsiühendite) elektrooniline alussõnastik, korraldatud mõisteseoste järgi, vt http://www.folklore.ee/justkui/sonastik/

Valik tasuta veebisõnastikke Keeleveebis: http://www.keeleveeb.ee/

11 of 31

Arutelu kodulugemise põhjal: toetavad küsimused

Mis on keelekorpuse tunnused?
Millega tegeleb korpuslingvistika? Tooge näiteid uurimisküsimustest, millele saab korpuste alusel vastata.
Mida hõlmab korpuse kasutamiseks ettevalmistamine?
Mida tähendab korpuse representatiivsus?
Mille alusel saab korpusi liigitada?
Kuidas on korpuste koostamine ajas muutunud?
Mis vahe on korpuse märgendusel ja märgistikul?

12 of 31

Korpuslingvistika

Meetodite kogum tekstide arvutipõhiseks analüüsimiseks
Kasutab tekste keeleandmete allikana ja võimaldab teha uurimisobjekti kohta järeldusi keelekasutuse põhjal

Eeldus: korpused kajastavad loomulikke keelelisi valikuid

Eelkõige kvantitatiivne keeleuurimisviis, kus on olulisel kohal statistilised meetodid – siiski vajalik kvalitatiivne tõlgendus
Rakendatakse mitmesugustes uurimisvaldkondades

Nt kirjandus- ja kultuuriuuringud, meediauuringud, kriminalistika

13 of 31

Korpuspõhine (corpus-based) vs.

korpusest tulenev (corpus-driven) uurimissuund

Eelnev hüpoteeside seadmine lingvistiliste teooriate põhjal ja korpusmaterjalist neile kinnituse otsimine

vs.

korpusmaterjalist seaduspärade otsimine ilma kindlate oletusteta – keelekasutuse kirjeldusest endast võrsuvad uurimisküsimused, sünnivad uued teadmised teooriate jaoks.

14 of 31

Keeleressursside töötlus ja haldus

teksti puhastamine mittevajalikust infost (pildid, lingid, vormindus jm)
kõnesalvestiste transkribeerimine ehk ümber kirjutamine
märgendamine – teksti rikastamine lisainfoga, sh metainfoga e mittekeelelise infoga (nt info autori või väljaande kohta)
grammatiline ühestamine – mitmese analüüsi puhul õige variandi valik
mitmekeelsete korpuste paralleelistamine ehk joondamine, nt lausete kaupa
kasutajaliidese ja päringufunktsiooni loomine
statistiline analüüs ja sagedusandmete visuaalne esitus

15 of 31

Märgendamine

Lihtsaim märgendus on teksti struktuuri ja vorminduse esitamine – märgitakse lause- ja lõigupiirid, pealkirjad, autorinimed, tabelid, kirjastiil jms. Nt TEI-standard.
Morfoloogiline – lisab tekstisõnale algvormi, info sõnaliigi ja grammatiliste kategooriate kohta.
Süntaktiline – lisab tekstisõnale info tema funktsiooni kohta lauses, samuti info fraasistruktuuri ja sõnade sõltuvussuhete kohta.
Semantiline – lisab tekstile info sõnade või fraaside tähenduse kohta.
Kõne ja vestluse omaduste märgendamine – foneetika, rõhud, pausid, tempo, rääkijad jm.

16 of 31

TEI-standard

Text Encoding Initiative – tekstide kodeerimise algatus
Alates 1980ndatest, laialdaselt kasutuses 1990ndatest (k.a muuseumid, raamatukogud, kirjastused).
Eesmärk: arendada välja tekstide masinloetaval kujul esitamise standard, märgendusjuhised.
Põhineb XML-märgenduskeelel, mis loodud dokumentide kirjeldamiseks veebis.
Nt <p> – tekstilõik (paragraph), <s> – lause (sentence), <cl> – osalause (clause), <title> – pealkiri, <text> – teksti algus

17 of 31

Morfosüntaktiline märgendus

Eesti kitsenduste grammatika (ESTKG) süntaksianalüsaator:

Sõna tüvi 🡪 sõnaliik 🡪 täpsem morfoloogiline analüüs 🡪 pindsüntaktiline analüüs (funktsioon) 🡪 sõltuvussüntaktiline analüüs (allumine)

"<Mina>”�"mina" L0 P pers ps1 sg nom cap @SUBJ #1->2

Märgendite seletus: https://korpused.keeleressursid.ee/syntaks/dokumendid/syntaksiliides_ee.pdf

18 of 31

Semantiline analüüs

Ingliskeelse teksti semantiline analüüs Lancasteri ülikooli rakendusega USAS.

Every_N5.1+ human_S2mf has_A9+ a_Z5 unique_N5--- personality_S1.2 ._PUNC

Märgendite seletus: http://ucrel.lancs.ac.uk/usas/USASSemanticTagset.pdf

19 of 31

Näide dialoogi märgendusest

((403a2 telefonikõne lennufirmasse))

((automaatvastaja teade kõnejärjekorra kohta, ootemuusika))�V: tere õhtust Alma kuuleb?�H: tere õhtust. .hh ma sooviksin teada (.) ä `Frankfurdi: `lennu kohta kui palju `pilet maksab, (.) edasi tagasi.�(0.5)�V: a millal `sõit peaks `olema.�H: see võiks `olla nüd kahekümne=`kaeksandal det`sembril.�(1.0)�V: * kakskend kaheksa * ja `tagasi millal�H: no `tagasi näiteks `kolmandal jaanuaril.�(34.0)

Vt Hennoste jt (2013: 28), https://cl.ut.ee/suuline/Transk.php?lang=et ja https://www.cl.ut.ee/suuline/Tr_naide.php?lang=et

20 of 31

Märgendamisvõimalused

Käsitsi

Nt kõne- ja videosalvestiste märgendamine, õppijakeele vigade märgendamine, grammatiline ja semantiline märgendus statistiliste automaatmärgendajate treenimiseks

Poolautomaatne

Nt automaatne märgendus + käsitsi ühestamine, osaliselt automaatne ja täiendav käsitsi märgendamine

Automaatne

Nt morfo- ja süntaksianalüüs (täpsus kuni 98%), ka semantiline analüüs (eesti keeles nimede ja ajaväljendite tuvastus)

21 of 31

Keeleressursside haldamise keskkonnad

Keeleressursside loomine (materjali korrastamine ja märgendamine) + mitmekesised päringuvõimalused.
Korpustele ja leksikonidele:

Sketch Engine

Korpustele:

NoSketch Engine, WordSmithTools, AntConc, #LancsBox X

Suulise kõne korpustele:

TalkBank, EXMARaLDA

Leksikonidele:

22 of 31

Rahvusvahelise koostöö suunad

Ressursside, tarkvara ja uurimistulemuste vaba jagatavus, koondamine repositooriumidesse ja ühispäringu võimalused.
Standardid – tulemuste võrreldavus, läbipaistvus.
Tähelepanu pööramine väiksematele, vähem uuritud ja tagasihoidlikuma tehnoloogilise toega keeltele.
Koostöö masintõlkelahenduste väljatöötamiseks ja parandamiseks.

23 of 31

MULTEXT-East

Algne projekt aastail 1995 – 1997. Tulemus: mitmekeelne andmestik keeletehnoloogiliseks uurimis- ja arendustööks, fookus morfosüntaktilisel keelekirjeldusel.

Esmalt seitse keelt: bulgaaria, tšehhi, eesti, ungari, rumeenia, sloveenia ja inglise
Nüüdseks lisatud horvaatia, makedoonia, pärsia, poola, reesia (sloveeni dialekt), vene, serbia, slovaki ja ukraina keel (kokku 16)
George Orwelli romaani „1984“ tõlgete paralleelkorpus + käsitsi üle vaadatud morfosüntaktilised kirjeldused, väiksem paralleelne kõnekorpus
On välja töötatud üldised ja keelespetsiifilised märgenduspõhimõtted.
6. versioon lähtub TEI P5 standardist. Ressurss on uurijatele vaba ligipääsuga.

24 of 31

CLARIN

Euroopa keeleressursside ja -tehnoloogia võrgustik
Digitaalsete keeleandmekogude ja keeletöötlusvahendite loomine, neile ligipääsu tagamine ja nende tutvustamine
Keeleressursside otsisüsteem + temaatiline jaotus (nt kõnekorpused, ajalehetekstide korpused, õppijakeele korpused)
23 liikmesriiki + EL-välised partnerid
Osalevad ülikoolid, uurimisinstituudid, raamatukogud, muuseumid, arhiivid
Eesti CLARINi keskus – Eesti Keeleressursside Keskus

25 of 31

META-NET

Võrgustik, mille eesmärk on edendada mitmekeelse Euroopa jaoks olulist keeletehnoloogiat, mis

aitab suhelda ja teha koostööd erinevates keeltes,
tagada võrdne ligipääs informatsioonile ja teadmistele,
toetada ja edendada infotehnoloogia funktsionaalsust.

60 uurimiskeskust 34 riigist
Ühendab teadlasi, tehnoloogialoojaid ja -kasutajaid, keelega seotud elukutsete esindajaid jt huvigruppe.
META-SHARE – avatud süsteem ressursside jagamiseks ja vahetamiseks

26 of 31

KORP – veebipõhine korpusepäring

Eesmärk: keeleressursside koondamine ühtsesse päringusüsteemi, andmete põhjalik metakirjeldamine.
Päring:

lihtpäring konkreetse sõnavormi järgi
laiendatud päring kõigi valitud korpuses märgendatud parameetrite järgi
edasijõudnutele päring CQP päringukeeles

Tulemused kuvatakse koos kontekstiga või statistikatabelitena.
Põhjamaade KORPid:

Rootsi https://spraakbanken.gu.se/korp, Soome https://korp.csc.fi/, Taani https://alf.hum.ku.dk/korp, Norra (ka saami keel) http://gtweb.uit.no/korp, arendused islandi ja itaalia keele jaoks

27 of 31

Avatud juurdepääs ja litsentsid

Võrgustikud META-NET ja CLARIN, Euroopa ja Eesti teadus- ja arendustegevuse programmid soosivad avatud juurdepääsu (open access) ja avatud lähtekoodi (open source) põhimõtet.
Litsents määrab ressursi/tarkvara kasutaja õigused ja kohustused.

Nt META-SHARE’il 1) võimalusel CC0 – piiranguteta kasutus, muutmine ja jagamine; 2) vajadusel autorile viitamise või samadel tingimustel jagamise nõue; 3) ärilise kasutuse või tuletatud teoste levitamise keeld; 4) META-SHARE Commons litsentsid võrgustikusiseseks levitamiseks; 5) igasuguse levitamise keelamine.
CLARINis tähistatakse ressursi maksimaalne leviala: PUB – avalik, ACA – akadeemiline, RES – piiratud; 0 –3 lisapiirangut (ärilise kasutuse keeld, kohustus informeerida ressursi kasutusest artiklis, kohustus muudetud versiooni jagada)

28 of 31

TEI-märgenduse harjutus

TEI märgenduspõhimõtted ja märgenduse validaator: http://teibyexample.org/
Koodinäited märgendatud tekstist soovitud info eraldamiseks:

https://colab.research.google.com/drive/10uclDfI5T1s-QfdZuCRBi1g-GjVUpCv0?usp=sharing

29 of 31

Kordavalt

Mis on arvutilingvistika ja keeletehnoloogia, mis on nende seosed ja erinevused?
Kuidas saab keeletehnoloogilisi vahendeid liigitada?
Missuguseid keeleressursse leidub?

Pixabay

30 of 31

Kirjandust

Bennett, Gena R. 2010. Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor: University of Michigan Press.
Cole, Ron (Toim.) 1997. Language Resources. – Survey of the state of the art in human language technology. Cambridge: Cambridge University Press, 381–408. http://www.dfki.de/~hansu/HLT-Survey.pdf
Erjavec, Tomaš 2010. MULTEXT-East Version 4: Multilingual Morphosyntactic Specifications, Lexicons and Corpora. LREC 2010, Malta, 19-21 May, 2010. http://nl.ijs.si/ME/V4/doc/bib/mte-lrec2010.pdf
Hennoste, Tiit, Andriela Rääbis, Kirsi Laanesoo 2013. Küsimused eestikeelses infodialoogis II. Küsimused ja tegevused. – Keel ja Kirjandus 1, 7–29. http://kjak.eki.ee/pdf/HennosteR%C3%A4%C3%A4bisLaanesoo1_13.pdf
Kilgariff, Adam, Gregory Grefenstette 2003. Introduction to the Special Issue on the Web as Corpus. – Computational Linguistics 29(3), 333–347. https://direct.mit.edu/coli/article/29/3/333/1816/Introduction-to-the-Special-Issue-on-the-Web-as

31 of 31

McEnery, Tony, Andrew Wilson 2001. Corpus Linguistics: An Introduction. 2. tr. Edinburgh: Edinburgh University Press.
Muischnek, Kadri 2015. Keelekorpused – sama mitmekesised kui keel ise. – Oma Keel 1, 37–44. http://www.emakeeleselts.ee/omakeel/2015_1/OK_2015-1_05.pdf
Muischnek, Kadri, Liina Lindström 2020. Digitaalsed tekstiandmed ja korpuslingvistika. – Anu Masso, Katrin Tiidenberg, Andra Siibak (Toim.). Kuidas mõista andmestikunud maailma? Metodoloogiline teejuht. Tallinn: Tallinna Ülikooli Kirjastus, 306−339. https://sisu.ut.ee/sites/default/files/digihum/files/digitaalsed_tekstiandmed_ja_korpuslingvistika.pdf
Vider, Kadri, Heiki Pisuke, Peeter Paul Mõtsküla, Triin Tuulik, Aleksei Kelli 2013. Keeleressursside litsentsimise õiguslikke küsimusi. – Eesti Rakenduslingvistika Ühingu aastaraamat 9, 333–347. http://arhiiv.rakenduslingvistika.ee/ajakirjad/index.php/aastaraamat/article/view/ERYa9.21/224