1 of 31

�IFI6223.DT Keel ja tehnoloogia

Keeleressursside töötlus, haldus ja jagamine.

Korpuslingvistika. Eesti keeleressursid

5. ja 12. september 2024

2 of 31

Keeleressursid – keeletehnoloogia eeldus

  • Masinloetaval kujul keelelised andmekogumid, mida kasutatakse arvutites
    • loomuliku keele uurimiseks
    • keeletehnoloogia arendamiseks
  • Praktikas peetakse keeletehnoloogia all silmas ressursse + tarkvara

Vt https://www.keeleressursid.ee/et/keeleressursid, https://metashare.ut.ee/repository/search/

3 of 31

Keeleressursside jaotus

  1. Tekstikorpused
    • üldised ja valdkonnapõhised,

ühekeelsed ja paralleelkorpused,

varustatud eri liiki lisainfo e märgendusega

  1. Kõnekorpused ja -andmebaasid
    • helisalvestised ja transkribeeritud tekst, kõnesalvestuste andmebaasid kõnesünteesi jaoks
  2. Leksikaalsed ressursid jm eriressursid
    • sõnastikud, termini- ja mõisteandmebaasid, sagedusloendid jm

4 of 31

Keelekorpused

  • Laiemalt: tekstikollektsioonid
  • Kitsamalt: süstemaatilised autentsete keelenäidete kogud, tänapäeval mahukad ja elektroonilised
  • Kasutatakse kindlal eesmärgil
    • keeleuurimine, õpikute ja sõnaraamatute koostamine, keeletehnoloogia arendamine
  • Peaks sisaldama esinduslikku valimit uuritavast keelest/ keelevariandist

Vt Muischnek & Lindström (2020), Kilgariff & Grefenstette (2003), McEnery & Wilson (2001), Bennett (2010)

5 of 31

Kirjaliku keele kogud Eestis

  • Tartu Ülikoolil
    • peamised eesti kirjakeele korpused (aja- ja ilukirjandus, teaduskeel), lisaks vana kirjakeele korpus, murdekorpus, paralleelkorpused, meditsiinikeele korpus, uue meedia ja seadustekstid. https://cl.ut.ee/korpused/
  • Eesti Keele Instituudil
    • veebitekste sisaldavad ühendkorpused (2023 – 3,8 mld tekstisõna), aja- ja ilukirjandustekstid, emotsioonimärgendusega ajalehetekstid, piiblitõlgete andmebaas, eesti keele õpikute korpused. https://eki.ee/keeletehnoloogia/keelekorpused/
  • Tallinna Ülikoolil
    • eesti vahekeele ehk õppijakeele korpus, sh akadeemilised tekstid http://elle.tlu.ee/

6 of 31

Kirjaliku keele kogud Eestis (2)

  • Eesti Rahvusraamatukogul
    • DIGARi Eesti artiklite andmebaas (ajaleheartiklid alates 1821, ajakirjaartiklid alates 2017, DIGARi digitaalarhiiv (raamatud ja perioodika kuni 2016), Eesti veebiarhiiv, presidentide kõned

Vt https://dea.digar.ee/, https://www.digar.ee/arhiiv ja

https://veebiarhiiv.digar.ee/

  • Eesti Kirjandusmuuseumil
    • Digiteeritud materjalide infosüsteem KIVIKE, sh Eesti rahvaluule arhiivi materjalid. Vt https://kivike.kirmus.ee

7 of 31

Suulise keele kogud Eestis

  • Tartu Ülikoolil
    • suulise eesti keele korpus: koostamist alustati 1997, avatud korpus, erinevat tüüpi kõne – argisuhtlus ja avalik suhtlus, spontaanne ja ettevalmistatud kõne, monoloog ja dialoog.

Vt https://keeleressursid.ee/et/83-article/clutee-lehed/223

    • eesti keele spontaanse kõne foneetiline korpus (dialoogid ja monoloogid), vt https://foneetikakorpus.ut.ee/ekskfk_info.html
    • eesti murrete korpus,

vt https://www.murre.ut.ee/mkweb/murdekorpus.html

  • Eesti Keele Instituudil

8 of 31

Suulise keele kogud Eestis (2)

  • Tallinna Tehnikaülikoolil
    • eestikeelse kõne andmebaas kõne- ja kõnelejatuvastuse uuringuteks ning rakenduste treenimiseks
    • loengukõnede, raadiointervjuude ja uudiste korpus, aktsendikorpus (eesti keelt võõrkeelena kõnelevate isikute kõnenäited), laste ja noorte kõnekorpused, multimodaalsed korpused (kõne + video), vt https://www.taltech.ee/en/laboratory-language-technology
  • Tallinna Ülikoolil ja Tartu Ülikoolil
    • CHILDESi eesti lastekeele korpus, 9 alamkorpust, vt https://childes.talkbank.org/access/Other/

9 of 31

Leksikaalsed ressursid Eestis

  • Eesti Keele Instituudil
    • eesti keele sõnaraamatud, murdesõnastikud, kaks- ja kolmkeelsed sõnaraamatud, koha- ja isikunimede andmebaasid, terminisõnastikud, vt https://keeleressursid.ee/et/keeleressursid/leksikaalsed-ressursid
  • Tartu Ülikoolil
    • Wordnet-tüüpi sõnaseoste sõnaraamat, tegusõna püsiühendite andmebaas, sagedussõnastikud ja -loendid, vt https://cl.ut.ee/ressursid/

10 of 31

Leksikaalsed ressursid Eestis (2)

  • Eesti Kirjandusmuuseumil
    • eesti fraseologismide (sõnade püsiühendite) elektrooniline alussõnastik, korraldatud mõisteseoste järgi, vt http://www.folklore.ee/justkui/sonastik/
  • Valik tasuta veebisõnastikke Keeleveebis: http://www.keeleveeb.ee/

11 of 31

Arutelu kodulugemise põhjal: toetavad küsimused

  1. Mis on keelekorpuse tunnused?
  2. Millega tegeleb korpuslingvistika? Tooge näiteid uurimisküsimustest, millele saab korpuste alusel vastata.
  3. Mida hõlmab korpuse kasutamiseks ettevalmistamine?
  4. Mida tähendab korpuse representatiivsus?
  5. Mille alusel saab korpusi liigitada?
  6. Kuidas on korpuste koostamine ajas muutunud?
  7. Mis vahe on korpuse märgendusel ja märgistikul?

12 of 31

Korpuslingvistika

  • Meetodite kogum tekstide arvutipõhiseks analüüsimiseks
  • Kasutab tekste keeleandmete allikana ja võimaldab teha uurimisobjekti kohta järeldusi keelekasutuse põhjal
    • Eeldus: korpused kajastavad loomulikke keelelisi valikuid
  • Eelkõige kvantitatiivne keeleuurimisviis, kus on olulisel kohal statistilised meetodid – siiski vajalik kvalitatiivne tõlgendus
  • Rakendatakse mitmesugustes uurimisvaldkondades
    • Nt kirjandus- ja kultuuriuuringud, meediauuringud, kriminalistika

13 of 31

Korpuspõhine (corpus-based) vs.

korpusest tulenev (corpus-driven) uurimissuund

Eelnev hüpoteeside seadmine lingvistiliste teooriate põhjal ja korpusmaterjalist neile kinnituse otsimine

vs.

korpusmaterjalist seaduspärade otsimine ilma kindlate oletusteta – keelekasutuse kirjeldusest endast võrsuvad uurimisküsimused, sünnivad uued teadmised teooriate jaoks.

14 of 31

Keeleressursside töötlus ja haldus

  • teksti puhastamine mittevajalikust infost (pildid, lingid, vormindus jm)
  • kõnesalvestiste transkribeerimine ehk ümber kirjutamine
  • märgendamine – teksti rikastamine lisainfoga, sh metainfoga e mittekeelelise infoga (nt info autori või väljaande kohta)
  • grammatiline ühestamine – mitmese analüüsi puhul õige variandi valik
  • mitmekeelsete korpuste paralleelistamine ehk joondamine, nt lausete kaupa
  • kasutajaliidese ja päringufunktsiooni loomine
  • statistiline analüüs ja sagedusandmete visuaalne esitus

15 of 31

Märgendamine

  • Lihtsaim märgendus on teksti struktuuri ja vorminduse esitamine – märgitakse lause- ja lõigupiirid, pealkirjad, autorinimed, tabelid, kirjastiil jms. Nt TEI-standard.
  • Morfoloogiline – lisab tekstisõnale algvormi, info sõnaliigi ja grammatiliste kategooriate kohta.
  • Süntaktiline – lisab tekstisõnale info tema funktsiooni kohta lauses, samuti info fraasistruktuuri ja sõnade sõltuvussuhete kohta.
  • Semantiline – lisab tekstile info sõnade või fraaside tähenduse kohta.
  • Kõne ja vestluse omaduste märgendamine – foneetika, rõhud, pausid, tempo, rääkijad jm.

16 of 31

TEI-standard

  • Text Encoding Initiative – tekstide kodeerimise algatus
  • Alates 1980ndatest, laialdaselt kasutuses 1990ndatest (k.a muuseumid, raamatukogud, kirjastused).
  • Eesmärk: arendada välja tekstide masinloetaval kujul esitamise standard, märgendusjuhised.
  • Põhineb XML-märgenduskeelel, mis loodud dokumentide kirjeldamiseks veebis.
  • Nt <p> – tekstilõik (paragraph), <s> – lause (sentence), <cl> – osalause (clause), <title> – pealkiri, <text> – teksti algus

17 of 31

Morfosüntaktiline märgendus

Eesti kitsenduste grammatika (ESTKG) süntaksianalüsaator:

Sõna tüvi 🡪 sõnaliik 🡪 täpsem morfoloogiline analüüs 🡪 pindsüntaktiline analüüs (funktsioon) 🡪 sõltuvussüntaktiline analüüs (allumine)

    • "<Mina>”�"mina" L0 P pers ps1 sg nom cap @SUBJ #1->2

Märgendite seletus: https://korpused.keeleressursid.ee/syntaks/dokumendid/syntaksiliides_ee.pdf

18 of 31

Semantiline analüüs

Ingliskeelse teksti semantiline analüüs Lancasteri ülikooli rakendusega USAS.

Every_N5.1+ human_S2mf has_A9+ a_Z5 unique_N5--- personality_S1.2 ._PUNC

Märgendite seletus: http://ucrel.lancs.ac.uk/usas/USASSemanticTagset.pdf

19 of 31

Näide dialoogi märgendusest

((403a2 telefonikõne lennufirmasse))

((automaatvastaja teade kõnejärjekorra kohta, ootemuusika))V: tere õhtust Alma kuuleb?H: tere õhtust. .hh ma sooviksin teada (.) ä `Frankfurdi: `lennu kohta kui palju `pilet maksab, (.) edasi tagasi.�(0.5)V: a millal `sõit peaks `olema.�H: see võiks `olla nüd kahekümne=`kaeksandal det`sembril.�(1.0)V: * kakskend kaheksa * ja `tagasi millal�H: no `tagasi näiteks `kolmandal jaanuaril.�(34.0)

Vt Hennoste jt (2013: 28), https://cl.ut.ee/suuline/Transk.php?lang=et ja https://www.cl.ut.ee/suuline/Tr_naide.php?lang=et

20 of 31

Märgendamisvõimalused

  • Käsitsi
    • Nt kõne- ja videosalvestiste märgendamine, õppijakeele vigade märgendamine, grammatiline ja semantiline märgendus statistiliste automaatmärgendajate treenimiseks
  • Poolautomaatne
    • Nt automaatne märgendus + käsitsi ühestamine, osaliselt automaatne ja täiendav käsitsi märgendamine
  • Automaatne
    • Nt morfo- ja süntaksianalüüs (täpsus kuni 98%), ka semantiline analüüs (eesti keeles nimede ja ajaväljendite tuvastus)

21 of 31

Keeleressursside haldamise keskkonnad

  • Keeleressursside loomine (materjali korrastamine ja märgendamine) + mitmekesised päringuvõimalused.
  • Korpustele ja leksikonidele:
    • Sketch Engine
  • Korpustele:
  • Suulise kõne korpustele:
    • TalkBank, EXMARaLDA
  • Leksikonidele:
    • Lexonomy
    • EELex

22 of 31

Rahvusvahelise koostöö suunad

  • Ressursside, tarkvara ja uurimistulemuste vaba jagatavus, koondamine repositooriumidesse ja ühispäringu võimalused.
  • Standardid – tulemuste võrreldavus, läbipaistvus.
  • Tähelepanu pööramine väiksematele, vähem uuritud ja tagasihoidlikuma tehnoloogilise toega keeltele.
  • Koostöö masintõlkelahenduste väljatöötamiseks ja parandamiseks.

23 of 31

  • Algne projekt aastail 1995 – 1997. Tulemus: mitmekeelne andmestik keeletehnoloogiliseks uurimis- ja arendustööks, fookus morfosüntaktilisel keelekirjeldusel.
    • Esmalt seitse keelt: bulgaaria, tšehhi, eesti, ungari, rumeenia, sloveenia ja inglise
    • Nüüdseks lisatud horvaatia, makedoonia, pärsia, poola, reesia (sloveeni dialekt), vene, serbia, slovaki ja ukraina keel (kokku 16)
    • George Orwelli romaani „1984“ tõlgete paralleelkorpus + käsitsi üle vaadatud morfosüntaktilised kirjeldused, väiksem paralleelne kõnekorpus
    • On välja töötatud üldised ja keelespetsiifilised märgenduspõhimõtted.
    • 6. versioon lähtub TEI P5 standardist. Ressurss on uurijatele vaba ligipääsuga.

24 of 31

  • Euroopa keeleressursside ja -tehnoloogia võrgustik
  • Digitaalsete keeleandmekogude ja keeletöötlusvahendite loomine, neile ligipääsu tagamine ja nende tutvustamine
  • Keeleressursside otsisüsteem + temaatiline jaotus (nt kõnekorpused, ajalehetekstide korpused, õppijakeele korpused)
  • 23 liikmesriiki + EL-välised partnerid
  • Osalevad ülikoolid, uurimisinstituudid, raamatukogud, muuseumid, arhiivid
  • Eesti CLARINi keskus – Eesti Keeleressursside Keskus

25 of 31

  • Võrgustik, mille eesmärk on edendada mitmekeelse Euroopa jaoks olulist keeletehnoloogiat, mis
    • aitab suhelda ja teha koostööd erinevates keeltes,
    • tagada võrdne ligipääs informatsioonile ja teadmistele,
    • toetada ja edendada infotehnoloogia funktsionaalsust.
  • 60 uurimiskeskust 34 riigist
  • Ühendab teadlasi, tehnoloogialoojaid ja -kasutajaid, keelega seotud elukutsete esindajaid jt huvigruppe.
  • META-SHARE – avatud süsteem ressursside jagamiseks ja vahetamiseks

26 of 31

KORP – veebipõhine korpusepäring

  • Eesmärk: keeleressursside koondamine ühtsesse päringusüsteemi, andmete põhjalik metakirjeldamine.
  • Päring:
    • lihtpäring konkreetse sõnavormi järgi
    • laiendatud päring kõigi valitud korpuses märgendatud parameetrite järgi
    • edasijõudnutele päring CQP päringukeeles
  • Tulemused kuvatakse koos kontekstiga või statistikatabelitena.
  • Põhjamaade KORPid:

27 of 31

Avatud juurdepääs ja litsentsid

  • Võrgustikud META-NET ja CLARIN, Euroopa ja Eesti teadus- ja arendustegevuse programmid soosivad avatud juurdepääsu (open access) ja avatud lähtekoodi (open source) põhimõtet.
  • Litsents määrab ressursi/tarkvara kasutaja õigused ja kohustused.
    • Nt META-SHARE’il 1) võimalusel CC0 – piiranguteta kasutus, muutmine ja jagamine; 2) vajadusel autorile viitamise või samadel tingimustel jagamise nõue; 3) ärilise kasutuse või tuletatud teoste levitamise keeld; 4) META-SHARE Commons litsentsid võrgustikusiseseks levitamiseks; 5) igasuguse levitamise keelamine.
    • CLARINis tähistatakse ressursi maksimaalne leviala: PUB – avalik, ACA – akadeemiline, RES – piiratud; 0 –3 lisapiirangut (ärilise kasutuse keeld, kohustus informeerida ressursi kasutusest artiklis, kohustus muudetud versiooni jagada)

28 of 31

TEI-märgenduse harjutus

  • TEI märgenduspõhimõtted ja märgenduse validaator: http://teibyexample.org/
  • Koodinäited märgendatud tekstist soovitud info eraldamiseks:

https://colab.research.google.com/drive/10uclDfI5T1s-QfdZuCRBi1g-GjVUpCv0?usp=sharing

29 of 31

Kordavalt

  • Mis on arvutilingvistika ja keeletehnoloogia, mis on nende seosed ja erinevused?
  • Kuidas saab keeletehnoloogilisi vahendeid liigitada?
  • Missuguseid keeleressursse leidub?

Pixabay

30 of 31

Kirjandust

31 of 31