1 of 38

Mahdollisuuksia Lahjoita puhetta -aineiston tutkimuskäyttöön

Mietta Lennes

2 of 38

3 of 38

4 of 38

5 of 38

Lahjoita puhetta -idean synty

  • Jauhiainen, Lennes & Marttila: Suomenkielisen tekoälyn kehittämisohjelma – esiselvitys. Vake Oy, 2019. http://hdl.handle.net/10138/319478
    • Vake Oy = nykyinen Ilmastorahasto Oy
  • Yrityksillä tarve riittävän suureen ja monipuoliseen suomenkieliseen puheaineistoon, jotta robusteja suomenkielisiä työkaluja voitaisiin tehokkaasti kehittää
  • Teknologinen kilpailu: suomi vs. englanti (ym. ”suuret” kielet)�
  • Tietosuojakysymysten ratkaiseminen avainasemassa: miten mahdollistetaan aineiston laillinen käsittely sekä yrityksille että tutkijoille?

5

6 of 38

Lahjoita puhetta – suunnittelu ja toteutus

  • Valtion kehitysyhtiö Vake Oy (nyk. Ilmastorahasto Oy)
  • Helsingin yliopisto
  • Yle
  • Asiantuntijoita mm. Turun yliopistosta ja Aalto-yliopistosta
  • Mukana myös muiden organisaatioiden ja yritysten edustajia
  • Teknisen alustan toteutti Solita Oy

6

7 of 38

Tarvitaanko yrityksille oma ”Kielialusta Oy”?

  • Erillinen palvelu voisi huolehtia yritysten tarpeista ja aineistojen välittämisestä niiden käyttöön.
  • Päädyttiin kuitenkin hyödyntämään Kielipankkia, jossa vastaavia palveluita oli jo tarjolla tutkijoita varten.

7

8 of 38

https://www.kielipankki.fi

9 of 38

Kielipankin käyttäjät

  • Kaikkien alojen tutkijat ovat tervetulleita!
  • Monet aineistot ovat saatavilla myös ilman kirjautumista.
  • FIN-CLARIN voi auttaa aineistosi säilytyksessä ja välityksessä tutkimuskäyttöön.

10 of 38

www.kielipankki.fi

11 of 38

CLARIN ERIC

[ … ]

Kansainvälinen yhteistyö ja resurssien yhteiskäyttö

European Research Infrastructure Consortium

perustettu 29.2.2012

Jäsenmaat (21):�Alankomaat

Bulgaria

Islanti

Italia

Itävalta

Kypros

Latvia

Liettua

Kreikka

Kroatia

Norja

Puola

Portugali

Ruotsi

Saksa

Slovenia

Suomi

Tanska

Tshekin tasavalta

Unkari

Viro

Tarkkailijajäsenet (3):

Etelä-Afrikka

Iso-Britannia

Ranska

Kolmantena osapuolena:

CMU (USA)

(päivitetty 24.3.2021)

12 of 38

CLARIN-keskukset

Jäsenmaat (21):�Alankomaat

Bulgaria

Islanti

Italia

Itävalta

Kypros

Latvia

Liettua

Kreikka

Kroatia

Norja

Puola

Portugali

Ruotsi

Saksa

Slovenia

Suomi

Tanska

Tshekin tasavalta

Unkari

Viro

Tarkkailijajäsenet (3):

Etelä-Afrikka

Iso-Britannia

Ranska

Kolmantena osapuolena:

CMU (USA)

(päivitetty 24.3.2021)

13 of 38

Lahjoita puhetta -aineisto (”Puhelahjat”):�Millaiseen tutkimukseen?

  • Puhelahjat-aineistoa voidaan käyttää tutkimukseen tietosuojaehtojen rajoissa, hyvien tutkimuseettisten käytänteiden mukaisesti.
  • Käsittelytarkoituksen tulee liittyä kielentutkimukseen tai tekoälyn tutkimukseen ja kehittämiseen.

13

14 of 38

Aineiston ensimmäinen versio Kielipankissa

  • Saatavilla Kielipankin latauspalvelun kautta.
  • Noin 3200 tuntia puhetta, josta noin 1600 tuntia litteroitu käsin (”peruslitterointi”) sekä litteraattien automaattiset kohdistukset äänitteisiin)
  • Ladattavissa paketeissa on mukana
    • Äänitiedostot FLAC-muodossa (häviötön pakkausmuoto, avautuu Praatilla suoraan)
    • Litteraatit tekstimuodossa (.txt), kohdistetut litteraatit Praat-annotaatiotiedostoina (.TextGrid)
    • puheen lahjoittajien vastaukset taustatietokysymyksiin (jos on) sekä tallenteiden tekniset metatiedot (.csv-muotoon taulukoituina)
  • Aalto-yliopistossa on tekeillä aineiston loppuosan automaattinen (alustava) litterointi
  • Aineisto voi karttua ja litterointeja voidaan päivittää uusiin versioihin.
  • Kaikki Puhelahjat-aineiston versiot, jotka ovat saatavilla tutkimuskäyttöön: http://urn.fi/urn:nbn:fi:lb-2022102122

14

15 of 38

Esimerkkejä Puhelahjat-aineiston�sisällön jakaumasta

Huom. Tiedot on laskettu puheentunnistuskokeiluja varten koostetusta osa-aineistosta.

Lähde:

Anssi Moisio, Dejan Porjazovski, Aku Rouhe, Yaroslav Getman, Anja Virkkunen, Ragheb AlGhezi, Tamás Grósz, Mikko Kurimo, Mietta Lennes & Krister Lindén (2022) Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks. Language Resources and Evaluation (2022). https://doi.org/10.1007/s10579-022-09606-3

15

16 of 38

Aineiston kertymä 16.6.2020–14.9.2021

17 of 38

Murrealueet

  • The Southwestern dialects (SW)
    • Varsinais-Suomi
    • Ahvenanmaa
  • The transitional dialects between the Southwestern and Häme dialects (TRAN)
    • Uusimaa
    • Satakunta
  • The Häme (Tavastian) dialects (HÄME)
    • Pirkanmaa
    • Häme
  • The dialects of South Ostrobothnia (Pohjanmaa) (SO)
    • Etelä-Pohjanmaa
    • Pohjanmaa
  • The dialects of Central and North Ostrobothnia (Pohjanmaa) (CNO)
    • Keski-Pohjanmaa
    • Pohjois-Pohjanmaa

  • The dialects of Peräpohjola (the Far North) (FN)
    • Lappi
  • The Savo dialects (SAVO)
    • Pohjois-Savo
    • Etelä-Savo
    • Kainuu
    • Keski-Suomi
    • Pohjois-Karjala
    • Kymenlaakso
    • Päijät-Häme
  • The Southeastern dialects and a few transitional dialects bordering on them (SE)
    • Etelä-Karjala
  • Non-native Finnish speakers (NN)

18 of 38

19 of 38

Teemat

  • “Eläinystävät” (“Animal friends”, A)
  • “Urheiluhetket” (“Sports moments”, SP)
  • “K-18” (“Rated R”, R)
  • “Luonto, sää ja mää” (“Nature”, N)
  • “Lähelläni juuri nyt” (“My surroundings”, M)
  • “Mediataidot 4–6 lk.” (“Media skills—grade 4–6”, MS4)
  • “Mediataidot 8–9 lk.” (“Media skills—grade 8–9”, MS8)
  • “Mediataidot lukio” (“Media skills—high school”, MSH)
  • “Kirottu korona” (“The cursed covid”, C)
  • “Sukella kesään” (“Summer”, S)

19

20 of 38

21 of 38

22 of 38

23 of 38

Näin hyödynnät Kielipankin kautta välitettävää, henkilötietoja sisältävää aineistoa

  • Tutustu valitsemasi aineiston käyttöehtoihin (= lisenssiin).
  • Tee alustava aineistonhallintasuunnitelma (DMP). Varmista, että pystyt toteuttamaan tutkimuksen eettisesti ja aineiston tietosuojaehtoja noudattaen.
  • Kun käsittelet Kielipankin kautta välitettävää, henkilötietoja sisältävää aineistoa, sinusta ja/tai kotiorganisaatiostasi tulee rekisterinpitäjä. Noudata aineiston käsittelyssä oman organisaatiosi tietosuojakäytänteitä (esim. tietosuojailmoituksen tekeminen).
  • Voit hakea aineiston käyttöoikeutta Kielipankin oikeudet -palvelussa (rajoitetut aineistot, CLARIN RES).
  • Julkaise omaa tutkimustarkoitustasi koskeva yleistajuinen tietosuojailmoitus verkossa.
  • Toimita Kielipankille hankkeen otsikko ja linkki julkaisemaasi tietosuojailmoitukseen (lomake). Antamasi tiedot julkaistaan Kielipankin verkkosivuilla.
  • Voit aloittaa aineiston käsittelyn, kun pääsy aineistoon on myönnetty.
  • Kun julkaiset aineistoon pohjautuvaa tutkimusta, käytä Kielipankin suosittelemaa aineistoviittausta. Varmista, että viittaat oikeaan aineistoversioon.
  • Jos aineistosta on tarpeen julkaista näytteitä tutkimuksen yhteydessä (esim. artikkelit, esitelmät), poimi näytteet harkiten ja vain välttämättömässä laajuudessa sekä käytä tarvittavia suojatoimia (anonymisointi/pseudonymisointi).
  • Jos aineistosta syntyy tutkimuksen aikana uusi versio, sovi sen julkaisemisesta Kielipankin kautta.
  • Kun tutkimus on päättynyt, poista kaikki hankkeen jäsenten hallussa olevat aineiston kopiot.

23

24 of 38

Kielipankin aineistotwww.kielipankki.fi/aineistot

25 of 38

CLARIN -lisenssiluokat

julkisesti saatavilla

akateemisten, kirjautuneiden käyttäjien käytettävissä

vaatii henkilökohtaisen käyttöluvan

26 of 38

Lisenssiehtojen yksityiskohdat

+BY alkuperäisen tekijän nimi mainittava

+NC vain epäkaupallinen käyttö

+ID vaatii kirjautumisen

+PLAN vaatii tutkimussuunnitelman

+PRIV sisältää henkilötietoja

+NORED ei uudelleenjakelua

+DEP muokattuja versioita voi jakaa CLARINissa

sekä tarvittaessa muut aineistokohtaiset lisäehdot (esim. tietosuojaehdot)

27 of 38

Lisenssi

28 of 38

Lisenssi

29 of 38

Julkaise linkki tietosuojailmoitukseen oman tutkimuksesi osalta�

Yleistajuinen kuvaus auttaa tutkijoita, tutkittavia ja suurta yleisöä ymmärtämään, mitä kaikkea tutkimusaineistoilla tehdään ja mitä hyötyä tutkimuksesta voi olla.

30 of 38

Yleisiä ohjeita henkilötietoja sisältävien aineistojen käsittelyyn

31 of 38

Ja sitten ihan pieni analyysiesimerkki…

32 of 38

33 of 38

34 of 38

35 of 38

14 puhujan sävelkorkeusjakaumat�puolisävelasteikolla (verrattuna 100 Hz:iin)

36 of 38

Sävelkorkeusanalyysin menetelmän kuvaus

Lennes, M., Stevanovic, M., Aalto, D., & Palo, P. (2015). Comparing pitch distributions using Praat and R. Phonetician, (111-112), 35-53. http://www.isphs.org/Phonetician/Phonetician_111-112.pdf

37 of 38

Kiitos! Tack! Thank you!

www.kielipankki.fi

Yleinen käyttäjätuki

fin-clarin@helsinki.fi

Tekniset palvelut ja käyttöluvat

kielipankki@csc.fi

38 of 38

Aineiston viite

  • Helsingin yliopisto (2022). Lahjoita puhetta -aineisto, versio 1.0 [puhekorpus]. Kielipankki. Saatavilla: http://urn.fi/urn:nbn:fi:lb-2020090321.