Mahdollisuuksia Lahjoita puhetta -aineiston tutkimuskäyttöön
Mietta Lennes
Lahjoita puhetta -idean synty
5
Lahjoita puhetta – suunnittelu ja toteutus
6
Tarvitaanko yrityksille oma ”Kielialusta Oy”?
7
https://www.kielipankki.fi
Kielipankin käyttäjät
www.kielipankki.fi
CLARIN ERIC
[ … ]
Kansainvälinen yhteistyö ja resurssien yhteiskäyttö
European Research Infrastructure Consortium
perustettu 29.2.2012
Jäsenmaat (21):�Alankomaat
Bulgaria
Islanti
Italia
Itävalta
Kypros
Latvia
Liettua
Kreikka
Kroatia
Norja
Puola
Portugali
Ruotsi
Saksa
Slovenia
Suomi
Tanska
Tshekin tasavalta
Unkari
Viro
Tarkkailijajäsenet (3):
Etelä-Afrikka
Iso-Britannia
Ranska
Kolmantena osapuolena:
CMU (USA)
(päivitetty 24.3.2021)
CLARIN-keskukset
Jäsenmaat (21):�Alankomaat
Bulgaria
Islanti
Italia
Itävalta
Kypros
Latvia
Liettua
Kreikka
Kroatia
Norja
Puola
Portugali
Ruotsi
Saksa
Slovenia
Suomi
Tanska
Tshekin tasavalta
Unkari
Viro
Tarkkailijajäsenet (3):
Etelä-Afrikka
Iso-Britannia
Ranska
Kolmantena osapuolena:
CMU (USA)
(päivitetty 24.3.2021)
Lahjoita puhetta -aineisto (”Puhelahjat”):�Millaiseen tutkimukseen?
13
Aineiston ensimmäinen versio Kielipankissa
14
Esimerkkejä Puhelahjat-aineiston�sisällön jakaumasta
Huom. Tiedot on laskettu puheentunnistuskokeiluja varten koostetusta osa-aineistosta.
Lähde:
Anssi Moisio, Dejan Porjazovski, Aku Rouhe, Yaroslav Getman, Anja Virkkunen, Ragheb AlGhezi, Tamás Grósz, Mikko Kurimo, Mietta Lennes & Krister Lindén (2022) Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks. Language Resources and Evaluation (2022). https://doi.org/10.1007/s10579-022-09606-3
15
Aineiston kertymä 16.6.2020–14.9.2021
Murrealueet
Teemat
19
Näin hyödynnät Kielipankin kautta välitettävää, henkilötietoja sisältävää aineistoa
23
Kielipankin aineistot�www.kielipankki.fi/aineistot
CLARIN -lisenssiluokat
julkisesti saatavilla
akateemisten, kirjautuneiden käyttäjien käytettävissä
vaatii henkilökohtaisen käyttöluvan
Lisenssiehtojen yksityiskohdat
+BY alkuperäisen tekijän nimi mainittava
+NC vain epäkaupallinen käyttö
+ID vaatii kirjautumisen
+PLAN vaatii tutkimussuunnitelman
+PRIV sisältää henkilötietoja
+NORED ei uudelleenjakelua
+DEP muokattuja versioita voi jakaa CLARINissa
sekä tarvittaessa muut aineistokohtaiset lisäehdot (esim. tietosuojaehdot)
Lisenssi
Lisenssi
Julkaise linkki tietosuojailmoitukseen oman tutkimuksesi osalta�
Yleistajuinen kuvaus auttaa tutkijoita, tutkittavia ja suurta yleisöä ymmärtämään, mitä kaikkea tutkimusaineistoilla tehdään ja mitä hyötyä tutkimuksesta voi olla.
Yleisiä ohjeita henkilötietoja sisältävien aineistojen käsittelyyn
Ja sitten ihan pieni analyysiesimerkki…
14 puhujan sävelkorkeusjakaumat�puolisävelasteikolla (verrattuna 100 Hz:iin)
Sävelkorkeusanalyysin menetelmän kuvaus
Lennes, M., Stevanovic, M., Aalto, D., & Palo, P. (2015). Comparing pitch distributions using Praat and R. Phonetician, (111-112), 35-53. http://www.isphs.org/Phonetician/Phonetician_111-112.pdf
Kiitos! Tack! Thank you!
www.kielipankki.fi
Yleinen käyttäjätuki
fin-clarin@helsinki.fi
Tekniset palvelut ja käyttöluvat
kielipankki@csc.fi
Aineiston viite