Sa oled siin

Tartu ülikooli keeleteadlased lindistavad vestlusi

  • Vestlevad inimesed. Allikas: Wikimedia Commons

 

2006. aastal alustas kuueliikmeline keeleteadlaste rühm eesti murrete dotsendi Pire Terase eestvedamisel spontaanse kõne foneetilise korpuse koostamist. Korpust täiendatakse ja arendatakse pidevalt. Käesoleval aastal on käsil juba kolmas jätkuprojekt. Keeruline nimi tähendab lihtsalt, et lindistatakse ettevalmistamata vestlusi vabadel teemadel.

 

Eesti keele foneetika teadur Pärtel Lippus kirjeldab lindistusprotsessi järgnevalt: “On kaks tavaliselt omavahel tuttavat inimest, kes tulevad salvestuskabiini. Me lihtsalt paneme nad vastastikku istuma ja laseme neil rääkida umbes pool tundi. Kummagi kõneleja küljes on mikrofon, kõne salvestatakse eraldi kanalisse ja nii salvestatud kõnet me märgendame.“

 

Korpuse juurde kuulub ka veebipõhine otsingumootor, mis on kõigile kättesaadav, kuigi piirangutega. Seal on võimalik otsida ühte sõna ning vaste leitakse kahesekundilise lõiguna. Pikemat konteksti pole võimalik leida, kuid näiteks uurimistöö tegemiseks on võimalik ka terve korpust alla laadida. Korpus on eelkõige mõeldud keeleteadlastele, sest keeleuurimiseks saab seda väga erinevatel tasanditel kasutada, näiteks eestikeelse kõnetuvastuse treenimiseks. Müncheni ülikooli kõnetuvastuse automaatne transkribeerija kasutab korpust treeningmaterjalina.

 

Lippuse sõnul oli algne eesmärk linti võtta 40 kõnelejat, praeguseks on talletatud sajakonna inimese vestlused, kelle hulgas on võrdselt mehi ja naisi. Kõnelejad on vanuses 20-60, erineva sotsiaalse taustaga ning pärit erinevatest piirkondadest.

 

Praegune projekt kestab kuni 2017. aasta lõpuni. Selleks ajaks loodavad teadlased tõsta failide mahu vähemalt 75 tunnini. Projekti rahastab Eesti keeletehnoloogia riiklik programm. 

Märksõnad: 
Teaduslik ja hariv
Toimetaja: 
Jaanus Vogelberg

Lisa kommentaar