Eesti Vabariigi President 1992-2001 - Akadeemiline nõukogu

Eesti keel infoühiskonnas

Haldur Õim

1. Sissejuhatus.

Pealkirjas sõnastatud teema on iseenesest palju laiem kui küsimus keeletehnoloogia rollist, vahenditest ja võimalustest, millele ettekanne keskendub. Ja teema keeletehnoloogiline aspekt ei ole muudest aspektidest (nt üldkultuurilistest, sotsiaalsetest) sõltumatu. Seetõttu, ehkki ühiskonnas ringleva keelelise info arvutitöötlus on keeletehnoloogia poolt vaadatuna probleemi tuum, ei sõltu sihtide seadmine siin kaugeltki ainult keeletehnoloogidest. Mis on taotlused, mis on prioriteedid Eesti riigi seisukohalt vaadatuna? Eestis (erinevalt nt Leedust) sellist riiklikul tasemel aktsepteeritud programmi ei ole. Ettekande eesmärk on anda ülevaade keele- ja kõnetehnoloogia olukorrast Eestis mujal maailmas leiduva taustal, pakkuda välja võimalikke (ja neist eelkõige meie arust esmajärjekorras vajalikke) arendusi, aga ühtlasi osutada, missugused on probleemid, mis selle valdkonnaga seostuvad.

2. Situatsioon.

Lühiülevaade ajaloost: selle võib tagasi viia 70ndatesse aastatesse. Kuid praeguse situatsiooni lähted on 90ndate alguses. HESP (= Higher Education Support Program) toetas arvutuslingvistika õpetuse väljaarendamist Tartu Ülikoolis. Praeguseks on see õpetus käivitunud. Ja 1994/95 aastast alates on Eesti teadlased (TÜ, EKI, TTÜ KübI) osalenud kümneskonnas Euroopa Liidu keele- ja kõnetehnoloogiaprojektis. See on toonud nö. maailma meile koju kätte ja viinud meid maailma.

Ent selle osa põhieesmärk on tutvustada vahendeid, mis eesti keele jaoks on olemas, mida nad suudavad, kus neid saaks ja kus neid juba on rakendatud

Morfoloogia. Analüüsi- ja sünteesiprogrammid (TÜ, EKI, Filosoft) on praktiliseks kasutamiseks sobival kujul olemas. Rakenduste näiteiks võivad olla eesti keele speller ja poolitaja (Filosoft), “eesti keelt mõistev” skanneriprogramm (Nekstom). Potentsiaalne kasutusala on kõikjal, kus tekstiinfot soovitakse otsida ja identifitseerida sõnade põhivormide ja/või nende ühendite, mitte ainult tekstis leiduvate sõnavormide järgi .

Süntaks. Süntaksianalüüsiga on seni tegeldud vaid Tartu Ülikoolis. On olemas programm, mis teeb eesti keele lausete pindanalüüsi (määrab sõnavormide süntaktilise funktsiooni lauses). Süntaksianalüsaatori aluseks on nn kitsenduste grammatika. Inglise keele kitsenduste grammatika abil on nt süntaktiliselt märgendatud inglise keele 250-miljoni sõnaline tekstikorpus. Analüsaatori üks osi on nimisõnafraaside tuvastaja, mis on vajalik abivahend terminoloogidele, infosüsteemide loojatele jm.
Süntaksianalüsaatori tulemused on kasutatavad tõlkesüsteemides, infootsingus, aga ka nt kõnesünteesis ja –tuvastuses.

Semantika. Lausete semantilise analüüsi programme eesti keele jaoks pole, kuid neid ei ole arvestatavalt ka mujal maailmas, välja arvatud kitsaste ainevaldkondade jaoks. Küll tegeldakse semantiliste andmebaaside loomisega. TÜs on EL projekti EuroWordNet raames loodud andmebaas, kus sõnade tähendused on omavahel seotud mitmesuguste semantiliste seoste kaudu, kujundades niimoodi keelt (allkeelt) katva semantilise võrgustiku. Keeltevahelise mooduli (interlingva) kaudu on eesti keele tähendused seostatud 7 teise projektis osalenud keele (inglise, saksa, prantsuse, itaalia, hispaania, hollandi ja túehhi) vastavate tähendustega. Andmebaas on kasutatav nt tõlkimisel, mitmekeelses infootsingus jm. Projekti ühe osana ongi koostatud (EKIs) õigusterminoloogia tesaurust, mida kasutatakse Eesti Õigustõlke Keskuses. Tööd sel alal jätkuvad .

Pragmaatika. Ainsa tööna siin võib tuua dialoogimudeli loomist Tartu Ülikoolis, mis arvestab inimestevahelise suhtluse seaduspärasusi. Seni tööl praktilist rakendust pole, kuid teema aktuaalsus maailmas on viimastel aastatel järsult tõusnud seoses kõnesisendi ja –väljundiga infootsi- ja muude süsteemide loomisega, mis eeldab loomuliku dialoogi mudelit ühe komponendina.

Kõnetöötlus. Küberneetika Instituudi ja EKI koostöös on loodud eestikeelne kõnesüntesaator (lähemalt keskendub sellele Meelis Mihkla ettekanne). Kuid kõneanalüüsiga faktiliselt Eestis ei tegelda.

Keeleressursid. Olulisima osa moodustavad tekstikorpused (TÜ, EKI), kõnekorpused (Küberneetika Instituut) ja mitmesugused elektroonilised sõnastikud. Korpustel on oluline roll keeletehnoloogiliste programmide väljatöötamisel ja testimisel/hindamisel, nii moodustavad nad baasi, millele muu töö tugineb. Eesti keele korpuste suurim puudus on nende väike maht. Lihtsalt elektroonilisi tekste võib koguda kiiresti, kuid ilma vajaliku märgenduseta on nende kasutusvõimalused piiratud.

Koolitus. TÜs on paar aastat avatud arvutuslingvistika eriala, kuid nö eriprogrammide järgi on spetsialiste valmistatud ette aastaid, sh TÜ matemaatikateaduskonnas. On kaitstud rida magistritöid, mille temaatika võib liigitada arvutuslingvistika/keeletehnoloogia alla, viimase 2 aasta sees ka 2 doktoritööd.

Korralduslik külg. 1997.a. alates on toiminud riigieelarvest finantseeritav eesti keeletehnoloogia sihtprogramm, millest on rahastatud (osaliselt) suuremat osa eespool loetletud töödest. Selle raames töötati möödunud aastal välja ka “Eesti keeletehnoloogia arengukava” (www.eki.ee/tutvustus/arengukava.html). Kuid 2000.a. “kukkus” mainitud programmi finantseerimine 1 miljonilt sajale tuhandele kroonile.

3. Vajadused ja probleemid.

Mida meil pole (või on vähe), aga oleks vaja? Vastus sõltub siin osaliselt küll põhimõttelistest sihtidest. Loetlen ilmsemaid vajakajäämisi.

    -  Eesti keele jaoks on olemas õigekirjakorrektor (speller), kuid pole grammatikakorrektorit, mis paljude keelte puhul on “kirjutaja abivahendite” paketi loomulik osa.

    -  Kõnetuvastus. Sellega ei tegelda Eestis faktiliselt üldse. Samas, kui arvestada mujal maailmas üha kasvavat huvi kõnesisendiga süsteemide vastu, võib siin Eesti keeletehnoloogias tekkida oluline ja tuntav auk.

    -  Keeleõpe arvuti abil on lapsekingades. Tundub küll, et päris viimasel ajal on asjad kiiremini arenema hakanud.

    -  Tarkvara lokaliseerimine, so eestikeelsete kasutusjuhendite, menüüde jne koostamine (või nende tõlkimine eesti keelde). Selle puudumist võib vabalt nimetada keeleseaduse rikkumiseks, ja just siin sõltub keeletehnoloogide tahtmistest kõige vähem. Kui muudes (majandus)valdkondades ei saa seadusandja otse nõuda, et tootja/turustaja arvestaks spetsiaalselt eestlaste vajadustega, siis siin saab seda küll. Nt lisades riigihangetesse standardse punkti, et eestikeelse tarkvara olemasolu korral tuleb eelistada seda. Siis tuleksid ka vajalikud investeeringud (kui riigil selleks raha ei jätku).

    -  Tõlkimist toetavate programmvahenditega tõsisem tegelemine. Leedu vastavas riiklikus programmis (“Leedu keel infoühiskonnas”) on masintõlget nimetatud lausa esimese prioriteedina. Kuivõrd jõukohane (ja vajalik) on kohene orienteerumine nö täielikule masintõlkele, ma ei oska öelda, kuid võimalikud on ka mitmesugused abivahendid.

    -  Korraldusliku –põhimõtetealase puudusena osutaksin raha jagajate (minu arust) valele arusaamisele alusuuringute ja rakendustööde suhetest. Keeletehnoloogilisi rakendussüsteeme ei saa asuda välja töötama, kui alusuuringud puuduvad (nt süntaks, semantika, pragmaatika, kõnetöötlus). Alusuuringute all ei mõtle ma “puhast” teoreetilist uurimistööd, vaid süstemaatiliselt ja teatud formalisatsiooni astmeni teostatud töid. Keeletehnoloogia arengukava tuleks käsitleda koos selliste alusuuringute arengukavaga.

4. Kokkuvõtteks.

Eesti keele- ja kõnetehnoloogia ei ole minu arust halval järjel (minu hinnangul kindlasti parem kui nt Lätis ja Leedus). See, millest enim puudust tunneme, on teatud ühtne, riiklikult aktsepteeritud “katus”, kas või riiklikult aktsepteeritud arengukava näol, kus on fikseeritud prioriteedid, jagatud ülesanded ja täitjad, aga ka antud vajalikud garantiid.

tagasi | avalehele