1. Metoodika

Alternatiivide analüüsiks on valitud esmalt seitse alternatiivi. Neid on omavahel võrreldud, tuues välja nende eelised, puudused ja riskid. Järgmiseks jaotati funktsionaalsused mõttelisteks osadeks. Iga sellist mõttelist osa testiti erineva seitsme alternatiiviga ja vaadati, kas need sobivad kokku. Analüüsi lõppu on lisatud kokkuvõtvad soovitused ja järeldused.

2. Alternatiivid

Allolevas tabelis on esitatud tehnilised alternatiivid:

Nr

Alternatiiv

Kirjeldus

1

Ära tee midagi IT osas

Kasutatakse edasi praegust lähenemist (igaüks kasutab oma CAT-tööriista) ja ühtset lähenemist ei arendata.

2

Olemasolev lähenemine + PPA TÕR

Kasutatakse edasi praegust lähenemist (igaüks kasutab oma CAT-tööriista), kuid tööde haldamiseks võetakse kasutusele PPA arendatud tõlkeregister (vajadusel tehakse lisaarendusi).

3

Uue keskse tõlkekeskkonna loomine

Luuakse täiesti uus keskne tõlkekeskkond, arvestades riigiasutuste soove.

4

Xtrf+Trados (memoQ)

Võetakse kasutusele turul olevad lahendused. Tööde haldamiseks xtrf ja tõlkimiseks turul olev CAT-tööriist.

5

MateCat

Võetakse kasutusele vabavaraline CAT-tööriist MateCat.

6Hugo.lvVõetakse kasutusele Hugo.lv platvorm ning liidestatakse see asutustes kasutusel olevate CAT-tööriistadega.
7

NLTP edasiarendamine

Võetakse kasutusele vabavaraline ELi toetusel ning mitme riigi koostöös loodav ja Eesti jaoks kohandatud tarkvara, mis sisaldab tõlkevoogude haldamist, CAT-tööriista ja terminoloogiate ja tõlkemootoritega integratsioone, tõlkemälude haldamise ja kõne töötlemise komponente.

3. Alternatiivide analüüs


Ära tee midagi IT osas

Uue keskse tõlkekeskkonna loomine

Olemasolev lähenemine + PPA TÕR

Xtrf+Trados (memoQ)

MateCat

Hugo.lvNLTP edasiarendamine

Eelised/võimalused

  1. Ei ole vaja kulutada aega ja ressurssi arendustele.

  2. Iga asutus kasutab oma juurutatud lähenemist ja sellist süsteemi, millega kasutajad on harjunud.

  1. Võimalus arendada välja vajalikud funktsionaalsused vastavalt riigiasutuste vajadustele.

  2. Suuremad integreerimise, edasiarendamise ja seadistamise võimalused võrreldes teiste alternatiividega.

  3. Pakub suuremat paindlikkust ja võimaldab kiiremini reageerida kasutajate vajadustele ning seaduste muudatustele.

  4. Kättesaadav ja kvaliteetne klienditugi.

  1. Võimalus saada ülevaade tõlketeenuse osutamisest.

  2. Võimalus hallata tõlketellimusi ja seadistada töövooge.

  3. Võimalus kasutada juba väljaarendatud registrit tõlketellimuste haldamiseks, mis tähendab, et arendusele ei ole vaja ressursse kulutada või on see minimaalne võrreldes teise alternatiiviga.

  1. Võimalus kasutada olemasolevaid Tradose või memoQ litsentse.

  2. Vajalikud funktsionaalsused tõlketellimuste haldamiseks (töövoo seadistamine, tööülesannete jagamine, edastamine, projekti andmete haldamine, maksmise kord, kasutajate oskuste, puhkepäevade haldamine jne) ja tõlkimiseks (tõlkimine, TM haldamine, masintõlke kasutamine jne).

  3. Liidestamisvõimalus erinevate CAT-tööriistadega. Ühe CAT-tööriistaga liidestamise hind baashinna sees.

  4. Olemasolev kasutajatugi.

  5. Võimalik kasutada nii pilves kui ka n-ö lokaalselt arvutis.

  6. Saab kohe kasutusele võtta.

  7. Rakenduse kasutajamugavust ja funktsionaalsuste efektiivsust on juba testitud.

  8. Rakendust arendatakse ja kaasajastatakse ka ilma Eesti riigi panuseta.

  1. Võimalus kasutada juba valmis lahendust.

  2. Väiksemad kulud võrreldes teise ja neljanda alternatiiviga.

  3. Vajalikud funktsionaalsused tõlkimiseks on juba lahenduses olemas.

  4. Puuduvad litsentsitasud.

  5. Saab kohe kasutusele võtta.

  6. Kood on avalik, mis tähendab, et lisaarenduste tegemine on võimalik.

  1. Võimalus kasutada juba valmis platvormi koos vajalike funktsionaalsustega.
  2. Saab suhteliselt ruttu kasutusele võtta.
  3. Võimalik liidestada asutuses kasutusel olevad CAT-tööriistad.
  1. Juurutades juba väljatöötatud komponentidel põhinevat lahendust, vähendame arendusriske, kiirendame arendust ja tulem on töökindlam ning mugavam kasutada.
  2. Platvorm on tasuta, puuduvad litsentsitasud, edasised arenduskulud jagunevad mitme riigi vahel, kuid see ei too kaasa siduvat kohustust tulevikus panustada.
  3. Platvormi avatud kood ja litsents (GPL või samaväärne) võimaldavad platvormi arendada erinevatel osapooltel.
  4. Platvormi arenduse eest tasub EL. Selle hinna sees on platvormi kohandamine Eesti vajadustele vastavaks. Töös lähtutakse keskse tõlkekeskkonna analüüsi (RIK) ja masintõlketehnoloogiate arendamise programmi (EKI ja HM) tulemitest.
  5. Platvormi saab kiiresti kasutusele võtta 2022. aastal.
  6. Võimalus NLTP platvormi analüüsiperioodil (kuni augusti lõpp 2021) Eestil kaasa rääkida platvormi tuleviku osas, sh esitada nõudmisi (AK taseme dokumentide tõlge, litsentsipoliitika jms), jagada oma kogemusi.
  7. Võimalus kohandada platvormi erinevate riigiasutuste spetsiifikast lähtudes.
  8. Erinevate pilvemajutuste (riigipilv, kommertspakkujad, ELi serverid) kui ka on-premise-lahenduse konfidentsiaalsete dokumentide automaattõlke võimalus.
  9. Sisaldab vabavaralist CAT-tööriista.
  10. Liidestamised erinevate CAT-tööriistadega, sh Trados'ega.
  11. Sisaldab kõikide ELi ametlike keelte MT mootoreid, sh mitmeid eesti-inglise-eesti jt keelepaaride valdkondadele kohandatuid MT mootoreid.
  12. Tõlkemälude haldamise komponent võimaldab valdkondlikke tõlkemälusid keskselt hallata. Kuna see baseerub NecTM platvormil, võimaldab see anda kasutajaõiguseid erinevatele rollidele. Olemas on liidestus CAT tööriistadega.
  13. Liidestub terminibaasidega, sh Ekilexiga.
  14. Saab rakendada teiste kasutajate pikaajalist kogemust ja töötulemust, mille väljundiks on pikema aja jooksul välja arendatud töövahendid (vrdl ise nullist arendades ja vigadest õppides, parandades).
  15. Võimalus Eesti kogemust eksportida (nt läbi e-Government Academy) teistesse riikidesse.

Puudused

  1. Puuduvad võimalused keskse usaldusväärse tõlkemälu loomiseks ja haldamiseks.

  2. Kõrged kulud tõlketeenuse tellimiseks.

  3. Kasutatavate CAT-tööriistade litsentsikulud.

  4. Puudub ülevaade tõlketeenuse osutamisest.

  5. Puudub võimalus hallata tõlketellimusi ja seadistada töövoogu.

  6. Kasutatavate CAT-tööriistade ebapiisav klienditugi.

  7. Tõlkekvaliteet ei parane, kuna tõlkemälude kogumist ja haldamist ei toimu. Samuti pole keskselt võimalik teostada kvaliteedikontrolli ning kasutada erinevaid terminibaase.
  8. Suurenevad IT-kulud, kuna iga asutus tegeleb oma uue lahenduse arendamisega või olemasolevate lahenduste ülalpidamisega.
  1. Suurem investeering võrreldes esimese ja kolmanda alternatiiviga.

  2. Kõiki funktsionaalsusi ja mugavusi tuleb analüüsida, arendada ja testida, kuna algandmed puuduvad.

  1. Suurem investeering võrreldes esimese alternatiiviga.

  2. Puudub võimalus luua ja hallata keskset usaldusväärset tõlkemälu.

  3. Kasutatavate CAT-tööriistade litsentsikulud.

  4. Kasutatavate CAT-tööriistade ebapiisav klienditugi.

  5. Tõlketeenuse kõrged tellimiskulud.

  6. Paljudel asutustel CAT-tööriistad puuduvad, seega hakatakse ise lahendust välja töötama, mis kokkuvõttes suurendab kulusid, kuna iga asutus loob endale eraldi süsteemi.
  1. Rohkem kui ühe CAT-tööriista liidestamine on tasuline.

  2. Lokaalse ehk arvutis oleva variandi kasutamine on lisatasu eest.

  3. Juurutamine/paigaldamine on lisatasu eest.

  4. Kasutajate litsentsitasud. Alates 229 eurot kuus ühe kasutaja kohta.

  5. Rakendus tuleb eesti keelde tõlkida.

  6. Lähtekoodi kommentaarid ja dokumentatsioon on teises keeles.

  7. Paljudel tõlkijatel puudub CAT-tööriist ning selle hankimist ei saa kohustuslikuks muuta. Samuti ei sobi lahendus kokku nõudega, et see peab olema avalikkusele kättesaadav tõlkimiseks mõeldud tööriist.
  1. MateCat rakenduse peab eesti keelde tõlkima.

  2. Puudub keskne kasutajatugi, mis oskaks vajadusel aidata.

  3. Puudub töövoo loomise ja haldamise võimalus.

  4. Lahendus ei sobi kokku nõudega, et see peab olema avalikkusele kättesaadav tõlkimiseks mõeldud tööriist.
  5. Osa asutusi on juba suuri summasid kulutanud Tradose ja memoQ hankimisele. Peab olema võimalus, et need ühilduksid uue keskse tõlkekeskkonnaga, tõhustamaks terminoloogilist ühtlust ja tõstmaks üldiselt tõlkekvaliteeti kõikjal - ka nende asutuste vahel, kellel on toimiv lahendus ja kel mitte.
  1. Litsentsitasud.
  2. Vaja edasi arendada. Lisaarenduste maht ei ole selge ja võib osutuda liiga kulukaks.
  3. Lahendus ei sobi kokku nõudega, et see peab olema avalikkusele kättesaadav tõlkimiseks mõeldud tööriist.  Arendaja on antud lahendusele seadnud piirangu, et riik peab tavakasutaja eest maksma kokkulepitud tasu.
  1. Ei ole selge, kes saab süsteemi omanikuks ning kuidas on tagatud kasutajatugi.
  2. Ei ole selge, kuidas toimub vajadusel süsteemi edasiarendamine.
  3. Kasutajatoe korraldus vajab kokkuleppeid
  4. Dokumentatsioon ja koodi kommentaarid on ingliskeelsed, kasutajaliides vajab eestindamist.

Riskid

  1. Tõlkekvaliteet ei pruugi paremaks muutuda, kuna keskset tõlkemälu ei teki.

  2. Riigil ei pruugi tekkida usaldusväärset ja head ülevaadet tõlkekuludest, kuna iga asutus haldab neid omamoodi.

  1. Võib osutuda liiga ajamahukaks ja kulukaks.

  2. Võidakse mitte arvestada kõikide funktsionaalsustega.

  3. Keskse tõlkemälu ja masintõlke loomiseks ei pruugi olla treeningmaterjali.

  1. TÕR-is arendatud protsessid ei pruugi sobida kõikidele asutustele.

  2. TÕR-i arendamine võib osutuda kulukaks.

  3. Kõik soovitud funktsioonid ei pruugi olla realiseeritavad. Lahendus on ülesehitatud Sharepointi platvormile.

  4. TÕR-i omanik on PPA, mistõttu arendused sõltuvad PPA tööplaanidest ja võib tekkida viivitusi süsteemi kasutusele võtmisel.

  1. Ei pruugi arvestada Eesti riigiasutuste protsesside ja Eesti seaduste spetsiifikat.

  2. Kasutajatugi ja arendajad ei pruugi saada aru eesti keelest.

  3. Lisaarendustööde maht võib osutuda liiga kalliks.

  4. Piiratud edasiarendamise võimalused – kõik soovitud funktsioonid ei pruugi olla realiseeritavad.

  1. MateCat ei ole Eesti riigiasutustes väga levinud, mistõttu ei pruugi kasutajad seda omaks võtta.

  2. Lisaarendustööde maht võib osutuda liiga kalliks ja ajamahukaks.

  1. Võidakse mitte arvesse võtta Eesti riigiasutuste protsesside ja Eesti seaduste spetsiifikat.
  2. Lisaarendustööde maht võib osutuda liiga kalliks.

  1. Võidakse mitte arvestada Eesti riigiasutuste protsesside ja Eesti seaduste spetsiifikat.
  2. Lisaarendustööde maht võib osutuda liiga kalliks või võimatuks, kus Eesti ei saa iseseisvalt otsustada vajalike arenduste üle.
  3. Projekti partneritel on erinevad vajadused ja prioriteedid ning võimalused rahastada edasiarendusi.
  4. Võimekus luua Eestis eri osapooli ja kasutajaid hõlmav struktuur platvormi kasutuselevõtuks ja edasiarendusteks (tooteomanik).
  5. Projekti komponendid (MT, TM haldus, CAT, terminoloogiate haldus jm) on küll olemas, kuid need integreeritakse kokku NLTP projekti jooksul, st ebaõnnestumise risk on olemas.
  6. Vajab täpsemalt selgitamist, kui suures osas vastab tõlketöövoogude haldamise funktsionaalsus Krabu Grupi analüüsis toodud nõuetele.
  7. Hindamist vajab NLTP projekti ja selle komponentide kasutajate ja arendajate jätkusuutlikkus.

4. Sobivuse analüüs

Erinevate alternatiivide sobivust on analüüsitud keskse tõlkekeskkonna loomise põhimõtetest lähtudes:

  1. Keskne töövahend kõigile avaliku sektori asutustele ja avalikkusele - süsteem peab integreerima tõlkemälud ja terminibaasid ning võimaldama pidevalt suureneva tõlkemälu eri kihtide põhjalt aina juurde õppivat masintõlget. Keskkond peab nägema ette ka uute tekkivate ja kogutavate tõlkemälude lisamist (importimist), nendele esitatavaid tehnilisi nõudeid, haldamist ja arvestamist masintõlkes, ilma et selleks oleks vaja süsteemi CAT-tööriistas teksti/dokumenti tõlkida.

  2. Veebilehtede tõlkimise võimalus - platvormil peab olema integreeritav liides, mille abil tõlkida veebilehti.

  3. Terminoloogiline ühtsus - masintõlge peab arvestama seaduste tõlgetega (siinkohal ei ole mõeldud liidestust elektroonilise Riigi Teatajaga, vaid seadustes kasutatud terminoloogiat), terminikogudega ja muude teabekihtidega. Lisaks peab keskkond võimaldama valdkondlike terminisõnastike loomist ja nende eksportimist Exceli vm failina, kuid seda peab saama ühendada ka Ekilexi keskkonnaga. 

  4. Valdkondlikkus - platvorm peab andma võimaluse kasutada valdkonnapõhist tõlkemälu ja hõlmama Ekilexist juba valdkondadesse jaotatud terminibaase. Masintõlge peab arvestama eri valdkondade oskuskeele terminikogusid ja tõlkemälusid ning neid peab saama tõlke tegemiseks valida. Tõlketeksti teemasid peab saama valida. Peab olema ka võimalik kasutada mitme valdkonna terminivasteid korraga. 

  5. Tõlkekvaliteet - tõlkekvaliteedi tagamiseks tuleb pärast tõlketeksti valmimist kasutada kvaliteedikontrolli tööriistu. Vaja on muuhulgas võimalust masintõlgitud tekste hiljem järeltoimetada. Tõlgete erialase keelelise toimetamise tulemused tuleb salvestada tõlkemällu, mis tagab masintõlke iseõppimise. Platvormi kaudu toimiva failide vahetusega peab olema võimalus haakida tõlgitavale tekstile külge konkreetne tõlkemälu või panna tõlkemälufail eraldi kaasa.

  6. Eri keelesuundade kaasamine - näha tõlkekeskkonna loomisel ette reaalajalise kõne masintõlke ja eestikeelse kõnesünteesi võimalust ning transkribeerimise kaasamise ja integreerimise võimalust. 

  7. Andmekaitse - tõlkemälude koondamisel peab arvestama tõlgete konfidentsiaalsusnõudeid. Keskne süsteem peab kasutajaliidestes võimaldama tõlkida nii, et tõlgitav tekst ja tõlge jäävad konfidentsiaalseks. Tõlkemälude koondamisel tuleb vältida isiku-, koha- ja asutusenimede ning muude konfidentsiaalsete andmete kandumist tõlkemälusse. 

  8. Avalik kasutamine ja ulatuslikud võimalused  - tagada keskkond, mis on lõppeesmärgina kõigile kasutatav ja avalikult kättesaadav ning aitab töövooge hallata. Teenus peab olema kõigile kättesaadav, arvestama ametkondade ja keeletehnoloogia vajadustega ning hõlmama kõiki, kes tõlkeid vajavad. See eeldab, et keskkonda kasutavad erinevate õigustega kasutajagrupid. Avalikult kasutatav tõlkemälu kuulub avaandmete alla.

Allpool on toodud alternatiivide valmisolek kirjeldatud põhimõtete järgi. Hinnatakse vastava osa olemasolu ja vajaliku arenduse ulatus.


Ära tee midagi IT osas

Uue keskse tõlkekeskkonna loomine

Olemasolev lähenemine + PPA TÕR

Xtrf+Trados (memoQ)

MateCat

Hugo.lv

NLTP edasiarendamine

Keskne töövahend kõigile avaliku sektori asutustele ja avalikkusele

Puudub

Tuleks uus luua

Puudub

Mingil määral saaks kasutada olemasolevaid võimalusi

Puudub

Mingil määral saaks kasutada olemasolevaid võimalusiTuleks uus luua

Veebilehtede tõlkimise võimalus

Puudub

Tuleks uus luua

Puudub

Puudub

Puudub

OlemasTuleks uus luua

Terminoloogiline ühtsus

Puudub

Tuleks uus luua

Puudub

Mingil määral saaks kasutada olemasolevaid võimalusi

Mingil määral saaks kasutada olemasolevaid võimalusi

Mingil määral saaks kasutada olemasolevaid võimalusiTuleks uus luua

Valdkondlikkus

Puudub

Tuleks uus luua

Puudub

Mingil määral saaks kasutada olemasolevaid võimalusi

Mingil määral saaks kasutada olemasolevaid võimalusi

Mingil määral saaks kasutada olemasolevaid võimalusiTuleks uus luua

Tõlkekvaliteet

Puudub 

Tuleks uus luua

Puudub

Suuresti saaks kasutada olemasolevaid võimalusi

Mingil määral saaks kasutada olemasolevaid võimalusi

OlemasTuleks uus luua

Eri keelesuundade kaasamine

Mingil määral olemas

Tuleks uus luua

Mingil määral saaks kasutada olemasolevaid võimalusi

Mingil määral saaks kasutada olemasolevaid võimalusi

Mingil määral saaks kasutada olemasolevaid võimalusi

Mingil määral saaks kasutada olemasolevaid võimalusiTuleks uus luua

Andmekaitse

Mingil määral olemas

Tuleks uus luua

Mingil määral saaks kasutada olemasolevaid võimalusi

Mingil määral saaks kasutada olemasolevaid võimalusi

Puudub

Mingil määral saaks kasutada olemasolevaid võimalusiTuleks uus luua
Avalik kasutamine ja ulatuslikud võimalusedPuudubTuleks uus luuaPuudubPuudubMingil määral saaks kasutada olemasolevaid võimalusiPuudubTuleks uus luua

5. Alternatiivide analüüsi kokkuvõtte

  1. Ära tee midagi IT osas - olemasolev lähenemine ei toeta ja ei paku vajalikke funktsionaalsusi tõlketeenuse osutamiseks. Lisaks on olemasolev lähenemine Eesti riigile liiga kulukas.

  2. Uue keskse tõlkekeskkonna loomine - vastab Eesti riigiasutuste vajadustele kõige paremini, kuid siin on vaja veenduda, et kõik vajalikud funktsionaalsused on kaardistatud. Samuti tuleb koostada rakenduskava, mis võimaldab hinnata süsteemi arendust etapiviisiliselt ning selle järgi ressurssi ja kulusid planeerida.

  3. Olemasolev lähenemine + PPA TÕR - ei ole üldiselt mõistlik alternatiiv, kuna see katab vaid osaliselt vajalikke funktsionaalsusi ning kõik, mis on tõlkemälude ja tõlketellimuste haldamisega seotud, jääb välja.

  4. Xtrf+Trados (memoQ) - suuresti vastab Eesti riigiasutuste vajadustele, kuid olulisteks puudusteks on litsentsitasud ja see, et avalikkusele on see lahendus kättesaamatu.

  5. MateCat - mingil määral vastab Eesti riigiasutuste vajadustele, kuid arvatavasti lisaarenduste maht on liiga suur ning mõistlikum on arendada uus süsteem. Selle alternatiivi juures tuleb tõsiselt kaaluda MateCati kasutusele võtmist vabavaralise komponendina, mida saaks integreerida loodavasse tõlkekeskkonda. 

  6. Hugo.lv - vastab mingil määral Eesti riigiasutuste vajadustele, kuid olulisteks puudusteks on litsentsitasud ja see, et avalikkusele on see lahendus kättesaamatu. Samuti tuleks lahendus enne kasutuselevõtmist kohandada, mis võib osutada liiga mahukaks.
  7. NLTP edasiarendamine - vastab suuresti Eesti riigiasutuste vajadustele, kuid lahenduse juures ei ole päris selge, kes saab süsteemi omanikuks ning kellele jääb tulevikus õigus süsteemi arenduste üle otsustada.

6. Parimad lahendused

Alternatiivide analüüsist selgus, et sobivaim alternatiiv oleks uue keskse tõlkekeskkonna loomine, kuna see katab kasutajate vajadused täielikult. Lisaks sellele võib tõsiselt kaaluda NLTP platvormi kasutuselevõtmist. Platvormi funktsionaalsused vastavad Eesti riigi vajadustele. Ülejäänud lahenduste rakendamise või edasiarendamise võimalused on piiratud, kuna nende abil ei ole võimalik pakkuda kogu vajalikku funktsionaalsust: tavakasutaja jaoks mõeldud vabavaralist tõlkimise tööriista. Teatud alternatiividel (4 ja 6) on ka litsentsitasud, mida hetkel ei ole võimalik täpselt hinnata, kuid arvestades Eesti riigiasutuste tänast tegevust litsentsitasude maksmise osas võib eeldada, et alternatiivide 4 ja 6 rakendamine oleks kulukam.

Kokkuvõttev võrdlus parimatest lahendustest asub allolevas tabelis:

LahendusArenduse maksumusLitsentside maksumusHalduskuludTäiendav info
Keskne tõlkekeskkond1 233 288 € ilma KM-taPuuduvad80 000 kuni 90 000 € ilma KM-ta (sõltuvalt sellest, kas valitakse pilveteenus või oma raudvaraga lahendus)
NLTP 616 644 kuni 863 302 € ilma KM-ta (kui on kasutatud 30% kuni 50% funktsionaalsusest)Esialgsel hinnangul puuduvad, kuid lõpuni ei ole selge, kas kõik komponendid on ikkagi vabavaralised, kas asutus saab oma haru kasutuselevõtuks ja jooksutamiseks, kas saab lähtekoodi ja kogu spetsifikatsiooni jne.80 000 kuni 90 000 € ilma KM-ta (sõltuvalt sellest, kas valitakse pilveteenus või oma raudvaraga lahendus)

NLTP puhul ei ole Euroopa tasandil veel kasutustingimusi paika pandud, pole täit selgust selle kohta, kui suures osas me oleme edasiste arendustega seotud või toimub see eraldi. 

Kuna lõplik funktsionaalsuste nimekiri ja platvormi kasutamise tingimused ei ole tänaseks teada, siis esialgne hinnang on, et ära saab kasutada 30% kuni 50% selle funktsionaalsusest. Määramatuse protsent on suur, kuna spetsifikatsioon pole kättesaadav ning lähtekoodi pole. 

Halduskulude osas tuleb  arvestada sama summaga, mis ka oma loodud lahenduse puhul, sest haldamine peab toimuma samadel tingimustel.

NLTP puhul on ka risk, et see lahendus seob meid ühe tarnijaga ning vajalikke arendusmuudatusi ei saa teha või nende tegemiseks peab eraldi kokku leppima.

Hugo.lvEi ole võimalik hinnata, kuna puuduvad usaldusväärsed algandmed.Vastavalt olemasolevale infole lisanduvad litsentsitasud, kuid nende suurust ei ole võimalik hinnata, kuna platvormi omanik ei väljastanud informatsiooni.Eeldatavalt on halduskulude suurus sama, mis teiste lahenduste puhul, kuid kuna puudub info litsentsitasude ja majutuse kohta, mis eeldatavalt asub Hollandis, siis ei ole seda võimalik hinnata.

Hugo.lv platvormi kasutusele võtmise maksumust ei ole võimalik objektiivselt hinnata, kuna puuduvad põhjalikud ja usaldusväärsed algandmed. Platvormi arendaja ettevõte Tilde ei ole avaldanud andmeid litsentsitasude kohta ja platvormi kasutamise tingimusi. Arvestades avalikult kättesaadava informatsiooni hulka võib eeldada, et selle platvormi funktsionaalsusest saab ära kasutada kuni 30%. Hugo.lv puhul tuleb arvestada tõenäosusega, et lisanduvad püsivad litsentsitasud ning arendusvajaduste realiseerimine on keeruline, kuna selleks tuleb platvormi omanikuga ja teiste osapooltega eraldi kokku leppida. Lisaks on litsentsi tingimused ebaselged - tarkvara on tasuta kasutamiseks, aga mingil hetkel võib see muutuda, st litsentsi tingimusi võib tootja ühepoolselt muuta.

Veel üheks suureks miinuseks on sõltumine hugo.lv tootjast - Läti valitsuse nõue on, et kõik tööd tuleb tellida Tildelt ehk omand on ühe arendaja käes ning kui on soov midagi teha, siis peab tegema seda koostöös Tildega.

Antud lahenduse puhul tuleb arvestada ka asjaoluga, et kui soovitakse pakkuda kogu avalikkusele võimalust kasutada masintõlkemootorit, siis see saab toimuda ainult sellel tingimusel, et erasektori tegevuse eest peab maksma riik.

Samuti olemasoleva info kohaselt toimub kogu majutus Hollandi Microsofti serverites. Süsteemi komponentide paigutamine Eesti serverisse ei olnud võimalik. Seetõttu tuleb arvestada oluliste andmekaitse ja turvalisuse riskidega andmetöötlusel.


7. Vabavaralised ja tasulised komponendid

Allpool on loetletud erinevad vabavaralised ja tasulised komponendid, mida saab tõlkekeskkonna arendamisel kasutada.

7.1. Kratijupid

Kratijupp on tehisintellektil põhinev rakendus, mida saavad tasuta taaskasutada ja vastavalt oma vajadustele edasi arendada kõik avaliku ja ka erasektori huvilised.

  1. Tõlkemootor
    1. Toetab seitset keelt (eesti/läti/leedu/inglise/soome/saksa/vene), kusjuures kõik 42 tõlkesuunda mahuvad ühe närvivõrdel põhineva mudeli sisse. Lahenduse puhul ei ole vaja sisendkeelt eraldi valida, vaid seda teeb süsteem ise, kasutajal tuleb valida vaid väljundkeel. Lisaks on võimalik valida ka tõlke stiili, olgu see siis kõnekeel või ametlikum tõlge. Lisaks suudab tõlkemootor ka samas keeles stiili kohendada ja parandada kirjavigu.
    2. Tõlkemootorit saab paigutada endale sobivasse keskkonda, mis võimaldab seeläbi tõlkida ka asutusesiseseks kasutamiseks mõeldud dokumente. Tõlkemootor töötab veebis addressil https://translate.ut.ee/, kus saab seda kasutada nii otse demona, integreerida tõlkeraamistikega ja kasutada läbi API. Koodivaramu on kättesaadav veebilehelt https://koodivaramu.eesti.ee.
  2. Tekstianalüütika töövahend - Texta
    1. TEXTA Toolkit on tekstianalüütika tööriistade kogum. Otsija (Searcher) võimaldab indekseerida ja otsida dokumente ja nende sisusid.
    2. Märgistaja (Tagger) lubab dokumente automaatselt kategoriseerida eelnevalt defineeritud klassidesse.
    3. Leksikoni kaevur (Lexicon Miner) loob võimaluse treenida keelemudeleid, mis ette antud sõna alusel soovitavad teisi sarnaseid sõnu.
    4. Olemi välja kaevaja (Entity Extractor) laseb kasutajal markeerida osa tekstist ja treenida selle põhjal statistilisi mudeleid, mis leiavad teisi sarnaseid juhtumeid, et need välja kaevata.
    5. Anonümiseerimise teenusega saab puhastada HTML-, DOCX- ja PDF-vormingus faile. Erandiks on pildina salvestatud avalikustatud failid, mille automaatne puhastamine ei ole võimalik ning tuleb teha käsitsi. Failis saab anonüümseks teha füüsilised ja juriidilised isikud, isikukoodid, registrikoodid, sünniajad, telefoninumbrid ja e-postiaadressid. Täiendavate parameetritena saab kaasa anda teksti või sümbolid, mida kasutatakse kõikjal, kus nime ei asendata initsiaalidega.
  3. Kõnetuvastuse töövahend
    1. Tehnoloogia, mille abil muudetakse kõne tekstiks. Kõnetuvastus võimaldab näiteks dokumentide dikteerimist, kõne- ja videosalvestuste transkribeerimist ning kõne abil arvutite ja seadmetega suhtlemist.
    2. TalTechi keeletehnoloogia laboris väljatöötatud kõnetuvastussüsteem on tasuta kõigile kättesaadav.
    3. Transkribeerimine on täisautomaatne: keegi neid salvestusi ei kuula ega transkriptsioone ei loe. Helifailide sisu võidakse aga siiski kasutada uurimisotstarbel, st nende sisu võidakse pisteliselt kuulata, et analüüsida tuvastusvigade tekkimist.
    4. Lähtekood koos paigaldusjuhendiga on kättesaadav riiklikust koodivaramust.
  4. Kõnesünteesi tööriistad 
    1. Tegemist on Tartu Ülikooli keeletehnoloogia uurimisrühma poolt välja arendatud eestikeelse närvivõrkudel põhineva kõnesünteesi prototüübiga, mida on treenitud eestikeelsete uudiste korpuse peal.
    2. Kõnesüntees oskab hetkel jäljendada nelja erineva kõneleja häält, mis kõik on pandud ühe mudeli sisse.
    3. Kõnemudeli tugevusteks on kõne loomulik kõla ja intonatsioon, numbrite, sümbolite ja lühendite hääldamine.
    4. Lisaks veebidemole, mis on leitav siit, on olemas ka rakendusliides, mille kohta leiab infot siit.
    5. Lähtekood koos paigaldusjuhendiga on kättesaadav riiklikust koodivaramust.

7.2. CAT-tööriistad

Allpool on kirjas tasuta ja avatud lähtekoodiga CAT-tööriistad, mida saab kasutada tõlkekeskkonna arendamiseks. Kasutada saab juba valmis funktsionaalsusi, mis sobivad ka keskse tõlkekeskkonna jaoks (nt tasuvuse statistika arvutamine, tõlkemälude jagamine, tekstianalüüs jm).

  1. Omega-T - tasuta ja avatud lähtekoodiga tõlkemälurakendus (ei sisalda masintõlget). https://omegat.org/
  2. MateCat - tasuta ja avatud lähtekoodiga veebipõhine CAT-tööriist. https://www.matecat.com/

7.3. Muud komponendid

Masintõlkemootorid:

  1. eTranslation - Euroopa Komisjoni loodud masintõlkemootor. Komisjoni loodud masintõlkemootoreid saavad kasutada kõik Euroopa Liidu institutsioonid (st peale komisjoni ka parlament, nõukogu, kohus, kontrollikoda, Euroopa Majandus- ja Sotsiaalkomitee, Regioonide Komitee, Euroopa Keskpank ja Euroopa Investeerimispank) ning Euroopa Liidu ja Euroopa majanduspiirkonna riikide riigiasutused. Riikide ametiasutustes on juurdepääs masintõlget pakkuvatele veebilehtedele EU Logini kasutajanime alusel. https://ec.europa.eu/cefdigital/wiki/display/CEFDIGITAL/eTranslation
  2. Moses - vabavaraline statistiline masintõlkemootor, mille abil saab treenida tõlkemudeleid mis tahes keelepaari jaoks. http://statmt.org/moses/index.php?n=Main.HomePage
  3. OpenLogos Machine Translation - süsteemi saab üles laadida erinevas vormingus tekstidokumente, mis tõlgitakse erinevatesse sihtkeeltesse. Tulemuseks on toortõlge, mida saab vajadusel korrigeerida. Praegu saab lähtekeeleks valida saksa ja inglise keele. Sihtkeelte hulka kuuluvad peamised Euroopa keeled. Süsteem on aga võimeline õppima ehk mootorit on võimalik treenida muude keelte ja erinevate valdkondade jaoks. https://logos-os.dfki.de/
  4. Riiklik masintõlkemootor - EKI tellimusel valmiv masintõlkemootor "Avaliku sektori masintõlketehnoloogia arendamise" hanke raames. https://riigihanked.riik.ee/rhr-web/#/procurement/2836073/general-info

Tasub uurida ka Luisa tõlkebüroo loodava masintõlkemootori kasutamise tingimusi. Masintõlkemootor luuakse koostöös Tartu Ülikooli arvutiteaduse instituudiga https://www.luisa.ee/luisa-masintolkemootori-arendamine/.

Samuti tuleb kaaluda võimalust kasutada juba olemasolevaid masintõlkemootoreid, mis on kasutusel nt RIK-is veebilehtede tõlkimiseks (nt äriregistri ja kinnistusraamatu jaoks), uurimaks, kas nende kasutamine ja edasiarendamine on võimalik ja mõistlik.

Kvaliteedikontrolli tööriistad:

  1. Verifka - https://e-verifika.com/, tasuline komponent, hinnakiri asub siin: Prices Menu - Verifika QA (e-verifika.com)
  2. Xbench - https://www.xbench.net/, tasuline komponent, 99 eurot aastas üks litsents.
  3. CheckMate - https://okapiframework.org/wiki/index.php/CheckMate, vabavaraline komponent.
  4. AceProof - https://www.aceproof.com/, tasuline komponent, hinnakiri asub siin: Order AceProof — Nice and Simple Translation Quality Assurance Tool
  5. ErrorSpy - https://www.dog-gmbh.de/en/products/errorspy/, tasuline komponent, hinnakiri asub siin: ErrorSpy Prices | D.O.G. GmbH (dog-gmbh.de)
  6. QA Distiller - http://www.qa-distiller.com/en/features, tasuta komponent.

EKI ja HTMi hankega (https://riigihanked.riik.ee/rhr-web/#/procurement/2836073/general-info) arendatakse eraldi grammatikakontrollija tööriista, mida on võimalik kasutada ka keskses tõlkekeskkonnas (nt avalikkusele mõeldud funktsionaalsuste puhul, kus sisselogimata kasutaja ei saa tervet kvaliteedikontrolli tööriista kasutada).


Joondamise tööriistad:

  • LF Aligner LF Aligner aitab tõlkijatel luua tekstidest ja nende tõlgetest tõlkemälusid. See tugineb Hualingile, mis aitab lauseid automaatselt siduda. LF Aligner suudab luua vahelehtedega eraldatud TXT-, TMX- või XLS-faile. See joondab automaatselt txt-, doc-, docx-, rtf-, html-, pdf- ja muid vorminguid, mis suudavad teksti joondada korraga kuni 100 keeles. Tööriist kasutab täpseks automaatseks joondamiseks Hunaligni, mille abil saab järelevalveta pakettrežiimis ehitada suuremahulist automatiseeritud korpust. See toetab mõnd idamaist keelt, suurem tugi enamikule Euroopa keeltest ning sellele on sisse ehitatud kohandatavad lauseosad, mis on laenatud Europoli korpuseprojektist. https://et.ryanlafauci.com/software/873139
  • WinAlign - peamiseks funktsiooniks on varem tõlgitud tekstide ning nende algtekstide joondamise ehk võrdluse põhjal uue tõlkemälu loomine. (Tradose komponent).

Anonümiseerimise tööriistad:

  1. ARX Data Anonymization Tool - vabavaraline anonüümseks tegemise tööriist https://arx.deidentifier.org/.
  2. Amnesia - vabavaraline anonüümseks tegemise tööriist https://amnesia.openaire.eu/
  3. STACC-i arendatud anonüümseks tegemise tööriist. Tegemist tasulise komponendiga. https://www.stacc.ee/lahendused/avalik-sektor/tekstianaluutika/

Kõnesünteesi tööriistad:

  1. EKI kõnesünteesikeskkond, mis koondab endas eesti keele tekst-kõne sünteesi erinevaid variante, rakendusi, liideseid ja muid materjale, mis sünteesimiseks on loodud. Avaleht (eki.ee)


Keskse tõlkekeskkonna arhitektuuri ja rakendamise kava koostamisel on arvestatud, et valitakse vabavaralised komponendid ning tehakse nendele vajalikke lisaarendusi. Tegelikult aga sobivad keskse tõlkekeskkonna jaoks kõik pakutud komponendid ning lõplik otsus, milliseid komponente valitakse, peab selguma detailse analüüsi raames. Otsuse tegemisel tuleb arvestada ka sellega, kes hakkab süsteemi arendama ning kas vajalik võimekus ja kompetents on arendusmeeskonnal olemas.

8.  NLTP projekti materjalid


  1. NLTP Eesti 20210323.pdf
  2. NLTP_EE_v4.pdf
  3. NLTP_EE_v4.pdf
  4. EE MT projects aligned v4.pdf


  • No labels