Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

  1. Avaliku kasutaja tõlkemälude suurus ja tõlkemälude umbkaudne hulk tõlkemälude umbkaudne hulk
    1. Avalike kasutajate kõikide tõlkemälude kogumaht on kasutajate kõikide tõlkemälude kogumaht on 2TB.
    2. Maksimaalne lubatud üheaegne kasutajate arv avalikkuse jaoks on 27 000 (u 2% Eesti rahvaarvust).
  2. Ametniku tõlkemälude suurus ja umbkaudne hulk hulk
    1. Ametnike kõikide tõlkemälude kogumaht on 2TB (PPA-s kasutaja ühe mälu maht on ühe mälu maht on keskmiselt 30MB).
    2. Maksimaalne lubatud üheaegne kasutajate arv avaliku sektori jaoks 13 000 (10% ametnike koguarvust).
  3. Terminikogude suurus ja umbkaudne hulk
    1. Ametnikel võib olla maksimaalselt 1 üks terminikogu mahuga 100MB.
    2. Ekilexi maht -  PostgreSQL PostgreSQL andmebaas võtab kettal ruumi hetkel 23GB. Pakitud dump ca 1.3 GB
  4. Tõlketööde hulk ajaühiku peale - keskmine ja tipp.
    1. Maksimaalne lubatud üheaegne toimingute arv avaliku sektori jaoks 13 000 jaoks 13 000 toimingut/s
    2. Maksimaalne lubatud üheaegne toimingute arv avalikkuse jaoks 27 jaoks 27 000 toimingut/s
    3. Üldlevinud päevane nominaaltõlkemaht on 5 lk/päev, kuid olenevalt teksti olemusest ja tõlkijast võib see ulatuda ka mahuni 10–12 lk/päev.

...

Suur osa komponente on sisuliselt lihtsalt päringute vahendajad andmebaasi ja veebilehitseja vahel. Seetõttu on paljudel moodulitel pigem madalad ressursinõuded. Allpool on välja toodud välja mõttekäigud komponentide kohta, kus see ei pruugi ilmselge olla.

Komponendid

Andmebaas

Andmebaasis võtavad peamise mahu on kõige mahukamad tõlkemälud. Täpne kasutajate arv platvormil on teadmata, ent võttes arvesse seda, et teadaolevalt on harilik tõlkemälu maht ühe ametniku kohta ca. 30MB, siis on mõistlik arvestada tõlkimismälude mahuks 2TB avalike kasutajate tavakasutajate ja 2TB ametnike jaoks. Sellest peaks piisama arvestatava varuga.

...

Sõnumiteenuse puhul eeldame, et kuna valdav osa tööst nõuab kiireid vastuseid, siis sõnumijärjekorrad ei saa kuigi pikaks muutuda. Samas soovitame kasutada püsivaid sõnumijärjekordi, kus järjekorra sisu salvestatakse ka diskile, et mitte kaotada olulist osa süsteemi seisust sõnumijärjekorra teenuse häire puhul.  

Sõnumiteenuse koormuse hindamisel lähtusime sellest, et lõviosa koormusest tuleb tõlketööst endast. Siin lähtusime samades samadest lähteandmetest tõlkimismahtude kohta, mida on kasutatud ka andmebaasi mahtude hindamiseks. Arvutatud on keskmine tõlkepäringute hulk sekundis ning, eeldades et päringud jaotuvad normaaljaotuse järgi, ka päringute arv alla mille on päringuid vastavalt 99 ja 90% juhtudest.

...

Tellija mooduli pakutav funktsionaalsus on peamiselt andmebaasi päringud, andmete laadimine ja suhtlus sõnumiteenusega. Ehk peamine tegevus on I/O ning protsessorile erilist koormust ei lange. Et I/O koormust vähendada, on võimalik rakendusse ehitada puhverdussüsteem. See suurendab rakenduse mälutarvet, aga vähendab koormust andmebaasile, mis on mõistlik, arvestades potentsiaalseid kasutusmustreid rakenduses.   

Tõlketöö moodul

Tõlketöö moodulis on suhteliselt palju funktsionaalsust, ehk ka rakendus ise on suurem. Samuti on siin palju rohkem ruumi puhverdussüsteemi kasutamiseks. Suurem osa rakenduse funktsionaalsusest teostatakse kas kasutaja sirvikus - tõlketöö, toimetamine, töövoogude haldus, jne - või teostatakse läbi andmebaasi päringute.

Tõenäoliselt suurimat koormust tekitab siin tõlketöö ise oma interaktiivse olemuse tõttu. Pärast iga lause tõlkimist või automaattõlke kinnitamist , tuleb see salvestada andmebaasi.

Kvaliteedikontrolli moodul

Mooduli peamine ressursikulu on terminibaaside vahemälus hoidmine. Et kiirendada protseduuri ja vältida andmebaasi asjatut koormamist, on mõistlik viimati kasutatud terminibaase hoida puhvris.

Kuna tööd töö ei teostata jaotu mitte lause, vaid dokumendi peale, siis oodatav kasutuskoormus ei ole kuigi kõrge.

Teksti liigi tuvastamise moodul

Moodul töötab küll kasutades masinõppemudelitmasinõppemudeliga, aga seda tööd teostav mudel on suhteliselt lihtne ning ei kasuta kuigi palju ei protsessorit ega vahemälu. Samuti teostatakse toimingut rakendub see toiming korra dokumendi kohta, ehk instantse korraga käigus hoida ei ole vaja kuigi palju.

...

  1. Masintõlkemootor vajab palju ressursse.
  2. Tõlkemälusid peab hoidma vahemälus ning kasutatavate tõlkemälude hulk tõlkes on piiramata.

Samuti  on siin arvestatud tõlkemootori kasutamisega Samuti arvestatakse siin seda, et tõlkemootorit kasutatakse protsessoril ja mitte graafika kaardilgraafikakaardil. Ühest küljest tähendab see, et tõlkimise kiirus on märkimisväärselt aeglasem, aga ka seda, et lausete tõlkimine paralleelselt ei anna meile mingit eelist. See aga tähendab, et piisava tõlkekiiruse tagamiseks on vaja hoida töös mitut instantsi, mis omavahel vahemälu ei jaga.

Arvestades ülal välja toodud oodatavat tõlkepäringute arvu, on tõenäoliselt võimalik enamikul juhtudest teeninda rakendus ära ühe käigus oleva teenindada rakendust ühe käigusoleva instantsiga iga tõlkevaldkonna kohta. Samas on mõistlik hoida ühe instantsi tõlkemälude puhvrit mõistlikul tasemel, sest igale konteiner reserveerib endale kogu määratud mälu sõltumata sellest, kas seda on kohe vaja onvõi mitte. Kui tõlkeks on tarvis tõlkemälu, mida puhvris ei ole, laetakse sealt vanim välja ja uus sisse. See tähendab, et äärmuslikul juhul kui samas valdkonnas on tõlkepäringute arv suur ja samas tõlkemälud väga erinevad, võib tõlke kiirus kannatada, aga see on eeldatavasti üpris haruldane juhtum.

Masintõlkemootorite ressursinõudlikkus on mudeliarhitektuuride vahel üpris varieeruv ning samuti on võimalik ressursinõudlust vähendada, kui teha järeleandmisi kvaliteedistkvaliteedis. Sellest ka suur kõikumine allpool olevas tabelis.   

Kõnetuvastuse moodul

Erinevalt masintõlkest, on kõnetuvastust võimalik väga edukalt kasutada tavalisel protsessoril. Ressursinõudlikkus on aga samuti väga varieeruv ning sõltub kasutatavast mudelist ning võimalikust lisafunktsionaalsusest, nagu punktuatsiooniparandus ja täiendav keelemudel.

Allpool olevad hinnangud on antud meie kogemusel eestikeelse kõnetuvastusegakõnetuvastuse kogemusest lähtuvalt.

Tõlkemälu haldusmoodul

Komponent kasutab masinõppemudelit, et tuvastada tekstist kõik olemid, mis vajavad

...

Nõuded komponendi kaupa on toodud allpool olevas tabelis. Tabelis esitatud hinnangud on antud ühe konteineri kohta.

Komponent

Protsessor

Vahemälu (MiB)

Mälu (GiB)

GPU

(tk)

Instantse

Kommentaar

Rollihaldus

0.5

256

0.5

0

1


Tellija moodul

2

1024

0.5

0

1

Reaalne vahemälu vajadus sõltub puhverdamise lahendusest.

Tõlketöö moodul

2

2048

2

0

1

Reaalne vahemälu vajadus sõltub puhverdamise lahendusest.

Töövoogude teostusmoodul

0.5

128

0.5

0

1


Teavitusmoodul

0.2

128

0.5

0

1


Kvaliteedikontrolli moodul

1

1024

1

0

1

Peamine vahemälu kulu on terminibaasid.

Teksti liigi tuvastamise moodul

1

1024

2

0

1


Andmebaasi teenindusmoodul

1

256

0.5

0

1


Avaandmete eksportimise moodul

0.2

128

0.5

0

1


Automaattõlkemoodul

1

6144-9216

2-5

0

5

Mälukasutus sõltub tõlkemootorist ja tõlkemälude puhvri suurusest. Instantside arv valdkondade arvust.

Kõnetuvastuse moodul

0.5-2

512-5120

2

0

1

Mälukasutus sõltub mudelist, mis sõltub paljudest parameetritest.

 

Tõlkemälu haldusmoodul

1

1024

2

0

1


Statistika kogumise moodul

0.2

128

0.5

0

1


Väliste teenuste tõlkemoodul

0.2

128

0.5

0

1


X-tee turvaserver

0.2

0.15

0.5

0

1


Logiserver

1

2

180

0

1


Tõlkemootori treeningmoodul

4

16

100

1

1


Andmebaas

4

20480

5120

0

1


Sõnumiteenus

1

2048

4

0

1


Kokkuvõte, ressursinõue kogu süsteemi toimimiseks

...