Trénink překladače na Mechanickém pomeranči u oficiálních dokumentů narazil, směje se jeho autor

Daniel Petkevič

23. 1. 2022‌‌|Zdroj: ČT24, mff.cuni.cz, nature.com, lindat.cz

Nejnovější verze běžně dostupných jazykových překladačů udivují veřejnost i odborníky svou vysokou kvalitou. Jak moc se ještě dají vylepšovat, jak si dovedou poradit s politickou korektností a mohou vůbec někdy dosáhnout úrovně profesionálních překladatelů krásné literatury? Nejen těmito tématy se již přes patnáct let zabývá jazykový expert Martin Popel z Matematicko-fyzikální fakulty Univerzity Karlovy (MFF UK), jehož překladač v odborné soutěži poráží nejen největší světové firmy, ale také překladatelské agentury.

Veřejně a zdarma přístupných překladačů je v současnosti k dispozici on-line hned několik. Patří mezi ně pro české uživatele zřejmě nejznámější Google, kvalitou srovnatelné jsou ale například také DeepL, Microsoft Bing a také český CUBBITT vytvořený odborníky z Ústavu formální a aplikované lingvistiky MFF UK. Všechny fungují na podobném principu a liší se mimo jiné počtem jazyků, které umí přeložit.

Který z nich ale funguje nejlépe? Problematika měřitelnosti kvality je složitá, nicméně jednu z možných odpovědí dává každoroční soutěž Workshop on Machine Translation (WMT), v rámci které se odborně porovnávají strojové (nebo také automatizované či automatické) překlady v několika jazycích včetně angličtiny a češtiny.

„Účastníci pošlou své překladové systémy. Ty se testují na několika tisících testovacích vět, které nejsou dopředu známé. Jde o publicistické a zpravodajské texty z poslední doby,“ popisuje počítačový lingvista a autor českého univerzitního překladače Popel. Následně se překlady anonymně hodnotí, a to včetně těch od živých překladatelů, které se přimíchají ke strojovým.

Nahrávám video

Zdroj: ČT24

„Dlouhou dobu vítězil Google Translate. V roce 2018 tuto soutěž vyhrál můj veřejně dostupný systém CUBBITT. Porazili jsme všechny testované překladače, ale k mému překvapení také profesionální překladatelskou agenturu,“ uvádí Popel a doplňuje: „V přesnosti překladu nám to vyšlo významně lepší než u překladatelské agentury a v plynulosti horší.“ I další roky se podle něj potvrzovalo, že pro angličtinu a češtinu v obou směrech dosahuje český překladač minimálně na zpravodajských textech lepší kvality.

Překladače velkých společností do soutěže zařazují organizátoři WMT, a to pod anonymizovanými názvy. Oficiálně se tak sice neví, který je který, ale každý si může překlady zaslané do soutěže porovnat s těmi, které společnosti aktuálně nabízejí.

Trénink překladačů na větných párech

„V podstatě všechny dnešní překladače jsou založeny na principu neuronových sítí a hlubokém strojovém učení,“ říká Popel a princip dále rozvádí: „V trénovacích datech máme dvojice vět – trénovací příklady – a chceme, aby se to překladač naučil. Nikoliv však úplně nazpaměť, ale aby z toho získal nějaké zobecnění a mohl přeložit i věty, které nikdy neviděl.“ Pro češtinu a angličtinu mají jazykoví experti z MFF UK k dispozici zhruba šedesát milionů větných párů.

Právě přes angličtinu se automaticky překládá mezi většinou jazyků světa, a to i těmi velmi příbuznými. „Pro většinu jazyků je nejvíce trénovacích párů s tímto jazykem, i když předpokládáme, že například některé menší jazyky v Jižní Americe budou mít nejvíce paralelních dat se španělštinou, jinde možná s čínštinou,“ vysvětluje lingvista. Výhodou neuronových sítí je, že při dostatečném množství a kvalitě trénovacích dat je možné udělat dobrý překladač i pro velmi nepříbuzné jazyky.

- Už během studií na Matematicko-fyzikální fakultě Univerzity karlovy (MFF UK) se začal zaměřovat na matematickou lingvistiku a strojové překlady. Nyní vyučuje a vědecky působí v Ústavu formální a aplikované lingvistiky MFF UK.

- Mezi hlavní zájmy jeho výzkumu patří strojové učení, hluboké učení a syntaktická analýza.

- V roce 2017 začal pracovat na vlastním strojovém překladači CUBBITT (Charles University Block-Backtranslation-Improved Transformer Translation), s nímž o rok později zvítězil v mezinárodní soutěži WMT 2018 (Conference on Machine Translation). Téma zpracoval ve studii, jejíž výsledky publikoval prestižní vědecký časopis Nature Communications.

- Překladač je dostupný veřejnosti na webových stránkách LINDAT/CLARIAH-CZ, což je infrastrukturní projekt pro podporu špičkového výzkumu v oblasti jazykových technologií a humanitních a společenských věd.

Počítačový lingvista Martin Popel

Zdroj: René Volfík/Martin Popel

Ke strojovému překládání se dříve používaly i jiné metody, v současnosti však podle Popela dosahují nejlepších výsledků právě neuronové sítě – konkrétně architektura Transformer, se kterou přišla společnost Google a dala ji veřejně k dispozici pod svobodnou licencí. „CUBBITT je tedy můj systém, který by ale nemohl vzniknout bez práce tisíců lidí přede mnou,“ podotýká expert.

Překladače se trénují na velmi výkonných počítačích, což podle něj může v dnešní době být limitujícím faktorem. Rozhodně se prý v tomto ohledu nemůžou s velkými firmami poměřovat. „Ale i s tím, co máme, jim dokážeme konkurovat,“ konstatuje.

Čím více kvalitních dat, tím lepší výsledky

Množství trénovacích dat a jejich kvalita jsou pro automatické překladače určujícími faktory. „Nemůžeme těch šedesát milionů vět zadat překladatelské agentuře a vyžadovat vysokou laťku. Bereme všechno, co je někde k dispozici, například filmové titulky, které leckdy překládali amatéři,“ prozrazuje Popel.

Dalším důležitým zdrojem jsou dokumenty Evropské unie vydané povinně v překladech do více jazyků a pod volnou licencí, včetně právních textů nebo promluv poslanců v Evropském parlamentu. Zásadní vliv na kvalitu překladu má také zastoupení trénovacích dat z různých oblastí lidské činnosti. „Asi by bylo složité překládat z čínštiny do angličtiny o tradiční čínské medicíně pomocí dat trénovaných na filmových titulcích,“ vysvětluje lingvista.

Součástí práce jazykových odborníků je proces filtrování a „čištění“ dat, který zčásti probíhá automaticky. „Je třeba zdůraznit, že máme velmi kvalitní trénovací data, na kterých kolegové z Ústavu formální a aplikované lingvistiky pracují přes patnáct let,“ říká expert a upřesňuje: „Dávali dohromady paralelní česko-anglický korpus CzEng, který používáme jako jádro trénovacích dat.“

Nespisovná mluva není problém, politická korektnost ano

Také pro nespisovný a hovorový jazyk nebo idiomy platí, že při dostatečném množství trénovacích dat si strojové překladače poradí velmi dobře. „Je třeba ale dávat pozor, aby překladač například nepoužil v překladu vulgarismy, pokud v původní větě žádné nebyly. Také je třeba dávat pozor na vnášení předsudků vůči genderu, náboženství nebo rase,“ poznamenává Popel.

Podle něj tyto předsudky v trénovacích datech jsou. Pro ilustraci uvádí: „Když řekneme ‚pracuje jako průvodčí', není jasné, jestli je to muž, nebo žena. Většina překladačů pak použije nějaké stereotypy. Takže pokud v trénovacích datech byl častěji průvodčí muž, přeloží to do angličtiny jako muž. My jsme teď vydali novou verzi CUBBITT, která překládá celé dokumenty, nikoli jen jednotlivé věty. V uvedeném příkladu tedy může zohlednit okolní věty a poznat z nich, jakého rodu je průvodčí. V jiných případech se vylepšil překlad víceznačných slov či návaznost vět.“

Vzpomíná si ale i na úsměvnější příklad z praxe. „V počátcích byly součástí trénovacích dat i titulky z filmu Mechanický pomeranč (A Clockwork Orange). Je v něm dost vulgarit, novotvarů a rusismů, ten překlad a zejména originál je z hlediska práce s jazykem geniální. Při překladu oficiálních dokumentů jsme je tam nechtěli mít, ale bylo poznat, že systém byl trénovaný i na tomto filmu,“ přiznává.

Automatický překlad beletrie zatím v nedohlednu

Při současné kvalitě by se mohlo zdát, že automatické překladače představují pro profesionální překladatele krásné literatury zdatnou konkurenci. Podle Popela se však jejich úroveň zatím nedá srovnávat. „Překlad beletrie, to je pro mě úplně jiná kategorie. To je něco jako malíř pokojů a malíř obrazů,“ přiznává.

I pro beletrii prý platí, že čím více dat bude k dispozici, tím lepších výsledků bude překlad dosahovat. „To samo o sobě ale nestačí. Je potřeba pracovat nejen s jednotlivou větou nebo odstavcem, ale i kontextem kapitoly a ideálně celé knížky. Nevím o překladači, který by toto zatím uměl obsáhnout,“ konstatuje. Při čtení krásné literatury je prý třeba brát v potaz také samotný zážitek. I zde pak mají automatické překladače velké rezervy. Zároveň poznamenává, že zážitek z četby může být špatným překladem pokažen, ať je to překlad strojový či lidský.

Martin Popel vyzdvihuje kvality zkušených překladatelů, před jejichž uměním cítí velkou pokoru. Zároveň ale upozorňuje, že také záleží, kolik péče textu dají. Na otázku, zda kvůli strojovému překladu přijdou překladatelé o práci, odpovídá diplomaticky: „Myslím si, že ti nekvalitní dost možná ano.“

Při překladu beletrie je prý stále mnoho míst, kde strojové překladače zatím dělají chyby a kde je jistě budou dělat i v následujících letech. Na druhou stranu však prý nelze s jistotou říci, že některé věci nikdy umět nebudou. „Když jsem si vybíral tento obor, říkal jsem si, že během následujících třiceti let bude kvalita tak špatná, že bude stále co vylepšovat. To sice stále je, ale rychlost vývoje jsem dost podcenil,“ přiznává. K dosažení tak dobrých výsledků v soutěži překladačů mu prý stačila polovina času.

Neuronové básně i divadelní hra

I v rámci vědeckého bádání matematických lingvistů občas vznikne nějaký vedlejší produkt. Jedním z nich je například překladačem generovaná poezie. Nápad se prý zrodil víceméně náhodou. „Kdysi jsem udělal takovou hloupou programátorskou chybu,“ říká Popel. „Místo toho, aby překladač vybral nejlepší variantu, zvolil tu nejhorší, i když syntakticky správnou. A překlady některých vět zněly jako básně.“ Myšlenku pak dotáhl do té podoby, že si návštěvníci dne otevřených dveří na MFF UK mohli sami vyzkoušet jeho generátor neuronové poezie. „Ale je to taková kratochvíle. Skutečným básníkům to nemůže konkurovat,“ připouští.

Když robot píše hru, má nechtěný smysl pro humor a dost myslí na sex

Dalším příkladem kreativního využití jeho automatického překladače je experiment, na kterém spolupracovali vědci z MFF UK s divadelníky ze Švandova divadla a DAMU. Společně vytvořili a zrealizovali první divadelní hru napsanou umělou inteligencí. Text byl nejprve vygenerován v angličtině a poté se do češtiny přeložil pomocí CUBBITT. Inscenaci „AI: Když robot píše hru“ uvedlo v únoru loňského roku Švandovo divadlo, symbolicky sto let po světové premiéře dramatu Karla Čapka R.U.R., ve kterém poprvé zaznělo slovo robot.

Výběr redakce

Ruský opozičník Naděždin odstupuje z kampaně. Nechce prý „ohrozit spolupracovníky“

05:40před 26 mminutami

Rusko podle Ukrajiny zasáhlo raketami civilní nákladní loď a nejméně šest lidí zahynulo

včerapřed 1 hhodinou

„Naši raději koukají do telefonu.“ Děti se pak dle expertů cítí bezvýznamné

před 1 hhodinou

Hasiče zaměstnávaly silné bouřky, některé domácnosti přišly o proud

včerapřed 10 hhodinami

Írán po útocích USA poslal rakety do Jordánska

včerapřed 11 hhodinami

Aktuálně z rubriky Domácí

VideoZubní pohotovosti část měst dotuje, půl roku platí nová pravidla

Před půl rokem se lékařské pohotovosti v Česku začaly řídit novými pravidly. Organizaci jejich práce převzaly zdravotní pojišťovny. U těch zubních musí zajistit o víkendech a svátcích péči nejméně po čtyři hodiny. Ve větších městech pak fungují centrální pohotovosti, v řadě regionů se ale služby mezi stomatology střídají. V tuzemsku existuje 37 centrálních zubních pohotovostí, někde je doplňují ještě takzvané rotující, v nichž se střídá několik ordinací. Pacienti si proto musí zjistit, kdo a kde zrovna slouží. Pro děti fungují tyto akutní služby od ledna povinně ve všech nemocnicích, které mají lůžkovou pediatrii. Pohotovosti pro dospělé pak většinou fungují při urgentních příjmech. Někde ale zůstaly v provozu i mimo nemocnice. Část měst jejich provoz dotuje, díky tomu mívají i delší ordinační hodiny.

před 4 mminutami

Vláda projedná navýšení penzí podle věku či zákaz mobilů ve školách

Kabinet Andreje Babiše (ANO) čeká předposlední pravidelné zasedání před vládními prázdninami. Ministři proberou návrh změn v důchodech. Novela je užší, než kabinet původně avizoval, upravuje dosavadní přidávání k penzi podle věku. Po osmdesátce by se měla navýšit každých pět let o 500 korun, ve 100 letech pak o tisíc. Nyní se důchody navyšují v 85 letech o 1000 korun a ve stovce o další 2000 korun. Vláda by mohla projednat i vyjádření ke kompetenční žalobě prezidenta Petra Pavla ohledně summitu NATO v Ankaře.

03:20před 34 mminutami

VideoPřetížené kamiony ničí silnice, ministerstvo preferuje častější kontroly

Horko se na stavu silnic podepisuje podobně negativně jako zima – zejména když na měkký asfalt vjede přetížený kamion. Podle kontrolorů je nad limitem šest z deseti zastavených nákladních aut. Kromě poškození vozovek to znamená i vyšší riziko nehod. Maximální povolená hmotnost soupravy je nyní v tuzemsku 48 tun, tedy o osm více než v okolních státech. Někteří opoziční politici by to chtěli změnit. Ministerstvo dopravy ale zatím plánuje jen častější kontroly.

před 50 mminutami

„Naši raději koukají do telefonu.“ Děti se pak dle expertů cítí bezvýznamné

Lidé dnes bývají stále on-line a mnohdy dávají přednost svému telefonu před okolím. Rodiče, kteří se takto chovají, dávají svým dětem podle expertů najevo, že pro ně nejsou na „prvním místě“. Dospívající pak zmiňují, že cítí nejistotu a mají pocit bezvýznamnosti. Negativní digitální návyky rodičů však dle odborníků nemusí u jejich ratolestí vést přímo k závislosti na telefonu. Doporučují však doma nastavit jasné hranice – například vymezit čas, kdy jsou telefony zakázány, a věnovat se svým dětem.

před 1 hhodinou

Mengelemu o svém věku lhal. Saul Blau se tak zachránil před plynovou komorou

Saul Blau prošel jako dospívající chlapec vyhlazovacím táborem v Osvětimi, pracoval v uhelném dole a přežil i pochod smrti a transport do Buchenwaldu. Po válce se přes Československo vrátil do Maďarska, později emigroval do Izraele a Spojených států. Dodnes pracuje jako dobrovolník v Památníku holocaustu v Miami Beach.

před 2 hhodinami

Hasiče zaměstnávaly silné bouřky, některé domácnosti přišly o proud

Během nedělního odpoledne se jihovýchod a východ Česka potýkal s bouřkami. V těchto oblastech platila zpřísněná výstraha. Na jihu Moravy vyjížděli hasiči k desítkám událostí. Silný vítr lámal stromy a poničil střechu školy. Bouřka zasáhla rovněž Zlínský kraj a Vysočinu. Během odpoledne přišlo v důsledku počasí o elektřinu přes 26 200 domácností, uvedli distributoři.

včerapřed 10 hhodinami

VideoKapacita popelnic přestává stačit. Ve městech u nich roste nepořádek

Ve městech roste nepořádek u popelnic a sběrných kontejnerů. V Česku každý člověk minulý rok vytřídil přes devadesát kilogramů odpadu, přesto kapacita některých popelnic přestává stačit. Typicky například v české metropoli. „Ne všechno se dá vyřešit s pomocí těch častých svozů, problém je v tom, že lidé často na ty stanoviště dávají to, co tam vůbec nepatří,“ říká mluvčí Prahy 3 Petr Habáň. Praha se snaží svozy odpadu zefektivnit i pomocí technologií. Plnou popelnici nově může hlásit speciální čidlo. Systém se zatím testuje na Praze 11 u kontejnerů na sklo. Podle radnic ale záleží hlavně na tom, jak lidé s odpadem zacházejí.

před 11 hhodinami

Analytici čekají skokové zdražení nafty

O nedělní půlnoci skončí státní regulace cen benzinu a nafty. Analytici očekávají, že nejvýrazněji zdraží motorová nafta, u níž se zároveň vrátí spotřební daň na původní úroveň. Během týdne by její cena mohla vzrůst až o tři a půl koruny za litr, u nejdražších dálničních čerpacích stanic se může přiblížit 45 korunám. Ministryně financí Alena Schillerová (ANO) připustila, že by vláda mohla při dalším růstu cen znovu zasáhnout.

před 12 hhodinami

Evropský pohled

ČT24 každý den vybírá z obsahu publikovaného evropskými veřejnými médii, členy Eurovize.

V Irsku o polovinu přibylo dětí, které se vážně zranily při nehodách na elektrokoloběžkách

před 23 hhodinami

Novináři odhalili internetový nábor sabotérů pro akce v Evropě

17. 7. 2026‌‌

Vědce v Lotyšsku znepokojuje možné ohrožení akademické svobody

16. 7. 2026‌‌

Švýcarské školy učí v autokratických zemích demokracii či kritické myšlení

16. 7. 2026‌‌

Irské misionářské organizace loni pomohly více než milionu lidí

15. 7. 2026‌‌

Tbilisi po dvaceti letech obnoví tramvajovou dopravu

15. 7. 2026‌‌

„Abychom přežili, spali jsme v lese.“ Ruské nálety vyhánějí ukrajinské rodiny z domovů

14. 7. 2026‌‌

Rusko cvičilo na Čudsko-pskovském jezeře s ostrou střelbou. Neinformovalo o tom sousední Estonsko

14. 7. 2026‌‌

Nové plavidlo estonské státní flotily pohání biometan z kravského hnoje

13. 7. 2026‌‌

Kurýři jako zaměstnanci? Rozvoz jídla může zdražit

13. 7. 2026‌‌

Systém na ověřování původu jahod stál Estonsko 220 tisíc eur, úřady ho ale nepoužívají

12. 7. 2026‌‌

„Internet není hřiště.“ Bulharsko zvažuje, že zakáže dětem sociální sítě

10. 7. 2026‌‌

Ženy v EU kvůli odkladu pravidel pro transparentnost odměňování přicházejí o miliardy eur

10. 7. 2026‌‌

Počet vojáků USA v Polsku se má vrátit na deset tisíc, uvedl náměstek ministra obrany

9. 7. 2026‌‌

Společné vyšetřování evropských médií odhalilo manipulace v komentářích. Nejvíc se týkaly Íránu

9. 7. 2026‌‌

V Evropě vznikne servisní centrum pro střely systému Patriot

8. 7. 2026‌‌

Přeměna vzdušné mise NATO zpřehlední velení a zrychlí reakci, míní exšéf estonského letectva

8. 7. 2026‌‌

Budoucnost litevských trhů je nejistá. Prodejce odrazují nízké výdělky i obavy z nových pravidel

7. 7. 2026‌‌

Čtyři Lotyši jsou obviněni ze špionáže pro Rusko

7. 7. 2026‌‌

Klienti finančních institucí v Irsku získávají právo hovořit s člověkem místo chatbota

3. 7. 2026‌‌

Při ruském útoku v noci na čtvrtek se v kyjevském metru ukrylo rekordních 52 tisíc lidí

3. 7. 2026‌‌

Alijev tvrdí, že deset států EU již dováží ázerbájdžánský plyn a další mohou následovat

2. 7. 2026‌‌

V Polsku obvinili dva lidi podezřelé ze špionáže ve prospěch Běloruska

2. 7. 2026‌‌

Německo zvažuje zvýšení důchodového věku až na 70 let

1. 7. 2026‌‌

Trénink překladače na Mechanickém pomeranči u oficiálních dokumentů narazil, směje se jeho autor

Trénink překladačů na větných párech

Čím více kvalitních dat, tím lepší výsledky

Nespisovná mluva není problém, politická korektnost ano

Automatický překlad beletrie zatím v nedohlednu

Neuronové básně i divadelní hra

Výběr redakce

Ruský opozičník Naděždin odstupuje z kampaně. Nechce prý „ohrozit spolupracovníky“

Týden bude oblačný, oteplí se o víkendu

Vláda projedná navýšení penzí podle věku či zákaz mobilů ve školách

USA opět zaútočily na Írán

Rusko podle Ukrajiny zasáhlo raketami civilní nákladní loď a nejméně šest lidí zahynulo

„Naši raději koukají do telefonu.“ Děti se pak dle expertů cítí bezvýznamné

Hasiče zaměstnávaly silné bouřky, některé domácnosti přišly o proud

Írán po útocích USA poslal rakety do Jordánska

Aktuálně z rubriky Domácí

VideoZubní pohotovosti část měst dotuje, půl roku platí nová pravidla

Vláda projedná navýšení penzí podle věku či zákaz mobilů ve školách

VideoPřetížené kamiony ničí silnice, ministerstvo preferuje častější kontroly

„Naši raději koukají do telefonu.“ Děti se pak dle expertů cítí bezvýznamné

Mengelemu o svém věku lhal. Saul Blau se tak zachránil před plynovou komorou

Hasiče zaměstnávaly silné bouřky, některé domácnosti přišly o proud

VideoKapacita popelnic přestává stačit. Ve městech u nich roste nepořádek

Analytici čekají skokové zdražení nafty

Evropský pohled

V Irsku o polovinu přibylo dětí, které se vážně zranily při nehodách na elektrokoloběžkách

Novináři odhalili internetový nábor sabotérů pro akce v Evropě

Vědce v Lotyšsku znepokojuje možné ohrožení akademické svobody

Švýcarské školy učí v autokratických zemích demokracii či kritické myšlení

Irské misionářské organizace loni pomohly více než milionu lidí

Tbilisi po dvaceti letech obnoví tramvajovou dopravu

„Abychom přežili, spali jsme v lese.“ Ruské nálety vyhánějí ukrajinské rodiny z domovů

Rusko cvičilo na Čudsko-pskovském jezeře s ostrou střelbou. Neinformovalo o tom sousední Estonsko

Nové plavidlo estonské státní flotily pohání biometan z kravského hnoje

Kurýři jako zaměstnanci? Rozvoz jídla může zdražit

Systém na ověřování původu jahod stál Estonsko 220 tisíc eur, úřady ho ale nepoužívají

„Internet není hřiště.“ Bulharsko zvažuje, že zakáže dětem sociální sítě

Ženy v EU kvůli odkladu pravidel pro transparentnost odměňování přicházejí o miliardy eur

Počet vojáků USA v Polsku se má vrátit na deset tisíc, uvedl náměstek ministra obrany

Společné vyšetřování evropských médií odhalilo manipulace v komentářích. Nejvíc se týkaly Íránu

V Evropě vznikne servisní centrum pro střely systému Patriot

Přeměna vzdušné mise NATO zpřehlední velení a zrychlí reakci, míní exšéf estonského letectva

Budoucnost litevských trhů je nejistá. Prodejce odrazují nízké výdělky i obavy z nových pravidel

Čtyři Lotyši jsou obviněni ze špionáže pro Rusko

Klienti finančních institucí v Irsku získávají právo hovořit s člověkem místo chatbota

Při ruském útoku v noci na čtvrtek se v kyjevském metru ukrylo rekordních 52 tisíc lidí

Alijev tvrdí, že deset států EU již dováží ázerbájdžánský plyn a další mohou následovat

V Polsku obvinili dva lidi podezřelé ze špionáže ve prospěch Běloruska

Německo zvažuje zvýšení důchodového věku až na 70 let