Vědci vytvořili první bilingvní programy. Naučily se překládat bez pomoci člověka

O automatickém překladu pomocí počítačů se dlouhá desetiletí mluvilo jako o pouhém snu. Ale díky neurálním sítím došlo v posledních několika letech k nebývalému pokroku v tomto oboru. Před ještě větším pokrokem ale zřejmě teprve stojíme.

Počítačové programy, které napodobují fungování lidského mozku, splnily sen mnoha generací jazykovědců i počítačových vědců – stroje dnes překládají jednoduché texty už téměř tak dobře jako lidé.

S neurálními sítěmi je ale také spojena celá řada problémů – musí se, podobně jako lidský mozek, nejprve vycvičit. A to zabere spoustu času: takovému počítačovému překladateli se musí větu po větě ukázat, jak se překládají miliony a miliony vět a slovních spojení. Jen tak se stroj naučí „chápat“, jak při tom lidský mozek postupuje.

Nyní ale možná přichází další přelom: dva vědecké týmy prakticky současně oznámily, že naučily počítač překládat, aniž by měl k dispozici druhý jazyk. Jde o výhodu, která by mohla vést k tomu, že bude možné překládat do cizích jazyků mnohem přesněji a rychleji – a která zřejmě povede k úpadku překladatelské profese.

Robot bez učitele

„Představte si, že někomu dáte hromadu čínských a hromadu arabských knih – ale žádná není stejná. A člověk by se podle toho měl být schopen naučit překládat z čínštiny do arabštiny. To vypadá nemožně, co?“ ptá se sugestivně autor první studie Mikel Artetxe. „Ale my dokázali, že počítač to dokáže!“ Jak?

Většina strojového učení, v němž se neurální sítě a další druhy počítačových algoritmů učí ze zkušenosti, je doprovázena dohledem, supervizí. Počítač se pokusí uhodnout správnou odpověď, splnit úkol, odpovědět – supervizor to vyhodnotí a počítač se pak podle toho chová dál. Je to trošku jako vztah učitele a žáka.

Při překladech u „velkých“ jazyků, jako je třeba z angličtiny do francouzštiny, to funguje velice dobře – existuje totiž množství stejných textů v obou řečech. Jenže u menších jazyků, které jsou si navíc třeba kulturně vzdálené, je problém: takový knižní materiál neexistuje a stroje se tedy nemají z čeho učit.

Stůl stojí u židle

Oba vědecké týmy, které výsledky svého výzkumu budou prezentovat na velké mezinárodní konferenci, se zaměřily na jiný postup: strojové učení bez dohlížitele. Stroje vytvářejí databáze podobností mezi jazyky zcela bez dohledu lidského elementu – vycházejí přitom z toho, že slova si jsou ve většině jazyků často velmi blízko.

Například slova „stůl“ a „židle“ jsou velmi často ve větě blízko sebe – a podobných blízkostí je jazyk plný. Programy jsou schopné vytvořit si z těchto vztahů jakousi mapu; téměř vždy jsou si takové mapy velmi podobné – jen jsou vždy obsazené slovy v odlišných jazycích. Počítače pak tyto mapy propojí a voilá, umí najednou oba jazyky a tedy i překlady mezi nimi. Podobně pak postupují i v jiných kategoriích, třeba ve skladbě a slovotvorbě.

Tam si navíc pomáhají metodou zpětného překladu, kdy se pokusí přeložit větu z jednoho jazyka do druhého. Potom ji přeloží zpět do původního jazyka – pokud není shodná s tou původní, příště to počítač udělá jinak a lépe. Učí se tak mapovat hlubší struktury jazyka.

Oba představené systémy se od sebe liší – ale jen v drobných detailech, globálně používají velmi podobné metody. Autoři obou prací navíc souhlasí s tím, že pokud se poučí z výhod druhého systému, mohou ten svůj výrazně vylepšit.

Umělé inteligence v roce 2016 (zdroj: ČT24)

Tento překlad zatím není tak dobrý jako ten, který využívá Google, ale dokáže zase pracovat zcela bez lidského zásahu – to je hlavní přelom.

„Že se počítač dokáže naučit překládat i bez lidské supervize, je šokující,“ komentoval práce Di He, počítačový expert na umělé inteligence, který pracuje pro pekingskou pobočku Microsoftu. „Ale současně je to skvělé a dokazuje to, že jdeme správným směrem,“ dodává. Obě práce jsou dostupné ve webovém archivu arXiv ZDE a ZDE.