Není žádným tajemstvím, že celá řada umělých inteligencí (AI) vznikla díky nelegálnímu kopírování obsahu, který je chráněný autorskými právy. K desítkám firem i jednotlivců, jež žalují společnosti zabývající se AI kvůli zneužití autorsky chráněných děl, se teď připojilo i jedno z největších vědeckých nakladatelství.
Vědecké časopisy The Cell a The Lancet patří mezi ty nejprestižnější na světě. Jsou to ale jen dva z tisíců dalších, které vydává společnost Elsevier. Toto nizozemské nakladatelství patří ve vědě k naprosté špičce: Elsevier vydává ročně přes půl milionu článků ve 2500 časopisech, jeho archivy obsahují přes sedmnáct milionů dokumentů a čtyřicet tisíc elektronických knih. Ročně si lidé a instituce stáhnou nějakou studii asi miliardkrát.
A právě tato firma se nyní rozhodla, že se připojí k hromadné žalobě podané 5. května proti technologické společnosti Meta a jejímu generálnímu řediteli Marku Zuckerbergovi u soudu v jižním obvodu New Yorku. Mezi žalobci jsou kromě Elsevieru i další knižní vydavatelské giganty Hachette a Macmillan či americký autor beletrie a právník Scott Turow. Obsahem žaloby je, že společnost Meta získala a reprodukovala díla chráněná autorskými právy při vývoji své umělé inteligence Llama.
„Tento případ je první žalobou v oblasti umělé inteligence podanou velkými nakladatelstvími, která mají co říci o flagrantním porušování svých práv ze strany Mety,“ uvedla Asociace amerických vydavatelů.
Důkazy jsou dle vydavatele ukryté v e-mailech
Jde o další případ, kdy se velcí vydavatelé soudní cestou brání tomu, že se velké jazykové modely učí na jejich obsahu, aniž by za to platily. Většinou zatím došlo k mimosoudnímu vyrovnání, ale neexistuje řádný precedens ohledně toho, jestli je legální používat díla chráněná autorskými právy k trénování AI.
„Firmy zabývající se umělou inteligencí jsou ohledně svých trénovacích dat opatrné, obecně se předpokládá, že součástí miliard webových stránek, na kterých byly modely trénovány, byly jak zamčené výzkumné články, tak i ty s otevřeným přístupem,“ popisuje jádro sporu odborný časopis Nature.
Meta podle Elsevieru pro trénink Llamy využila datový soubor Common Crawl, což je vzorek miliard webových stránek vytvořený prohledáváním internetu, jenž podle žalobců pravděpodobně obsahoval neautorizované kopie děl chráněných autorskými právy, jako jsou vědecké abstrakty a články ukryté za paywallem.
Vydavatel se pokusí také dokázat, že Meta stahovala další jeho články, studie a jiný obsah pomocí různých cest, jako jsou takzvané torrenty, úložiště, kontroverzní server Sci-Hub a další podobné služby – vždy bez ohledu na autorská práva. Důkazy, které chce vydavatel u soudu představit, mají vycházet z e-mailů zaměstnanců společnosti Meta.
Obrana postavená na etice
Meta se rozhodla, že bude „proti této žalobě agresivně bojovat“. Podle Nature se chce bránit tím, že trénování na dokumentech chráněných autorskými právy představuje „fair use“ neboli řádné užití, což je výjimka z autorského práva.
„Umělá inteligence pohání transformativní inovace, produktivitu a kreativitu jednotlivců i firem a soudy správně shledaly, že trénování umělé inteligence na materiálu chráněném autorskými právy lze kvalifikovat jako fair use,“ je přesvědčena společnost.
Zatím tento způsob obrany fungoval – americké soudy přistoupily na to, že způsob, jakým AI firmy využívají materiál chráněný autorským právem, je „transformativní“, což umožňuje chápat jeho využití jako řádné.
Už loni ale soudci ve dvou rozsudcích upozornili, že pokud by takové chování mělo negativní dopad na trh s produkty žalujících společností, řádné užití by nemuselo platit.
K čemu potřebují AI vědecké studie
Vědecké studie a odborné knihy jsou pro společnosti vyvíjející velké jazykové modely doslova poklad. Obsahují kvalitní informace, které jsou ověřené, pravdivé a nové, takže představují vynikající materiál, na němž mohou velké jazykové modely trénovat.
Vydavatelé by rádi s technologickými společnostmi uzavírali smlouvy o prodeji nebo využívání takových dat – problém pro ně představuje fakt, že se některé firmy pokoušejí komerční řešení obcházet.












