Umělá inteligence hloupne. V úlohách spojených s prvočísly se výrazně zhoršila

Výzkumníci ze Stanfordovy univerzity a Kalifornské univerzity v Berkeley varují: oblíbená umělá inteligence (AI) ChatGPT částečně hloupne. V některých oblastech se stala z geniální velmi omezenou, ukázal výzkum. Upozorňují, že takové chování by mělo stát za zamyšlení, jestli na tento stroj přenášet ty opravdu důležité úkoly.

Výkonnost chatbota ChatGPT není dlouhodobě konzistentní. Dalo by se očekávat, že čím více uživatelských reakcí získá, tím více se naučí – a tím bude úspěšnější. V některých případech se ale stroj zhoršuje. Všimla si toho už řada uživatelů, teď to potvrdila nezávislá skupina vědců.

Jejich studie zatím neprošla recenzním řízením, ale je už vydaná na serveru arXiv. Vědci uvedli, že „výkon a chování modelů GPT-3.5 i GPT-4 se výrazně liší“ a že odpovědi na některé úlohy „se v průběhu času podstatně zhoršily“. V průběhu čtyř měsíců, od března do června, výzkumníci zaznamenali významné změny ve výkonnosti v několika oblastech, včetně řešení matematických problémů a tvorby počítačového kódu.

Prvočísla

V březnu 2023 dosáhl GPT-4 97,6procentní úspěšnosti při řešení problémů týkajících se prvočísel. Podle stanfordských výzkumníků ale jeho úspěšnost klesla na pouhých 2,4 procenta, když na stejné úkoly použili aktualizovaný model z června 2023.

ChatGPT je od svého startu schopný pomáhat programátorům s problémy při programování a ladění aplikací. V březnu GPT-4 reagoval na požadavky programátorů tím, že v asi 50 procentech případů dokončil přesné skripty připravené ke spuštění. V červnu však jeho úspěšnost klesla na pouhých deset procent.

Podobný propad úspěšnosti vědci zaznamenali také u verze Chat-GPT-3.5, která je veřejnosti na rozdíl od výkonnějšího modelu k dispozici zdarma. U ní došlo při programování k pádu z 22 procent na dvě procenta.

Zajímavé je, že ChatGPT-3.5 vykazoval téměř opačné výsledky v matematických schopnostech. V březnu dosáhl pouze 7,4procentní přesnosti při řešení prvočíselných úloh, v červnu ale měla aktualizovaná verze přesnost 86 procent.

Proč umělá inteligence hloupne?

Podle autorů studie je obtížné určit příčinu, proč se to děje. Zatím se zdá, že jedním z hlavních faktorů mohou být úpravy a aktualizace systému. Po nich může následovat období, kdy se stroj řadu dovedností učí od začátku a novým způsobem. Ale jisté to ani zdaleka není, a právě to je podle vědců ten vůbec největší problém.

„Nechápeme úplně, co způsobuje tyto změny v odpovědích ChatGPT, protože tyto modely jsou neprůhledné,“ popsali autoři „Je možné, že vyladění modelu za účelem zlepšení jeho výkonu v některých doménách může mít neočekávané vedlejší účinky, které ho zhorší v jiných úlohách.“

Všechno ostatní jsou spekulace. A objevila se jich celá řada. Někteří diskutující si myslí, že autor chatbota, společnost OpenAI, experimentuje s alternativními, menšími verzemi proto, aby ušetřila obrovské náklady, jež jsou s využíváním této technologie spojené. Jiní se domnívají, že společnost OpenAI záměrně oslabuje GPT-4, aby lidé byli ochotnější zaplatit za další příslušenství. A dokonce se objevují i názory, že systém se stal už příliš složitým a degeneruje – jako by trpěl strojovou formou Alzheimerovy choroby.

Společnost OpenAI všechna taková tvrzení odmítá. Minulý týden viceprezident OpenAI pro produkty Peter Welinder na Twitteru uvedl: „Neudělali jsme GPT-4 hloupější. Právě naopak. Každou novou verzi děláme chytřejší než tu předchozí.“ Sám ale také přesně neví (anebo to alespoň veřejně nekomunikuje), v čem je problém. Navrhuje nicméně jiné alternativní vysvětlení.

„Když (AI) používáte intenzivněji, začnete si všímat problémů, které jste dříve neviděli,“ říká. Naznačuje tedy, že si jen dříve uživatelé chyb méně všímali, což ale odporuje tomu, že toto zhoršení schopností vědci reálně pozorovali. Někteří pozorovatelé, kteří se obávají dopadu rušivého posunu ve výsledcích modelu, podle odborného webu TechXplore mezitím tlačí na společnost OpenAI, aby zveřejnila zdroje tréninkových materiálů, kód a další strukturální prvky, které stojí za modelem ChatGPT 4.0.

Sasha Luccioniová, která ve společnosti Hugging Face vývoj AI sleduje, pro web Ars Technica uvedla, že není v lidských silách sledovat změny v takových modelech. Jediným způsobem, jak alespoň částečně popsat, co se v nich děje, je získat zdrojová data. Jinak totiž „jakékoli výsledky na modelech s uzavřeným zdrojovým kódem nejsou reprodukovatelné a ověřitelné, a proto z vědeckého hlediska porovnáváme mývaly a veverky.“

Co všechno umí ChatGPT

Kevin Roose, autor knihy „Futureproof“, označil tento rozsáhlý jazykový model OpenAI za nejlepšího chatbota s umělou inteligencí, který byl kdy zpřístupněn široké veřejnosti. Za „jednu z nejlepších věcí, které kdy byly pro výpočetní techniku vytvořeny“ ho zase považuje generální ředitel společnosti Nvidia Jensen Huang.

ChatGPT je tak dobrý v poskytování přirozených odpovědí na dotazy uživatelů, že podle některých názorů oficiálně prošel Turingovým testem, což je dlouholeté měřítko schopnosti stroje dosáhnout lidské inteligence.

ChatGPT dosáhl nejvyšších možných úspěchů i ve ve zkouškách úspěšnosti v mnoha oborech: v matematice dopadl lépe než 89 procent lidí, v právu lépe než 90 procent a v americkém testu GRE, který slouží k přijímacím zkouškám na postgraduální studium, dokonce lépe než 99 procent lidí.

A výzkumníci z lékařské fakulty Newyorské univerzity počátkem července 2023 oznámili, že rady, které ChatGPT poskytoval v otázkách týkajících se zdravotnictví, byly téměř nerozeznatelné od rad poskytovaných lidským zdravotnickým personálem.

Výběr redakce

Aktuálně z rubriky Věda

Jako ježek bez klece. Vědci hledají, jak opravdu vypadají černé díry

Přestože se už několik let daří získávat snímky černých děr, podle vědců to nejsou samotné díry, jen jejich stíny. Díky novým datům se pokoušejí vytvořit modely toho, jak by mohly tyto objekty vypadat.
před 16 hhodinami

„Žádný kout planety nezůstane nedotčen.“ Summit v Brazílii se zabývá klimatem

V brazilském městě Belém začal ve čtvrtek dvoudenní summit před klimatickou konferencí OSN COP30, která se tam bude konat od 10. do 21. listopadu. Šéf OSN António Guterres na úvod summitu vyzval zejména bohaté země k rychlejším a účinnějším krokům proti globálnímu oteplování. Brazilský prezident Luiz Inácio Lula da Silva při zahájení summitu vyzval k tomu, aby se méně peněz dávalo na války a více na ochranu životního prostředí.
7. 11. 2025

Největší objevená pavučina světa má přes sto metrů čtverečních

Dva druhy pavouků společně utkaly obří pavučinu, která je skrytá v útrobách balkánské jeskyně. Unikátní ekosystém tvořený dvěma druhy predátorů a jedním druhem kořisti popsal mezinárodní tým přírodovědců, samotnou pavučinu ale našli čeští speleologové.
7. 11. 2025

Mývalové na krokodýlech neplují. AI videa ničí vztah k přírodě, varují vědci

Vědci upozorňují na nebezpečí věrohodných videí vytvářených pomocí umělé inteligence, která zobrazují divoká zvířata. Jejich sledování může u dospělých, ale zejména u dětí zhoršit vztah k opravdové přírodě.
7. 11. 2025

Datli při bušení do dřeva hekají jako tenisté, aby se udrželi na stromě

Slyšet hekat datla je nemožné. Tyto zvuky přehlušuje bušení do kmene stromu, které může být hlasitější než pneumatické kladivo. Vědci teď popsali, jak je možné, že tito ptáci mohou udeřit až třicetkrát za jedinou sekundu.
6. 11. 2025

Rok 2025 bude podle WMO druhý nebo třetí nejteplejší v dějinách měření

Řada minulých let patřila k těm nejteplejším za dobu, co se provádí měření. Série výjimečných teplot pokračovala i v roce 2025, který bude podle zprávy Světové meteorologické organizace (WMO) o stavu globálního klimatu druhým nebo třetím nejteplejším rokem v historii.
6. 11. 2025

750 milionů na českou vědu. Tři týmy získaly prestižní evropské granty

Překonat genetickou poruchu vedoucí k vážným onemocněním, zkoumat vztah systému politických stran a společenských konfliktů na Blízkém východě a v severní Africe a zjistit, co se stalo s Evropou po pádu Římské říše. To jsou cíle ERC Synergy grantů, které 6. listopadu získaly tři týmy z České republiky. Každý grant získal podporu zhruba dvou set padesáti milionů korun na šest let.
6. 11. 2025

Při průzkumu D55 u Přerova našli archeologové pozůstatky pravěkých vesnic

Pozůstatky několika pravěkých osad, ale i významné nálezy staré až sedm tisíc let objevili archeologové při výzkumu před stavbou dálnice D55 mezi Kokory a Přerovem. Výzkum, který navazuje na skrývky ornice, odhalil přes tři sta archeologických objektů z období od mladší doby kamenné až po dobu železnou. Mezi nejzajímavější nálezy patří rozsáhlý takzvaný hliník ze střední doby bronzové a celý půdorys neolitické stavby, informoval Marek Kalábek z Archeologického centra Olomouc. Stavba druhé části této dálnice by měla začít příští rok.
6. 11. 2025
Načítání...