Umělá inteligence hloupne. V úlohách spojených s prvočísly se výrazně zhoršila

Výzkumníci ze Stanfordovy univerzity a Kalifornské univerzity v Berkeley varují: oblíbená umělá inteligence (AI) ChatGPT částečně hloupne. V některých oblastech se stala z geniální velmi omezenou, ukázal výzkum. Upozorňují, že takové chování by mělo stát za zamyšlení, jestli na tento stroj přenášet ty opravdu důležité úkoly.

Výkonnost chatbota ChatGPT není dlouhodobě konzistentní. Dalo by se očekávat, že čím více uživatelských reakcí získá, tím více se naučí – a tím bude úspěšnější. V některých případech se ale stroj zhoršuje. Všimla si toho už řada uživatelů, teď to potvrdila nezávislá skupina vědců.

Jejich studie zatím neprošla recenzním řízením, ale je už vydaná na serveru arXiv. Vědci uvedli, že „výkon a chování modelů GPT-3.5 i GPT-4 se výrazně liší“ a že odpovědi na některé úlohy „se v průběhu času podstatně zhoršily“. V průběhu čtyř měsíců, od března do června, výzkumníci zaznamenali významné změny ve výkonnosti v několika oblastech, včetně řešení matematických problémů a tvorby počítačového kódu.

Prvočísla

V březnu 2023 dosáhl GPT-4 97,6procentní úspěšnosti při řešení problémů týkajících se prvočísel. Podle stanfordských výzkumníků ale jeho úspěšnost klesla na pouhých 2,4 procenta, když na stejné úkoly použili aktualizovaný model z června 2023.

ChatGPT je od svého startu schopný pomáhat programátorům s problémy při programování a ladění aplikací. V březnu GPT-4 reagoval na požadavky programátorů tím, že v asi 50 procentech případů dokončil přesné skripty připravené ke spuštění. V červnu však jeho úspěšnost klesla na pouhých deset procent.

Podobný propad úspěšnosti vědci zaznamenali také u verze Chat-GPT-3.5, která je veřejnosti na rozdíl od výkonnějšího modelu k dispozici zdarma. U ní došlo při programování k pádu z 22 procent na dvě procenta.

Zajímavé je, že ChatGPT-3.5 vykazoval téměř opačné výsledky v matematických schopnostech. V březnu dosáhl pouze 7,4procentní přesnosti při řešení prvočíselných úloh, v červnu ale měla aktualizovaná verze přesnost 86 procent.

Proč umělá inteligence hloupne?

Podle autorů studie je obtížné určit příčinu, proč se to děje. Zatím se zdá, že jedním z hlavních faktorů mohou být úpravy a aktualizace systému. Po nich může následovat období, kdy se stroj řadu dovedností učí od začátku a novým způsobem. Ale jisté to ani zdaleka není, a právě to je podle vědců ten vůbec největší problém.

„Nechápeme úplně, co způsobuje tyto změny v odpovědích ChatGPT, protože tyto modely jsou neprůhledné,“ popsali autoři „Je možné, že vyladění modelu za účelem zlepšení jeho výkonu v některých doménách může mít neočekávané vedlejší účinky, které ho zhorší v jiných úlohách.“

Všechno ostatní jsou spekulace. A objevila se jich celá řada. Někteří diskutující si myslí, že autor chatbota, společnost OpenAI, experimentuje s alternativními, menšími verzemi proto, aby ušetřila obrovské náklady, jež jsou s využíváním této technologie spojené. Jiní se domnívají, že společnost OpenAI záměrně oslabuje GPT-4, aby lidé byli ochotnější zaplatit za další příslušenství. A dokonce se objevují i názory, že systém se stal už příliš složitým a degeneruje – jako by trpěl strojovou formou Alzheimerovy choroby.

Společnost OpenAI všechna taková tvrzení odmítá. Minulý týden viceprezident OpenAI pro produkty Peter Welinder na Twitteru uvedl: „Neudělali jsme GPT-4 hloupější. Právě naopak. Každou novou verzi děláme chytřejší než tu předchozí.“ Sám ale také přesně neví (anebo to alespoň veřejně nekomunikuje), v čem je problém. Navrhuje nicméně jiné alternativní vysvětlení.

„Když (AI) používáte intenzivněji, začnete si všímat problémů, které jste dříve neviděli,“ říká. Naznačuje tedy, že si jen dříve uživatelé chyb méně všímali, což ale odporuje tomu, že toto zhoršení schopností vědci reálně pozorovali. Někteří pozorovatelé, kteří se obávají dopadu rušivého posunu ve výsledcích modelu, podle odborného webu TechXplore mezitím tlačí na společnost OpenAI, aby zveřejnila zdroje tréninkových materiálů, kód a další strukturální prvky, které stojí za modelem ChatGPT 4.0.

Sasha Luccioniová, která ve společnosti Hugging Face vývoj AI sleduje, pro web Ars Technica uvedla, že není v lidských silách sledovat změny v takových modelech. Jediným způsobem, jak alespoň částečně popsat, co se v nich děje, je získat zdrojová data. Jinak totiž „jakékoli výsledky na modelech s uzavřeným zdrojovým kódem nejsou reprodukovatelné a ověřitelné, a proto z vědeckého hlediska porovnáváme mývaly a veverky.“

Co všechno umí ChatGPT

Kevin Roose, autor knihy „Futureproof“, označil tento rozsáhlý jazykový model OpenAI za nejlepšího chatbota s umělou inteligencí, který byl kdy zpřístupněn široké veřejnosti. Za „jednu z nejlepších věcí, které kdy byly pro výpočetní techniku vytvořeny“ ho zase považuje generální ředitel společnosti Nvidia Jensen Huang.

ChatGPT je tak dobrý v poskytování přirozených odpovědí na dotazy uživatelů, že podle některých názorů oficiálně prošel Turingovým testem, což je dlouholeté měřítko schopnosti stroje dosáhnout lidské inteligence.

ChatGPT dosáhl nejvyšších možných úspěchů i ve ve zkouškách úspěšnosti v mnoha oborech: v matematice dopadl lépe než 89 procent lidí, v právu lépe než 90 procent a v americkém testu GRE, který slouží k přijímacím zkouškám na postgraduální studium, dokonce lépe než 99 procent lidí.

A výzkumníci z lékařské fakulty Newyorské univerzity počátkem července 2023 oznámili, že rady, které ChatGPT poskytoval v otázkách týkajících se zdravotnictví, byly téměř nerozeznatelné od rad poskytovaných lidským zdravotnickým personálem.

Výběr redakce

Aktuálně z rubriky Věda

Grónsko je klíčové pro Trumpovu kolosální Zlatou kopuli

Americký prezident Donald Trump a další představitelé jeho administrativy tvrdí, že získání Grónska je zásadní pro úspěšné dokončení projektu Golden Dome (Zlatá kopule). Tento vesmírný protiraketový štít nové generace má ochránit Spojené státy před stále vyspělejšími protivníky, píše server BBC News.
před 5 hhodinami

Dánští archeologové objevili obří středověkou loď-hrad. Uvezla stovky tun nákladu

Objev masivní obchodní lodi u kodaňského pobřeží pomáhá vyprávět nejenom její příběh, ale také vrhá nové světlo na středověký obchod, život námořníků a také na to, jak se tyto lodi stavěly.
před 7 hhodinami

Obavy z budoucnosti mladí Číňané rozptylují pomocí AI věštců

Mladí Číňané se zamilovali do věštění. Pohled do budoucna jim už ale nenabízí kartářky, prognostici nebo tvůrci horoskopů, ale stále častěji umělé inteligence, především domácího původu.
včera v 09:00

Studie: Nejsou důkazy o spojitosti paracetamolu v těhotenství s autismem u dětí

Nová rozsáhlá studie nenašla žádné důkazy o tom, že by užívání paracetamolu v těhotenství zvyšovalo riziko autismu, ADHD a vývojové poruchy intelektu. Studii zveřejnil odborný časopis The Lancet. Těhotné ženy od užívání paracetamolu v loňském roce zrazoval americký prezident Donald Trump, který lék proti horečce a bolesti spojil s rizikem autismu u dětí.
včera v 08:44

Írán odpojil internet v panice, Starlink rušit nedokáže

Teherán odpojil internet během protestů v panice a o přístup k síti přišlo dočasně i ministerstvo zahraničí. Píše to list Financial Times s odkazem na experty. Odříznutí Íránci se navzdory hrozbě represí pokoušejí komunikovat se světem přes Starlink. Íránské úřady se marně snaží rušit signál, a tak zabavují lidem antény.
16. 1. 2026

Cítí se opuštěni elitami, sjednoceni hněvem. Co lidi spojuje v krizích, ukázal český výzkum

Co mají společného spory o roušky během covidu a hádky o pomoc Ukrajině v diskuzích na facebooku? Výzkum českých vědkyň ukazuje, že lidé v časech krize sdílejí opakující se příběhy na základě modelu „my dole“ proti „těm nahoře“. Může to na sociálních sítích posílit sounáležitost mezi lidmi, ale současně takové chování rozděluje společnost ještě víc a vytváří pocity nedůvěry vůči elitám, hlavně těm politickým a mediálním.
16. 1. 2026

Jaký bude rok 2026? Velká předpověď naznačuje vysoké teploty

Letošní rok by se mohl zařadit k těm dosud nejteplejším. Naznačují to predikce na základě analýzy historických dat a sledování dlouhodobého vývoje. Důležitou roli mají mít jevy El Niňo a La Niňa. Dosud nejteplejší byl rok 2024, ten loňský se stal třetím nejteplejším od počátku pozorování.
16. 1. 2026

Mikroplastů je tolik, že kontaminují výzkumy o množství mikroplastů

Mikroplastů je už na Zemi tolik, že se nedá pořádně říct, jak moc jich je – tak se dají shrnout výsledky několika studií, které vyšly v poslední době. Na základě důkladných analýz jejich autoři zpochybňují předchozí výzkumy, které popisovaly, kolik mikroplastů (a nanoplastů) se nachází v lidských tkáních.
16. 1. 2026
Načítání...