Umělá inteligence hloupne. V úlohách spojených s prvočísly se výrazně zhoršila

Výzkumníci ze Stanfordovy univerzity a Kalifornské univerzity v Berkeley varují: oblíbená umělá inteligence (AI) ChatGPT částečně hloupne. V některých oblastech se stala z geniální velmi omezenou, ukázal výzkum. Upozorňují, že takové chování by mělo stát za zamyšlení, jestli na tento stroj přenášet ty opravdu důležité úkoly.

Výkonnost chatbota ChatGPT není dlouhodobě konzistentní. Dalo by se očekávat, že čím více uživatelských reakcí získá, tím více se naučí – a tím bude úspěšnější. V některých případech se ale stroj zhoršuje. Všimla si toho už řada uživatelů, teď to potvrdila nezávislá skupina vědců.

Jejich studie zatím neprošla recenzním řízením, ale je už vydaná na serveru arXiv. Vědci uvedli, že „výkon a chování modelů GPT-3.5 i GPT-4 se výrazně liší“ a že odpovědi na některé úlohy „se v průběhu času podstatně zhoršily“. V průběhu čtyř měsíců, od března do června, výzkumníci zaznamenali významné změny ve výkonnosti v několika oblastech, včetně řešení matematických problémů a tvorby počítačového kódu.

Prvočísla

V březnu 2023 dosáhl GPT-4 97,6procentní úspěšnosti při řešení problémů týkajících se prvočísel. Podle stanfordských výzkumníků ale jeho úspěšnost klesla na pouhých 2,4 procenta, když na stejné úkoly použili aktualizovaný model z června 2023.

ChatGPT je od svého startu schopný pomáhat programátorům s problémy při programování a ladění aplikací. V březnu GPT-4 reagoval na požadavky programátorů tím, že v asi 50 procentech případů dokončil přesné skripty připravené ke spuštění. V červnu však jeho úspěšnost klesla na pouhých deset procent.

Podobný propad úspěšnosti vědci zaznamenali také u verze Chat-GPT-3.5, která je veřejnosti na rozdíl od výkonnějšího modelu k dispozici zdarma. U ní došlo při programování k pádu z 22 procent na dvě procenta.

Zajímavé je, že ChatGPT-3.5 vykazoval téměř opačné výsledky v matematických schopnostech. V březnu dosáhl pouze 7,4procentní přesnosti při řešení prvočíselných úloh, v červnu ale měla aktualizovaná verze přesnost 86 procent.

Proč umělá inteligence hloupne?

Podle autorů studie je obtížné určit příčinu, proč se to děje. Zatím se zdá, že jedním z hlavních faktorů mohou být úpravy a aktualizace systému. Po nich může následovat období, kdy se stroj řadu dovedností učí od začátku a novým způsobem. Ale jisté to ani zdaleka není, a právě to je podle vědců ten vůbec největší problém.

„Nechápeme úplně, co způsobuje tyto změny v odpovědích ChatGPT, protože tyto modely jsou neprůhledné,“ popsali autoři „Je možné, že vyladění modelu za účelem zlepšení jeho výkonu v některých doménách může mít neočekávané vedlejší účinky, které ho zhorší v jiných úlohách.“

Všechno ostatní jsou spekulace. A objevila se jich celá řada. Někteří diskutující si myslí, že autor chatbota, společnost OpenAI, experimentuje s alternativními, menšími verzemi proto, aby ušetřila obrovské náklady, jež jsou s využíváním této technologie spojené. Jiní se domnívají, že společnost OpenAI záměrně oslabuje GPT-4, aby lidé byli ochotnější zaplatit za další příslušenství. A dokonce se objevují i názory, že systém se stal už příliš složitým a degeneruje – jako by trpěl strojovou formou Alzheimerovy choroby.

Společnost OpenAI všechna taková tvrzení odmítá. Minulý týden viceprezident OpenAI pro produkty Peter Welinder na Twitteru uvedl: „Neudělali jsme GPT-4 hloupější. Právě naopak. Každou novou verzi děláme chytřejší než tu předchozí.“ Sám ale také přesně neví (anebo to alespoň veřejně nekomunikuje), v čem je problém. Navrhuje nicméně jiné alternativní vysvětlení.

„Když (AI) používáte intenzivněji, začnete si všímat problémů, které jste dříve neviděli,“ říká. Naznačuje tedy, že si jen dříve uživatelé chyb méně všímali, což ale odporuje tomu, že toto zhoršení schopností vědci reálně pozorovali. Někteří pozorovatelé, kteří se obávají dopadu rušivého posunu ve výsledcích modelu, podle odborného webu TechXplore mezitím tlačí na společnost OpenAI, aby zveřejnila zdroje tréninkových materiálů, kód a další strukturální prvky, které stojí za modelem ChatGPT 4.0.

Sasha Luccioniová, která ve společnosti Hugging Face vývoj AI sleduje, pro web Ars Technica uvedla, že není v lidských silách sledovat změny v takových modelech. Jediným způsobem, jak alespoň částečně popsat, co se v nich děje, je získat zdrojová data. Jinak totiž „jakékoli výsledky na modelech s uzavřeným zdrojovým kódem nejsou reprodukovatelné a ověřitelné, a proto z vědeckého hlediska porovnáváme mývaly a veverky.“

Co všechno umí ChatGPT

Kevin Roose, autor knihy „Futureproof“, označil tento rozsáhlý jazykový model OpenAI za nejlepšího chatbota s umělou inteligencí, který byl kdy zpřístupněn široké veřejnosti. Za „jednu z nejlepších věcí, které kdy byly pro výpočetní techniku vytvořeny“ ho zase považuje generální ředitel společnosti Nvidia Jensen Huang.

ChatGPT je tak dobrý v poskytování přirozených odpovědí na dotazy uživatelů, že podle některých názorů oficiálně prošel Turingovým testem, což je dlouholeté měřítko schopnosti stroje dosáhnout lidské inteligence.

ChatGPT dosáhl nejvyšších možných úspěchů i ve ve zkouškách úspěšnosti v mnoha oborech: v matematice dopadl lépe než 89 procent lidí, v právu lépe než 90 procent a v americkém testu GRE, který slouží k přijímacím zkouškám na postgraduální studium, dokonce lépe než 99 procent lidí.

A výzkumníci z lékařské fakulty Newyorské univerzity počátkem července 2023 oznámili, že rady, které ChatGPT poskytoval v otázkách týkajících se zdravotnictví, byly téměř nerozeznatelné od rad poskytovaných lidským zdravotnickým personálem.

Výběr redakce

Aktuálně z rubriky Věda

NASA ukončila poplach na ISS. Posádka se vrátila z úkrytu

Americký Národní úřad pro letectví a vesmír (NASA) ukončil poplach a nařídil posádce Mezinárodní vesmírné stanice (ISS), aby se vrátila na palubu k dřívějšímu provozu. Dříve posádce nařídil ukrýt se do kosmických lodí a připravit se na možnou evakuaci kvůli zhoršujícím se únikům vzduchu z ruského segmentu, uvedla agentura Reuters. Ruští kosmonauté se únik vzduchu pokusili opravit, ruská kosmická agentura Roskosmos snahy ale následně pozastavila a sdělila, že neexistuje žádné ohrožení bezpečnosti posádky ani palubních systémů ISS.
včeraAktualizovánopřed 11 hhodinami

Vedro na konci května připomnělo Britům „černé léto“ 1976

Nejteplejší květen v dějinách měření vyvolal v Británii obavy z návratu černého léta roku 1976. Tehdy panovaly takové teploty, že vyschla celá řada vodních zdrojů, trpělo zemědělství i lesy a země poprvé zavedla funkci ministra pro sucho.
před 22 hhodinami

Začalo Archeologické léto. Vědci nabízejí veřejnosti nahlédnout do života předků

Vypravit se po stopách dávných Keltů, projít se po zaniklé středověké vesnici, nahlédnout do práce archeologů přímo v terénu nebo objevit pozůstatky nedávné historie skryté pod povrchem měst i krajiny. To vše nabídne sedmý ročník Archeologického léta, oblíbené prázdninové akce pro všechny milovníky historie, archeologie a poznávání neobvyklých míst.
včera v 06:30

Čína změnila způsob, jak počítá své emise

Čína splní své klimatické cíle, i kdyby se její emise oxidu uhličitého v dalších letech zvýšily. Podle analýzy nezávislého webu Carbon Brief si totiž pomohla změnou metodiky, jak tyto emise počítá. Vzorec sice nezveřejnila, ale zřejmě pravidla přenastavila tak, aby odpovídala aktuálnímu ekonomickému vývoji země.
4. 6. 2026

Ötziho mumie obsahuje stále živé mikroorganismy

Výzkumníci z institutu Eurac Research získali podrobný přehled o mikroorganismech spojených s Ötzim. Nová studie přináší poznatky o komplexním mikrobiomu, od střevní flóry člověka z doby měděné až po kvasinky přizpůsobené chladnému prostředí, které mohly mumii doprovázet po tisíciletí a dodnes zůstávají součástí aktivního ekosystému.
4. 6. 2026

Umělá inteligence ohrožuje přírodní zdroje pro mnoho lidí, varují experti OSN

Rostoucí emise, ubývající zásoby vody a mizející půda. To jsou tři hlavní problémy, které způsobuje dynamicky rostoucí sektor umělých inteligencí (AI). Nová studie Univerzity OSN varuje, že v roce 2030 budou datacentra spotřebovávat tolik vody jako 1,3 miliardy lidí. Spotřeba elektřiny pak má vzrůst na více než dvojnásobek oproti loňsku.
4. 6. 2026

VideoAI může pomáhat při řízení jaderné elektrárny do deseti let, míní Kochánek

Na konferenci o bezprostřední budoucnosti jaderné energie na francouzském velvyslanectví se mluví o aktuálních trendech v této oblasti – od malých modulárních reaktorů až po využití digitalizace a umělé inteligence (AI) k efektivnější správě a zajištění bezpečnosti. Právě AI může podle předsedy Státního úřadu pro jadernou bezpečnost Štěpána Kochánka nahradit některé lidské specialisty jak při projektování a výstavbě, tak i při samotném řízení provozu jaderného zařízení. „Tak daleko zatím v tuto chvíli nejsme,“ říká ale Kochánek a dodává, že by k tomu mohlo dojít v příští dekádě.
4. 6. 2026

Veletrh vědy láká na jaderné reaktory i astronomii Středozemě

Na výstavišti v pražských Letňanech ve čtvrtek začíná Veletrh vědy. Potrvá do soboty. Nabídne stovku interaktivních expozic a desítky přednášek s diskusemi. Podesáté ho pořádá Akademie věd ČR (AV ČR), která na něm představí novinky ze současného výzkumu. Do programu se zapojuje i řada univerzit.
4. 6. 2026
Načítání...