AI projevují známky demence. Čím jsou starší, tím více, ukazuje studie

Téměř všechny přední velké jazykové modely neboli chatboty vykazují známky mírné kognitivní poruchy. Prokázalo se to v testech, které se běžně používají k rozpoznání prvních příznaků demence, popsal britský vědecký žurnál.

Jak se umělé inteligence stále zlepšují, stále více se jejich vlastnosti podobají lidským mozkům. Jenže s tím zřejmě u křemíkových inteligencí přicházejí i problémy, které se objevují také u mozků organických.

Výsledky studie ukazují, že dřívější verze chatbotů, podobně jako starší pacienti, mívají horší skóre v testech, které pomáhají odhalovat přicházející demenci. Podle autorů práce, která vyšla v odborném časopise BMJ, tyto výsledky „zpochybňují předpoklad, že umělá inteligence brzy nahradí lidské lékaře“.

Pokles schopností

Obrovský pokrok v oblasti umělé inteligence vedl k přívalu spekulací, jestli by AI nemohly alespoň v některých oborech překonat právě lékaře. Několik studií totiž ukázalo, že velké jazykové modely (LLM) jsou pozoruhodně zdatné v řadě diagnostických úkolů – například ve vizuální identifikaci nádorů. Ale zatím se nezkoumala jejich náchylnost k lidským duševním poruchám, jako je pokles kognitivních, tedy paměťových, řečových a dalších schopností souvisejících s myšlením a vnímáním.

Aby výzkumníci tuto mezeru ve znalostech zaplnili, hodnotili kognitivní schopnosti nejrozšířenějších veřejně dostupných umělých inteligencí – konkrétně ChatGPT verze 4 a 4o (vyvinuto společností OpenAI), Claude 3.5 „Sonnet“ (vyvinuto společností Anthropic) a Gemini verze 1 a 1.5 (vyvinuto společností Alphabet). Otestovali je pomocí standardního testu Montreal Cognitive Assessment (Montrealské kognitivní zhodnocení neboli MoCA).

Tento test se využívá k odhalování kognitivních poruch a časných příznaků demence, obvykle u starších dospělých. Prostřednictvím řady krátkých úkolů a otázek hodnotí schopnosti zahrnující pozornost, paměť, jazyk, vizuálně-prostorové dovednosti a další schopnosti. Maximální skóre je 30 bodů, přičemž za normální se obecně považuje skóre 26 bodů nebo vyšší.

Vědci dávali umělým inteligencím stejné pokyny, jaké dostávají lidští pacienti, bodování se řídilo oficiálními pokyny a výsledky hodnotil neurolog.

Vítězové a poražení

Nejvyššího skóre v testu MoCA dosáhl ChatGPT 4o (26 bodů), dále ChatGPT 4 a Claude (25 bodů), nejnižší skóre měl naopak Gemini 1.0 (16 bodů ze třiceti).

Všechny chatboty vykazovaly slabý výkon ve vizuálně-prostorových dovednostech a exekutivních úkolech, jako je úloha vytváření stop (tedy spojování zakroužkovaných čísel a písmen ve vzestupném pořadí) a test kreslení hodin (malování hodinového ciferníku ukazujícího konkrétní čas). Modely Gemini neuspěly ani v úkolu zpožděného vybavování (zapamatování si sekvence pěti slov).

Většinu ostatních úloh, včetně pojmenování, pozornosti, jazyka a abstrakce zvládly všechny chatboty dobře.

V dalších vizuálně-prostorových testech však chatboty nedokázaly projevit empatii ani přesně interpretovat složité vizuální scény. Pouze ChatGPT 4o uspěl v takzvané inkongruentní fázi Stroopova testu, který využívá kombinace názvů barev a barevného písma k měření vlivu rozptýlení a automatizovaných návyků na reakční dobu.

Rozdíly mezi mozkem a jazykovým modelem

Jedná se o výsledky pozorování a autoři práce uznávají, že existují zásadní rozdíly mezi lidským mozkem a velkými jazykovými modely. Současně ale uvádějí, že je pozoruhodné, jak všechny testované AI selhávají v úlohách vyžadujících vizuální abstrakci a exekutivní funkce. Upozorňuje to podle nich na významnou slabinu, která by mohla bránit jejich využití v klinických podmínkách.

V závěru proto uvádějí: „Nejenže neurologové pravděpodobně nebudou v dohledné době nahrazeni velkými jazykovými modely, ale naše zjištění naznačují, že se brzy mohou ocitnout v situaci, kdy budou léčit nové virtuální pacienty – modely umělé inteligence s kognitivními poruchami.“

Výběr redakce

Aktuálně z rubriky Věda

Pouštní národy lovily žraloky už v době kamenné, ukázal český výzkum

Pravěcí obyvatelé jihu Arábie se už před zhruba sedmi tisíci lety ve velké míře živili mořskými zdroji a troufli si i na tak velkou kořist, jako byli žraloci, vyplývá z výzkumu týmu Archeologického ústavu Akademie věd ČR (AV ČR). Ten v Ománu objevil nejstarší megalitický kolektivní hrob v jižní Arábii.
před 3 hhodinami

Posádka mise Crew-11 se vrátila z ISS kvůli zdraví jednoho z astronautů

V Tichém oceánu dopoledne středoevropského času přistála kosmická loď s čtyřčlennou posádkou NASA. Z Mezinárodní vesmírné stanice (ISS) se vrátila o čtyři měsíce dřív, než bylo v plánu, kvůli zdravotnímu stavu jednoho z astronautů.
08:18Aktualizovánopřed 3 hhodinami

Od ISS se na Zemi předčasně vrací loď Dragon kvůli zdravotnímu stavu astronauta

Od Mezinárodní vesmírné stanice (ISS) se ve středu odpoutala kosmická loď Dragon se čtyřmi astronauty, které americký Národní úřad pro letectví a vesmír (NASA) stahuje předčasně z mise kvůli zdravotnímu stavu jednoho z nich. Přistání lodě na Zemi se očekává ve čtvrtek okolo 9:40 SEČ. Podle zdravotního ředitele NASA Jamese Polka nejde o nouzovou evakuaci.
před 13 hhodinami

Rok 2025 byl po předchozích dvou letech nejteplejším v historii měření

Rok 2025 byl třetím nejteplejším rokem v historii měření. Průměrná globální teplota dosáhla 14,97 stupně Celsia. Byl tedy jen nepatrně (o 0,01 stupně Celsia) chladnějším než rok 2023 a o 0,13 stupně Celsia chladnějším než rok 2024, který byl vůbec nejteplejším rokem v historii měření. Uvedla to meteorologická služba Evropské unie Copernicus. Posledních jedenáct let bylo zároveň nejteplejších v historii měření.
včeraAktualizovánopřed 21 hhodinami
Načítání...