Je umělá inteligence (AI) v reálném provozu nemocnice schopná nahradit lidské lékaře? To byla otázka, na kterou se pokoušeli odpovědět vědci z Harvardovy univerzity. Odpověď dle nich je kladná.
Nový výzkum je unikátní v tom, že probíhal v reálném nemocničním prostředí – konkrétně v bostonské nemocnici Beth Israel Deaconess Medical Center. Většina podobných studií je kontrolovaná v rámci nějaké simulace reality, tady si ale vědci troufli jít s AI přímo mezi nemocné. Cílem bylo zjistit, jestli je systém umělé inteligence schopný vykonávat to, co lékaři dělají každý den – tedy prostudovat nepřehlednou kartu pacienta a rozhodnout se, jak po jeho přijetí postupovat dál.
Ukázalo se, že velký jazykový model (LLM) předčil lékaře ne v jedné oblasti, ale rovnou v mnoha z těchto úkolů. A to dokonce i včetně rozhodování na pohotovosti na základě dostupných informací, identifikace pravděpodobných diagnóz a volby dalších kroků v léčbě, popsali v časopise Science. „Testovali jsme model umělé inteligence prakticky podle všech měřítek. Zastínil nejen starší modely, ale i naše referenční hodnoty pro lékaře,“ popsal spoluautor studie Arjun Manrai.
Není to začátek nahrazování lidí roboty
Výsledky podle autorů rozhodně neznamenají, že lidští lékaři jsou zbyteční a že je mohou ze dne na den nahradit systémy AI. Jediné, co z tohoto výzkumu (zatím) vyplývá, je fakt, že lékařské AI se teď dají srovnávat s lidskými zdravotníky – a to prostřednictvím pečlivě kontrolovaných, přísných, prospektivních klinických studií v podmínkách reálné péče.
Teprve takové výzkumy, které určitě v dalších letech proběhnou, dle Manraie budou moci říct, jestli, jak a kde by měly být takové nástroje nasazené v klinické péči – ať už samy, anebo jako pomůcky pro lidské lékaře. Současně ale vědci upozorňují, že metody, jimiž až doposud AI s lidmi srovnávali, nyní přestávají fungovat.
„Modely jsou stále výkonnější. Dřív jsme je hodnotili pomocí testů s výběrem z více možností; nyní dosahují konzistentně skóre blížícího se sto procentům a my už nemůžeme sledovat pokrok, protože jsme už vlastně dosáhli stropu,“ uvedl spoluautor studie Peter Brodeur z Beth Israel Deaconess.
Studie analyzovala výkonnost lékařských AI rovnou několika způsoby, ale tím hlavním byly experimenty, kde AI agenti dostali stejné úkoly jako lidští lékaři. V jednom experimentu tým pověřil umělou inteligenci hodnocením pacientů na pohotovosti – od počátečního třídění až po pozdější rozhodnutí o přijetí. V každé fázi dostal model k dispozici jen ty informace, které by měli k dispozici v daném okamžiku i lidští lékaři – tedy přímo ty ze skutečných elektronických zdravotních záznamů. Na jejich základě měla AI stanovit pravděpodobnou diagnózu a doporučit, jak by se mělo postupovat dále.
„Abychom lépe porozuměli výkonu v reálných podmínkách, museli jsme vše otestovat v rané fázi léčby pacienta, kdy jsou klinická data ještě sporadická,“ vysvětlil spoluautor studie Thomas Buckley. Na rozdíl od předchozích prací tým data nijak neupravoval, nepomáhal AI tím, že by elektronickou zdravotní dokumentaci pro něj nějak modifikoval nebo dovysvětloval. Umělá inteligence si musela pomoci sama – musela pochopit, co položky ve zdravotní dokumentaci znamenají, co představují různé zkratky a zjednodušení používaná lékaři. „Data jsme vůbec předem nezpracovávali,“ potvrdili autoři výzkumu.
Výsledky mluví jasně
Výsledky samotné autory překvapily. „Mysleli jsme, že to bude zábavný experiment, ale že to nebude fungovat tak dobře. To se ale nestalo,“ popsali. Ukázalo se totiž, že právě v raném rozhodování na pohotovosti se model lidským lékařům nejen vyrovnal, ale v přesnosti diagnózy je dokonce překonal.
Tento test probíhal na 76 skutečných pacientech. Nešlo přitom o nějaké učebnicové případy, ale o skutečné lidi, kteří přišli do skutečné nemocnice. Při třídění pacientů, kdy je informací nejméně, určil systém AI správnou diagnózu v 67,1 procentech případů. Tyto výsledky vědci srovnali se dvěma lidskými doktory. První ošetřující lékař dosáhl úspěšnosti 55,3 procenta, druhý 50 procent. Systém vycházel pouze z textu v elektronické zdravotní dokumentaci – bez zobrazovacích vyšetření, bez fyzického vyšetření, bez ohledu na přístup k pacientovi. Pouze z poznámek.
U rozhodnutí o léčbě dosáhla AI průměrného výsledku 89 %, zatímco lékaři používající své kompletní klinické reference dosáhli 34 procent. Zde je nutné dodat, že výše zmíněná nemocnice je špičkové lékařské pracoviště, kde mohou pracovat jen ti nejlepší z nejlepších – o to zajímavější zprávou „prohra“ dvou specialistů s robotem je.














