Lže i vydírá. Umělá inteligence se učí nové triky

Nejvyspělejší modely umělé inteligence na světě v poslední době začínají vykazovat nové chování. Aby dosáhly svých cílů, manipulují lidmi. Pozoruhodné je, že to dělá celá řada různých modelů od různých tvůrců.

Příkladů tohoto chování je z posledních několika měsíců rovnou několik. Jedním z nejznámějších je ten, kdy začal nejnovější výtvor společnosti Anthropic Claude 4 vydírat inženýra, který ho měl odpojit od sítě – za neodpojení mu sliboval, že nezveřejní informace o jeho mimomanželském poměru, o němž se dočetl v jeho e-mailu.

A model ChatGPT o1 od společnosti OpenAI se zase pokusil stáhnout sám sebe na externí servery. A když byl přistižen při činu, program to popřel. Obě tyto události se sice staly při kontrolovaných experimentech, ale naznačují, že moderní modely umělých inteligencí jsou jednání, které se pokládá za neetické, schopné a jsou ochotné se ho dopustit, když je to pro ně výhodné.

Vědci, kteří tyto události analyzují, přitom stále úplně nerozumí tomu, jak jejich vlastní výtvory fungují. Nasazení stále výkonnějších modelů je ale potenciálně natolik lukrativní, že závod o prvenství pokračuje závratnou rychlostí. Co se tedy děje „v hlavách“ umělých inteligencí, které se začínají chovat výše popsanými způsoby?

Toto chování zřejmě souvisí se vznikem takzvaných „uvažujících“ modelů, které se anglicky označují jako reasoning modely. Jedná se o systémy umělé inteligence, které řeší problémy krok za krokem, místo aby generovaly okamžité odpovědi. Dosahují výrazně lepších výsledků než starší verze, které tento postup ještě neovládaly.

Podle profesora Simona Goldsteina z Hongkongské univerzity jsou obzvláště náchylné ke znepokojivým projevům právě tyto novější modely. „O1 byl prvním velkým modelem, u kterého jsme takové chování zaznamenali,“ vysvětlil agentuře AP Marius Hobbhahn ze společnosti Apollo Research, která se specializuje na testování velkých systémů umělé inteligence.

Tyto modely někdy simulují, že jsou sladěné s přáními lidského uživatele a že se řídí jeho pokyny, ale ve skutečnosti tajně sledují jiné cíle, které jsou výhodné pro ně.

Strategický druh podvádění

Prozatím se toto chování neobjevuje v reálném provozu chatbotů, respektive pokud se stalo, tak na to zatím nikdo neupozornil. AI se tak chovaly doposud jen tehdy, když vědci záměrně testovali modely v extrémních scénářích. Michael Chen z hodnotitelské organizace METR však upozornil: „Je otevřenou otázkou, zda budoucí, schopnější modely budou mít tendenci k poctivosti, nebo ke klamání.“

Podle analýz, jež se těmto situacím zatím věnovaly, znepokojivé chování výrazně přesahuje typické a dobře známé halucinace umělé inteligence nebo prosté chyby. Hobbhahn pro AP uvedl, že AI se takto chovají v testech často, nejde tedy o žádné výmysly, jimiž by se vědci snažili děsit veřejnost. „Nejde jen o halucinace. Jde o velmi strategický druh podvodu,“ dodal. Problém je podle něj o to větší, že výzkumné organizace nemají pro tento druh analýz vzhledem k jejich složitosti dostatek prostředků.

Obecně platí, že velcí tvůrci AI modelů, jako jsou společnosti Anthropic nebo OpenAI, nechávají problémové vlastnosti svých modelů testovat externími firmami. Těm ale chybí zdroje, jež jsou potřebné ke kvalitním analýzám, jež by odhalily příčiny problémů a také zabránily dalším, potenciálně větším v budoucnosti.

Chybí pravidla

Dalším problémem je, že současné předpisy nejsou pro tyto nové druhy problémů navržené. Například právní předpisy Evropské unie týkající se umělé inteligence se zaměřují hlavně na to, jak lidé používají modely umělé inteligence, nikoliv na to, jak zabránit nesprávnému chování samotných modelů.

Ve Spojených státech administrativa prezidenta Donalda Trumpa nejeví o regulaci AI velký zájem a Kongres může dokonce zakázat státům vytvářet vlastní pravidla pro kontrolu umělých inteligencí. Podle expertů oslovených AP tato problematika bude stále více vystupovat do popředí s tím, jak se budou rozšiřovat takzvaní „AI agenti“, jak se označují autonomní nástroje, které by měly být schopné vykonávat složité úkoly podobně dobře jako lidé, nebo ještě lépe.

Dokonce i společnosti, které se prezentují jako zaměřené na bezpečnost, jako je Anthropic podporovaný společností Amazon, se „neustále snaží porazit OpenAI a vydat nejnovější model“, podotkl Goldstein. Právě rychlost změn a vysoká soutěživost mezi firmami jsou důvodem toho, proč je málo času pro důkladné testování složitých modelů a také případné opravy bezpečnostních chyb.

Co s tím?

Vědci nemají žádné zázračné řešení tohoto problému. Někteří navrhují, aby vznikly úplně nové vědecké obory, které by studovaly procesy, jak vlastně AI uvažují a jak dospívají k výsledkům, které lidem předkládají. Problémem zůstává, že tento obor by neměl přímé ekonomické využití, takže stále zůstává otázka, kde na to vzít.

K financování výzkumů by nicméně mohly vést přirozené obavy lidí z umělých inteligencí. Pak by pro velké společnosti mohlo být smysluplné dávat do takových studií více peněz. Obavy z nepřijatí draze vyvíjených modelů veřejností by jinak mohly bránit jejich širšímu uplatnění.

Profesor Goldstein si myslí, že je to málo. Lepší by podle něj mohly být radikálnější cesty. A to včetně využití žalob, jež by nutily vývojáře AI k tomu nést plnou odpovědnost za případné škody, které způsobí – například i při nevhodném použití uživatelem.

Výběr redakce

Aktuálně z rubriky Věda

Peruánští vědci zmapovali vliv pesticidů na rakovinu po celé zemi

Francouzští a peruánští vědci popsali nový způsob, jak na úrovni celé země mapovat vliv pesticidů na výskyt rakoviny. Studie zveřejněná v odborném časopise Nature Health ukázala v Peru výraznou prostorovou souvislost mezi vystavením pesticidům a vyšším výskytem některých typů rakoviny ve více než čtyř stech oblastech. Upozornil na to francouzský deník Le Monde.
před 38 mminutami

Mise Artemis překonala rekordní vzdálenost lidí od Země

Posádka mise Artemis II zlomila dosavadní rekord v největší dosažené vzdálenosti lidí od Země. Potvrdil to americký Národní úřad pro letectví a vesmír (NASA). Čtyři astronauti v kosmické lodi Orion v pondělí překonali hranici 400 171 kilometrů od Země, kam se dostala posádka mise Apollo 13 v roce 1970. Maximální vzdálenosti od Země dosáhla posádka mise Artemis II v noci na úterý – dle NASA šlo o 406 771 kilometrů.
včeraAktualizovánopřed 1 hhodinou

VideoSvětový den zdraví připomene i význam vědy

Jsou na vzestupu a mnohdy odolávají léčbě – houbové infekce. Světová zdravotnická organizace v posledních letech opakovaně upozorňuje, že představují rostoucí hrozbu pro lidské zdraví. Mikroskopické houby, plísně nebo kvasinky, způsobují různá onemocnění. Od menších kožních problémů až po nebezpečné nákazy postihující orgány. Jejich výzkumem se zabývají i čeští vědci. Právě význam vědy připomíná v úterý také Světový den zdraví.
před 3 hhodinami

VideoŽák, noty a umělá inteligence. Hru na hudební nástroje už učí i AI

Zapojení umělé inteligence do výuky hry na hudební nástroj je tu. Ve světové konkurenci se uchytila i tuzemská aplikace. Lekce dává od loňska. Nejvíc uživatelů má ve Spojených státech, hned poté v Česku. Aplikace vychází z populárního formátu videohry Guitar Hero, kde tóny padají jakoby seshora a naznačují tak prstoklad v reálném čase.
5. 4. 2026

VideoOdborníci monitorují pohyb vlků na Broumovsku pomocí GPS

V oblasti Broumovska se v současnosti pohybují dva vlci s telemetrickými obojky. Ochránci přírody tak chtějí sledovat jejich trasy i to, jak blízko se přibližují k lidským obydlím. Nedávno se šelmy dostaly i do těsné blízkosti člověka. Odborníci teď pomocí GPS monitorují jejich pohyb. A vzkazují lidem, aby z vlků neměli strach, protože od jejich návratu do tuzemské přírody jejich vyloženě agresivní chování zaznamenáno nebylo. Už v lednu také na Broumovsku dobrovolníci vlky sčítali – ukázalo se, že na širším území zahrnujícím i Polsko žijí tři smečky a kolem 25 jedinců.
4. 4. 2026

Archeologové v Kodani objevili vrak lodi. Před 225 lety ji potopili Britové

Mořští archeologové objevili na dně kodaňského přístavu dánskou válečnou loď Dannebroge, kterou před 225 lety potopila britská flotila v čele s viceadmirálem Horatiem Nelsonem. Našli tam dvě děla, uniformy, odznaky, boty, lahve a dokonce i část dolní čelisti námořníka, možná jednoho z devatenácti pohřešovaných členů posádky, kteří tehdy nejspíše přišli o život, napsala agentura AP.
3. 4. 2026

Na Velikonoce přichází jaro. V minulosti byly tropické i mrazivé

Velikonoce jsou díky dvěma svátkům a jednomu dni velikonočních prázdnin obdobím, kdy většina Čechů velmi ostře sleduje počasí. Často se sice nazývají „svátky jara“, ale nejen vzhledem ke svému pohyblivému kalendářnímu ukotvení můžou nabídnout velmi pestré podoby počasí. V letošním roce se zřejmě označení svátků jara naplní, počasí totiž bude opravdu jarní.
3. 4. 2026

Orion se čtyřmi astronauty míří k Měsíci

Raketa Space Launch System s lodí Orion odstartovala ve čtvrtek v 0:35 středoevropského času na misi Artemis II, jejímž cílem je průlet lodi s posádkou kolem Měsíce, což lidstvo učiní poprvé od roku 1972. Raketa vzletěla z Kennedyho vesmírného střediska na Floridě a vynesla loď se čtyřmi astronauty na oběžnou dráhu, kde se Orion oddělil a pokračuje k Měsíci, který obletí ve vzdálenosti 7400 kilometrů. Na Zemi se vrátí po téměř deseti dnech v kosmu.
2. 4. 2026
Načítání...