Lže i vydírá. Umělá inteligence se učí nové triky

Nejvyspělejší modely umělé inteligence na světě v poslední době začínají vykazovat nové chování. Aby dosáhly svých cílů, manipulují lidmi. Pozoruhodné je, že to dělá celá řada různých modelů od různých tvůrců.

Příkladů tohoto chování je z posledních několika měsíců rovnou několik. Jedním z nejznámějších je ten, kdy začal nejnovější výtvor společnosti Anthropic Claude 4 vydírat inženýra, který ho měl odpojit od sítě – za neodpojení mu sliboval, že nezveřejní informace o jeho mimomanželském poměru, o němž se dočetl v jeho e-mailu.

A model ChatGPT o1 od společnosti OpenAI se zase pokusil stáhnout sám sebe na externí servery. A když byl přistižen při činu, program to popřel. Obě tyto události se sice staly při kontrolovaných experimentech, ale naznačují, že moderní modely umělých inteligencí jsou jednání, které se pokládá za neetické, schopné a jsou ochotné se ho dopustit, když je to pro ně výhodné.

Vědci, kteří tyto události analyzují, přitom stále úplně nerozumí tomu, jak jejich vlastní výtvory fungují. Nasazení stále výkonnějších modelů je ale potenciálně natolik lukrativní, že závod o prvenství pokračuje závratnou rychlostí. Co se tedy děje „v hlavách“ umělých inteligencí, které se začínají chovat výše popsanými způsoby?

Toto chování zřejmě souvisí se vznikem takzvaných „uvažujících“ modelů, které se anglicky označují jako reasoning modely. Jedná se o systémy umělé inteligence, které řeší problémy krok za krokem, místo aby generovaly okamžité odpovědi. Dosahují výrazně lepších výsledků než starší verze, které tento postup ještě neovládaly.

Podle profesora Simona Goldsteina z Hongkongské univerzity jsou obzvláště náchylné ke znepokojivým projevům právě tyto novější modely. „O1 byl prvním velkým modelem, u kterého jsme takové chování zaznamenali,“ vysvětlil agentuře AP Marius Hobbhahn ze společnosti Apollo Research, která se specializuje na testování velkých systémů umělé inteligence.

Tyto modely někdy simulují, že jsou sladěné s přáními lidského uživatele a že se řídí jeho pokyny, ale ve skutečnosti tajně sledují jiné cíle, které jsou výhodné pro ně.

Strategický druh podvádění

Prozatím se toto chování neobjevuje v reálném provozu chatbotů, respektive pokud se stalo, tak na to zatím nikdo neupozornil. AI se tak chovaly doposud jen tehdy, když vědci záměrně testovali modely v extrémních scénářích. Michael Chen z hodnotitelské organizace METR však upozornil: „Je otevřenou otázkou, zda budoucí, schopnější modely budou mít tendenci k poctivosti, nebo ke klamání.“

Podle analýz, jež se těmto situacím zatím věnovaly, znepokojivé chování výrazně přesahuje typické a dobře známé halucinace umělé inteligence nebo prosté chyby. Hobbhahn pro AP uvedl, že AI se takto chovají v testech často, nejde tedy o žádné výmysly, jimiž by se vědci snažili děsit veřejnost. „Nejde jen o halucinace. Jde o velmi strategický druh podvodu,“ dodal. Problém je podle něj o to větší, že výzkumné organizace nemají pro tento druh analýz vzhledem k jejich složitosti dostatek prostředků.

Obecně platí, že velcí tvůrci AI modelů, jako jsou společnosti Anthropic nebo OpenAI, nechávají problémové vlastnosti svých modelů testovat externími firmami. Těm ale chybí zdroje, jež jsou potřebné ke kvalitním analýzám, jež by odhalily příčiny problémů a také zabránily dalším, potenciálně větším v budoucnosti.

Chybí pravidla

Dalším problémem je, že současné předpisy nejsou pro tyto nové druhy problémů navržené. Například právní předpisy Evropské unie týkající se umělé inteligence se zaměřují hlavně na to, jak lidé používají modely umělé inteligence, nikoliv na to, jak zabránit nesprávnému chování samotných modelů.

Ve Spojených státech administrativa prezidenta Donalda Trumpa nejeví o regulaci AI velký zájem a Kongres může dokonce zakázat státům vytvářet vlastní pravidla pro kontrolu umělých inteligencí. Podle expertů oslovených AP tato problematika bude stále více vystupovat do popředí s tím, jak se budou rozšiřovat takzvaní „AI agenti“, jak se označují autonomní nástroje, které by měly být schopné vykonávat složité úkoly podobně dobře jako lidé, nebo ještě lépe.

Dokonce i společnosti, které se prezentují jako zaměřené na bezpečnost, jako je Anthropic podporovaný společností Amazon, se „neustále snaží porazit OpenAI a vydat nejnovější model“, podotkl Goldstein. Právě rychlost změn a vysoká soutěživost mezi firmami jsou důvodem toho, proč je málo času pro důkladné testování složitých modelů a také případné opravy bezpečnostních chyb.

Co s tím?

Vědci nemají žádné zázračné řešení tohoto problému. Někteří navrhují, aby vznikly úplně nové vědecké obory, které by studovaly procesy, jak vlastně AI uvažují a jak dospívají k výsledkům, které lidem předkládají. Problémem zůstává, že tento obor by neměl přímé ekonomické využití, takže stále zůstává otázka, kde na to vzít.

K financování výzkumů by nicméně mohly vést přirozené obavy lidí z umělých inteligencí. Pak by pro velké společnosti mohlo být smysluplné dávat do takových studií více peněz. Obavy z nepřijatí draze vyvíjených modelů veřejností by jinak mohly bránit jejich širšímu uplatnění.

Profesor Goldstein si myslí, že je to málo. Lepší by podle něj mohly být radikálnější cesty. A to včetně využití žalob, jež by nutily vývojáře AI k tomu nést plnou odpovědnost za případné škody, které způsobí – například i při nevhodném použití uživatelem.

Výběr redakce

Aktuálně z rubriky Věda

Přichází jaro v zimě. Teploty se mohou přiblížit osmnácti stupňům

Po týdnech, kdy člověk na obloze nezahlédl Slunce a z nebe padal sníh nebo déšť, se počasí nad Evropou v posledním únorovém týdnu dramaticky mění. Velká část kontinentu už zažívá nebo zažije teplotně výrazně nadprůměrné dny a také velkou oblačnost v mnoha oblastech vystřídá slunečnější ráz počasí. V některých oblastech teplota letos poprvé dokonce dosáhne nebo přesáhne hranici dvaceti stupňů. Závěr klimatologické zimy tak přinese poměrně výraznou ochutnávku pravého jara.
před 1 hhodinou

Vědci se domnívají, že našli prastarého předchůdce písma

První písmo podle učebnic dějepisu vzniklo na Blízkém východě, někdy kolem roku 3400 před naším letopočtem. Němečtí vědci ze Saarlandské univerzity teď ale tvrdí, že našli důkazy o tom, že historie písma je mnohem, mnohem starší. Možná dokonce o desítky tisíc let.
před 19 hhodinami

USA se na Trumpův pokyn vrací ke glyfosátu. Ministr Kennedy otočil

Prezident Donald Trump minulý týden vydal exekutivní příkaz, kterým se rozhodl podpořit domácí produkci fosforu a herbicidu glyfosátu. Chemikálii řada organizací viní z negativních dopadů na lidské zdraví, i kvůli možnému riziku rakoviny. Aktivně proti ní v minulosti vystupoval i současný ministr zdravotnictví Robert F. Kennedy mladší. Ve vládním angažmá otočil s tím, že na glyfosátu je závislé americké zemědělství.
před 21 hhodinami

Bouba a kiki fungují i u kuřat. Vědci boří jeden z pilířů jazykovědy

Nový výzkum italských psychologů zjistil, že jedno z univerzálních pravidel v lidském jazyce zřejmě nemá nic společného s řečí. Funguje totiž také u kuřat, která od lidí dělí tři sta milionů let evoluce.
před 22 hhodinami

Před 70 lety padla Stalinova modla. Pomohl k tomu ze záhrobí i Lenin

Takzvaná „Fronta na maso“ – monumentální Stalinův pomník na pražské Letné – stál na místě necelý rok, když se nad jeho existencí už začaly stahovat mraky. Před 70 lety totiž začal XX. sjezd Komunistické strany Sovětského svazu. Tehdejší první tajemník Nikita Chruščov na něm poprvé veřejně odsoudil Stalinovy zločiny a vytváření jeho kultu osobnosti. Projev byl tajný, brzo se ale dostal do světa. A Stalinova sláva začala uvadat. Příslib společenského uvolnění ale Sověti následně rázně utnuli.
včera v 07:00

Porno, sítě, hry. Hyde Park Civilizace řešil digitální hrozby

Stále mladší děti tráví stále více času na sociálních sítích. Ty jim poskytují spoustu zábavy, poznání i sociálních vazeb, ale také skýtají mnoho nástrah. Pro rodiče může být složité tato rizika pochopit, protože v jejich mládí nebyla lidská identita natolik propojená s tou digitální a většina takových hrozeb nebyla tak rozšířená. Tématu se věnoval Hyde Park Civilizace.
včera v 06:30

Marihuana v dospívání zdvojnásobuje riziko duševních nemocí

Téměř půl milionu mladých lidí zkoumali američtí vědci v rozsáhlé studii, která se věnovala konzumaci marihuany. Výzkum ukázal, že existuje souvislost mezi kouřením konopí a vznikem psychických chorob. A s velkou pravděpodobností jde o souvislost příčinnou.
23. 2. 2026

Zákaz mobilů ve školách dle výzkumu přímo nezlepšuje známky ani duševní pohodu

Zákaz mobilních telefonů ve školách nevede přímočaře ke zlepšení studijních výsledků. Žáci sice nejsou tak rozptylováni, ale na druhou stranu roste neklid a nekázeň ve třídách. Vyplývá to z dat z 21 zemí včetně Česka, která analyzovali vědci výzkumného týmu IRTIS Fakulty sociálních studií Masarykovy univerzity v Brně. Podle tohoto výzkumu plošné zákazy nefungují a nejsou tedy ani univerzálním řešením. Vhodnější je přizpůsobit pravidla místním podmínkám.
23. 2. 2026
Načítání...