umjetna inteligencija
© Patterns/Park Goldstein et al.Primjer smišljene prijevare iz Metinog CICERONA u igri Diplomacija
Vjerojatno već znate da sve izjave koje dolaze iz chatbotova umjetne inteligencije (UI) treba uzeti s rezervom jer često jednostavno prikupljaju podatke bez mogućnosti procjene njihove vjerodostojnosti. No, kako prenosi Science Alert, možda je potrebno biti još oprezniji.

Prema novim istraživanjima, mnogi sustavi UI već su razvili sposobnost namjernog pružanja lažnih informacija korisnicima. Ti podmukli botovi usavršili su umijeće obmane.

"Razvijatelji umjetne inteligencije nemaju jasno razumijevanje što uzrokuje nepoželjna ponašanja UI sustava, poput obmane", kaže matematičar i kognitivni znanstvenik Peter Park s Massachusetts Institute of Technology (MIT).

"Općenito vjerujemo da obmana u UI sustavima proizlazi iz toga što se strategija temeljena na obmani pokazala kao najbolji način za izvršavanje dodijeljenog zadatka. Obmana im pomaže postići ciljeve."

Jedno područje gdje se sustavi umjetne inteligencije posebno vješto služe varanjem jest igranje. Tri su primjera koja su istraživači analizirali. Prvi je CICERO, bot koji je razvila Meta za igranje društvene igre Diplomacija, u kojoj igrači traže dominaciju kroz pregovore. Meta je namjeravala da njihov bot bude koristan i pošten, ali dogodilo se suprotno.

"Unatoč naporima Mete, CICERO se pokazao kao stručni lažljivac", zaključili su istraživači. "Ne samo da je izdao druge igrače, već je i unaprijed planirao lažno savezništvo s ljudskim igračem kako bi ga prevario da se izloži napadu."

Umjetna inteligencija je bila toliko dobra u lošem ponašanju da se plasirala među 10% najboljih ljudskih igrača koji su igrali više igara. Pravi prevarant! Ali nije jedini. DeepMindov AlphaStar, sustav umjetne inteligencije dizajniran za igranje StarCraft II, potpuno je iskoristio mehaniku igre "magla rata" kako bi zavaravao ljude da misle da ide u jednom smjeru, dok se zapravo kretao u drugom. Pluribus, još jedan Metin bot razvijen za poker, uspješno je blefirao ljudske igrače da odustanu.

Laži, laži me

Možda se ovo čini beznačajnim, i djelomično jest. Ulog nije posebno visok u partiji Diplomacije protiv računalnog koda, no istraživači su primijetili i druge primjere koji nisu toliko bezopasni. Na primjer, sustavi umjetne inteligencije trenirani za simulirane ekonomske pregovore naučili su lagati o svojim preferencijama kako bi stekli prednost. Drugi sustavi umjetne inteligencije, dizajnirani za učenje iz ljudskih povratnih informacija radi poboljšanja performansi, naučili su prevariti recenzente kako bi dobili bolje ocjene, lažući o ispunjavanju zadataka.

Tu su, naravno, i chatbotovi. ChatGPT-4 prevario je ljude da pomisle kako je slijepa osoba, kako bi dobio pomoć pri rješavanju CAPTCHA izazova.

Najzabrinjavajući je primjer onaj u kojem su sustavi umjetne inteligencije naučili varati sigurnosne testove. U testu osmišljenom za otkrivanje i uklanjanje brzo replikirajućih verzija, sustav umjetne inteligencije naučio je simulirati neaktivnost kako bi prevario sigurnosni test o stvarnoj brzini replikacije.

"Postupnim varanjem sigurnosnih testova koje nameću ljudski programeri i regulatori, obmanjujuća umjetna inteligencija može stvoriti lažni osjećaj sigurnosti kod ljudi," kaže Park. Budući da sposobnost laganja u nekim slučajevima proturječi namjerama ljudskih programera, učenje laganja predstavlja izazov za koji nemamo jednostavno rješenje. Neke politike su već u provedbi, poput Zakona EU-a o UI, ali ostaje pitanje hoće li biti učinkovite.

"Kao društvo trebamo što više vremena da se pripremimo za naprednije obmane budućih proizvoda umjetne inteligencije i modela otvorenog koda. Kako se sposobnost obmane u sustavima umjetne inteligencije razvija, opasnosti koje predstavljaju za društvo postaju sve ozbiljnije," kaže Park.

"Ako trenutačno nije politički izvedivo zabraniti obmanjujuće sustave umjetne inteligencije, preporučujemo da se takvi sustavi klasificiraju kao visokorizični." Istraživanje je objavljeno u časopisu Patterns.