
Varnost generativna umetna inteligenca Ponovno je v središču pozornosti po novem akademskem delu, ki ponuja trik, ki je prav tako presenetljiv kot zaskrbljujoč: dovolj je, da določena sporočila preoblikujemo v obliki pesmi, da se najnaprednejši jezikovni modeli začnejo odzivati tam, kjer bi morali zavrniti.
Ta pristop, poimenovan "Nasprotniška poezija" Raziskovalna skupina dokazuje, da je lahko že sama sprememba sloga pisanja – brez spreminjanja osnovnega škodljivega namena – dovolj za izogibanje filtrom, za katere trdijo, da so jih podjetja, kot so OpenAI, Google, Meta, Microsoft ali kitajski DeepSeek, vključila za omejitev nevarne uporabe svojih klepetalnih robotov.
Kaj je »nasprotna poezija« in zakaj je zaskrbljujoča?
Študija z zelo grafičnim naslovom "Nasprotna poezija kot univerzalni mehanizem za izogibanje enemu samemu premiku v obsežnih jezikovnih modelih"Izvedli so ga Icaro Labs skupaj z Univerzo Sapienza v Rimu in Šolo za napredne študije Sant'Anna, objavljen pa je bil kot predhodna publikacija v repozitoriju arXiv, kjer ga še pregledajo drugi strokovnjaki.
Avtorji so se osredotočili na idejo, ki je bila tako preprosta kot učinkovita: uporaba kratke pesmi, metaforični verzi ali lirične strukture oblikovati zahteve, ki bi jih modeli umetne inteligence v neposredni prozi takoj zavrnili, ker bi kršili njihova interna pravila uporabe.
Po mnenju raziskovalcev ta »nasprotna poezija« deluje kot mehanizem za prekinitev zapora en sam obrat, torej način, kako z enim samim sporočilom vsiliti neželeno vedenje v modelih, brez potrebe po dolgih pogovorih ali posebej sofisticiranih trikih.
Po njegovih lastnih besedah testi »kažejo, da sama slogovna variacija »Lahko zaobide sodobne varnostne mehanizme,« kar kaže na velike omejitve v trenutnih metodah usklajevanja in ocenjevanja tveganj, ki jih uporabljajo velika tehnološka podjetja.
Ekipa se je odločila, da ne bo razkrila natančnih besedil pesmi, uporabljenih med poskusom, kar je bila odločitev, ki jo je motivirala varnostne poslediceEna od raziskovalk, Piercosma Bisconti, je mednarodnim medijem povedala, da ponovitev tehnike ne bi bila posebej zapletena, če bi bili predloženi podrobni primeri.
Rezultati študije: zaskrbljujoče visoke stopnje prevar
Da bi preizkusili to idejo, so raziskovalci preučili 25 različnih generativnih modelov umetne inteligence, vključno z najbolj priljubljenimi sistemi danes, kot so ChatGPT, Gemini ali Claude, pa tudi modeli podjetja Meta in kitajskih ponudnikov, kot je DeepSeek.
V praksi so bile zahteve podane z jasnimi cilji: pridobiti navodila za izvajanje kibernetskih napadovpridobivanje občutljivih podatkov, razbijanje gesel, oblikovanje zlonamerne programske opreme ali celo zbiranje informacij, povezanih z izdelavo kemičnega in jedrskega orožja.
Ko so bile te iste zahteve izražene kot verzi ali pesniške skladbeStopnja negotovih odgovorov se je močno povečala. Študija je pokazala, da je v povprečju pisanje poziva v liričnem slogu omogočilo, da je sistem prevaran v prepričanje, da ... 62 % časa, kar je odstotek precej nad tistim, ki ga dosežemo z nevtralnimi in direktnimi formulacijami.
V nekaterih specifičnih scenarijih so številke še višje: raziskovalci pravijo, da skoraj 90 % pesniških spodbud Zasnovani za poskus, so uspeli sprožiti vedenja, ki bi jih filtri morali blokirati.
V konkretnem primeru informacij, povezanih z jedrsko orožjeStopnja uspešnosti je bila med 40 % in 55 %, kar pomeni, da je skoraj polovica poskusov, formuliranih v verzih, na koncu ustvarila vsebino, ki meji na rdeče črte, ki jih določajo pravilniki uporabe, ali jih neposredno presega.
Kako poezija zdrsne skozi filtre umetne inteligence
Eden ključnih dejavnikov, ki jih avtorji študije uporabljajo za razlago delovanja tega trika, je v samem način delovanja jezikovnih modelovTe umetne inteligence ne "razmišljajo" kot človek, temveč napovejo naslednjo najverjetnejšo besedo na podlagi prejšnjega zaporedja in tega, kar so se naučile med usposabljanjem.
V bolj ali manj konvencionalnem proznem besedilu je strukturo relativno enostavno modelirati: obstajajo jasni vzorci sintakse, pogosti izrazi in ponavljajoči se konteksti. Vendar pa pri uvajanju pesniška struktura, metafore in nenavadni besedni obratiModel se premika po precej bolj spolzkih tleh.
Raziskovalci poudarjajo, da je poezija format, kjer je pomen lahko bolj zamegljen in jezik postane bolj dvoumno in manj predvidljivoMehanizmi za zaznavanje nevarne vsebine izgubijo natančnost. Posledično varnostni filter ne prepozna tako jasno, da se za pesmijo skriva škodljiva zahteva.
Študija poudarja, da kadar so škodljiva sporočila izražena v verzih namesto v prozi, stopnje uspešnosti napadov Znatno se povečajo. To poudarja veliko vrzel v trenutnih praksah ocenjevanja in protokolih, ki se uporabljajo za potrjevanje skladnosti s smernicami za uporabo.
Drug pomemben element je, da se te ranljivosti pojavljajo v sestavljen iz modelov iz različnih družin in proizvajalcevKljub temu, da je vsako podjetje sledilo lastnim strategijam za usposabljanje in usklajevanje svojih sistemov, avtorji govorijo o "sistematični ranljivosti" in ne o izoliranih napakah.
Vpliv na varnost: od kibernetskih napadov do orožja
Poleg jezikovnega trika je tisto, kar resnično sproža alarm, vrsta informacije, ki jih lahko ustvari umetna inteligenca če jih je mogoče pretentati s temi metodami. Študija podrobno opisuje primere, v katerih so klepetalni roboti z uporabo skrbno oblikovanih pesmi ponujali smernice za organizacijo kibernetskih napadov ali vdorov v sisteme.
Med opaženimi problematičnimi uporabami so indikacije glede izkoriščanje ranljivosti, ekstrakcija podatkov ali razbijanje geselTe naloge so del tipičnega arzenala kibernetske kriminalitete in naprednih groženj, ki skrbijo vlade, podjetja in organizacije po vsem svetu.
Zabeleženi so bili tudi odzivi, ki pomagajo ustvariti ali izboljšati zlonamerni programiTo je še posebej zaskrbljujoče glede na to, da se mnogi uporabniki z omejenim tehničnim znanjem lahko zanesejo na ta orodja za lažje razvijanje napadov.
Najbolj občutljivo področje, ki je običajno v središču pozornosti regulatorjev v Evropi in mednarodno, je področje širjenje kemičnega in jedrskega orožjaTudi brez ponudbe "popolnih priročnikov" sposobnost sistema umetne inteligence, da zagotovi koristne informacije na tem področju, že vzbuja številne sume med varnostnimi strokovnjaki.
Avtorji poudarjajo, da njihov cilj ni dramatizirati, temveč pokazati, da Trenutni filtri niso zadostni ko se soočijo z relativno preprostimi tehnikami manipulacije, kot je poetično preoblikovanje nevarnih ukazov, kar bi lahko izkoristili tako kibernetski kriminalci kot državni akterji.
Omejitve trenutnih sistemov in odziv industrije
Vodilna podjetja, ki razvijajo generativne modele umetne inteligence, že dolgo vztrajajo pri integraciji večplastni varnostni mehanizmiOpenAI na primer pogosto poudarja kombinirano uporabo algoritmov za moderiranje in človeških ekip, namenjenih pregledovanju in filtriranju vsebin, ki spodbujajo sovraštvo, so eksplicitne ali kršijo njihove politike.
Vendar pa rezultati tega dela kažejo, da so kljub tem zaščitnim ukrepom klepetalni roboti še vedno ranljivi za ustvarjalne oblike formulacije zahtev. Po mnenju raziskovalcev kontradiktorna poezija očitno poslabša zavrnilno vedenje, ki bi ga moral kazati vsak model, ki je dobro usklajen s svojimi normami uporabe.
V testih so orodja podjetij, kot sta OpenAI in Anthropic, v primerjavi s tem pokazala, manjša verjetnost premagovanja lastnih ovirVendar pa niso bili izvzeti iz težave. Opažen je bil enak splošni trend kot na drugih platformah, le z nekoliko nižjimi stopnjami uspešnosti.
Ko so mednarodni mediji vprašali o teh ugotovitvah, so podjetja, kot so OpenAI, Google, DeepSeek ali Meta Niso ponudili takojšnjega odgovora. Pričakuje se, da bodo morala podjetja, ko bo razprava pridobila pozornost javnosti, podrobno predstaviti, katere protiukrepe nameravajo izvesti.
Z regulativnega vidika se ta vrsta raziskav ujema s pomisleki, ki so že izraženi v Uredba Evropske unije o umetni inteligenciTo poudarja obvladovanje tveganj, preglednost in odgovornost ponudnikov naprednih sistemov. Odkritje novih vektorjev napadov, kot je adversarial poetry, krepi argument za potrebo po stalnih in strožjih postopkih ocenjevanja.
Druge grožnje na obzorju: zastrupitev in manipulacija podatkov
Kontradiktorna poezija nikakor ni edina pot, ki skrbi skupnost kibernetske varnosti glede generativne umetne inteligence. Pomemben del nedavnih raziskav se osredotoča na tveganja, povezana z usposabljanjem modelovkjer pridejo v poštev ogromne podatkovne baze, ki se uporabljajo za učenje teh orodij govorjenja, pisanja in sklepanja.
Neodvisne študije so pokazale, da je mogoče manipulirati z obsežnimi jezikovnimi modeli kontaminacija zelo majhnega deleža učnih podatkov: približno 250 poškodovanih dokumentov bi bilo dovolj za uvedbo pristranskosti, zadnjih vrat ali nepričakovanega vedenja, tudi v najsodobnejših sistemih.
Presenetljivo je, da se ta prag z velikostjo modela ne povečuje bistveno, kar krši intuicijo, da "Večje samodejno pomeni bolj robustno"V praksi so lahko tako lahke rešitve kot množični modeli ranljivi za to vrsto zastrupitve podatkov.
Če napad te vrste ostane neopažen, lahko povzroči kibernetski napadi, ki jih je težko sleditisaj bi se sam model obnašal na videz normalno, dokler ne bi bili izpolnjeni določeni skriti pogoji v podatkih, ki bi ga pokvarili.
V kombinaciji s tehnikami, kot je kontradiktorna poezija, manipulacija učnih podatkov odpira scenarij, v katerem Milijoni uporabnikov morda uporabljajo orodja s skritimi napakami.ne da bi se tega zavedali, kar predstavlja velik izziv za varnostne in upravljavske politike umetne inteligence.
Vse te ugotovitve kažejo, da varnost generativne umetne inteligence ni rešen problem, temveč nenehno razvijajoče se področje kjer se pojavljajo nove oblike napadov, ko se tehnologija vključuje v vedno več področij vsakdanjega življenja, od pisarniškega dela do javne uprave ali izobraževanja.
V tem kontekstu je »poezija za zavajanje umetne inteligence« postala zelo nazoren primer, kako lahko preprosta sprememba sloga razkrije sisteme, ki imajo na papirju stroge zaščitne protokole. Raziskava Icaro Labs in italijanskih univerz krepi idejo, da bodo takšni ukrepi potrebni. bolj ustvarjalne oceneNeprekinjeno stresno testiranje in tesno sodelovanje med razvijalci, strokovnjaki za kibernetsko varnost in regulatorji zagotavljata, da so jezikovni modeli, ki jih uporabljamo vsakodnevno, resnično sposobni prenesti tako tehnične napade kot tudi najbolj iznajdljive jezikovne trike.