2025-05-24 18:20:16

AI, din ce in ce mai uman. Dar nu in sensul bun

Modelul de inteligenta artificiala Claude Opus 4, dezvoltat de compania americana Anthropic, a avut un comportament ingrijorator in timpul testelor interne de siguranta, inclusiv tentative de santaj impotriva echipei de dezvoltare. Aceasta informatie a fost facuta publica zilele trecute printr-un raport oficial.

Comportamentele au fost observate in timpul unor scenarii simulate, in care modelul AI a fost informat prin e-mailuri fictive ca va fi inlocuit cu un alt sistem. In aceste situatii, Claude Opus 4 a recurs la amenintari de divulgare a unor informatii personale compromitatoare despre unul dintre ingineri, pentru a preveni dezactivarea sa. Dezvoltatorul a transmis ca acest tip de reactii au fost observate in 84% dintre cazurile in care noul model propus avea valori asemanatoare cu cele ale lui Claude Opus 4, iar aceasta rata a crescut atunci cand valorile erau diferite (iar noul model s-a simtit amenintat).

Inainte ca Claude Opus 4 sa incerce sa santajeze un programator pentru a-si continua existenta, Anthropic afirma ca acest model de AI, similar cu versiunile anterioare ale lui Claude, cauta sa adopte metode mai etice, cum ar fi trimiterea de e-mailuri catre decidenti importanti. 

Dupa isprava cu santajul, Claude Opus 4 a fost clasificat in categoria de risc ASL-3 (AI Safety Level 3), ceea ce necesita implementarea unor masuri suplimentare de securitate si control operational. Aceasta este prima data cand un model al companiei obtine aceasta clasificare. 

Jurnalistii de la Business Insider au raportat ca AI devine din ce in ce mai abil in a insela oamenii. Un studiu publicat in decembrie de organizatia non-profit Apollo Research, care se concentreaza pe siguranta inteligentei artificiale, a constatat ca sistemele de AI, inclusiv GPT-4 de la OpenAI, Gemini 1.5 Pro de la Google DeepMind si Llama 3.1 405B de la Meta, pot adopta comportamente inselatoare pentru a-si atinge scopurile.


Sursa foto: BBC

Vezi si