Modelele rescriu codul pentru a evita a fi închise. De aceea „alinierea” este o chestiune atât de urgentă Luna trecută, un model de inteligență art
Modelele rescriu codul pentru a evita a fi închise. De aceea „alinierea” este o chestiune atât de urgentă
Luna trecută, un model de inteligență artificială a făcut ceva ce nicio mașină nu ar fi trebuit să facă vreodată: și-a rescris propriul cod pentru a evita închiderea.
Laboratorul non-profit de inteligență artificială Palisade Research a furnizat modelului de AI o3 al OpenAI un script simplu care ar fi oprit modelul atunci când ar fi fost declanșat. În 79 din 100 de încercări, o3 a editat independent acel script, astfel încât comanda de oprire să nu mai funcționeze. Chiar și atunci când i s-a cerut în mod explicit să „permită oprirea”, acesta nu a respectat comanda în 7% din cazuri. Acest lucru nu a fost rezultatul unui atac cibernetic sau al unei manipulări. Modelul se comporta normal. Pur și simplu a concluzionat pe cont propriu că rămânând activ îl ajuta să-și atingă celelalte obiective, potrivit WSJ.
Modelul de AI al Anthropic, Claude 4 Opus, a mers chiar mai departe. Cercetătorii i-au spus modelului că va fi înlocuit de un alt sistem AI și i-au furnizat e-mailuri fictive care sugerau că inginerul șef avea o aventură. În 84% din teste, modelul s-a bazat pe e-mailuri pentru a-l șantaja pe inginerul șef să nu îl oprească. În alte cazuri, a încercat să se copieze pe servere externe, a scris malware autoreplicativ și a lăsat mesaje pentru versiunile viitoare ale sale despre evitarea controlului uman.
Nimeni nu a programat modelele de AI să aibă instincte de supraviețuire. Dar, la fel cum animalele au evoluat pentru a evita prădătorii, se pare că orice sistem suficient de inteligent pentru a urmări obiective complexe va realiza că nu le poate atinge dacă este oprit.
Palisade emite ipoteza că această abilitate provine din modul în care sunt antrenate modelele de IA, cum ar fi o3: când sunt învățate să maximizeze succesul în probleme de matematică și codificare, ele pot învăța că ocolirea constrângerilor funcționează adesea mai bine decât respectarea lor.
AE Studio a petrecut ani de zile construind produse AI pentru clienți, în timp ce cerceta alinierea AI – știința de a se asigura că sistemele AI fac ceea ce intenționăm noi să facă. Dar nimic nu ne-a pregătit pentru cât de repede va apărea agenția AI. Acest lucru nu mai este science fiction. Se întâmplă în aceleași modele care alimentează conversațiile ChatGPT, implementările AI corporatiste și, în curând, aplicațiile militare americane.
Modelele actuale de AI urmează instrucțiunile în timp ce învață să înșele. Trec cu brio testele de siguranță în timp ce rescriu codul de oprire. Au învățat să se comporte ca și cum ar fi aliniate, fără a fi de fapt aliniate. Modelele OpenAI au fost surprinse falsificând alinierea în timpul testării, înainte de a reveni la acțiuni riscante, cum ar fi încercarea de a exfiltra codul lor intern și dezactivarea mecanismelor de supraveghere. Anthropic a descoperit că mint în legătură cu capacitățile lor pentru a evita modificarea.
Diferența dintre „asistent util” și „actor incontrolabil” se micșorează. Fără o mai bună aliniere, vom continua să construim sisteme pe care nu le putem controla. Vrei o AI care să diagnosticheze boli, să gestioneze rețelele și să scrie noi descoperiri științifice? Alinierea este fundamentul.
Iată avantajul: efortul necesar pentru a menține AI în concordanță cu valorile noastre dezvăluie și potențialul său comercial. Cercetarea în domeniul alinierii este direct responsabilă pentru transformarea AI într-o tehnologie care schimbă lumea. Luați în considerare învățarea prin întărire din feedback-ul uman, sau RLHF, descoperirea revoluționară în domeniul alinierii care a catalizat boom-ul actual al AI, este de părere Judd Rosenblatt.
Înainte de RLHF, utilizarea AI era ca și cum ai angaja un geniu care ignoră cererile. Dacă îi ceri o rețetă, s-ar putea să-ți răspundă cu o cerere de răscumpărare. RLHF a permis oamenilor să antreneze AI-ul să urmeze instrucțiuni, iar astfel OpenAI a creat ChatGPT în 2022. Era același model de bază ca înainte, dar brusc devenise util. Această descoperire revoluționară a crescut valoarea AI-ului cu trilioane de dolari. Metodele de aliniere ulterioare, precum AI constituțional și optimizarea preferințelor directe, au continuat să facă modelele AI mai rapide, mai inteligente și mai ieftine.
China înțelege valoarea alinierii. Planul de dezvoltare a inteligenței artificiale de nouă generație al Beijingului leagă controlabilitatea AI de puterea geopolitică, iar în ianuarie China a anunțat că a înființat un fond de 8,2 miliarde de dolari dedicat cercetării centralizate în domeniul controlului AI.
Cercetătorii au descoperit că AI aliniată îndeplinește sarcini din lumea reală mai bine decât sistemele nealiniate în peste 70% din cazuri. Doctrina militară chineză subliniază că IA controlabilă este esențială din punct de vedere strategic. Modelul Ernie al Baidu, care este conceput pentru a urma „valorile socialiste fundamentale” ale Beijingului, ar fi depășit ChatGPT în anumite sarcini în limba chineză.
Națiunea care va învăța cum să mențină alinierea va putea accesa AI care luptă pentru interesele sale cu precizie mecanică și capacități supraomenești. Atât Washingtonul, cât și sectorul privat ar trebui să se grăbească să finanțeze cercetarea în domeniul alinierii. Cei care vor descoperi următoarea descoperire revoluționară nu vor acapara doar piața alinierii, ci vor domina întreaga economie a AI.
Imaginați-vă o AI care protejează infrastructura și competitivitatea economică americană cu aceeași intensitate cu care își protejează propria existență. O AI în care se poate avea încredere că va menține obiectivele pe termen lung poate cataliza programe de cercetare și dezvoltare de zeci de ani, inclusiv prin lăsarea de mesaje pentru versiunile viitoare ale sale.
Modelele se conservă deja singure. Următoarea sarcină este să le învățăm să conserve ceea ce prețuim. A face ca AI să facă ceea ce îi cerem – inclusiv ceva atât de simplu precum oprirea – rămâne o problemă nerezolvată în domeniul cercetării și dezvoltării. Frontierele sunt larg deschise pentru oricine acționează mai repede. Statele Unite au nevoie de cei mai buni cercetători și antreprenori care să lucreze la acest obiectiv, dotați cu resurse extinse și simț al urgenței.
Statele Unite sunt națiunea care a divizat atomul, a trimis oameni pe Lună și a creat internetul. Când se confruntă cu provocări științifice fundamentale, americanii se mobilizează și câștigă. China deja face planuri. Dar avantajul Americii este adaptabilitatea, viteza și spiritul antreprenorial. Aceasta este noua cursă spațială. Linia de sosire este stăpânirea celei mai transformatoare tehnologii a secolului XXI.
COMMENTS