Cum funcționează filigranul ChatGPT și de ce ar putea fi învins

ChatGPT de la OpenAI a introdus o modalitate de a crea automat conținut, dar planurile de a introduce o caracteristică de filigran pentru a fi ușor de detectat îi determină pe unii oameni. Acesta este modul în care funcționează filigranul ChatGPT și de ce poate exista o modalitate de a o învinge.

ChatGPT este un instrument incredibil de care editorii online, afiliații și SEO-ii îl iubesc și se tem în același timp.

Unii marketeri îl iubesc pentru că descoperă noi modalități de a-l folosi pentru a genera rezumate de conținut, schițe și articole complexe.

Editorii online se tem de perspectiva ca conținutul AI să inunde rezultatele căutării, înlocuind articolele de specialitate scrise de oameni.

În consecință, știrile despre o funcție de filigran care deblochează detectarea conținutului creat de ChatGPT sunt, de asemenea, anticipate cu anxietate și speranță.

Filigran criptografic

Un filigran este un marcaj semi-transparent (un logo sau text) care este încorporat într-o imagine. Filigranul semnalează cine este autorul original al lucrării.

Se vede în mare parte în fotografii și tot mai mult în videoclipuri.

Textul de filigranare în ChatGPT implică criptografie sub forma de încorporare a unui model de cuvinte, litere și semne de punctuație sub forma unui cod secret.

Scott Aaronson și ChatGPT Watermarking

Un informatician influent pe nume Scott Aaronson a fost angajat de OpenAI în iunie 2022 pentru a lucra la Siguranța și Alinierea AI.

Siguranța AI este un domeniu de cercetare preocupat de studierea modalităților în care AI ar putea aduce un rău oamenilor și de a crea modalități de a preveni acest tip de perturbare negativă.

Jurnalul științific Distill, cu autori afiliați OpenAI, definește AI Safety astfel:

„Obiectivul siguranței inteligenței artificiale (AI) pe termen lung este de a se asigura că sistemele avansate de inteligență artificială sunt aliniate în mod fiabil cu valorile umane – că fac în mod fiabil lucrurile pe care oamenii își doresc să le facă.”

Alinierea AI este domeniul inteligenței artificiale care se ocupă de a se asigura că IA este aliniată cu obiectivele vizate.

Un model de limbă mare (LLM) precum ChatGPT poate fi utilizat într-un mod care poate fi contrar obiectivelor alinării AI așa cum sunt definite de OpenAI, care este de a crea AI care să beneficieze omenirea.

În consecință, motivul pentru watermarking este acela de a preveni utilizarea greșită a AI într-un mod care dăunează umanității.

Aaronson a explicat motivul pentru marcarea ieșirii ChatGPT:

„Acest lucru ar putea fi util pentru prevenirea plagiatului academic, evident, dar și, de exemplu, generarea în masă a propagandei...”

Cum funcționează ChatGPT Watermarking?

Filigranul ChatGPT este un sistem care încorporează un model statistic, un cod, în alegerile de cuvinte și chiar semnele de punctuație.

Conținutul creat de inteligența artificială este generat cu un model destul de previzibil de alegere a cuvintelor.

Cuvintele scrise de oameni și AI urmează un model statistic.

Schimbarea tiparului cuvintelor utilizate în conținutul generat este o modalitate de a „filigrana” textul pentru a face mai ușor pentru un sistem să detecteze dacă acesta a fost produsul unui generator de text AI.

Trucul care face ca filigranul conținutului AI să fie nedetectabil este că distribuția cuvintelor are încă un aspect aleatoriu similar textului normal generat de AI.

Aceasta este denumită o distribuție pseudoaleatoare a cuvintelor.

Pseudorarea este o serie aleatorie statistic de cuvinte sau numere care nu sunt de fapt aleatoare.

Filigranul ChatGPT nu este utilizat în prezent. Cu toate acestea, Scott Aaronson de la OpenAI a declarat că este planificat.

În acest moment, ChatGPT este în previzualizări, ceea ce permite OpenAI să descopere „dezaliniere” prin utilizarea în lumea reală.

Se presupune că filigranul poate fi introdus într-o versiune finală a ChatGPT sau mai devreme.

Scott Aaronson a scris despre cum funcționează filigranul:

„Proiectul meu principal de până acum a fost un instrument de filigranare statistică a rezultatelor unui model text precum GPT.
Practic, ori de câte ori GPT generează un text lung, dorim să existe un semnal secret de neobservat în alegerile sale de cuvinte, pe care îl puteți folosi pentru a demonstra mai târziu că, da, acesta a venit de la GPT.”

Aaronson a explicat în continuare cum funcționează filigranul ChatGPT. Dar mai întâi, este important să înțelegem conceptul de tokenizare.

Tokenizarea este un pas care se întâmplă în procesarea limbajului natural, în care mașina preia cuvintele dintr-un document și le descompune în unități semantice precum cuvinte și propoziții.

Tokenizarea transformă textul într-o formă structurată care poate fi utilizată în învățarea automată.

Procesul de generare a textului este ca mașina să ghicească ce simbol urmează pe baza simbolului anterior.

Acest lucru se face cu o funcție matematică care determină probabilitatea care va fi următorul simbol, ceea ce se numește distribuție de probabilitate.

Ce cuvânt urmează este prezis, dar este aleatoriu.

Filigranul în sine este ceea ce Aaron descrie ca pseudoaleatoare, în sensul că există un motiv matematic pentru ca un anumit cuvânt sau semn de punctuație să fie acolo, dar este încă aleatoriu statistic.

Iată explicația tehnică a filigranului GPT:

„Pentru GPT, fiecare intrare și ieșire este un șir de jetoane, care ar putea fi cuvinte, dar și semne de punctuație, părți de cuvinte sau mai multe - există aproximativ 100.000 de jetoane în total.
În esență, GPT generează în mod constant o distribuție de probabilitate pentru următorul token de generat, condiționat de șirul de token-uri anterioare.
După ce rețeaua neuronală generează distribuția, serverul OpenAI eșantionează apoi un token în conformitate cu acea distribuție – sau o versiune modificată a distribuției, în funcție de un parametru numit „temperatură”.
Atâta timp cât temperatura este diferită de zero, totuși, de obicei va exista o oarecare aleatorie în alegerea următorului jeton: puteți rula din nou și din nou cu același prompt și să obțineți o completare diferită (adică, șir de jetonuri de ieșire) de fiecare dată .
Deci, pentru a filigrana, în loc să selectați următorul token aleatoriu, ideea va fi să-l selectați pseudoaleatoriu, folosind o funcție criptografică pseudoaleatoare, a cărei cheie este cunoscută doar de OpenAI.”

Filigranul pare complet natural celor care citesc textul, deoarece alegerea cuvintelor imită caracterul aleatoriu al tuturor celorlalte cuvinte.

Aceasta este explicația tehnică:

„Pentru a ilustra, în cazul special în care GPT avea o grămadă de jetoane posibile pe care le-a considerat la fel de probabile, ați putea alege pur și simplu orice simbol maximizat g. Alegerea ar părea uniform aleatorie pentru cineva care nu cunoștea cheia, dar cineva care cunoștea cheia ar putea mai târziu să însumeze g peste toate n-gramele și să vadă că era anormal de mare.”

Filigranul este o soluție care pune în primul rând confidențialitatea

Am văzut discuții pe rețelele de socializare în care unii oameni au sugerat că OpenAI ar putea păstra o evidență a fiecărei ieșiri pe care le generează și să le folosească pentru detectare.

Scott Aaronson confirmă că OpenAI ar putea face asta, dar că acest lucru ridică o problemă de confidențialitate. Posibila excepție este situația forțelor de ordine, despre care nu a detaliat.

Cum să detectezi ChatGPT sau GPT Watermarking

Ceva interesant care pare să nu fie încă bine cunoscut este că Scott Aaronson a remarcat că există o modalitate de a învinge filigranul.

Nu a spus că este posibil să învingi filigranul, a spus că poate fi învins.

„Acum, toate acestea pot fi învinse cu suficient efort.
De exemplu, dacă ați folosit o altă inteligență artificială pentru a parafraza rezultatul GPT - bine, bine, nu vom putea detecta asta.”

Se pare că filigranul poate fi învins, cel puțin în noiembrie, când au fost făcute declarațiile de mai sus.

Nu există nicio indicație că filigranul este în prezent utilizat. Dar atunci când intră în uz, este posibil să nu se știe dacă această lacună a fost închisă.

Citare

Citiți postarea pe blog a lui Scott Aaronson aici.