OpenAI’s gigantul GPT-3 sugerează limitele modelelor de limbaj pentru AI

Acum mai bine de un an, OpenAI, o companie de inteligență artificială cu sediul în San Francisco, a uimit lumea prin prezentarea unei creșteri spectaculoase în ceea ce părea a fi puterea computerelor de a forma propoziții în limbaj natural și chiar de a rezolva întrebări, precum completarea unei propoziții și formularea de pasaje lungi de text care păreau destul de umane pentru oameni.

Cea mai recentă lucrare a acelei echipe arată cât de matură este gândirea OpenAI în anumite privințe. GPT-3, așa cum este numită cea mai nouă creație, a apărut săptămâna trecută, cu mai multe funcții și dotări, create de aceiași autori ca și versiunea anterioară, inclusiv Alec Radford și Ilya Sutskever, împreună cu câțiva colaboratori suplimentari, inclusiv cercetători de la Universitatea Johns Hopkins.

Acesta este acum un adevărat model de limbaj monstru, după cum este numit, care ingerează de două ori mai mult text decât predecesorul său.

Dar în cadrul acelei manevre de mai-mare-este-mai-bună, echipa OpenAI pare să abordeze unele adevăruri mai profunde, asemenea modului în care dr. David Bowman a abordat limitele cunoașterii la sfârșitul filmului 2001.

Îngropată în secțiunea de încheiere de 72 de pagini a lucrării Language Models are Few-Shot Learners, postată săptămâna trecută pe serverul pre-print arXiv, se află o recunoaștere destul de remarcabilă.

"O limitare mai fundamentală a abordării generale descrise în acest articol - escaladarea oricărui model asemănător modelului LM, fie că e autoregresiv sau bidirecțional - este că în cele din urmă s-ar putea să ajungă (sau să fi ajuns deja) la limitele obiectivului de pregătire prealabilă", scriu autorii.

Ceea ce spun autorii este că construirea unei rețele neuronale care doar prezice probabilitățile următoarei cuvinte într-o propoziție sau frază poate avea limitele sale. Doar făcând-o tot mai puternică și umplând-o cu tot mai mult text poate nu va da rezultate mai bune. Aceasta este o recunoaștere semnificativă într-un articol care în mare parte celebrează realizarea de a investi mai multă putere de calcul în rezolvarea unei probleme.

Pentru a înțelege de ce concluzia autorilor este atât de semnificativă, să ne uităm la cum am ajuns aici. Istoria lucrării OpenAI în domeniul limbajului a făcut parte din istoria unei progrese constante a unui tip de abordare, cu succes crescând pe măsură ce tehnologia devenea tot mai mare și mai mare și mai mare.

Originalul GPT și GPT-2 sunt ambele adaptări ale ceea ce se numește un Transformator, o invenție pionierată la Google în 2017. Transformatorul utilizează o funcție numită atenție pentru a calcula probabilitatea ca un cuvânt să apară dat fiind cuvintele înconjurătoare. OpenAI a provocat controversă acum un an când a declarat că nu va elibera sursa de cod pentru cea mai mare versiune a GPT-2, deoarece, a spus, acel cod ar putea ajunge în mâinile greșite și ar putea fi abuzat pentru a dezinforma oamenii cu lucruri precum știri false.

Noul articol duce GPT la un nivel următor prin faptul că îl face și mai mare. Cea mai mare versiune a lui GPT-2, cea care nu a fost postată în formă sursă, avea 1,5 miliarde de parametri. GPT-3 are 175 de miliarde de parametri. Un parametru este o calculare într-o rețea neurală care aplică o greutate mai mare sau mai mică asupra unui aspect al datelor, pentru a da acel aspect o importanță mai mare sau mai mică în calculul global al datelor. Sunt aceste greutăți care dau formă datelor și dau rețelei neurale o perspectivă învățată asupra datelor.

Cresterea greutatilor in timp a dus la rezultate uimitoare la testele de referinta ale familiei de programe GPT si ale altor derivate ale Transformatorului mari, cum ar fi BERT de la Google, rezultate care au fost constant impresionante.

Nu contează că multe persoane au remarcat că niciunul dintre aceste modele de limbaj nu pare să înțeleagă limba într-un mod semnificativ. Ele sunt foarte bune la teste, și asta contează pentru ceva.

Versiunea cea mai recentă arată din nou progres cantitativ. La fel ca GPT-2 și alte programe bazate pe Transformator, GPT-3 este antrenat pe setul de date Common Crawl, un corpus de aproape un trilion de cuvinte de texte extrase de pe web. "Setul de date și dimensiunea modelului sunt de aproximativ două ordine de mărime mai mari decât cele utilizate pentru GPT-2," scriu autorii.

GPT-3 cu 175 de miliarde de parametri este capabil să realizeze ceea ce autorii descriu ca fiind "meta-învățare". Meta-învățarea înseamnă că rețeaua neurală GPT nu este reantrenată pentru a îndeplini o sarcină precum completarea unei propoziții. Dacă i se oferă un exemplu de sarcină, cum ar fi o propoziție incompletă și propoziția completată, GPT-3 va proceda să completeze orice propoziție incompletă i se oferă.

GPT-3 este capabil să învețe cum să execute o sarcină cu o singură instrucțiune, mai bine, în unele cazuri, decât versiunile Transformer care au fost ajustate, așa să zicem, să execute în mod specific doar acea sarcină. Prin urmare, GPT-3 este triumful unei generalități superioare. Doar hrănești cu o cantitate enormă de text până ce greutățile sale sunt ideale și poate continua să se descurce destul de bine într-un număr de sarcini specifice fără a mai necesita dezvoltare ulterioară.

Aici vine momentul în care povestea ajunge la un deznodământ remarcabil în noul articol. După ce enumeră rezultatele impresionante ale GPT-3 în sarcini de limbaj, de la completarea propozițiilor la deducerea înțelesului logic al afirmațiilor și traducerea între limbi, autorii notează punctele vulnerabile.

"În ciuda îmbunătățirilor semnificative cantitative și calitative ale GPT-3, în special în comparație cu predecesorul său direct GPT-2, acesta încă prezintă slăbiciuni notabile."

Aceste slăbiciuni includ incapacitatea de a atinge o precizie semnificativă în ceea ce se numește NLI adversarial. NLI, sau deducerea limbajului natural, este un test în care programul trebuie să determine relația dintre două propoziții. Cercetătorii de la Facebook și University of North Carolina au introdus o versiune adversarială, în care oamenii creează perechi de propoziții dificile pentru calculator de a rezolva.

GPT-3 face „puțin mai bine decât întâmplarea” la lucruri precum NLI Adversar, scriu autorii. Mai rău, având sporit puterea de procesare a sistemului la 175 de miliarde de ponderi, autorii nu sunt exact siguri de ce le-a lipsit în unele sarcini.

La aceasta concluzie ajung atunci când realizează că, citat mai sus, poate că pur și simplu hrănirea unei corpurii de text enormă într-o mașină gigant nu este răspunsul final.

Mai surprinzătoare este următoarea observație. Întreaga practică de a încerca să prezici ce se va întâmpla cu limba poate fi o abordare greșită, scriu autorii. Ar putea să vizeze într-un loc greșit.

"Cu obiectivele auto-supravegheate, specificarea sarcinii se bazează pe transformarea sarcinii dorite într-un problemă de predicție", scriu ei, "în timp ce, în cele din urmă, sistemele de limbaj utile (de exemplu asistenții virtuali) ar putea fi considerate mai degrabă că acționează în direcția unui scop decât doar a prezice."

Autorii lasă pentru altă dată să specifice cum vor aborda această potențială nouă direcție fascinantă.

În ciuda realizării că mai mare nu înseamnă în mod necesar mai bun, rezultatele îmbunătățite ale GPT-3 în multe sarcini vor alimenta, nu vor diminua, dorința de rețele neuronale din ce în ce mai mari. Cu 175 miliarde de parametri, GPT-3 este regele rețelelor neuronale mari, pentru moment. O prezentare în aprilie a companiei de chip-uri AI Tenstorrent a descris viitoare rețele neuronale cu peste un trilion de parametri.

Pentru o mare parte a comunității de învățare automată, modelarea limbajului tot mai mare va rămâne forma cea mai avansată.

Gigantul GPT-3 al OpenAI sugerează limitele modelelor de limbaj pentru IA

Articole asociate