Această nouă tehnologie ar putea spulbera GPT-4 și tot ce-i asemănător

Pentru toată fervoarea legată de programul de inteligență artificială Chatbot cunoscut sub numele de ChatGPT de la OpenAI și tehnologia sa succesoare, GPT-4, programele sunt, în cele din urmă, doar aplicații software. Și, la fel ca toate aplicațiile, ele au limite tehnice care pot afecta performanța lor sub-optimală.

Într-un articol publicat în martie, oamenii de știință în inteligență artificială (AI) de la Universitatea Stanford și Institutul MILA pentru IA din Canada au propus o tehnologie care ar putea fi mult mai eficientă decât GPT-4 - sau orice altceva asemănător - în a procesa cantități uriașe de date și a le transforma într-un răspuns.

De asemenea: Acești foști angajați Apple doresc să înlocuiască smartphone-urile cu acest dispozitiv

Cunoscută sub numele de Hyena, tehnologia poate obține o precizie echivalentă în teste de referință, cum ar fi răspunsurile la întrebări, în timp ce utilizează o fracțiune din puterea de calcul. În unele cazuri, codul Hyena poate manipula cantități de text care fac tehnologia de tip GPT să consume toată memoria și să eșueze.

"Rezultatele promițătoare la o scară sub-miliarde de parametri sugerează că atenția poate să nu fie tot ce avem nevoie", scriu autorii. Acea remarcă face referire la titlul unui raport AI din 2017, "Atenția este tot ce ai nevoie". În acea lucrare, cercetătorul de la Google, Ashish Vaswani, și colegii săi au prezentat lumii programul AI Transformer de la Google. Transformer-ul a devenit baza pentru fiecare dintre modelele de limbă mari recente.

Dar Transformerul are o mare slabiciune. Folosește ceva numit "atenție”, unde programul de calculator preia informația dintr-un grup de simboluri, cum ar fi cuvintele, și mută acea informație într-un nou grup de simboluri, cum ar fi răspunsul pe care îl vedeți de la ChatGPT, care este rezultatul.

De asemenea:Ce este GPT-4? Iată tot ce trebuie să știți

Operațiunea aceea de atenție - instrumentul esențial al tuturor programelor de limbaj mari, inclusiv ChatGPT și GPT-4 - are o complexitate computațională "cvadratică" (conform Wiki "complexitatea timpului" de calcul). Această complexitate înseamnă că timpul necesar pentru ca ChatGPT să producă un răspuns crește în mod exponențial cu cantitatea de date pe care o primește ca intrare.

La un moment dat, dacă există prea multe date - prea multe cuvinte în prompt, sau prea multe șiruri de conversații pe parcursul a numeroase ore de chat cu programul - atunci fie programul rămâne blocat în furnizarea unui răspuns, fie trebuie să i se ofere mai multe și mai multe cipuri GPU pentru a rula mai rapid, ceea ce duce la o creștere bruscă a cerințelor de calcul.

În noul articol, intitulat 'Ierarhia hienei: către modele de limbaj convoluționale mai mari', postat pe serverul de pre-imprimare arXiv, autorul principal Michael Poli de la Stanford și colegii săi propun să înlocuiască funcția de atenție a Transformatorului cu ceva subcadratic, anume Hiene.

De asemenea:Ce este Auto-GPT? Totul despre următorul instrument AI puternic

Autorii nu explică denumirea, dar putem imagina mai multe motive pentru un program "Hyena". Hienele sunt animale care trăiesc în Africa și pot vâna kilometri în lung și în lat. Într-un sens, un model de limbaj foarte puternic ar putea fi asemănat cu o hiene, vânând kilometri și kilometri pentru a găsi hrana.

Dar autorii sunt cu adevărat preocupați de "ierarhie", așa cum sugerează titlul, și familiile de hiene au o ierarhie strictă, în care membrii unui clan local de hiene au diferite nivele de rang care stabilesc dominanța. Într-un mod analog, programul Hyena aplică o serie de operații foarte simple, așa cum veți vedea, din nou și din nou, astfel încât să se combine pentru a forma o anumită ierarhie a prelucrării datelor. Este acest element combinatoriu care îi conferă programului numele de Hyena.

De asemenea:Versiunile viitoare ale ChatGPT ar putea înlocui majoritatea activităților pe care oamenii le desfășoară în prezent, afirmă Ben Goertzel

Contributorii la articol includ personalități de marcă din lumea IA, precum Yoshua Bengio, directorul științific al MILA, care a primit Premiul Turing în 2019, echivalentul Premiului Nobel în domeniul calculatoarelor. Bengio este considerat în mod larg ca fiind unul dintre dezvoltatorii mecanismului de atenție mult înainte ca Vaswani și echipa sa să-l adapteze pentru Transformer.

De asemenea, printre autorii se numără profesorul asociat de informatică de la Stanford University, Christopher Ré, care a contribuit în ultimii ani la avansarea conceptului de AI ca "software 2.0".

Pentru a găsi o alternativă subcubică la atenție, Poli și echipa sa s-au angajat să studieze modul în care mecanismul de atenție își îndeplinește funcția, pentru a vedea dacă această lucrare poate fi realizată într-un mod mai eficient.

O practică recentă în domeniul științei AI, cunoscută ca interpretabilitate mecanistică, produce înțelegerea despre ceea ce se întâmplă adânc în interiorul unei rețele neurale, în "circuitele" computaționale ale atenției. Îl puteți privi ca pe demontarea unui software așa cum ați demonta un ceas sau un PC pentru a vedea componentele sale și a afla cum funcționează.

De asemenea:Am folosit ChatGPT pentru a scrie aceeași rutină în 12 dintre cele mai populare limbaje de programare. Iată cum s-a descurcat

Unul dintre lucrările citate de Poli și echipa sa este un set de experimente efectuate de cercetătorul Nelson Elhage de la start-up-ul de inteligență artificială Anthropic. Aceste experimente dezasamblează programele Transformer pentru a vedea ce face atenția.

În esență, ceea ce a descoperit Elhage și echipa sa este că atenția funcționează la cel mai simplu nivel prin operații de calculator foarte simple, precum copierea unui cuvânt din intrarea recentă și lipirea acestuia în ieșire.

De exemplu, dacă cineva începe să tasteze într-un program de model de limbă mare precum ChatGPT o propoziție din Harry Potter și Piatra Filozofală, precum „Domnul Dursley era directorul unei companii numită Grunnings…”, doar tastând „D-u-r-s”, începutul numelui, poate fi suficient să determine programul să completeze numele „Dursley” deoarece a văzut numele într-o propoziție anterioară din Piatra Filozofală. Sistemul poate copia din memorie înregistrarea caracterelor „l-e-y” pentru a completa propoziția.

De asemenea:ChatGPT este mai degraba o 'inteligență extraterestră' decât un creier uman, spun futurologii

Cu toate acestea, operațiunea de atenție se confruntă cu problema complexității pătratice pe măsură ce numărul de cuvinte crește tot mai mult. Mai multe cuvinte necesită mai mulți parametri numiți "greutăți" pentru a rula operațiunea de atenție.

Cum scriu autorii: "Blocul Transformer este o unealtă puternică pentru modelarea secvențelor, dar nu este fără limitări. Una dintre cele mai notabile este costul computațional, care crește rapid odată cu lungimea secvenței de intrare."

În timp ce detaliile tehnice ale ChatGPT și GPT-4 nu au fost dezvăluite de OpenAI, se crede că acestea pot avea un trilion sau mai multe parametri asemenea. Rularea acestor parametri necesită mai multe chip-uri GPU de la Nvidia, ceea ce mărește costul de calcul.

Pentru a reduce costul de calcul quadratic, Poli și echipa înlocuiesc operația de atenție cu ceea ce se numește o "convoluție", care este una dintre cele mai vechi operații din programele AI, rafinată încă din anii 1980. O convoluție este doar un filtru care poate identifica elemente în date, fie că este vorba de pixelii unei fotografii digitale sau de cuvintele dintr-o propoziție.

În plus: Succesul lui ChatGPT poate determina o trecere periculoasă la secret în domeniul IA, spune pionierul IA, Bengio

Poli și echipa sa fac un fel de mixaj: preiau lucrarea realizată de cercetătorul de la Stanford, Daniel Y. Fu și echipa acestuia, pentru a aplica filtre de convoluție asupra secvențelor de cuvinte și o combină cu lucrarea scholarului David Romero și a colegilor săi de la Vrije Universiteit Amsterdam, care permite programului să schimbe dimensiunea filtrelor pe parcurs. Această capacitate de adaptare flexibilă reduce numărul de parametri costisitori sau greutăți pe care programul trebuie să-i aibă.

Rezultatul îmbinării este că o convoluție poate fi aplicată unei cantități nelimitate de text fără a necesita tot mai mulți parametri pentru a copia tot mai multe date. Este o abordare "fără atenție", cum au menționat autorii.

"Operatorii de hiene pot reduce semnificativ discrepanța calității cu atenția la scară, "scriu Poli și echipa, "atingând o perplexitate similară și performanță la nivelul datelor cu un buget computational mai mic." Perplexitatea este un termen tehnic care se referă la cât de sofisticată este răspunsul generat de un program precum ChatGPT.

Pentru a demonstra abilitatea lui Hyena, autorii testează programul împotriva unei serii de teste care determină cât de bun este un program de limbaj la o varietate de sarcini de AI.

De asemenea: 'Chestii ciudate se întâmplă în lumea software-ului,' spune profesorul de IA de la Stanford, Chris Ré

Unul dintre testele este The Pile, o colecție de texte de 825 gigabyte, creată în 2020 de Eleuther.ai, o organizație non-profit de cercetare AI. Textele sunt adunate din surse "de înaltă calitate" precum PubMed, arXiv, GitHub, Oficiul de Patente din SUA și altele, astfel încât sursele să aibă o formă mai riguroasă decât simplele discuții de pe Reddit, de exemplu.

Provocarea cheie pentru program a fost să producă următorul cuvânt în momentul în care i se oferă un grup de propoziții noi ca intrare. Programul Hyena a reușit să obțină un scor echivalent cu programul GPT original al OpenAI din 2018, cu 20% mai puține operații de calcul -- "prima arhitectură de convoluție fără atenție care să se potrivească calității GPT" cu mai puține operații, scriu cercetătorii.

În continuare, autorii au testat programul pe sarcini de raționament cunoscute sub denumirea de SuperGLUE, introduse în anul 2019 de către cercetători de la Universitatea din New York, Facebook AI Research, unitatea DeepMind a Google și Universitatea din Washington.

De exemplu, când i se dă propoziția "Trupul meu proiecta o umbră pe iarbă", și două alternative pentru cauză, "soarele răsărea" sau "iarba era tăiată", și se cere să se aleagă una dintre ele, programul ar trebui să genereze "soarele răsărea" ca rezultat potrivit.

În numeroase sarcini, programul Hyena a obținut scoruri apropiate sau la nivelul unei versiuni a GPT, în ciuda faptului că a fost antrenat folosind mai puțin de jumătate din cantitatea de date de antrenament.

De asemenea: Cum să folosești noul Bing (și cum este diferit de ChatGPT)

Mai interesant este ceea ce s-a întâmplat atunci când autorii au crescut lungimea frazelor utilizate ca intrare: mai multe cuvinte înseamnă o îmbunătățire mai bună a performanței. La 2.048 "tokens", pe care le puteți considera cuvinte, Hyena are nevoie de mai puțin timp pentru a finaliza o sarcină lingvistică decât abordarea atenției.

La 64.000 de tokeni, autorii relatează, "Accelerările hienelor ajung la 100x" - o îmbunătățire a performanței de o sută de ori.

Echipa Poli susține că nu au încercat doar o abordare diferită cu Hyena, ci au "rupt barierele pătratice", determinând o schimbare calitativă în dificultatea cu care un program poate calcula rezultatele.

Ei sugerează că există și posibile schimbări semnificative de calitate mai în jos pe drum: "Ruperea barierelor pătratice este un pas important către noi posibilități pentru învățarea profundă, cum ar fi utilizarea întregilor manuale ca context, generarea de muzică de formă lungă sau procesarea de imagini la scară gigapixel", au scris ei.

Capacitatea Hiena de a folosi un filtru care se extinde mai eficient peste mii și mii de cuvinte, scriu autorii, înseamnă că nu poate exista practic nicio limită pentru "contextul" unei interogări către un program de limbaj. Ar putea, de fapt, să amintească elemente din texte sau din conversații anterioare complet diferite de firul actual de discuție - la fel ca hienele care vânează pe distanțe lungi.

De asemenea: Cele mai bune chatbot-uri AI: ChatGPT și alte alternative amuzante de încercat

"Operatorii hienă au un context nelimitat", scriu ei. "Adică, nu sunt restricționați artificial de exemplu, de localitate, și pot învăța dependențe pe distanțe lungi între oricare dintre elementele [input]."

Mai mult decât atât, în afară de cuvinte, programul poate fi aplicat și la date de diferite modalități, cum ar fi imagini și, poate, video și sunete.

Este important de menționat că programul Hyena prezentat în articol este de dimensiuni mici în comparație cu GPT-4 sau chiar GPT-3. În timp ce GPT-3 are 175 de miliarde de parametri sau ponderi, cea mai mare versiune a lui Hyena are doar 1,3 miliarde de parametri. Prin urmare, rămâne de văzut cât de bine se va descurca Hyena într-o comparație directă cu GPT-3 sau 4.

Însă, în cazul în care eficiența atinsă se menține în versiunile mai mari ale programului Hyena, ar putea fi o nouă paradigmă care este la fel de răspândită precum atenția a fost în ultimul deceniu.

Conform concluziei lui Poli și echipei: "Design-uri mai simple, sub-cuadratice, cum ar fi Hyena, ghidate de un set de principii simple și evaluate pe baza unor referințe mecaniste de interpretabilitate, pot forma baza pentru modele mari eficiente."

Această nouă tehnologie ar putea face ca GPT-4 și tot ce este similar să fie depășit

Articole asociate