OpenAI GPT-4 Vine în mijlocul lunii martie 2023

CTO-ul Microsoft Germania, Andreas Braun, a confirmat că GPT-4 va fi lansat într-o săptămână de la data de 9 martie 2023 și că va fi multimodal. Inteligența artificială multimodală înseamnă că va putea funcționa cu mai multe tipuri de intrări, cum ar fi video, imagini și sunet.

Actualizare: GPT-4 Lansat pe 14 martie 2023

OpenAI a lansat GPT-4 pe 14 martie 2023. Este un model multimodal care acceptă prompt-uri de imagine și text.

Modal este o frază utilizată în învățarea automată pentru a denota forme de intrare precum textul, dar și simțurile precum sunetul, vizualul, mirosul, etc.

Anunțul OpenAI a descris amploarea progreselor GPT-4:

"...în timp ce este mai puțin capabil decât oamenii în multe scenarii în viața reală, demonstrează performanțe la nivel uman pe diferite benchmarkuri profesionale și academice.

De exemplu, trece examenul simulat pentru baroul cu un scor în jurul valorii de 10% dintre cei mai buni candidați; în contrast, scorul lui GPT-3.5 a fost în jurul valorii de 10% dintre cei mai slabi candidați."

Am petrecut 6 luni aliniind iterativ GPT-4 folosind lecții învățate din programul nostru de testare adversarială, precum și din ChatGPT, rezultând cele mai bune rezultate ale noastre până acum (deși departe de perfecțiune) în ceea ce privește obiectivitatea faptelor, orientarea și refuzul de a se îndepărta de la parametrii de siguranță."

Modele de limbă mari multimodale

Marele lucru pe care îl putem înțelege din acest anunț este că GPT-4 este multimodal (conform previziunii SEJ din ianuarie 2023).

Modalitatea reprezintă tipul de intrare cu care se ocupă (în acest caz) un model de limbaj extins.

Multimodalitatea poate include textul, vorbirea, imaginile și videoclipurile.

GPT-3 și GPT-3.5 operau doar într-o singură modalitate, text.

Potrivit raportului de știri german, GPT-4 ar putea opera în cel puțin patru modalități: imagini, sunet (auditiv), text și video.

Dr. Andreas Braun, CTO Microsoft Germany este citat:

"Vom introduce GPT-4 săptămâna viitoare, acolo vom avea modele multimodale care vor oferi posibilități complet diferite - de exemplu videoclipuri..."

Raportarea a fost lipsită de detalii pentru GPT-4, deci nu este clar dacă ceea ce s-a împărtășit despre multimodalitate a fost specific pentru GPT-4 sau doar în general.

Directorul strategiei de afaceri Microsoft, Holger Kenn, a explicat multimodalităţile, dar raportarea a fost neclară dacă se referea la multimodalitatea GPT-4 sau la multimodalitatea în general.

Consider că referirile sale la multimodalitate au fost specifice pentru GPT-4.

Buletinul de știri comunică:

„Kenn a explicat despre ce înseamnă IA multimodală, care poate traduce textul nu numai în imagini, ci și în muzică și video.”

Un alt fapt interesant este că Microsoft lucrează la „metrici de încredere” pentru a fundamenta IA lor cu fapte și a o face mai fiabilă.

Microsoft Kosmos-1

Ceva ce pare că a fost subraportat în Statele Unite este faptul că Microsoft a lansat un model de limbaj multimodal numit Kosmos-1 la începutul lunii martie 2023.

Potrivit relatărilor de pe site-ul de știri german, Heise.de:

"...echipa a supus modelul pre-antrenat la diverse teste, obținând rezultate bune în clasificarea imaginilor, răspunsul la întrebări despre conținutul imaginilor, etichetarea automată a imaginilor, recunoașterea textului optic și sarcini de generare a discursului."

…Raționamentul vizual, adică trageri de concluzii despre imagini fără a utiliza limbajul ca etapă intermediară, pare a fi cheia aici…”

Kosmos-1 este un modal multimodal care integrează modalitățile de text și imagini.

GPT-4 merge mai multe funcționalități decât Kosmos-1, deoarece adaugă o a treia modalitate, video, și pare să includă și modalitatea sunetului.

Funcționează în mai multe limbi

GPT-4 pare să funcționeze în toate limbile. Este descris ca putând primi o întrebare în germană și răspunde în italiană.

Asta este un exemplu destul de ciudat, pentru că cine ar pune o întrebare în germană și ar vrea să primească un răspuns în italiană?

Aceasta este ceea ce a fost confirmat:

„...tehnologia a avansat atât de mult încât funcționează practic „în toate limbile”: poți pune o întrebare în germană și poți primi un răspuns în italiană.

Cu multimodalitatea, Microsoft(-OpenAI) va ‘face modelele cuprinzătoare’.”

Eu cred că esența inovației este că acest model depășește barierele lingvistice cu abilitatea sa de a extrage cunoștințe din diferite limbi. Astfel, dacă răspunsul se găsește în limba italiană, modelul va ști și va putea furniza răspunsul în limba în care a fost formulată întrebarea.

Aceasta ar face-o similară cu obiectivul Inteligenței Artificiale multimodale a Google, numită MUM. Se spune că MUM poate oferi răspunsuri în limba engleză pentru datele care există doar în altă limbă, precum limba japoneză.

Aplicații GPT-4

Nu există niciun anunț în prezent despre locul în care va apărea GPT-4. Dar Azure-OpenAI a fost menționat în mod explicit.

Google se luptă să recupereze teren în fața Microsoft prin integrarea unei tehnologii concurente în propriul său motor de căutare. Această dezvoltare accentuează în continuare percepția că Google rămâne în urmă și lipsit de leadership în materie de AI orientată către consumatori.

Google integrează deja AI în mai multe produse, cum ar fi Google Lens, Google Maps și alte zone cu care consumatorii interacționează cu Google. Abordarea aceasta constă în utilizarea AI ca tehnică de asistență, pentru a ajuta oamenii în sarcinile mici.

Modul în care Microsoft îl implementează este mai vizibil și, în consecință, captează toată atenția și întărește imaginea Google ca fiind în dificultate și luptând să țină pasul.

Citiți aici anunțul oficial de lansare al OpenAI GPT-4.

Citiți aici reportajul original în limba germană:

GPT-4 vine în săptămâna următoare - și va fi multimodal, susține Microsoft Germania

OpenAI GPT-4 sosește la mijlocul lunii martie 2023

Actualizare: GPT-4 Lansat pe 14 martie 2023

Modele de limbă mari multimodale

Microsoft Kosmos-1

Funcționează în mai multe limbi

Aplicații GPT-4

Articole asociate