ChatGPT sta peggiorando nel tempo e non migliorando. Ecco la prova

Another ICT Guy

ChatGPT sta peggiorando nel tempo e non migliorando. Ecco la prova

ChatGPT è esploso sulla scena alla fine dello scorso anno, abbagliando le persone con le sue capacità di conversazione simili a quelle umane riuscendo dove altri avevano finora fallito. La rincorsa a non perdere quello che sembra essere il nuovo treno delle novità tecnologiche è tuttora in corso e sono davvero tante le realtà che si stanno affacciando più o meno velocemente e più o meno bene a questa nuova era tecnologica che, con ogni probabilità, invaderà il nostro quotidiano più di quanto non lo stia già facendo oggi. Secondo un nuovo studio però, le abilità del principale del bot di intelligenza artificiale ChatGPT potrebbero effettivamente essere in declino.

ChatGPT in crisi di qualità?

I ricercatori di Stanford e UC Berkeley hanno analizzato sistematicamente diverse versioni di ChatGPT da marzo e giugno 2022 e hanno sviluppato rigorosi benchmark per valutare la competenza del modello nelle attività di matematica, codifica e ragionamento visivo. Spoiler: i risultati delle prestazioni di ChatGPT nel tempo non sono stati buoni.

Sì, perché i test hanno rivelato un sorprendente calo delle prestazioni tra le versioni. In una sfida matematica per determinare i numeri primi, ChatGPT ha risolto correttamente 488 domande su 500 a marzo, con una precisione del 97,6%. Tuttavia, a giugno, nella sua nuova versione di ChatGPT è riuscita a rispondere correttamente solo a 12 domande, scendendo al 2,4% di precisione. Un calo decisamente importante e marcato nelle capacità di codifica del software del chatbot che ha dicerto allarmato gli studiosi.

“Per GPT-4, la percentuale di generazioni eseguibili direttamente è scesa dal 52,0% di marzo al 10,0% di giugno”, ha rilevato la ricerca. Questi risultati sono stati ottenuti utilizzando la versione pura dei modelli, il che significa che non sono stati coinvolti plug-in dell’interprete di codice che avrebbero potuto alterare la cosa. Per valutare i risultati, i ricercatori hanno sfruttato i suggerimenti visivi del set di dati Abstract Reasoning Corpus (ARC). Anche qui è stato osservabile un calo. “GPT-4 a giugno ha commesso errori su query per le quali era corretto a marzo”, si legge nello studio.

Cosa potrebbe spiegare l’apparente downgrade di ChatGPT dopo pochi mesi? I ricercatori ipotizzano che possa essere un effetto collaterale delle ottimizzazioni apportate da OpenAI nelle ultime versioni. In questo, gli esperti, vedono anche una possibile causa nelle modifiche introdotte per impedire a ChatGPT di rispondere a domande pericolose. Tuttavia, questo allineamento alla sicurezza potrebbe compromettere l’utilità di ChatGPT per altre attività e i ricercatori hanno scoperto anche che il modello ora tende a fornire risposte prolisse e indirette invece di risposte chiare.

“GPT-4 sta peggiorando nel tempo, non migliorando”ha dichiarato l’esperto di intelligenza artificiale Santiago Valderrama su Twitter. Valderrama ha anche sollevato la possibilità che una combinazione di modelli “più economica e veloce” possa aver sostituito l’architettura ChatGPT originale. “Le voci suggeriscono che stiano utilizzando diversi modelli GPT-4 più piccoli e specializzati che agiscono in modo simile a un modello di grandi dimensioni ma sono meno costosi” questa l’ipotesi che potrebbe accelerare le risposte per gli utenti ma ridurre la competenza.

Un altro esperto, il Dr. Jim Fan ha anche condiviso le sue intuizioni su un thread di Twitter: “Sfortunatamente, una maggiore sicurezza in genere viene a scapito di una minore utilità”, ha scritto, dicendo che stava cercando di dare un senso ai risultati collegandoli al modo in cui OpenAI perfeziona i suoi modelli. “La mia ipotesi (nessuna prova, solo speculazione) è che OpenAI abbia dedicato la maggior parte degli sforzi alla lobotomia da marzo a giugno e non abbia avuto il tempo di recuperare completamente le altre funzionalità che contano”. Fan sostiene che potrebbero essere entrati in gioco altri fattori, vale a dire gli sforzi di riduzione dei costi, l’introduzione di avvertenze e dichiarazioni di non responsabilità che potrebbero aver “smorzato” il modello e la mancanza di un feedback più ampio da parte della comunità.

Sebbene siano giustificati test più completi, i risultati sono in linea con le frustrazioni espresse dagli utenti per il declino della coerenza nei risultati un tempo eloquenti di ChatGPT. Come possiamo evitare un ulteriore deterioramento? Alcuni appassionati hanno sostenuto modelli open source come LLaMA di Meta che consentono il debug della comunità. Il benchmarking continuo per rilevare le regressioni in anticipo è fondamentale.

Per ora, i fan di ChatGPT potrebbero dover moderare le loro aspettative. La selvaggia macchina generatrice di idee che molti hanno incontrato per la prima volta sembra oggi più addomesticata e forse meno brillante. E chissà se il declino legato all’età sia inevitabile anche per le celebrità dell’IA?

Fonte: http://feeds.hwupgrade.it/

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *