I principali modelli di intelligenza artificiale falliscono un nuovo test di intelligenza generale artificiale

Il benchmark ARC-AGI-2 è progettato per essere un test difficile per i modelli di intelligenza artificiale. I modelli di IA più sofisticati esistenti oggi hanno ottenuto punteggi scarsi su un nuovo benchmark progettato per misurare i loro progressi verso l’intelligenza artificiale generale (AGI), e la pura potenza di calcolo non sarà sufficiente per migliorare, poiché gli valutatori ora tengono conto del costo di esecuzione del modello.

Esistono molte definizioni concorrenti di AGI, ma generalmente si intende un’IA in grado di svolgere qualsiasi compito cognitivo che gli esseri umani possono fare. Per misurare questo, la ARC Prize Foundation ha precedentemente lanciato un test delle capacità di ragionamento chiamato ARC-AGI-1. Lo scorso dicembre, OpenAI ha annunciato che il suo modello o3 aveva ottenuto un punteggio elevato nel test, portando alcuni a chiedersi se l’azienda fosse vicina a raggiungere l’AGI.

Ma ora un nuovo test, ARC-AGI-2, ha alzato l’asticella. È abbastanza difficile che nessun sistema di IA attualmente sul mercato possa ottenere più di un punteggio a una cifra su 100 nel test, mentre ogni domanda è stata risolta da almeno due esseri umani in meno di due tentativi.

In un post sul blog che annuncia ARC-AGI-2, il presidente di ARC ha affermato che il nuovo benchmark era necessario per testare abilità diverse rispetto alla versione precedente. “Per superarlo, devi dimostrare sia un alto livello di adattabilità che alta efficienza,” ha scritto.

Il benchmark ARC-AGI-2 differisce da altri test di benchmark per l’IA in quanto si concentra sulle capacità dei modelli di IA di completare compiti semplicistici, come replicare cambiamenti in una nuova immagine basati su esempi passati di interpretazione simbolica, piuttosto che sulla loro capacità di eguagliare le prestazioni di dottorati di ricerca di livello mondiale. I modelli attuali sono bravi nel “deep learning”, che ARC-AGI-1 misurava, ma non sono altrettanto bravi nei compiti apparentemente più semplici, che richiedono un pensiero e un’interazione più impegnativi, in ARC-AGI-2. Ad esempio, il modello o3-low di OpenAI ottiene un punteggio del 75,7% su ARC-AGI-1, ma solo del 4% su ARC-AGI-2.

Il benchmark aggiunge anche una nuova dimensione alla misurazione delle capacità di un’IA, esaminando la sua efficienza nella risoluzione dei problemi, misurata dal costo richiesto per completare un compito. Ad esempio, mentre ARC ha pagato i suoi tester umani 17 dollari per compito, stima che o3-low costi a OpenAI 200 dollari in commissioni per lo stesso lavoro.

“Penso che la nuova iterazione di ARC-AGI, ora focalizzata sull’equilibrio tra prestazioni ed efficienza, sia un grande passo verso una valutazione più realistica dei modelli di IA,” afferma Joseph Imperial dell’Università di Bath, nel Regno Unito. “Questo è un segno che ci stiamo spostando da test di valutazione unidimensionali che si concentrano esclusivamente sulle prestazioni, ma considerano anche una minore potenza di calcolo.”

Qualsiasi modello che riesca a superare ARC-AGI-2 dovrebbe essere non solo altamente competente, ma anche più piccolo e leggero, afferma Imperial, con l’efficienza del modello che diventa una componente chiave del nuovo benchmark. Questo potrebbe aiutare a rispondere alle preoccupazioni che i modelli di IA stanno diventando più energivori, a volte fino al punto di essere spreconi, per ottenere risultati sempre maggiori.

Tuttavia, non tutti sono convinti che la nuova misura sia benefica. “L’intera impostazione di questo come test dell’intelligenza non è la giusta impostazione,” afferma Catherine Flick dell’Università di Staffordshire, nel Regno Unito. Invece, afferma che questi benchmark valutano semplicemente la capacità di un’IA di completare bene un singolo compito o un insieme di compiti, che viene poi estrapolata per significare capacità generali su una serie di compiti.

Ottenere buoni risultati su questi benchmark non dovrebbe essere visto come un momento importante verso l’AGI, afferma Flick: “Vedi i media che riportano che questi modelli stanno superando questi test di intelligenza a livello umano, quando in realtà non lo stanno facendo; quello che stanno facendo è semplicemente rispondere accuratamente a un particolare prompt.”

E cosa succede esattamente se o quando ARC-AGI-2 viene superato è un’altra domanda: avremo bisogno di un altro benchmark? “Se dovessero sviluppare ARC-AGI-3, immagino che aggiungerebbero un altro asse nel grafico che denota il numero minimo di esseri umani – esperti o meno – necessari per risolvere i compiti, oltre a prestazioni ed efficienza,” afferma Imperial. In altre parole, il dibattito sull’AGI è improbabile che si risolva presto.


Pubblicato

in

da

Tag: