L’intelligenza artificiale (IA) ha fatto molta strada nell’ultimo decennio, passando da uno spettacolo dell’orrore a una generazione di immagini piuttosto impressionante e una generazione di testi che spesso ottiene i fatti giusti e ti dice con sicurezza la risposta sbagliata quando non può. Tuttavia, ci sono parecchi compiti in cui gli esseri umani non possono essere battuti. Ad esempio, i generatori di immagini hanno difficoltà con le mani, i denti o un bicchiere di vino pieno fino all’orlo. Un compito in cui l’IA non riesce a superare i bambini piccoli è leggere l’ora.
“La capacità di interpretare e ragionare sul tempo a partire da input visivi è fondamentale per molte applicazioni del mondo reale, che vanno dalla pianificazione degli eventi ai sistemi autonomi,” scrivono gli autori di un nuovo studio, aggiungendo che nonostante ciò la ricerca sull’IA si è concentrata sul rilevamento degli oggetti, la cattura delle immagini e la comprensione delle scene. Mentre i ricercatori tentano di creare IA che possano comprendere geometrie complesse e matematica, i modelli lottano con le basi della comprensione di orologi e calendari. Può sembrare semplice per gli esseri umani, ma non per le macchine.
“In particolare, la lettura degli orologi analogici e la comprensione dei calendari coinvolgono passaggi cognitivi intricati: richiedono un riconoscimento visivo dettagliato (ad esempio, la posizione delle lancette dell’orologio, il layout delle celle del giorno) e un ragionamento numerico non banale (ad esempio, calcolare gli offset dei giorni),” spiegano gli autori dello studio. Nel nuovo articolo, che non è ancora stato sottoposto a revisione paritaria, i ricercatori dell’Università di Edimburgo nel Regno Unito hanno testato sette modelli di IA con alcune semplici domande relative al tempo. Queste includevano l’identificazione dell’ora da un’immagine di un orologio analogico e su orologi con diverse lancette e numeri, nonché una serie di compiti di ragionamento che coinvolgevano i calendari.
Le IA non hanno ottenuto buoni risultati nei compiti più basilari – leggere l’ora – ottenendo la risposta corretta meno di un quarto delle volte, e lottando soprattutto con orologi con numeri romani o lancette stilizzate. Ad esempio, mostrato un orologio che segna le 4:00, il Chat GPT-o1 di OpenAI ha indovinato “12:15”, mentre Claude-3.5-S ha tentato con “11:35”. Nei compiti basati sui calendari, i modelli hanno ottenuto risultati un po’ migliori, sbagliando le risposte circa il 20 percento delle volte. Qui sono state poste domande come “Quale giorno della settimana è Natale?” e “Quale giorno della settimana è il 100° dell’anno?”.
“I modelli a codice chiuso come GPT-o1 e Claude-3.5 superano quelli a codice aperto nelle festività popolari, riflettendo potenzialmente schemi memorizzati nei dati di addestramento,” spiega il team. “Tuttavia, l’accuratezza diminuisce sostanzialmente per le query meno conosciute o aritmeticamente impegnative (ad esempio, il 153° giorno), indicando che le prestazioni non si trasferiscono bene al ragionamento basato sugli offset. Il calo è particolarmente evidente tra i modelli più piccoli o a codice aperto (MiniCPM, Qwen2-VL-7B e Llama3.2-Vision), che mostrano prestazioni quasi casuali su query meno popolari o basate sugli offset.”
Secondo il team, i risultati indicano che questi modelli stanno ancora lottando con la comprensione e il ragionamento sul tempo, che richiede una combinazione di percezione visiva, calcolo numerico e inferenza logica strutturata. Senza miglioramenti in queste aree, le applicazioni del mondo reale come la pianificazione potrebbero essere soggette a errori. “La ricerca sull’IA oggi spesso enfatizza i compiti di ragionamento complessi, ma ironicamente, molti sistemi lottano ancora quando si tratta di compiti più semplici e quotidiani,” ha dichiarato Aryo Gema della School of Informatics di Edimburgo, e co-autore dell’articolo, in una dichiarazione. “I nostri risultati suggeriscono che è giunto il momento di affrontare queste lacune fondamentali. Altrimenti, l’integrazione dell’IA in applicazioni del mondo reale e sensibili al tempo potrebbe rimanere bloccata all’ultimo minuto.”
Lo studio è disponibile sul server di pre-stampa arXiv.