Vince le Olimpiadi di matematica, ma non sa leggere un orologio analogico

GPT-5.4 supera l’83% degli esperti umani. Peccato che il voto se lo dà da solo

Nello stesso ecosistema tecnologico che ha conquistato la medaglia d’oro alle Olimpiadi Internazionali di Matematica, gli stessi modelli di intelligenza artificiale sbagliano circa il cinquanta per cento delle volte quando gli si chiede di leggere l’ora su un orologio analogico — un compito che qualsiasi bambino impara alle elementari e che un essere umano adulto risolve correttamente nel novanta per cento dei casi.

È un’asimmetria vertiginosa, documentata dall’AI Index 2026 dello Stanford Institute for Human-Centered Artificial Intelligence, e dovrebbe essere il primo indizio pubblico su cosa sia davvero questa tecnologia: non una replica scalare della cognizione umana, non un’intelligenza generale in progressiva espansione, ma un sistema frastagliato, con picchi di competenza straordinaria e lacune sorprendenti su compiti banali.

Eppure, nelle conversazioni pubbliche degli ultimi mesi, non è l’orologio analogico a dominare i titoli: a dominare i titoli è un altro numero, comunicato il 5 marzo 2026 con il registro trionfalistico che accompagna ormai ogni rilascio di un modello di frontiera, secondo cui GPT-5.4 eguaglierebbe o supererebbe gli esperti umani nell’ottantatré per cento dei casi su quarantaquattro professioni diverse.

Due numeri, stessa tecnologia, due immagini radicalmente diverse, e la domanda che vale la pena porsi non è quale dei due sia vero, perché sono veri entrambi, ma perché uno è entrato nel dibattito pubblico come la misura del futuro del lavoro, mentre l’altro è rimasto confinato nelle pagine di un report accademico che quasi nessuno legge.

Il salto tecnico c’è, ed è reale

Il salto tecnico misurato da quei numeri, comunque, è reale e merita di essere riconosciuto per quello che è, perché nessuna critica al metro può cancellare il fatto che GPT-5.4 rappresenti un’evoluzione significativa rispetto ai modelli precedenti. Sul benchmark OSWorld per l’uso autonomo del computer, il modello passa dal 47,3% al 75%, e questo significa in termini concreti che può navigare qualunque interfaccia software leggendo direttamente gli screenshot dello schermo, fare clic, digitare, compilare moduli, eseguire script, senza bisogno che uno sviluppatore costruisca integrazioni dedicate.

Sulla modellazione di fogli di calcolo passa dal 68,4% a un impressionante 87%, e anche questa è una capacità concreta che in un contesto professionale cambia la qualità e la velocità di molti processi.

Riconoscere il salto tecnico, vero, conta, però, è cosa diversa dall’accettare passivamente la cornice narrativa dentro cui quel salto viene raccontato, perché il modo in cui quel numero viene raccontato non cambia la tecnologia, ma cambia tutto quello che le aziende faranno a partire da quel numero, perché tra un numero e una decisione c’è sempre una storia, e chi controlla la storia controlla la decisione.

Chi ha costruito il metro di misura

Attenzione, pochi dicono che il benchmark che certifica il superamento dell’83% delle professioni si chiama GDPval, ed è un sistema di valutazione sviluppato direttamente da OpenAI, la stessa azienda che produce e vende il modello sottoposto al test. Non si tratta di un ente terzo, di una certificazione accademica indipendente, di uno standard riconosciuto internazionalmente: è l’azienda che costruisce il metro, che lo applica al proprio prodotto, che comunica al pubblico i risultati della misurazione, che ha interesse commerciale diretto nel fatto che quei risultati appaiano straordinari.

Quando chi produce la tecnologia controlla anche la narrazione sul suo impatto e definisce le metriche con cui valutarne il successo, si apre un cortocircuito epistemologico che nessun pensiero critico serio può permettersi di ignorare.

Non è la posizione di un ente terzo né di una certificazione indipendente: è la posizione di chi costruisce da solo la gara, ne stabilisce le regole, nomina i giudici, e poi comunica al mondo di aver vinto.

Come ha scritto Angela Aristidou in una recente analisi pubblicata dal MIT Technology Review, i benchmark attuali dell’intelligenza artificiale sono profondamente difettosi perché misurano performance individuali su compiti isolati e risposte chiaramente giuste o sbagliate, ignorando che nel mondo reale la tecnologia viene utilizzata all’interno di team umani e di flussi di lavoro organizzativi complessi — con il risultato paradossale che modelli certificati come eccellenti in laboratorio finiscono per rallentare il lavoro reale, come accade nei reparti di radiologia dove strumenti approvati per la loro presunta velocità introducono invece ritardi, perché non si integrano con le dinamiche decisionali di un team multidisciplinare.

Il dato viene confermato dal più recente AI Index 2026 dello Stanford Institute for Human-Centered Artificial Intelligence, che documenta come i benchmark stessi presentino tassi di errore fino al 42% sulle valutazioni più utilizzate, e come vengano saturati in pochi mesi, perdendo rapidamente la loro utilità come strumenti di misurazione affidabili.

Cosa significa davvero: un’intelligenza frastagliata

L’asimmetria tra le Olimpiadi di matematica e l’orologio analogico, che abbiamo visto in apertura, non è un aneddoto curioso ma un indizio strutturale su come sia costruita questa tecnologia, e per dargli il nome giusto i ricercatori hanno iniziato a parlare di jagged intelligence, intelligenza frastagliata.

Il concetto dice una cosa precisa e scomoda: i modelli non stanno sviluppando una forma di cognizione generale che si avvicina progressivamente a quella umana, stanno sviluppando picchi di competenza straordinaria in ambiti molto specifici, accompagnati da lacune sorprendenti in compiti che per qualsiasi essere umano risultano banali, e non c’è una correlazione prevedibile tra dove eccellono e dove falliscono.

Parlare di “superamento” dell’intelligenza umana usando come metro un benchmark che ignora questa frastagliatura significa costruire un’immagine della realtà che serve più a vendere modelli che a comprendere cosa sta accadendo, e soprattutto significa spostare l’attenzione dalla domanda più importante — dove la tecnologia aiuta davvero e dove invece rischia di farci del male — alla domanda più semplice ma meno utile: quale modello è arrivato più in alto nella classifica del trimestre.

Il contratto sociale del lavoro, sotto la pressione della narrazione

Mentre i benchmark misurano performance teoriche in ambienti di laboratorio, le conseguenze delle narrazioni che da quei benchmark vengono costruite si scaricano molto concretamente sul contratto sociale del lavoro e sulle decisioni aziendali di tutti i giorni.

Il World Economic Forum, nel suo Future of Jobs Report 2025, ha rilevato che il 40% dei datori di lavoro prevede di ridurre la propria forza lavoro nelle aree in cui l’intelligenza artificiale può automatizzare i compiti, mentre il 54% dei dirigenti si aspetta che la tecnologia elimini del tutto posti di lavoro esistenti, con decisioni che vengono prese oggi, nei consigli d’amministrazione di oggi, sulla base di aspettative alimentate dalle percentuali comunicate da chi vende la tecnologia.

Ricerche più ampie sul mercato del lavoro segnalano che i giovani lavoratori nelle fasi iniziali di carriera e nelle occupazioni più esposte all’intelligenza artificiale stanno già subendo un calo relativo dell’occupazione vicino al 13–16%, con contrazioni particolarmente marcate tra gli sviluppatori software tra i 22 e i 25 anni, e questa dinamica ci costringe a superare la retorica rassicurante dell’augmentation, quella promessa di una tecnologia che si limita a potenziare i lavoratori senza sostituirli, per fare i conti con un’automazione che nella pratica tende ad avvantaggiare i top performer e a colpire invece chi sta entrando nel mercato del lavoro.

La narrazione della soglia superata diventa così una profezia che si auto-avvera: le aziende iniziano a riorganizzarsi sulla base di queste promesse di efficienza prima ancora che la tecnologia abbia davvero dimostrato il proprio valore dentro gli ecosistemi organizzativi umani, e i costi di questa anticipazione si scaricano inevitabilmente sulle persone più vulnerabili della catena.

Cosa i benchmark non misurano

La risposta a questa accelerazione narrativa non può risiedere nel rifiuto della tecnologia né in un’ingenua nostalgia del mondo pre-digitale, ma in una rivalutazione profonda di cosa renda il contributo umano davvero insostituibile anche, e forse soprattutto, in presenza di strumenti così potenti.

I test di laboratorio non misurano l’intelligenza emotiva, la capacità di mediare conflitti, il giudizio etico situazionale, la costruzione di relazioni di fiducia con clienti e pazienti, la deliberazione collettiva di un team di fronte a un problema inedito, la cura che distingue un’assistenza decente da un’assistenza memorabile, il gesto minimo con cui un insegnante intuisce che uno studente ha capito prima ancora di riuscire a dirlo. A

ristidou, nella stessa analisi del MIT Technology Review, propone un approccio che chiama HAIC — Human-AI, Context-Specific Evaluation, e suggerisce di smettere di valutare cosa un modello può fare da solo per iniziare a misurare cosa permette o impedisce di fare quando viene inserito in un gruppo di esseri umani dentro un contesto specifico.

Si tratta di un cambio di prospettiva che potrebbe sembrare tecnico ma ha implicazioni profonde, perché sposta l’oggetto della valutazione dalla macchina isolata al sistema socio-tecnico nel suo insieme, restituisce centralità al contesto organizzativo e culturale, e soprattutto riconosce che in un’epoca in cui per la prima volta automatizziamo la cognizione e non il lavoro fisico, la capacità di connettersi autenticamente, di comprendere il contesto non detto, di navigare le ambiguità relazionali diventa paradossalmente più preziosa, non meno.

La vera soglia

Se all’inizio di questo percorso abbiamo visto come la stessa tecnologia che conquista le Olimpiadi di matematica sbagli a leggere un orologio analogico, adesso possiamo chiederci perché uno solo di questi due fatti sia entrato nel dibattito pubblico e abbia iniziato a riorganizzare le decisioni aziendali, mentre l’altro è rimasto confinato nelle pagine di un rapporto tecnico che quasi nessuno legge.

La risposta non sta nella tecnologia, sta in chi la racconta, e la vera soglia da osservare, allora, non è quella che un algoritmo attraversa in un test di laboratorio costruito da chi lo deve vendere, ma quella che attraversiamo noi ogni volta che decidiamo, consapevolmente o meno, cosa delegare alla macchina e cosa custodire come prerogativa umana.

Se i problemi tecnologici sono fondamentalmente problemi umani, e se la maggior parte dei progetti di intelligenza artificiale fallisce non per limiti tecnici ma per incapacità organizzativa e culturale, allora la domanda non è più se l’intelligenza artificiale sostituirà il nostro lavoro, ma se noi sappiamo ancora riconoscere e difendere ciò che rende il nostro lavoro autenticamente umano — e se siamo disposti a pretendere, come cittadini e come professionisti, che la misura di quella soglia non venga lasciata unicamente a chi dalla sua costruzione ha tutto da guadagnare.

Articoli in evidenza