Il nodo, messo in fila da un’analisi di SemiAnalysis pubblicata il 16 giugno, è tutto nel modello che ha spinto la crescita degli strumenti AI: si pagano 20, 100 o 200 dollari al mese e si accede a servizi che, dietro ogni risposta, consumano GPU, memoria, rete ed energia. Finché l’uso resta nella media, il sistema regge. Quando entrano in gioco agenti software, coding autonomo e sessioni lunghe, molto lunghe, il conto cambia.
Prezzo fisso, costo variabile: il nodo dell’inferenza AI
Per anni il software in abbonamento ha venduto una promessa semplice: canone mensile, accesso continuo, spesa chiara per l’utente e margini controllabili per chi offre il servizio. Con l’inferenza AI, però, le cose si complicano. Ogni domanda fatta a ChatGPT, ogni file letto da un assistente per sviluppatori, ogni risposta prodotta da un modello come Claude richiede potenza di calcolo vera. Spesso su infrastrutture costose, basate su acceleratori di fascia alta. Non è una pagina web caricata da un server quasi fermo. È calcolo pesante, ripetuto, misurabile.
Diversi analisti hanno riassunto il punto in modo netto: l’AI generativa trasforma l’uso degli utenti in una voce di costo diretta. Più un cliente lavora, più costa. Ed è qui che il modello degli abbonamenti AI premium diventa delicato. Tutto si regge su una scommessa statistica: la gran parte degli abbonati userà solo una parte delle risorse disponibili. “Il problema nasce quando i power user diventano tanti”, ha osservato SemiAnalysis, indicando soprattutto il peso dei token e dei flussi di lavoro automatizzati.
SemiAnalysis, il caso dei 200 dollari che possono valere migliaia
Secondo lo studio di SemiAnalysis, un piano ChatGPT Pro 20x da 200 dollari al mese può arrivare, negli scenari di uso più intenso, a consumare risorse equivalenti a circa 14.000 dollari, se calcolate con le tariffe API ufficiali. Per Claude Max 20x, venduto anche lui a 200 dollari mensili, il valore teorico delle risorse usate si avvicinerebbe agli 8.000 dollari. Non sono fatture reali, va detto. Sono stime. Ma rendono bene l’idea della distanza tra ciò che paga l’utente e il costo potenziale dell’infrastruttura.
La ricerca è stata condotta acquistando gli abbonamenti disponibili e portandoli vicino ai limiti settimanali consentiti, soprattutto con attività di programmazione avanzata e processi agentici. In base ai calcoli riportati, Anthropic raggiungerebbe il pareggio sui piani Claude Pro e Claude Max 5x intorno al 20% dell’uso massimo disponibile. Per OpenAI, i piani ChatGPT Plus e ChatGPT Pro 5x diventerebbero non redditizi oltre l’11,4% di utilizzo effettivo. Nei livelli più alti, la soglia scenderebbe ancora: circa 10% per Anthropic e 5,7% per OpenAI, sempre secondo SemiAnalysis. Numeri tecnici, certo. Ma con conseguenze commerciali molto concrete.
Agenti, coding autonomo e token: così i consumi salgono di colpo
A fare la differenza sono i token, cioè le unità di testo che i modelli leggono e producono. Una normale conversazione può consumarne pochi. Un agente AI che apre un repository, legge decine di file, propone modifiche, esegue test, corregge errori e prepara documentazione ne consuma molti di più. In alcuni casi, secondo le stime citate dagli analisti, anche fino a mille volte rispetto a una richiesta conversazionale ordinaria. Ed è lì che il conto prende un’altra velocità.
Gli strumenti di coding autonomo sono tra i più costosi perché non si limitano a dare una risposta: lavorano per tentativi. Provano, sbagliano, riprovano. Ogni passaggio genera nuove chiamate al modello e occupa capacità sui cluster GPU, con costi che includono anche raffreddamento, banda, storage e servizio sempre disponibile. Alcune grandi aziende tecnologiche, tra cui Microsoft, Meta e Amazon, avrebbero già rivisto programmi interni che spingevano all’uso massiccio degli strumenti AI, dopo aver visto crescere in modo rilevante la spesa legata ai token. È circolato anche il caso di una società che avrebbe consumato circa 500 milioni di dollari in un mese usando Claude senza limiti adeguati per i dipendenti. La cifra non è stata verificata pubblicamente in ogni dettaglio, ma il messaggio è chiaro: l’accesso senza controllo ai modelli più costosi può far saltare i budget.
Model routing e open source, la corsa per salvare i margini
La contromisura più citata è il model routing: ogni richiesta viene indirizzata al modello più adatto, invece di usare sempre quello più potente. Una domanda semplice può finire su un modello meno caro; un compito complesso, magari legato a ragionamento avanzato o sviluppo software, può essere affidato a un modello frontier. Secondo alcune valutazioni, questa scelta può tagliare i costi fino al 95% in certi casi aziendali. Non risolve tutto, ma rende il problema più gestibile.
Intanto cresce l’interesse per i modelli open source e per soluzioni meno costose rispetto ai servizi commerciali di fascia alta. DeepSeek è uno dei nomi che circolano di più. Flo Crivello, fondatore della startup Lindy, ha raccontato di aver spostato il traffico della propria piattaforma verso DeepSeek V4, lasciando i modelli Anthropic e ottenendo risparmi nell’ordine di milioni di dollari. Le imprese regolamentate, o quelle che cercano le migliori prestazioni di ragionamento, probabilmente continueranno a scegliere OpenAI e Anthropic per molte attività critiche. Ma il mercato sta cambiando: nel 2026 la qualità delle risposte non basta più. Conta anche quanto costa produrle, riga dopo riga, token dopo token.