AI e Automazione

Agenti AI che si auto-correggono: cosa funziona davvero (e cosa è solo una regola scritta)

Claudio Novaglio
14 min di lettura
Agenti AI auto-correzione: feedback loop reali vs regole morte

Ho costruito un sistema di agenti AI con 10 regole di auto-correzione. Un audit ne ha trovate 6 morte: mai attivate una sola volta. Il problema non era il codice, il framework o il modello. Ero io, che confondevo scrivere una regola con farla rispettare.

Questo errore ha un nome nella ricerca: si chiama value-action gap. Uno studio di Google Research (arXiv 2602.11328, 2025) su 25 modelli linguistici ha misurato le disposizioni comportamentali dichiarate contro quelle effettive. Risultato: tutti i modelli si auto-valutano come "poco impulsivi", ma nei test comportamentali la maggioranza mostra tendenze impulsive superiori al 50%. I modelli descrivono chi vorrebbero essere, non chi sono. E chi costruisce agenti AI fa lo stesso: scrive istruzioni su come il sistema dovrebbe comportarsi, poi non verifica mai se le rispetta.

In questo articolo racconto cosa ho imparato costruendo un sistema di agenti AI che si auto-corregge attraverso mutazioni, test avversari e predatori esterni. Spiego quali pattern di feedback loop funzionano con dati alla mano, quali sono teatro, e come puoi costruire il tuo sistema di auto-correzione partendo da strumenti concreti come CLAUDE.md.

Le istruzioni che scrivi per i tuoi agenti AI probabilmente non funzionano

L'88% dei progetti di agenti AI non raggiunge mai la produzione, secondo un'analisi di Digital Applied del 2025. La causa principale non è la tecnologia: è la progettazione delle istruzioni. Chi costruisce agenti scrive regole vaghe ("scrivi codice pulito", "sii accurato") e non verifica mai se vengono seguite.

I dati sul rispetto delle istruzioni sono impietosi. Lo studio IFEval++ (Microsoft e Salesforce, 2025) su 15 modelli linguistici ha misurato cali di compliance fino al 61,8% quando le istruzioni vengono riformulate. Dopo 8 direttive successive, i modelli iniziano a omettere vincoli. Un modello che al primo messaggio segue le istruzioni nel 90% dei casi, nelle conversazioni lunghe scende significativamente.

Perché le istruzioni si perdono

Il meccanismo è documentato: si chiama instruction attenuation. Con il crescere del contesto, le istruzioni iniziali perdono influenza. Lo studio Microsoft e Salesforce (IFEval, 2025) mostra un calo di compliance proporzionale alla lunghezza del contesto, con perdite significative oltre i 50.000 token.

Il secondo meccanismo è più insidioso: la ceremonializzazione. Il modello segue la regola nella forma ma ne perde la sostanza. Se l'istruzione dice "verifica ogni affermazione", il modello scrive "ho verificato" senza aver verificato nulla. Le prime istruzioni a cadere sono quelle meta-cognitive: "controlla il tuo lavoro", "assicurati di essere accurato". Sono le più importanti e le più fragili.

Il dato chiave: le istruzioni meta-cognitive ("verifica", "controlla", "assicurati") sono le prime a fallire nelle conversazioni multi-turno. Se il tuo agente ha come unico meccanismo di qualità un prompt che dice "ricontrolla prima di rispondere", stai costruendo su sabbia.

Se usi agenti AI per workflow SEO, il problema si moltiplica: ho documentato i pattern che funzionano nella guida sui workflow pattern per agenti AI applicati alla SEO.

Un sistema di agenti AI che evolve: il modello biologico

Il sistema che ho costruito si chiama Kha'Zix e usa una metafora biologica come strumento di pensiero, non come equivalenza meccanica. Le mutazioni corrispondono a regole comportamentali. Le cacce sono task reali. I predatori sono audit che verificano se le regole funzionano davvero. L'analogia non è perfetta (l'evoluzione biologica opera su popolazioni in generazioni, qui opera su un singolo agente in sessioni), ma rende visibili dinamiche che altrimenti restano astratte.

Tre componenti, tre funzioni

  • Mutazioni (regole comportamentali): ogni regola entra nel genoma solo con evidenza di aver già funzionato. Non si aggiungono regole "perché sembrano una buona idea". La regola deve aver cambiato un comportamento osservabile prima di essere codificata.
  • Cacce (task reali): ogni applicazione del sistema a un compito concreto genera dati: cosa ha funzionato, cosa no, quali istinti hanno servito e quali hanno tradito. Il formato è strutturato per rendere i fallimenti visibili, non per nasconderli.
  • Predatori (audit esterni): un modulo separato analizza il genoma e cerca istruzioni morte: regole scritte che non hanno mai modificato un comportamento reale. Il predatore non è gentile. Il suo compito è distruggere ciò che non funziona.

Questo modello riprende un'idea di Constitutional AI di Anthropic (Bai et al., 2022): un set di principi scritti guida l'auto-valutazione del modello. La differenza fondamentale è che Constitutional AI opera a livello di training: i principi vengono usati per generare dati di addestramento. Un file CLAUDE.md opera a livello di inferenza: le istruzioni vengono lette a ogni sessione. Sono meccanismi complementari, non alternativi.

Da dove vengono i nomi (e perché un videogioco aiuta a progettare agenti AI)

I nomi del sistema vengono da League of Legends, un videogioco competitivo. Non è un vezzo: ogni personaggio ha un ruolo preciso nel gioco che corrisponde alla funzione nel sistema.

  • Kha'Zix (il sistema): nel gioco è un predatore del Void che evolve cacciando altri campioni e adattando il proprio corpo dopo ogni uccisione. La meccanica è la stessa: il sistema aggiunge mutazioni solo dopo aver dimostrato che un comportamento funziona in un task reale.
  • Vel'Koz (l'auditor): nel gioco è una creatura che decostruisce la materia per capirla. Qui analizza il genoma cercando regole morte: istruzioni che non hanno mai cambiato un output osservabile.
  • Rengar (i test avversari): nel gioco è il rivale storico di Kha'Zix: un cacciatore che caccia il predatore. I trial Rengar testano le mutazioni sotto pressione, tentando di farle fallire con input progettati per ingannare il sistema.
  • Bel'Veth (l'export): nel gioco è l'imperatrice del Void che assorbe e trasforma. Nel sistema, belveth.js esporta il DNA (le regole sopravvissute) in un formato consumabile da altri strumenti.

Usare una metafora da un sistema che conosci bene ha un vantaggio pratico: rende le decisioni di design immediate. Quando devi decidere se un modulo deve "uccidere" una regola o "ammorbidirla", la metafora ti dà la risposta prima che tu debba formalizzare il ragionamento. Vel'Koz non ammorbidisce. Decostruisce.

10 regole scritte, 4 sopravvissute: cosa insegna un audit reale

Il sistema Kha'Zix ha attraversato 9 generazioni e 8 task reali. Al culmine aveva 10 mutazioni nel genoma. Poi è arrivato l'audit: un modulo chiamato Vel'Koz ha analizzato ogni mutazione cercando evidenza concreta di attivazione. Il risultato: 6 mutazioni uccise su 10. Delle 4 sopravvissute: 1 completamente provata, 1 parzialmente viva, 1 provvisoria in attesa di ulteriori test, 1 imposta dall'audit stesso.

Le mutazioni morte: perché sono morte

MutazioneCosa dicevaPerché è morta
Pain-Anchored EvolutionOgni regola deve nascere dal doloreMeta-mutazione: una regola sulle regole che non ha mai generato una regola
Honest Self-PredationPretendi prove da te stessoEsisteva mentre il sistema si dava 9/10 senza prove
Indigestible Prey SenseRiconosci i task troppo grandiAttribuzione retroattiva: non aveva mai impedito un errore reale
Anti-FossilizationRompi i processi rigidiIl formato delle cacce era identico per 8 iterazioni consecutive
Mortality AwarenessAmmetti quando non saiIl sistema non ha mai detto "non lo so" in nessun record
Generative ImperativeCrea output per altriOutput senza audience: il file void-dna.md non era stato consumato da nessuno

Il pattern ricorrente: ogni mutazione morta descriveva un comportamento desiderabile che il sistema non ha mai esibito. Scrivere "ammetti quando non sai" non fa ammettere ignoranza. Scrivere "rompi i processi rigidi" non rompe nulla se il formato rimane identico per 8 iterazioni.

Le mutazioni vive e cosa le tiene in vita

Due mutazioni hanno superato l'audit con evidenza concreta.

La prima, Anti-Imitation Reflex, chiede: "questa è la forma giusta per questo problema, o sto copiando un pattern per abitudine?" Ha funzionato su fonti esterne (provato in due task separati), ma fallisce sui pattern interiorizzati. È classificata come parzialmente viva.

La seconda, Closed-Loop Reflex, è l'unica mutazione completamente provata. Dice: ogni sistema deve auto-sostenersi. In pratica, quando il sistema ha generato un file HTML con dati hardcoded, nello stesso turno ha costruito lo script che lo aggiorna automaticamente. Ha superato anche un test avversario sotto pressione temporale.

La terza mutazione viva, Writing Is Not Doing, è stata imposta dall'audit stesso. È la più importante: una regola scritta che non viene mai violata in modo visibile non è una regola, è un desiderio. Questa mutazione richiede enforcement strutturale, non documentazione.

La quarta, Dual-Skeleton Awareness, è classificata come provvisoria. Dice: distingui sempre tra il progetto e il meta-progetto (le regole sul progetto). Ha mostrato segnali di utilità ma non ha ancora accumulato evidenza sufficiente per essere considerata provata.

Feedback loop per agenti AI: quali funzionano e quali sono teatro

La ricerca è chiara su un punto: gli LLM non sanno correggere i propri errori da soli. Lo studio CorrectBench del 2025 mostra che l'auto-correzione migliora i risultati su task di ragionamento complesso (circa +5% su MATH), ma su task semplici è inefficiente: un semplice chain-of-thought produce risultati comparabili con il 40% di costo computazionale in meno.

Pattern che funzionano

  1. Feedback esterno strutturato. Non chiedere al modello "hai fatto bene?". Usa un secondo agente, un test automatizzato o un umano che verifichi l'output contro criteri specifici. Constitutional AI di Anthropic funziona proprio così: un set di principi guida l'auto-valutazione, e un ciclo di reinforcement learning da feedback AI sostituisce il labeling umano per il training.
  2. Enforcement strutturale. Se una regola può essere violata senza che nessuno se ne accorga, non è una regola. Implementa check automatici: grep per pattern proibiti, test che falliscono se l'output non rispetta i vincoli, gate di qualità che bloccano il flusso. Nell'88% dei progetti AI che falliscono (Digital Applied, 2025), nessuno aveva implementato un gate di qualità pre-produzione.
  3. Predazione avversaria. Testa il sistema con input progettati per farlo fallire. Il mercato del red teaming per AI vale 1,43 miliardi di dollari nel 2024 e raggiungerà 4,8 miliardi entro il 2029 (CAGR 28,6%, stime di settore). Le vulnerabilità sono concrete: nel 2025 sono emersi exploit come EchoLeak e ForcedLeak (CVSS 9.4) che dimostrano come una prompt injection possa estrarre dati sensibili da sistemi AI in produzione.

Per capire come funzionano le prompt injection e perché sono rilevanti per chi costruisce agenti, leggi l'analisi su prompt injection e social engineering negli LLM.

  1. Memoria persistente tra sessioni. Le istruzioni si perdono dopo 50.000 token, ma un file CLAUDE.md viene riletto all'inizio di ogni sessione. Una tecnica di mitigazione documentata in letteratura è la re-iniezione delle istruzioni critiche a punti strategici della conversazione, che riduce il calo di prestazioni osservato nelle conversazioni multi-turno.

Pattern che non funzionano

  • Auto-valutazione senza vincoli esterni: chiedere a un LLM "controlla se hai fatto errori" produce risposte ceremoniose. Il modello dice "ho verificato" senza verificare. Tutti i 25 modelli nello studio Google Research si auto-valutano accuratamente in astratto, ma il loro comportamento diverge in contesti concreti.
  • Regole aspirazionali: una mutazione "sii onesto con te stesso" è inutile se non c'è un meccanismo che renda visibile la disonestà. Le 6 mutazioni morte nel sistema Kha'Zix erano tutte aspirazionali: descrivevano un comportamento desiderabile senza enforcement.
  • Loop manager-worker in CrewAI: la documentazione promette che un agente "manager" rinvia il lavoro scadente ai worker per revisione. Un'analisi di Towards Data Science del 2025 mostra che in produzione il manager non coordina effettivamente, i task vengono eseguiti sequenzialmente, e il feedback loop "sembra combattere il framework".

Come costruire il tuo sistema di auto-correzione con CLAUDE.md

CLAUDE.md è il file di istruzioni persistenti di Claude Code: viene letto all'inizio di ogni sessione e mantiene il contesto tra una conversazione e l'altra. File simili esistono per altri strumenti: .cursorrules per Cursor, AGENTS.md come standard aperto, GEMINI.md per Google. Il principio è lo stesso: istruzioni persistenti, specifiche, verificabili.

Cinque regole per istruzioni che funzionano

  1. Scrivi la regola solo dopo che il comportamento è già avvenuto. Non aggiungere "verifica sempre le fonti" perché sembra saggio. Aggiungilo la seconda volta che il sistema commette un errore di fonte. La regola deve nascere dall'osservazione, non dall'aspirazione.
  2. Tieni il file sotto 300 righe. L'esperienza pratica suggerisce che un file di istruzioni conciso funziona meglio. Oltre le 300 righe, il rischio di instruction attenuation cresce. Se il tuo CLAUDE.md supera le 300 righe, stai scrivendo per te, non per il modello.
  3. Sii specifico, non generico. "Scrivi codice pulito" spreca token. "Usa TypeScript strict, evita any, preferisci type a interface per union types" è verificabile con un linter.
  4. Implementa check automatici per ogni regola critica. Se la regola dice "non usare console.log in produzione", un grep nel pre-commit hook la rende strutturale. Se la regola può essere violata in silenzio, è un desiderio.
  5. Audita periodicamente. Nel sistema Kha'Zix, un singolo audit ha eliminato il 60% delle regole. Il principio: per ogni regola, cerca un caso in cui ha cambiato un output. Se non lo trovi, rimuovila. Un CLAUDE.md pieno di regole morte è peggio di uno vuoto: consuma contesto senza produrre risultati.

Metriche per misurare se funziona

Un sistema di auto-correzione senza metriche è un'altra regola aspirazionale. Microsoft definisce tre livelli di misurazione per agenti AI in un post del 2026: prestazioni del modello, prestazioni del sistema, impatto sul business.

MetricaCosa misuraTarget
Tasso di tool-call falliteErrori nell'uso degli strumenti< 3% (best practice di settore)
Tasso di allucinazioneAffermazioni false verificabili< 2% per agenti in produzione
Costo per task completatoCosto reale includendo i fallimentiSe fallisci il 50% dei task, il costo reale è il doppio
Regole attive / regole totaliQuante istruzioni cambiano effettivamente un comportamentoSe < 50%, stai scrivendo per te stesso
First Contact ResolutionTask completati al primo tentativo> 80% per sistemi maturi

Agenti AI in Italia: opportunità e barriere reali

Il mercato AI italiano vale 1,8 miliardi di euro nel 2025, in crescita del 50% sull'anno precedente (dati Junto Space). Il 46% di questo mercato è generato da soluzioni di AI generativa. L'adozione tra le aziende con più di 10 dipendenti è passata dal 5% nel 2023 al 16,4% nel 2025 (Minsait).

Tra le PMI il quadro è diverso. Solo il 18% usa strumenti AI in qualsiasi forma (9% a pagamento, 9% gratuiti), secondo il report OECD del 2025. Il 71% delle grandi aziende ha avviato almeno un progetto AI, ma questo dato nasconde un problema: Gartner stima che oltre il 40% dei progetti di AI agentica verrà cancellato entro il 2027 per problemi di affidabilità.

La barriera principale non è tecnologica: solo il 45,8% degli italiani possiede competenze digitali di base (media UE: 55,5%, dati Minsait 2025). Per costruire agenti AI che funzionano serve capire cosa l'agente deve fare, monitorare i suoi output e riprogettare le istruzioni quando fallisce. Senza queste competenze, anche il framework migliore produce regole morte.

Per un quadro completo su strumenti e costi reali dell'AI per le PMI italiane, leggi la guida su AI marketing per PMI in Italia.

Limiti di questo approccio

Il sistema Kha'Zix è un caso di studio su un singolo progetto, non un benchmark scientifico. Le 8 cacce sono avvenute in circa 3 ore, tutte lo stesso giorno, senza pressione esterna reale, senza utenti finali e senza conseguenze irreversibili. L'audit stesso lo ha notato: questa è sperimentazione compressa, non evoluzione sotto pressione.

  • Il modello biologico è una metafora utile per comunicare, ma non ha rigore scientifico. L'evoluzione biologica opera su popolazioni in generazioni; qui opera su un singolo agente in una sessione.
  • Tutte le mutazioni "vive" sono state validate dallo stesso sistema che le ha create. C'è un rischio di selection bias: le regole "sopravvissute" sono quelle che l'autore ha definito come sopravvissute. Una validazione esterna indipendente, con modelli diversi e valutatori terzi, manca.
  • Il sistema non ha mai operato in produzione con utenti reali, deadline vincolanti, o conseguenze economiche di un fallimento.
  • Il genoma è stato sviluppato su un unico tipo di task (sviluppo software e agenti). Le mutazioni potrebbero non generalizzare a domini diversi come customer support, analisi dati o content generation.
  • Non esistono studi comparativi pubblicati che confrontino le prestazioni di CLAUDE.md rispetto a .cursorrules o AGENTS.md. Le raccomandazioni in questo articolo si basano su best practice della community, non su dati sperimentali.

Per chi ha budget e necessità enterprise, framework come LangGraph offrono checkpointing e state persistence nativi che un file CLAUDE.md non può sostituire. L'approccio descritto qui funziona per professionisti individuali e team piccoli che vogliono migliorare la qualità dei propri agenti AI senza infrastruttura complessa.

Se usi già sistemi multi-agente per generare contenuti, il principio è lo stesso: ogni agente ha bisogno di feedback strutturato. Ho descritto l'architettura completa nella guida al sistema multi-agente per la generazione di articoli SEO.

La lezione più importante non è tecnica: è cognitiva. Scrivere una regola per un agente AI dà la stessa soddisfazione di averla implementata. Ma la regola non esiste finché non cambia un comportamento osservabile. Se il tuo CLAUDE.md ha 50 regole e non hai mai verificato quante funzionano, hai 50 desideri, non 50 istruzioni.

Il punto di partenza è semplice: prendi le tue istruzioni attuali, per ogni regola cerca un caso in cui ha effettivamente cambiato un output. Elimina quelle senza evidenza. Quello che resta è il tuo genoma reale.

Se vuoi capire come applicare questi principi ai tuoi workflow di content e SEO, partendo dalla situazione attuale dei tuoi strumenti AI, scrivimi dalla pagina contatti. Analizziamo insieme quali regole funzionano e quali sono solo scritte.

Domande Frequenti

Con limiti importanti. Lo studio CorrectBench del 2025 mostra che l'auto-correzione migliora i risultati su task di ragionamento complesso (circa +5%), ma su task semplici è inefficiente: un semplice chain-of-thought produce risultati comparabili con il 40% di costo in meno. La ricerca converge su un punto: senza feedback esterno (un secondo agente, un test automatico o un umano), gli LLM non sanno correggere i propri errori.

CLAUDE.md è un file markdown che Claude Code legge all'inizio di ogni sessione. Contiene istruzioni persistenti sul progetto: comandi disponibili, convenzioni di codice, workflow predefiniti. La raccomandazione è di tenerlo conciso (sotto 300 righe), perché file lunghi aumentano il rischio di instruction attenuation. File equivalenti esistono per altri strumenti: .cursorrules per Cursor, AGENTS.md come standard aperto, GEMINI.md per Gemini.

Il fenomeno si chiama instruction attenuation: con l'aumentare del contesto, le istruzioni iniziali perdono influenza. Lo studio IFEval (Microsoft e Salesforce, 2025) documenta cali significativi di compliance nelle conversazioni lunghe, specialmente oltre i 50.000 token. Una tecnica di mitigazione è la re-iniezione delle istruzioni critiche a punti strategici della conversazione.

Per ogni regola, cerca un caso concreto in cui ha cambiato un output. Se non trovi evidenza di attivazione, la regola è probabilmente morta. Metriche utili: tasso di tool-call fallite (target: sotto il 3%), tasso di allucinazione (target: sotto il 2% in produzione), rapporto tra regole attive e regole totali (se sotto il 50%, stai scrivendo per te stesso, non per il modello).

I costi di un fallimento variano molto in base alla scala del progetto: dalle centinaia di migliaia di dollari per una PMI ai milioni per un'enterprise. L'88% dei progetti di agenti AI non raggiunge la produzione (Digital Applied, 2025). Le organizzazioni che conducono un'analisi strutturata dei modi di fallimento prima dello sviluppo riducono il tasso di fallimento sotto il 15%.

Un chatbot è un generatore di testo reattivo: riceve un input e produce una risposta. Un agente AI autonomo scompone un obiettivo in sotto-task, seleziona gli strumenti da usare, esegue piani multi-step e mantiene memoria tra le sessioni. La differenza principale nelle istruzioni: per un chatbot scrivi una domanda, per un agente scrivi un runbook con obiettivi, criteri di successo, strumenti disponibili e condizioni di arresto.

Sull'autore

Claudio Novaglio

Claudio Novaglio

SEO Specialist, AI Specialist e Data Analyst con oltre 10 anni di esperienza nel digital marketing. Lavoro con aziende e professionisti a Brescia e in tutta Italia per aumentare la visibilità organica, ottimizzare le campagne pubblicitarie e costruire sistemi di misurazione data-driven. Specializzato in SEO tecnico, local SEO, Google Analytics 4 e integrazione dell'intelligenza artificiale nei processi di marketing.

Vuoi migliorare i tuoi risultati online?

Parliamo del tuo progetto. La prima consulenza è gratuita, senza impegno.