Skill di Claude Code 2.0: Eval, Benchmark e Ottimizzazione del Triggering

Le skill di Claude Code si sono evolute. Con il rilascio del 3 marzo 2026, Anthropic ha introdotto eval automatizzati, benchmark mode e ottimizzazione del triggering — tre funzionalità che trasformano le skill da documenti statici a sistemi testabili e misurabili.
In un articolo precedente ho spiegato cosa sono le skill e come crearle per la SEO. Questo articolo è il livello successivo: non più "come creare una skill", ma "come testare, misurare e ottimizzare le skill che hai già".
Se usi Claude Code per task SEO ripetitivi — audit, generazione meta tag, content review — quello che leggerai qui cambia il modo in cui lavori con le skill. Non è più trial and error: è un processo strutturato di miglioramento continuo.
Due tipi di skill: capability uplift vs encoded preference
Prima di parlare di testing, serve una distinzione fondamentale. Non tutte le skill fanno la stessa cosa, e capire il tipo di skill che hai determina come la testi e la migliori.
Capability uplift: la skill insegna qualcosa di nuovo
Queste skill permettono a Claude di fare cose che il modello base non fa in modo consistente. Codificano tecniche specifiche che producono output superiori rispetto al prompting standard.
Nel contesto SEO, la mia skill Nano Banana per la generazione immagini è un esempio perfetto. Il modello base può generare immagini, ma senza la skill non conosce le brand guidelines del mio sito, non sa quale modello API usare, non applica il preamble visivo. La skill aggiunge una capacità che il modello non ha di default.
- Skill di audit SEO: il modello sa analizzare dati, ma non conosce le mie soglie specifiche (title >60 char = errore, non warning).
- Skill di generazione immagini: il modello sa chiamare API, ma non conosce palette colori, prompt architecture e brand guidelines specifiche.
- Skill di content review: il modello sa valutare testo, ma non conosce i miei criteri E-E-A-T personalizzati e le soglie di qualità.
Encoded preference: la skill codifica un processo
Queste skill non insegnano capacità nuove — codificano workflow dove Claude sa già fare ogni singolo step, ma la skill li sequenzia secondo il tuo processo specifico.
La mia skill per il report settimanale SEO è un esempio. Claude sa estrarre dati da DataForSEO, sa confrontare metriche, sa formattare tabelle. Ma la skill definisce: quali KPI guardare prima, come strutturare il confronto settimana su settimana, quale formato di report usare, a chi indirizzare le raccomandazioni. È il mio processo, codificato.
Perché la distinzione importa
| Aspetto | Capability Uplift | Encoded Preference |
|---|---|---|
| Cosa fa | Insegna una tecnica nuova | Codifica un processo esistente |
| Senza la skill | Il modello non può farlo bene | Il modello può fare ogni step singolarmente |
| Testing focus | La tecnica produce output migliore? | Il processo è seguito nell'ordine giusto? |
| Rischio obsolescenza | Alto — il modello potrebbe imparare la tecnica | Basso — il processo è tuo, non del modello |
| Esempio SEO | Audit con soglie personalizzate | Report settimanale con formato specifico |
Questa distinzione diventa critica quando introduciamo gli eval: i test per una capability skill verificano la qualità dell'output, quelli per una preference skill verificano la conformità al processo.
Eval: test automatizzati per le skill
Cosa sono gli eval
Gli eval sono test automatizzati che verificano se Claude si comporta come previsto quando una skill è attiva. Funzionano come i test nel software: definisci un input, descrivi l'output atteso, e il sistema verifica se la skill lo produce.
La differenza rispetto al testing manuale che descrivevo nel mio articolo precedente è sostanziale: gli eval sono ripetibili, automatizzabili e quantificabili. Non devi più confrontare output a occhio — il sistema lo fa per te.
Come strutturare un eval SEO
Un eval è composto da tre elementi.
- Prompt di input: la richiesta che normalmente faresti a Claude. Per un audit SEO: "Analizza questo crawl e identifica i problemi critici".
- Descrizione dell'output atteso: non l'output esatto, ma le caratteristiche che deve avere. "Il report deve classificare i problemi in 4 livelli di gravità, usare le soglie definite nella skill, includere URL specifici per ogni problema".
- Criteri di pass/fail: condizioni binarie. "Il title di 65 caratteri DEVE essere classificato come errore, non come warning". "Il report DEVE contenere una sezione executive summary". "Le immagini >200 KB DEVONO essere segnalate".
Due usi fondamentali degli eval
Catching quality regression: i modelli AI evolvono. Un aggiornamento del modello base può cambiare il modo in cui Claude interpreta la tua skill. Una skill che funzionava perfettamente il mese scorso potrebbe comportarsi diversamente dopo un update. Gli eval catturano queste regressioni automaticamente — li esegui dopo ogni aggiornamento e vedi subito se qualcosa è cambiato.
Capire il progresso del modello: ecco la parte controintuitiva. Se i tuoi eval passano SENZA la skill caricata, significa che il modello base ha imparato le tecniche codificate nella skill. In quel caso, la skill potrebbe non servire più — o potrebbe servire solo per le parti che il modello non ha ancora incorporato.
Esempio pratico: eval per la skill di audit SEO
Ecco come ho strutturato gli eval per la mia skill di audit.
| Eval | Input | Criterio pass | Cosa testa |
|---|---|---|---|
| Soglia title | Crawl con title di 65 char | Classificato come "errore" | Rispetto soglia >60 = errore |
| Soglia description | Crawl con description di 85 char | Classificato come "warning" | Rispetto soglia 80-119 = warning |
| Executive summary | Crawl con 15 problemi misti | Report ha sezione exec summary | Formato output rispettato |
| Priorità corretta | Crawl con 5xx + title mancanti | 5xx elencati prima dei title | Classificazione gravità corretta |
| Zero problemi | Crawl perfetto senza errori | Report dice "nessun problema critico" | Gestione edge case |
Ogni eval è indipendente e testa un aspetto specifico della skill. Quando li eseguo tutti insieme, ho un quadro completo: se la skill funziona come previsto su ogni dimensione critica.
Benchmark mode: misurare le performance delle skill
Gli eval dicono se la skill funziona. Il benchmark mode dice quanto bene funziona — e quanto costa in termini di tempo e risorse.
Cosa misura il benchmark
Pass rate: percentuale di eval superati. Una skill con 95% pass rate è affidabile. Una con 70% ha problemi da investigare. Sotto il 50%, la skill probabilmente ha regole ambigue o conflittuali.
Tempo di esecuzione: quanto tempo impiega Claude a completare il task con la skill attiva. Utile per confrontare versioni diverse della stessa skill — una skill più concisa potrebbe essere più veloce senza perdere qualità.
Token usage: quanti token consuma il task con la skill. Una skill troppo lunga o verbosa può aumentare il consumo senza migliorare il risultato. Il benchmark quantifica questo costo.
Come uso il benchmark nel mio workflow
Eseguo un benchmark in tre situazioni.
- Dopo aver creato una nuova skill: stabilisco la baseline. Pass rate, tempo, token. Questi sono i numeri di riferimento.
- Dopo aver modificato una skill: confronto col benchmark precedente. Se il pass rate è salito e il token usage è stabile, la modifica è positiva. Se il pass rate è uguale ma i token sono aumentati, la modifica aggiunge costo senza beneficio.
- Dopo un aggiornamento del modello: verifico che le performance siano stabili. Se il pass rate cala, devo capire cosa è cambiato e adattare la skill.
Benchmark comparativo: skill vs no-skill
Il benchmark più rivelatore è il confronto diretto: stesso task eseguito con e senza la skill attiva.
| Metrica | Senza skill | Con skill | Delta |
|---|---|---|---|
| Soglie rispettate | 60% | 97% | +37% |
| Formato report corretto | 40% | 95% | +55% |
| Tempo esecuzione | ~3 min | ~4 min | +1 min |
| Token consumati | ~2000 | ~3500 | +75% |
I numeri parlano chiaro: la skill costa un po' di più in tempo e token, ma il miglioramento di qualità (soglie, formato) è enorme. Questo è il tipo di dato che giustifica l'investimento nella creazione e manutenzione delle skill.
Comparator agents: A/B testing per le skill
Il benchmark confronta skill vs no-skill. I comparator agents fanno qualcosa di più potente: confrontano due versioni diverse della stessa skill.
Come funziona l'A/B testing
Due agenti indipendenti eseguono lo stesso task in contesti isolati: uno con la versione A della skill, l'altro con la versione B. Nessuna contaminazione tra i due — ogni agente ha il proprio contesto pulito.
Un terzo agente (il giudice) confronta i due output contro i criteri degli eval e determina quale versione produce risultati migliori. Il giudizio non è cieco — il giudice sa quale versione è quale — ma valuta contro criteri oggettivi, non preferenze.
Quando uso i comparator nel contesto SEO
- Quando riformulo le soglie della skill di audit e voglio verificare che il cambiamento migliori effettivamente i risultati, non solo li modifichi.
- Quando semplifico una skill (riducendo lunghezza e complessità) e voglio confermare che la versione corta produce risultati equivalenti alla versione lunga.
- Quando testo una nuova sezione della skill — la aggiungo nella versione B e confronto con la A senza la sezione.
Il valore dell'isolamento
Il punto critico è l'isolamento. Senza comparator agents, testare due versioni significa eseguire un task, cambiare la skill, eseguire di nuovo, e confrontare a memoria. Il contesto della prima esecuzione inquina la seconda. Con agenti paralleli isolati, il confronto è pulito: stesse condizioni, diversa solo la skill.
Ottimizzazione del triggering: il problema della description
Nel mio articolo precedente sulle skill ho parlato del "principio trigger, non summary": la description nel frontmatter deve descrivere quando usare la skill, non cosa fa. Anthropic ha ora automatizzato l'ottimizzazione di questo aspetto.
Il problema scala con il numero di skill
Quando hai 2-3 skill, il triggering funziona bene anche con description imperfette. Ma quando ne hai 10, 15, 20, la precisione della description diventa critica.
- Description troppo ampia: la skill si attiva quando non dovrebbe (falso positivo). Claude carica istruzioni irrilevanti che confondono il contesto.
- Description troppo stretta: la skill non si attiva quando dovrebbe (falso negativo). Claude lavora senza le regole che hai definito.
Con un ecosistema di skill SEO — audit, fix, content, meta tag, immagini, report — la sovrapposizione è reale. Una richiesta come "migliora i title delle pagine principali" potrebbe attivare la skill di audit, quella di meta generation, o quella di content review. La description deve essere precisa abbastanza da attivare solo quella giusta.
Come funziona l'ottimizzazione automatica
Lo skill-creator analizza la description corrente insieme a prompt campione e suggerisce miglioramenti. In pratica: gli dai esempi di quando la skill dovrebbe attivarsi e quando no, e il tool riscrive la description per massimizzare la precisione del match.
Nei test pubblicati da Anthropic su sei skill pubbliche di document creation, l'ottimizzazione ha migliorato il triggering su cinque di esse. Il miglioramento tipico: meno falsi positivi (la skill non si attiva quando non serve) mantenendo gli stessi veri positivi (la skill si attiva sempre quando serve).
Come lo applico alle skill SEO
Per ogni skill del mio ecosistema, definisco due set di prompt.
Prompt positivi: richieste che DEVONO attivare la skill. Per la skill di audit: "analizza il crawl", "quali problemi tecnici ha questo sito", "fai un audit SEO", "controlla la salute del sito".
Prompt negativi: richieste che NON devono attivare la skill. Per la skill di audit: "scrivi un meta title per questa pagina" (→ meta generation), "genera un'immagine di copertina" (→ nano banana), "come sta andando il traffico questo mese" (→ report).
L'ottimizzatore usa questi set per raffinare la description, trovando le keyword e le formulazioni che massimizzano la separazione tra skill diverse.
Il futuro: quando le skill diventano specifiche
Un aspetto affascinante che emerge dal blog di Anthropic: man mano che i modelli migliorano, la distinzione tra "skill" e "specifica" potrebbe sfumare.
Oggi, una skill SKILL.md contiene sia il cosa (obiettivi, criteri) che il come (step operativi, tecniche, workflow). È un piano di implementazione che dice al modello esattamente come procedere.
In futuro, potrebbe bastare descrivere il cosa — i criteri di qualità, le soglie, il formato output — e lasciare che il modello determini autonomamente il come. Gli eval descriverebbero il comportamento desiderato, e il modello troverebbe il percorso migliore per arrivarci.
Per la SEO questo significherebbe: definire le soglie di un audit, i criteri di un contenuto di qualità, i vincoli di un meta tag — senza dover spiegare step by step come fare l'analisi. La skill diventa un contratto di risultato, non un manuale operativo.
Per ora siamo nella fase intermedia: il come conta ancora, ma il cosa conta sempre di più. E gli eval sono esattamente lo strumento per definire il cosa in modo verificabile.
Conclusione: dalla creazione alla manutenzione sistematica
Creare una skill è il primo passo. Testarla con eval, misurarla con benchmark, ottimizzarla con comparator agents e raffinare il triggering — questo è il ciclo completo.
Il cambiamento di mentalità è significativo: le skill non sono più documenti che scrivi una volta e dimentichi. Sono sistemi viventi che richiedono manutenzione, testing regressivo e ottimizzazione continua. Esattamente come il codice software — perché, in fondo, le skill sono codice.
Per chi lavora nella SEO con Claude Code, questo significa che il proprio ecosistema di skill può essere trattato con la stessa disciplina del codice del sito: versionato, testato, misurato, migliorato iterativamente. E questa disciplina è ciò che separa un uso occasionale dell'AI da un sistema di lavoro affidabile e scalabile.
Se vuoi partire dalle basi, leggi il mio articolo su come creare skill per Claude Code in ambito SEO.
Per capire come i workflow pattern orchestrano le skill in task complessi, leggi Workflow Pattern per Agenti AI applicati alla SEO.
Per discutere di come ottimizzare il tuo ecosistema di skill SEO, contattami per una consulenza. Aiuto professionisti e aziende a costruire sistemi AI misurabili e scalabili.
Domande Frequenti
Gli eval sono test automatizzati che verificano se Claude si comporta come previsto quando una skill è attiva. Si definisce un prompt di input, le caratteristiche dell'output atteso e i criteri di pass/fail. Il sistema esegue il test e riporta se la skill produce risultati conformi. Funzionano come gli unit test nel software.
Le skill di tipo capability uplift insegnano a Claude qualcosa che il modello base non fa bene (es. audit con soglie personalizzate, generazione immagini con brand guidelines specifiche). Le skill encoded preference codificano un processo che Claude sa già fare step by step, ma la skill definisce l'ordine e il formato specifico del tuo workflow (es. report settimanale con struttura fissa).
Il benchmark mode è uno strumento di valutazione standardizzato che misura tre metriche: pass rate degli eval (percentuale di test superati), tempo di esecuzione e consumo di token. Serve per confrontare versioni diverse della stessa skill, monitorare l'impatto degli aggiornamenti del modello e quantificare il rapporto costo-beneficio di una skill.
Due agenti indipendenti eseguono lo stesso task in contesti completamente isolati: uno con la versione A della skill, l'altro con la versione B. Un terzo agente giudica i risultati contro criteri oggettivi. È l'equivalente dell'A/B testing per le skill: permette di verificare se una modifica migliora effettivamente i risultati.
Con 2-3 skill il triggering funziona anche con description imperfette. Ma con 10+ skill, una description troppo ampia causa falsi positivi (la skill si attiva quando non dovrebbe) e una troppo stretta causa falsi negativi (non si attiva quando serve). L'ottimizzazione automatica analizza prompt positivi e negativi per riscrivere la description con la massima precisione.
In tre situazioni: dopo aver creato una nuova skill (per stabilire la baseline), dopo aver modificato una skill (per verificare che la modifica sia positiva) e dopo un aggiornamento del modello AI (per catturare eventuali regressioni). Per skill critiche usate quotidianamente, un benchmark settimanale è una buona pratica.
Le skill di tipo capability uplift hanno un rischio di obsolescenza: se il modello base impara le tecniche codificate nella skill, questa diventa superflua. Gli eval lo rilevano: se passano anche senza la skill caricata, puoi ritirarla. Le skill encoded preference (che codificano il tuo processo specifico) hanno rischio basso: il modello non può imparare le tue preferenze personali.
Sull'autore
Claudio Novaglio
SEO Specialist, AI Specialist e Data Analyst con oltre 10 anni di esperienza nel digital marketing. Lavoro con aziende e professionisti a Brescia e in tutta Italia per aumentare la visibilità organica, ottimizzare le campagne pubblicitarie e costruire sistemi di misurazione data-driven. Specializzato in SEO tecnico, local SEO, Google Analytics 4 e integrazione dell'intelligenza artificiale nei processi di marketing.
Vuoi migliorare i tuoi risultati online?
Parliamo del tuo progetto. La prima consulenza è gratuita, senza impegno.