Il file robots.txt e la sitemap sono due elementi fondamentali della SEO tecnica: indicano ai motori di ricerca come eseguire la scansione di un sito web e quali pagine meritano di essere scoperte con priorità. Il robots.txt comunica a crawler come Googlebot quali aree possono o non possono essere visitate; la sitemap, cioè la mappa del sito in formato XML, segnala invece gli URL importanti, le date di aggiornamento e la struttura generale delle pagine. In breve: robots.txt orienta la scansione, mentre la sitemap facilita la scoperta degli URL. Un file robots.txt e una sitemap configurati correttamente possono migliorare in modo significativo l’efficienza di indicizzazione, soprattutto per siti nuovi, e-commerce, siti aziendali e portali con grandi archivi di contenuti.
In questa guida vedremo passo dopo passo come creare robots.txt e sitemap, quali regole utilizzare, a cosa prestare attenzione su WordPress e su siti sviluppati su misura, come testare eventuali errori e come inviare la mappa del sito a Google. Questo contenuto, preparato per il blog di Hostragons, è pensato secondo gli standard SEO 2026 e si concentra su intento di ricerca, correttezza tecnica, crawl budget, indicizzabilità e applicazioni pratiche.
Che cos’è robots.txt?
Robots.txt è un file di testo semplice posizionato nella directory principale del sito web. Di solito è accessibile da un indirizzo come https://tuodominio.it/robots.txt. Questo file fornisce istruzioni ai bot dei motori di ricerca su quali cartelle o pagine possono essere scansionate e quali, invece, non dovrebbero esserlo. Il punto più importante da ricordare è questo: robots.txt non è uno strumento di sicurezza. È soltanto una direttiva di scansione rivolta ai bot che rispettano le regole.
Ad esempio, il pannello di amministrazione, i passaggi del carrello, le pagine di checkout, i risultati di ricerca interni, gli URL con parametri di filtro o le cartelle di test possono essere esclusi dalla scansione. Tuttavia, le informazioni riservate non devono mai essere “protette” con robots.txt. Il file è pubblico e chiunque può visualizzarlo. Per una protezione reale servono password, restrizioni lato server, una configurazione hosting sicura e l’uso di SSL. Per rafforzare le basi del tuo sito puoi valutare certificato SSL per la sicurezza e Hosting Web per un’infrastruttura performante.
A cosa serve il file robots.txt?
- Guida il comportamento di scansione dei bot dei motori di ricerca.
- Riduce la scansione di pagine poco utili, duplicate o non strategiche.
- Aiuta a concentrare il crawl budget sulle pagine più importanti.
- Comunica ai bot la posizione della sitemap.
- Può bloccare la scansione di aree come ambienti di test, pannelli interni, ricerche interne e URL con parametri.
Nei siti con migliaia di prodotti, categorie, tag o pagine generate da filtri, un robots.txt impostato male può ritardare la scoperta delle pagine importanti da parte di Google. Al contrario, un file troppo restrittivo può bloccare CSS, JavaScript, immagini o pagine di categoria e compromettere la resa del sito nei risultati di ricerca.
Che cos’è una sitemap?
La sitemap, o mappa del sito, è un file in formato XML che elenca gli URL importanti presenti sul tuo sito e li rende più facilmente individuabili dai motori di ricerca. In genere si trova all’indirizzo https://tuodominio.it/sitemap.xml. Il messaggio che una sitemap invia ai motori di ricerca è chiaro: queste pagine sono rilevanti per il mio sito, scoprile e, se idonee, considerale per l’indicizzazione.
Una sitemap può contenere informazioni come l’URL, la data dell’ultimo aggiornamento, la frequenza di modifica e la priorità. Nell’approccio SEO 2026, la data di ultimo aggiornamento ha un ruolo particolarmente importante, perché i motori di ricerca cercano di individuare e rivalutare in modo efficiente i contenuti aggiornati e di qualità. Tuttavia, la sitemap da sola non garantisce l’indicizzazione. Il fatto che un URL sia presente nella sitemap non significa che verrà necessariamente mostrato su Google. La pagina deve essere utile, accessibile, indicizzabile, coerente dal punto di vista canonical e allineata all’intento dell’utente.
Quando serve una sitemap?
- Quando il sito web è appena stato pubblicato.
- Quando hai molte pagine, prodotti o articoli del blog.
- Quando la struttura di link interni è debole o poco profonda.
- Quando pubblichi molti contenuti visivi, video o news.
- Quando in un e-commerce aggiorni spesso prodotti, prezzi o disponibilità.
- Quando migliori e aggiorni regolarmente contenuti già esistenti.
Anche un sito piccolo con una buona architettura di link interni dovrebbe avere una sitemap. È una buona pratica perché offre ai motori di ricerca una lista chiara degli URL rilevanti e riduce il rischio che alcune pagine vengano scoperte in ritardo.
Differenze tra robots.txt e sitemap
Robots.txt e sitemap lavorano spesso insieme, ma hanno funzioni diverse. Robots.txt si occupa principalmente di autorizzazioni e limitazioni di scansione, mentre la sitemap elenca gli URL che vuoi far scoprire ai motori di ricerca. La tabella seguente riassume le differenze principali.
| Caratteristica | Robots.txt | Sitemap |
|---|---|---|
| Obiettivo principale | Indicare ai bot quali aree possono scansionare | Segnalare ai motori di ricerca gli URL importanti |
| Posizione del file | Directory principale: /robots.txt | Di solito /sitemap.xml |
| Formato | Testo semplice | XML |
| Garantisce l’indicizzazione? | No | No |
| Rischio in caso di uso errato | Può bloccare la scansione di pagine importanti | Può inviare URL di bassa qualità o pagine noindex |
| Impatto SEO | Aiuta a gestire il crawl budget | Rafforza la scoperta degli URL e i segnali di aggiornamento |
Come creare un file robots.txt
Creare un file robots.txt è tecnicamente semplice, ma richiede attenzione dal punto di vista SEO. Il nome del file deve essere scritto in minuscolo, robots.txt, e il file deve essere caricato nella directory principale del sito. L’indirizzo corretto sarà quindi https://tuodominio.it/robots.txt. Un file robots.txt caricato in una sottocartella non viene considerato valido per l’intero sito.
1. Crea la struttura base del robots.txt
La struttura più semplice consente a tutti i bot di scansionare il sito e indica la posizione della sitemap:
- User-agent: *
- Allow: /
- Sitemap: https://tuodominio.it/sitemap.xml
In questo esempio, User-agent: * si riferisce a tutti i bot. Allow: / consente la scansione dell’intero sito. La riga Sitemap segnala invece l’indirizzo della mappa del sito. Per un sito nuovo che desideri far indicizzare, questa configurazione è spesso un punto di partenza sicuro.
2. Identifica le aree che non vuoi far scansionare
Non tutte le pagine devono essere scansionate. In particolare, le pagine personalizzate per l’utente, temporanee, duplicate o con basso valore SEO possono essere limitate tramite robots.txt. Alcuni esempi:
- Disallow: /wp-admin/
- Disallow: /carrello/
- Disallow: /checkout/
- Disallow: /ricerca/
- Disallow: /test/
Sui siti WordPress è comune bloccare la cartella /wp-admin/. Tuttavia, per il corretto funzionamento di alcuni file AJAX di WordPress, è necessario consentire l’accesso al file /wp-admin/admin-ajax.php. Una configurazione di esempio per WordPress può quindi essere:
- User-agent: *
- Disallow: /wp-admin/
- Allow: /wp-admin/admin-ajax.php
- Sitemap: https://tuodominio.it/sitemap.xml
In questo caso il pannello di amministrazione viene escluso dalla scansione, mentre le operazioni AJAX necessarie a temi e plugin restano accessibili. Per rendere il tuo sito WordPress più veloce e stabile puoi valutare anche i servizi Hosting WordPress.
3. Controlla parametri e filtri negli e-commerce
Negli e-commerce, filtri, ordinamenti, colori, taglie, fasce di prezzo, disponibilità e parametri di ricerca possono generare un numero enorme di URL. Ad esempio, la stessa categoria può moltiplicarsi in varianti come /scarpe?colore=nero, /scarpe?taglia=42, /scarpe?sort=price_asc. Se questa struttura non viene gestita correttamente, Googlebot può spendere tempo su migliaia di pagine con scarso valore SEO.
Per queste aree, robots.txt, tag canonical e dati di Google Search Console devono essere valutati insieme. Bloccare tutti i parametri tramite robots.txt non è sempre la soluzione migliore. Alcune pagine filtrate possono infatti intercettare un intento commerciale interessante. Ad esempio, una pagina come scarpe sportive uomo nere può avere valore SEO e andrebbe pianificata come categoria indicizzabile, non come semplice URL filtrato casuale.
4. Non bloccare file CSS e JavaScript
Nella SEO moderna Google non valuta le pagine solo come HTML grezzo, ma anche nella loro versione renderizzata. Bloccare CSS e JavaScript può rendere difficile per Google comprendere layout, compatibilità mobile, menu, contenuti caricati dinamicamente e interazioni della pagina. Regole molto ampie usate in passato, come Disallow: /assets/ o Disallow: /js/, oggi possono essere rischiose.
L’approccio più sicuro per il 2026 è questo: i file CSS, JS, immagini e font che contribuiscono all’esperienza utente devono essere accessibili ai bot. Vanno limitate solo le aree realmente non necessarie alla scansione, come sezioni amministrative, cartelle temporanee o directory private.
5. Testa il file robots.txt
Dopo aver caricato il file, è indispensabile testarlo. Controlla in particolare:
- L’indirizzo https://tuodominio.it/robots.txt risponde con codice di stato 200?
- Il file è vuoto, contiene errori o appartiene al dominio sbagliato?
- La riga Sitemap punta all’URL corretto?
- Pagine importanti come categorie, prodotti, servizi e articoli sono bloccate per errore?
- Risorse CSS, JS e immagini sono state escluse accidentalmente?
Con lo strumento Controllo URL di Google Search Console puoi verificare se le pagine strategiche sono scansionabili. Anche l’analisi dei log server, per capire quali URL visita Googlebot, è una tecnica più avanzata ma estremamente utile. Per prestazioni server solide e configurazioni affidabili puoi considerare server VPS o Hosting Aziendale.
Come creare una sitemap
Quando crei una sitemap, l’obiettivo è fornire ai motori di ricerca una lista pulita di URL di qualità che desideri far indicizzare. Non tutti gli URL del sito devono necessariamente comparire nella sitemap. Anzi, includere pagine noindex, URL reindirizzati, pagine con errori o contenuti duplicati può inviare segnali negativi dal punto di vista SEO.
1. Inserisci solo URL indicizzabili
Le pagine da includere nella sitemap dovrebbero rispettare questi criteri:
- Devono restituire codice di stato 200.
- Non devono contenere il tag noindex.
- Non devono essere bloccate dal robots.txt.
- Il tag canonical deve puntare a se stesso o alla destinazione corretta.
- Devono offrire contenuti originali e utili per l’utente.
- Devono essere mobile friendly e caricarsi velocemente.
Ad esempio, prodotti eliminati, articoli non più disponibili e rimossi in modo permanente, risultati di ricerca interni, pagine carrello e checkout non dovrebbero essere presenti nella sitemap. Al contrario, homepage, categorie principali, sottocategorie rilevanti, pagine servizio, articoli del blog e prodotti attivi dovrebbero essere inclusi nella mappa del sito.
2. Usa correttamente il formato XML della sitemap
Una sitemap XML semplice segue questa logica:
- <urlset> è il contenitore principale.
- <url> è il blocco dedicato a ogni singola pagina.
- <loc> contiene l’URL completo della pagina.
- <lastmod> indica la data dell’ultimo aggiornamento della pagina.
Un esempio di record URL può essere immaginato così: <loc>https://tuodominio.it/servizi/</loc> e <lastmod>2026-01-15</lastmod>. Il formato consigliato per la data è anno-mese-giorno. È importante che il campo lastmod venga aggiornato in modo automatico ma corretto. Cambiare ogni giorno la data di tutti gli URL solo per “stimolare” Google non è una pratica affidabile.
3. Dividi la sitemap in sezioni nei siti grandi
Una sitemap XML standard dovrebbe contenere al massimo 50.000 URL e non superare i 50 MB nella versione non compressa. Nei siti di grandi dimensioni è più sano utilizzare un indice sitemap invece di un unico file. Ad esempio:
- /post-sitemap.xml
- /page-sitemap.xml
- /product-sitemap.xml
- /category-sitemap.xml
- /image-sitemap.xml
Questa struttura consente ai motori di ricerca di elaborare i file in modo più efficiente e rende più semplice diagnosticare problemi di indicizzazione per tipologia di contenuto. Se, ad esempio, nella sitemap prodotti sono presenti 20.000 URL ma solo 8.000 risultano indicizzati, sarà opportuno analizzare descrizioni prodotto, disponibilità, contenuti duplicati, velocità delle pagine e gestione dei filtri.
4. Creare una sitemap in WordPress
Dalla versione 5.5 in poi WordPress include una funzionalità nativa per la sitemap XML. Di default può essere raggiunta da /wp-sitemap.xml. Tuttavia, in molti progetti professionali si preferiscono plugin SEO come Rank Math, Yoast SEO o soluzioni simili, perché offrono un controllo più avanzato. Con questi plugin puoi decidere quali tipi di contenuto includere nella sitemap, se mostrare o meno gli archivi dei tag e come gestire gli archivi autore.
Un errore frequente nei siti WordPress è inserire nella sitemap pagine tag di scarso valore. Se gli archivi tag non hanno descrizioni originali, una buona struttura di link interni e una reale domanda di ricerca, spesso è meglio lasciarli fuori dalla sitemap. Per rafforzare la tua strategia editoriale puoi collegare anche il tema come scrivere un post per blog SEO compatibili.
5. Imposta l’automazione della sitemap nei siti sviluppati su misura
Nei siti con sviluppo custom la sitemap può essere creata manualmente, ma nei progetti dinamici è necessario automatizzarla. Quando viene aggiunto un prodotto, pubblicato un articolo o aggiornata una pagina servizio, anche la sitemap dovrebbe aggiornarsi automaticamente. È consigliabile che il team di sviluppo applichi queste regole:
- Le pagine pubblicate devono essere aggiunte automaticamente alla sitemap.
- Gli URL eliminati o che restituiscono 404 devono essere rimossi dalla sitemap.
- Le pagine con noindex non devono essere incluse.
- Le pagine con canonical verso un URL diverso devono essere gestite con attenzione.
- Il campo lastmod deve aggiornarsi solo in caso di reale modifica del contenuto.
Questa automazione è essenziale per la salute della SEO tecnica, soprattutto in portali di news, annunci, prenotazioni, formazione ed e-commerce aggiornati di frequente.
Come indicare la sitemap dentro robots.txt
Aggiungere l’indirizzo della sitemap alla fine del file robots.txt è una buona pratica. In questo modo i bot possono trovare facilmente la mappa del sito. Esempio:
- User-agent: *
- Allow: /
- Sitemap: https://tuodominio.it/sitemap.xml
Se hai più sitemap, puoi indicarle su righe separate:
- Sitemap: https://tuodominio.it/post-sitemap.xml
- Sitemap: https://tuodominio.it/product-sitemap.xml
- Sitemap: https://tuodominio.it/category-sitemap.xml
Se il tuo dominio usa HTTPS, anche gli URL della sitemap devono essere in HTTPS. Le varianti HTTP, www e non-www non devono essere mischiate. Per questo è importante configurare correttamente fin dall’inizio dominio, SSL e redirect. Se stai avviando un nuovo progetto, considera Verifica del dominio e certificato SSL insieme alla tua pianificazione SEO tecnica.
Inviare la sitemap a Google Search Console

Dopo aver creato la sitemap, è opportuno inviarla tramite Google Search Console. I passaggi sono:
- Accedi a Google Search Console.
- Seleziona la proprietà corretta. Idealmente usa una proprietà di tipo dominio.
- Dal menu laterale entra nella sezione Sitemap.
- Inserisci l’URL della sitemap, ad esempio sitemap.xml.
- Clicca sul pulsante Invia.
- Controlla lo stato di elaborazione e il numero di URL rilevati.
Dopo l’invio, non aspettarti che tutte le pagine vengano indicizzate immediatamente. Google prima scopre gli URL, poi li scansiona, li elabora e infine decide se indicizzarli in base ai segnali di qualità. Nei siti nuovi il processo può richiedere da pochi giorni a diverse settimane. Una buona struttura di link interni, contenuti di qualità e tempi di risposta server rapidi possono influenzare positivamente il processo.
Errori comuni con robots.txt e sitemap
1. Bloccare per errore l’intero sito
L’errore più critico è lasciare la regola Disallow: / sul sito in produzione. Questa direttiva impedisce la scansione dell’intero sito. È una configurazione spesso usata negli ambienti di sviluppo, ma se non viene rimossa al momento della pubblicazione, Google non potrà scansionare le nuove pagine. Il controllo del robots.txt deve essere sempre incluso nella checklist di go-live.
2. Inserire nella sitemap pagine noindex
Applicare noindex a una pagina e, allo stesso tempo, inserirla nella sitemap genera un segnale contraddittorio. La sitemap dice “questa pagina è importante”, mentre noindex dice “non inserirla nell’indice”. Per questo la sitemap dovrebbe contenere solo URL che vuoi realmente far indicizzare.
3. Mantenere nella sitemap URL con 301, 404 o 500
Gli URL presenti nella sitemap dovrebbero idealmente restituire codice di stato 200. URL reindirizzati, non trovati o con errori server devono essere rimossi con controlli periodici. Una scansione SEO tecnica mensile permette di individuare questi problemi prima che diventino più gravi.
4. Usare dominio o protocollo sbagliati
Se usi https://www.tuodominio.it, anche gli URL nella sitemap dovrebbero seguire lo stesso formato. Varianti diverse di protocollo o dominio possono rendere più difficile per Google consolidare i segnali. Canonical, sitemap, robots.txt e redirect dovrebbero puntare tutti alla stessa versione principale dell’URL.
5. Inviare troppi URL non necessari
La sitemap non è un cestino in cui buttare ogni URL generato dal sito. Invece di includere tutto, aggiungi solo le pagine di qualità che vuoi davvero indicizzare. Escludere pagine deboli, duplicate o poco utili consente di inviare ai motori di ricerca un segnale più pulito.
Checklist SEO tecnica per il 2026
Quando prepari robots.txt e sitemap, puoi usare questa checklist:
- Il file robots.txt si trova nella directory principale ed è accessibile?
- L’indirizzo della sitemap è indicato correttamente nel robots.txt?
- Le pagine importanti non sono bloccate dal robots.txt?
- Risorse CSS, JavaScript e immagini sono scansionabili?
- La sitemap contiene solo URL indicizzabili con codice 200?
- Le pagine noindex sono escluse dalla sitemap?
- Le date lastmod riflettono aggiornamenti reali?
- Nei siti grandi viene usato un indice sitemap?
- La sitemap è stata elaborata correttamente in Google Search Console?
- I tempi di risposta del server supportano una scansione efficiente?
La SEO tecnica non si limita alla creazione di due file. Anche performance dell’hosting, configurazione SSL, correttezza DNS, redirect, compatibilità mobile e qualità dei contenuti hanno un impatto diretto. Per questo, quando pianifichi l’infrastruttura del tuo progetto, è utile valutare insieme Pacchetti di Hosting, Trasferimento del dominio e Sicurezza del sito web.
Esempio di strategia robots.txt e sitemap
Per un semplice sito aziendale, una struttura consigliata può essere questa: homepage, pagine servizio, chi siamo, contatti e articoli del blog sono inclusi nella sitemap. Pannello di amministrazione, pagine di ringraziamento dei moduli, test di campagne temporanee e risultati di ricerca interni vengono gestiti con robots.txt o noindex. In un sito di questo tipo, la sitemap contiene di solito tra 20 e 200 URL.
In un e-commerce di medie dimensioni, invece, conviene separare sitemap di prodotti, categorie, brand e blog. I prodotti attivi vengono inclusi, quelli rimossi definitivamente vengono eliminati dalla sitemap e, quando possibile, reindirizzati con 301 verso prodotti simili. Gli URL dei filtri vanno analizzati singolarmente. I filtri con volume di ricerca e potenziale di conversione possono diventare categorie dedicate; gli altri possono essere controllati con una strategia combinata di robots.txt, canonical o noindex.
In un blog ricco di contenuti o in un sito di news, date di pubblicazione, date di aggiornamento, struttura delle categorie e link interni sono fondamentali. Quando un contenuto vecchio viene migliorato, il campo lastmod deve cambiare in modo corretto, ma non bisogna simulare aggiornamenti inesistenti. Il segnale di cui Google si fida è il miglioramento reale del contenuto.
Domande frequenti
Il file robots.txt blocca completamente l’indicizzazione?
No. Robots.txt blocca la scansione, ma non sempre impedisce completamente l’indicizzazione. Se un URL riceve link da altri siti, Google potrebbe mostrarlo nell’indice anche senza averlo scansionato. Per impedire l’indicizzazione si usa in genere il tag noindex o una restrizione di accesso adeguata.
La sitemap aiuta a posizionarsi meglio su Google?
La sitemap non garantisce direttamente un miglior posizionamento. Aiuta però a far scoprire più rapidamente le pagine importanti, a comunicare gli aggiornamenti ai motori di ricerca e a migliorare la salute della SEO tecnica. Per posizionarsi servono anche qualità dei contenuti, link, esperienza utente, velocità e segnali di affidabilità.
È obbligatorio indicare la sitemap nel robots.txt?
Non è obbligatorio, ma è consigliato. Inserire l’indirizzo della sitemap nel robots.txt aiuta i motori di ricerca a trovare più facilmente la mappa del sito. Anche l’invio tramite Google Search Console resta una buona pratica.
Qual è l’indirizzo della sitemap in WordPress?
L’indirizzo predefinito della sitemap WordPress è di solito /wp-sitemap.xml. Se usi plugin SEO, l’indirizzo può essere /sitemap_index.xml o /sitemap.xml. È necessario verificarlo in base al plugin attivo sul sito.
Quanti URL può contenere una sitemap?
Un singolo file XML sitemap dovrebbe contenere al massimo 50.000 URL e non superare il limite di 50 MB. Per siti più grandi, l’approccio migliore è usare un indice sitemap e suddividere i contenuti in file separati per pagine, articoli, prodotti, categorie o immagini.
Conclusione
Robots.txt e sitemap sono due componenti della SEO tecnica che sembrano piccoli dettagli, ma possono avere un grande impatto. Robots.txt guida il comportamento di scansione dei bot, mentre la sitemap facilita la scoperta degli URL importanti. Per una configurazione corretta devi lasciare accessibili le pagine strategiche, limitare con criterio le aree inutili, inserire nella sitemap solo URL indicizzabili e monitorare regolarmente tutto tramite Google Search Console.
Se vuoi costruire basi tecniche solide per il tuo sito web, partire da un hosting affidabile, una gestione corretta del dominio e una configurazione SSL sicura è una scelta intelligente. Scopri le soluzioni Hostragons Hosting Web, dominio e certificato SSL per creare un’infrastruttura veloce, sicura e SEO friendly per il tuo progetto.