Cos'è il Web Scraping? Guida alla Protezione dei Bot

Il web scraping, o estrazione automatizzata dei dati, è la raccolta sistematica dei contenuti presenti su un sito web tramite bot, script o strumenti di automazione. Alcuni bot sono utili e legittimi, come i crawler dei motori di ricerca che permettono alle pagine di essere indicizzate; altri, invece, possono diventare un problema serio. Bot malevoli che copiano prezzi, prodotti, disponibilità di magazzino, testi, indirizzi e-mail, immagini, annunci o dati degli utenti possono consumare banda, peggiorare le prestazioni SEO, aumentare i costi del server e mettere informazioni commerciali strategiche nelle mani dei concorrenti. Per questo lo scraping non è solo una questione tecnica: riguarda sicurezza, performance, aspetti legali, reputazione del brand e protezione dei ricavi.

Nel 2026 il traffico bot non è più fatto soltanto di semplici script riconoscibili a colpo d’occhio. Sono ormai diffusi browser headless, strumenti di raccolta dati potenziati dall’intelligenza artificiale, reti di proxy rotanti, imitazioni di user-agent mobile e automazioni capaci di simulare il comportamento di un utente reale. Di conseguenza, una singola regola nel file robots.txt o un CAPTCHA inserito senza strategia spesso non bastano. Una difesa efficace nasce dalla combinazione di analisi dei log, limitazione della frequenza delle richieste, WAF, rilevamento comportamentale, caching, sicurezza delle API, policy di accesso e un’infrastruttura hosting solida.

In questa guida vedremo che cos’è il web scraping, come distinguere gli utilizzi legittimi da quelli dannosi, quali segnali indicano che il tuo sito viene “raschiato” e quali misure pratiche puoi applicare sull’infrastruttura Hostragons. L’obiettivo non è rendere i contenuti completamente invisibili, ma aumentare il costo operativo dei bot dannosi senza bloccare utenti reali e motori di ricerca, proteggendo al tempo stesso le risorse del sito.

Come funziona il web scraping?

Un processo di web scraping di solito si sviluppa in tre fasi: individuazione delle pagine target, download dell’HTML o delle risposte API e parsing dei dati desiderati. Uno scraper semplice può estrarre da una pagina prodotto il titolo, il prezzo e la disponibilità usando selettori CSS. Un bot più avanzato, invece, può attendere il caricamento dei dati via JavaScript, navigare tra le pagine, conservare cookie, effettuare login e distribuire le richieste su indirizzi IP differenti.

Facciamo un esempio concreto: il tuo e-commerce ha 25.000 prodotti e ogni pagina prodotto genera in media 900 KB di dati. Se un bot malevolo scansiona l’intero catalogo 6 volte al giorno, può produrre circa 135 GB di traffico aggiuntivo. Questo traffico non consuma soltanto banda: incide anche sulle query al database, sui processi PHP, sull’utilizzo della CPU e sui meccanismi di aggiornamento della cache. In un ambiente di hosting condiviso potresti raggiungere i limiti di risorse; su un VPS o un server dedicato potresti sostenere costi inutilmente più alti. Per pianificare correttamente le risorse puoi valutare Pacchetti di Hosting e, se hai bisogno di maggiore controllo, Soluzioni VPS server.

Differenza tra bot legittimi e scraper bot dannosi

Non tutti i bot sono pericolosi. Googlebot, Bingbot o i bot di anteprima dei social network aiutano il tuo sito a essere scoperto, indicizzato e condiviso correttamente. Al contrario, i bot di scraping spesso non citano la fonte, non rispettano limiti di scansione, copiano dati commerciali e ignorano le tue regole di accesso. Fare una distinzione corretta è fondamentale: una regola di sicurezza configurata male può bloccare anche i crawler dei motori di ricerca e ridurre il traffico organico.

Differenza tra bot legittimi e scraper bot dannosi

Caratteristica	Bot legittimo	Scraper bot dannoso
Identità	Si identifica chiaramente e usa intervalli IP verificabili	Cambia spesso user-agent o si finge Googlebot
Velocità di scansione	Di solito naviga a una frequenza ragionevole e regolabile	Invia centinaia o migliaia di richieste in poco tempo
Rispetto delle regole	Può rispettare robots.txt, crawl-delay e altre indicazioni	Può ignorare completamente il file robots.txt
Obiettivo	Indicizzazione, anteprima, monitoraggio o integrazione	Copia di contenuti, prezzi, stock, e-mail o dati
Comportamento	Scansiona le pagine seguendo un flusso di scoperta naturale	Si concentra solo su pattern URL ricchi di dati

Perché il web scraping è rischioso?

1. Consuma le risorse del server

I bot generano richieste HTTP come se fossero visitatori reali. La differenza è che una persona visita poche pagine al minuto, mentre un bot malevolo può richiederne decine al secondo. Pagine di ricerca, filtri, categorie, varianti prodotto e report dinamici possono mettere sotto pressione il database. La CPU sale, le code PHP-FPM si allungano, il TTFB peggiora e gli utenti reali sperimentano un sito più lento. Il deterioramento dei Core Web Vitals può inoltre influenzare indirettamente la visibilità SEO.

2. I tuoi contenuti originali vengono copiati

Quando articoli del blog, descrizioni di categoria, documentazione tecnica e immagini vengono copiati senza autorizzazione, il valore editoriale del tuo sito si riduce. Google nella maggior parte dei casi prova a riconoscere la fonte originale, ma siti scraper molto rapidi nella pubblicazione possono ottenere visibilità temporanea su alcune query. Se i tuoi nuovi contenuti vengono copiati pochi minuti dopo la pubblicazione, diventano ancora più importanti l’invio della sitemap, una buona struttura di link interni e segnali di indicizzazione rapida. Per rafforzare la strategia editoriale puoi integrare quanto indicato nella guida creazione di siti web SEO compatibili.

3. Prezzi e disponibilità possono essere monitorati dai concorrenti

Nei progetti e-commerce, una delle forme più comuni di scraping è il monitoraggio dei prezzi. I concorrenti possono osservare automaticamente nome prodotto, disponibilità, date delle campagne promozionali e condizioni di spedizione. Queste informazioni possono essere usate per strategie di repricing immediato. Nei settori con margini ridotti, il risultato può tradursi direttamente in perdita di fatturato.

4. Possono emergere vulnerabilità di sicurezza

Gli scraper bot non si limitano sempre a copiare dati: a volte mappano la struttura degli URL, i parametri, i messaggi di errore e le tracce dei pannelli di amministrazione. Se nei log vedi molti codici 404, 403, 500 o combinazioni insolite di parametri, il comportamento potrebbe indicare una fase di ricognizione. In questo contesto SSL, software aggiornato, accesso sicuro al pannello e backup regolari sono requisiti di base. Come primo passo per la sicurezza del sito puoi collegare contenuti come certificato SSL e Backup del sito web.

Segnali che il tuo sito viene sfruttato da bot di scraping

Il modo più affidabile per capire il traffico bot è analizzare i log di accesso. Guardare soltanto Google Analytics non è sufficiente, perché molti bot non eseguono JavaScript e non attivano i codici di tracciamento. È importante controllare regolarmente access log, error log e grafici di utilizzo delle risorse nel pannello hosting.

Centinaia di richieste in poco tempo dallo stesso IP o dallo stesso blocco IP.
Traffico anomalo su URL di prodotti, categorie, ricerca o filtri.
Accesso diretto a pagine profonde senza un normale percorso di navigazione.
User-agent vuoto, molto vecchio o sospetto.
Aumenti improvvisi di traffico e CPU durante le ore notturne.
Elevato numero di codici di stato 404, 403 o 429.
Molte visualizzazioni di pagina senza azioni come aggiunta al carrello, invio di form o creazione account.
La stessa sequenza di URL visitata nello stesso ordine da IP differenti.

Un esempio pratico di soglia: se un visitatore medio visualizza 4 pagine per sessione e un certo IP richiama 300 pagine prodotto in 10 minuti, non si tratta di un comportamento umano. Allo stesso modo, se un singolo user-agent percorre più volte in un giorno tutti gli URL della sitemap, è necessario introdurre limiti di scansione.

12 metodi pratici per impedire ai bot di sfruttare il tuo sito

1. Inizia dall’analisi dei log

Prima misura, poi blocca. Nei file access log controlla IP, orario, percorso richiesto, codice di stato, referer e user-agent. Elenca gli IP con più richieste, gli URL più chiamati e i codici di errore più frequenti. In ambiente Linux puoi fare un’analisi rapida con comandi come awk, grep e sort. Se usi un pannello di controllo hosting, attiva le statistiche del traffico e i log grezzi. Per monitorare l’utilizzo delle risorse su Hostragons puoi inserire un collegamento interno a Utilizzo del pannello di controllo dell'hosting.

2. Usa correttamente il file robots.txt

Il file robots.txt è un documento di istruzioni per bot benintenzionati; non è un firewall. Non protegge pagine riservate e non ferma scraper malevoli. Tuttavia aiuta a gestire il crawl budget per risultati di ricerca interni, parametri di filtro, directory temporanee non critiche e pagine a basso valore.

Per esempio, puoi usare regole Disallow per limitare la scansione di combinazioni di filtri. Attenzione però: elencare in modo esplicito percorsi sensibili dentro robots.txt può fornire indizi agli attaccanti. Considera quindi robots.txt come uno strumento di gestione della scansione, non come una misura di sicurezza.

3. Applica il rate limiting

Il rate limiting limita il numero di richieste che un determinato IP, una sessione, un account utente o una chiave API può effettuare in un certo intervallo di tempo. Per esempio, puoi impostare 60 richieste pagina al minuto per visitatori anonimi, 20 richieste al minuto per l’endpoint di ricerca e 5 tentativi di login ogni 5 minuti. Quando il limite viene superato, una risposta 429 Too Many Requests è una soluzione comune.

Questo metodo è particolarmente efficace per pagine di listing prodotto, ricerca, filtri e API. Le soglie devono essere adattate al tuo settore. Un sito di news può avere picchi improvvisi da Google Discover; in un e-commerce il comportamento reale degli utenti può cambiare durante le promozioni. Per questo, prima di applicare regole rigide, è utile analizzare almeno 7 giorni di traffico normale.

4. Usa un Web Application Firewall

Un WAF filtra le richieste sospette prima che raggiungano l’applicazione. SQL injection, XSS, user-agent malevoli, frequenze di richiesta anomale, liste di IP noti per attività dannose e firme di automazione possono essere gestiti da un Web Application Firewall. Nel 2026 le soluzioni WAF più efficaci non lavorano solo su firme statiche, ma anche su analisi comportamentale e punteggi di rischio.

Che tu utilizzi WordPress, WooCommerce, Laravel, OpenCart o un software sviluppato su misura, il livello WAF rappresenta uno scudo cruciale contro i bot. Se usi plugin a livello applicativo, è consigliabile pianificare anche una protezione lato server. Nella scelta dell’infrastruttura di sicurezza puoi collegare in modo naturale Hosting sicuro e Hosting WordPress.

5. Riduci il carico dinamico con CDN e caching

Anche quando non riesci a bloccare completamente gli scraping bot, puoi ridurne l’impatto. Una CDN serve file statici e pagine idonee da server edge, alleggerendo il server origin. Il caching riduce le query al database su categorie, blog e pagine prodotto. Tuttavia aree come carrello, checkout, pannello utente e contenuti personalizzati devono essere escluse con attenzione.

Se un articolo del blog viene richiesto 10.000 volte dai bot, rispondere dalla cache invece di eseguire ogni volta PHP e database può ridurre drasticamente il costo in termini di risorse. Questo approccio non è solo sicurezza: è ottimizzazione delle performance. Siti più veloci offrono una migliore esperienza utente e un vantaggio anche in ottica SEO.

6. Usa il CAPTCHA solo nei punti a rischio

Inserire un CAPTCHA in ogni pagina peggiora l’esperienza degli utenti reali. Per questo dovrebbe essere usato solo nelle aree più sensibili: visitatori che effettuano molte ricerche, IP che inviano numerosi form, tentativi di login falliti, schermate di prova coupon o endpoint di verifica stock. Gli approcci moderni utilizzano CAPTCHA invisibili, analisi del comportamento e punteggi di rischio.

Per esempio, mostrare un CAPTCHA a un utente che visita le prime 20 pagine prodotto potrebbe essere eccessivo; chiedere una verifica aggiuntiva a un visitatore anonimo che apre 150 schede prodotto in 2 minuti è invece molto più ragionevole.

7. Aggiungi honeypot e aree trappola

Un honeypot crea campi form nascosti o link invisibili che gli utenti reali non vedono, ma che i bot possono compilare o seguire. Se un bot riempie il campo trappola o visita il link nascosto, il suo punteggio di rischio aumenta. È uno dei metodi più pratici per rilevare automazione senza disturbare l’esperienza utente.

Occorre però fare attenzione all’accessibilità. Per non penalizzare utenti reali che usano screen reader, i campi devono essere etichettati correttamente e la verifica lato server deve essere progettata con cura.

8. Proteggi gli endpoint API con autenticazione

Molti siti moderni non caricano i dati direttamente nell’HTML, ma tramite risposte API. Gli scraper possono individuare questi endpoint dagli strumenti per sviluppatori del browser e chiamarli direttamente. Per questo le richieste API devono usare token, firme, timestamp, limiti di frequenza e controlli di autorizzazione. Endpoint relativi a stock, prezzi, utenti o report che non devono essere pubblici non dovrebbero accettare accesso anonimo.

Se hai un’app mobile o integrazioni di terze parti, crea chiavi API separate, assegna quote a ciascuna chiave e prevedi sospensione automatica in caso di utilizzo anomalo. Per le architetture di integrazione può essere utile un collegamento interno naturale a Guide API e integrazione.

9. Non affidarti solo al blocco dello user-agent

Bloccare in base allo user-agent è semplice, ma poco affidabile. I bot malevoli possono presentarsi come Chrome, Safari o Googlebot. Anzi, fidarsi del solo user-agent per riconoscere Googlebot senza verifica DNS inversa è rischioso. L’informazione user-agent va usata come un segnale nel processo decisionale, non come prova definitiva.

Un approccio più solido valuta insieme reputazione IP, velocità delle richieste, sequenza degli URL, comportamento dei cookie, esecuzione di JavaScript e persistenza della sessione.

10. Usa contenuti dinamici e mascheramento dei dati

Limita i dati che non è necessario mostrare pubblicamente. Per esempio, i prezzi B2B possono essere visibili solo agli utenti autenticati. Gli indirizzi e-mail possono essere sostituiti da form di contatto invece di essere pubblicati in testo semplice. Nei cataloghi molto grandi, è più sicuro non inserire tutte le varianti prodotto in un unico HTML, ma servirle quando necessario tramite endpoint controllati.

Il mascheramento dei dati rende più difficile l’estrazione automatica di informazioni commerciali sensibili senza compromettere l’esperienza degli utenti reali. Un eccesso di occultamento, però, può danneggiare SEO e conversioni; per questo va progettato con equilibrio.

11. Rendi chiari termini d’uso e testi legali

La base legale è importante quanto le misure tecniche. Nei termini di utilizzo inserisci clausole chiare su raccolta automatizzata dei dati, copia dei contenuti, monitoraggio dei prezzi, duplicazione di database e uso commerciale non autorizzato. Richiedi supporto legale professionale per copyright, uso del marchio e diritti sui database. Questi testi non fermano tecnicamente un bot, ma rafforzano prove e azioni in caso di violazione.

12. Prepara l’infrastruttura hosting al traffico bot

Un’infrastruttura debole può andare in crisi anche con volumi moderati di traffico bot. Versioni PHP aggiornate, supporto HTTP/2 o HTTP/3, caching efficace, isolamento sicuro, backup regolari, consapevolezza DDoS e risorse scalabili riducono l’impatto dei bot. Per un piccolo sito aziendale l’hosting condiviso può bastare; per cataloghi estesi, campagne promozionali o aree membri con molto traffico, un VPS o un server dedicato può essere più adatto. Anche dominio e sicurezza DNS fanno parte del quadro complessivo: per iniziare puoi usare collegamenti come Verifica del dominio e Gestione sicura del DNS.

Misure aggiuntive contro il web scraping sui siti WordPress

I siti WordPress sono spesso bersaglio dei bot perché molto diffusi. XML-RPC, REST API, pagine di ricerca, archivi autore, form commenti e schermata di login devono essere monitorati con particolare attenzione. Se non serve, XML-RPC può essere disattivato; gli endpoint sensibili della REST API possono essere limitati; la pagina di accesso può avere un limite di tentativi; e plugin di sicurezza affidabili possono aiutare nella protezione quotidiana.

Non lasciare il nome utente amministratore impostato su admin.
Limita i tentativi di login per IP e per utente.
Usa honeypot e protezione antispam nei form commenti.
Configura gli endpoint wp-json in modo da non esporre dati inutili.
Attiva la protezione contro l’hotlinking delle immagini.
Pianifica insieme plugin cache e caching lato server.

Nei progetti WordPress con traffico bot intenso, una configurazione server ottimizzata è più importante di una semplice installazione standard. Per questo, quando scegli Hosting WordPress, non guardare solo lo spazio disco: valuta anche livello di sicurezza, backup, limiti di risorse e qualità del supporto tecnico.

Strategia specifica di protezione bot per siti e-commerce

Negli e-commerce la protezione dai bot deve essere regolata con particolare attenzione, perché anche gli utenti reali possono visitare molte pagine prodotto. Troppi falsi positivi possono causare perdita di vendite. Per questo pagine prodotto, categorie, ricerca, verifica disponibilità, prova coupon, carrello e checkout devono essere trattati con profili di rischio separati.

Una strategia possibile: le pagine prodotto vengono servite dalla cache, l’endpoint di ricerca è limitato a 20 richieste al minuto, la disponibilità di magazzino viene fornita solo tramite chiamate controllate dalla pagina, i tentativi di coupon sono limitati per account e il checkout è protetto con controlli bot più forti. Se dallo stesso IP vengono visitate 500 pagine prodotto in 5 minuti, prima si restituisce una risposta 429 e, se il comportamento continua, si applica un blocco temporaneo dell’IP. Durante campagne e saldi, queste regole possono essere allentate o configurate con soglie più alte.

Cosa considerare per evitare blocchi errati

Il rischio più grande nelle attività di blocco bot è impedire l’accesso a utenti reali e crawler legittimi. Bloccare per errore Googlebot può causare perdita di indicizzazione; bloccare i bot dei social può rompere le anteprime di condivisione; filtrare i callback dei provider di pagamento può generare problemi negli ordini. Per questo ogni regola dovrebbe essere testata prima in modalità monitoraggio e poi applicata gradualmente.

Per verificare Googlebot non usare solo lo user-agent: controlla anche IP e DNS inverso.
Prima di bloccare, applica rate limiting e verifiche aggiuntive.
Attiva le nuove regole nelle fasce orarie a basso traffico.
Monitora quotidianamente le risposte 403 e 429.
Inserisci in whitelist gli IP di pagamenti, corrieri, marketplace e gestionali contabili.
Controlla regolarmente le statistiche di scansione in Search Console.

Piano rapido di implementazione passo dopo passo

Il modo migliore per affrontare la protezione bot è procedere per fasi, senza trasformarla subito in un progetto ingestibile. Il piano seguente offre un punto di partenza pratico per aziende con team tecnici ridotti.

Giorno 1: scarica gli access log e lista IP e URL con più richieste.
Giorno 2: rivedi il file robots.txt e sistema le aree di scansione non necessarie.
Giorno 3: definisci rate limiting per ricerca, filtri, login e form.
Giorno 4: avvia le regole WAF o del plugin di sicurezza in modalità monitoraggio.
Giorno 5: controlla cache e CDN, escludendo correttamente le pagine dinamiche.
Giorno 6: aggiungi regole temporanee di blocco per IP e user-agent sospetti.
Giorno 7: confronta 403, 429, traffico organico e conversioni per migliorare le soglie.

Una volta completato questo piano, il sito non diventerà impossibile da copiare al 100%; tuttavia il costo dell’estrazione automatica dei dati aumenterà sensibilmente. I bot tendono a preferire bersagli facili. Un sito ben monitorato, con regole chiare, cache efficace e risorse protette risulta meno interessante rispetto a concorrenti completamente scoperti.

Conclusione: contrastare il web scraping richiede sicurezza a più livelli

Il web scraping è una realtà inevitabile per i siti moderni. Il punto non è bloccare ogni singolo bot, ma rendere più difficile lo sfruttamento del sito da parte dei bot dannosi, preservando al tempo stesso crawler legittimi e utenti reali. Quando analisi dei log, rate limiting, WAF, CDN, sicurezza API, uso corretto di robots.txt, testi legali e una solida infrastruttura hosting lavorano insieme, proteggi meglio sia le performance sia i dati commerciali.

Se mentre fai crescere il tuo sito su Hostragons vuoi pianificare insieme sicurezza, velocità e scalabilità, puoi rivedere l’attuale struttura hosting e valutare le opzioni più adatte al tuo progetto, come Web Hosting o server VPS. La giusta infrastruttura è una difesa silenziosa ma potente nella lotta contro i bot.

Domande frequenti

Il web scraping è legale?

Il web scraping non è automaticamente legale o illegale in ogni situazione. Contano il tipo di dati, lo scopo dell’utilizzo, i termini d’uso del sito, la presenza di dati personali e i diritti d’autore. Un’analisi tecnica limitata di pagine pubbliche non è la stessa cosa della copia non autorizzata di un database commerciale. Per definire una policy chiara per la tua azienda è consigliabile richiedere consulenza legale.

Il file robots.txt blocca gli scraper bot?

No. Il file robots.txt indica ai bot benintenzionati quali aree non dovrebbero scansionare; non è una barriera tecnica di sicurezza. I bot malevoli possono ignorarlo. Per una protezione reale servono misure aggiuntive come WAF, rate limiting, controllo degli accessi e monitoraggio dei log.

Come distinguo Googlebot da un bot falso?

Non fidarti solo dello user-agent. I bot falsi possono presentarsi come Googlebot. Per la verifica è necessario confermare che l’indirizzo IP appartenga effettivamente a Google tramite controllo DNS inverso e DNS diretto. Vanno confrontati anche velocità di scansione, comportamento sugli URL e dati di crawl in Search Console.

Il CAPTCHA ferma completamente i bot?

Il CAPTCHA rallenta alcune automazioni, ma da solo non è una soluzione definitiva. Bot avanzati possono usare servizi di risoluzione CAPTCHA, imitare sessioni reali o automatizzare browser completi. Il CAPTCHA funziona meglio se combinato con rate limiting, WAF, analisi comportamentale e verifiche basate sul rischio.

Il traffico bot può influire sulle prestazioni del mio hosting?

Sì. Un volume elevato di traffico bot può consumare CPU, RAM, database, banda e limiti dei processi PHP. Questo può causare rallentamenti, pagine di errore e perdita di conversioni per gli utenti reali. Caching, CDN, limitazione della frequenza e scelta del pacchetto hosting corretto riducono l’impatto del traffico bot.

Web Scraping: cos’è e come impedire ai bot di sfruttare il tuo sito