Che cos'è il "crawl budget" del mio sito e-commerce e come posso migliorarlo?

Hai mai sentito parlare di "crawl budget"? Oggi ti spiegherò che cos'è e soprattutto come migliorarlo al massimo per riuscire a guadagnare posizioni tra i risultati dei motori di ricerca.

In un mondo in cui la maggior parte delle vendite on-line mondiali dipendono da Google, è diventato indispensabile adottare determinate nomenclature e termini che poco hanno a che fare con il commercio tradizionale.
Eppure fino a qualche anno fa non tutti gli esperti di SEO ne afferravano appieno l'importanza.
Il "crawl budget" è proprio uno di questi concetti. Vediamo subito di cosa si tratta.
Che cosa si intende per "crawl budget"?
Il crawl budget è la quantità di tempo che ogni giorno Google dedica alla scansione di un determinato sito e di tutti gli URL che lo compongono. Più un sito si dimostra autorevole, maggiore sarà il budget assegnato e più pagine potranno essere scansionate. E questo è molto importante perché, per apparire tra i risultati di ricerca (ed essere quindi indicizzato e classificato), un contenuto deve prima essere scansionato.
Il bot (o robot) di Google entra sul nostro sito tramite un link esterno e scansiona il contenuto della pagina e i link (e ne esegue il rendering). Una volta finita la scansione di questa pagina, il bot inizia a seguire i link privi dell'attributo "nofollow" per scoprire altre pagine del sito, ripetendo lo stesso lavoro di scansione, renderizzazione e passaggio da un link all'altro.
Maggior è il numero di URL renderizzate ogni giorno dal bot, più probabilità avrà il sito di essere indicizzato e classificato su Google. Ma il crawl budget è limitato e il bot non scansionerà ogni giorno tutti gli URL di tutti i siti...
A cosa serve il "crawl budget"?
La prima funzione del crawl budget, nonché la più importante, è di permettere a un sito di essere indicizzato e di guadagnarsi il miglior posizionamento possibile nella SERP. Maggiore è il valore del budget di scansione e migliore è l'ottimizzazione del sito, più pagine vengono scansionate da Google, che può così calcolare in modo più preciso il page rank interno.
Big G premia poi il sito con un'autorevolezza sufficiente affinché, se soddisfa gli altri suoi requisiti, possa guadagnarsi uno dei primi posti. Monitorare e ottimizzare il crawl budget serve anche a limitare gli accessi al server.
Se il bot di Google non accede a un grande numero di pagine di scarso valore, come pagine di ricerca, paginazione, migliori offerte, navigazione a strati e così via, il lavoro sul server sarà molto minore. Ma questo è un aspetto piuttosto irrilevante per noi.
Come ottimizzare il crawl budget del mio negozio on-line?
Il problema del crawl budget è che è limitato. Quando finisce, finisce.
Come abbiamo visto, Google assegna un determinato numero di scansioni al suo "spider" (il robot) per scoprire e scansionare le pagine di un sito.
L'efficacia del crawling di Google dipende da quanto il sito è ottimizzato. Per migliorare questo aspetto puoi prendere le seguenti misure:
1) Aumentare la velocità di caricamento

La velocità di caricamento è il fattore che più incide nel crawl budget, al pari dei link interni. Visto che il tempo dedicato dal bot di Google alla scansione del nostro sito è limitato, più il caricamento delle pagine è lento, peggio sarà per noi.
Vediamo un esempio [i seguenti dati sono forniti unicamente a titolo di esempio, non dovendo essere presi alla lettera]: il crawl budget assegnato a "negozioonlinedemo.com" è di 20 secondi. Se per caricare ogni pagina ce ne vogliono 5, Google potrà scansionare solo 4 URL del sito.
All'indomani o nei giorni successivi Google torna a scansionare il sito, ma se vi accede dallo stesso link è probabile che riesca ad analizzare solo le stesse 4 pagine, perdendosi il resto. Di conseguenza non può né indicizzare, né classificare, né posizionare le pagine non scansionate. Con una velocità di caricamento di 0,5 secondi invece, Google ha il tempo di scansionare ben 40 pagine.
Una chiara dimostrazione di quanto sia importante curare la page speed!
2) Blocco di determinate pagine nel robots.txt
Alcuni degli URL di un negozio e-commerce non sono interessanti da indicizzare perché si tratta di contenuti duplicati, di "thin content" o semplicemente non apportano nessun valore significativo per un motore di ricerca.
La strategia migliore è quindi quella di bloccarli nel file robots.txt per indicare a Google che non deve perdere tempo a scansionarli. Nessun bot potrà aprire queste pagine, che verranno però comunque indicizzate.
Per evitare anche l'indicizzazione useremo invece l'attributo noindex.
3) Link nofollow per le pagine bloccate
Se si è deciso di bloccare l'entrata al Google bot a una determinata pagina, logicamente non dovremo neanche portarcelo.
Per farlo dovremo applicare l'attributo rel="nofollow" ai link verso le pagine bloccate, per invitare i crawler a non seguirli.
4) Link verso i redirect (301, 302) o pagine di errore (404)

Le pagine di errore, com'è ovvio, vanno evitate come la peste, perché fanno perdere ai bot un tempo prezioso che potrebbero impiegare a scansionare altri URL.
Anche le pagine di redirect devono essere eliminate. Con il passaggio al protocollo https, molti siti fanno l'errore di non modificare tutti i link interni in modo che non ridirigano alla versione http.
Il reindirizzamento è proprio quello che vogliamo evitare. A maggior ragione quando la pagina in questione è a sua volta reindirizzata, ovvero con un doppio redirect. Il problema maggiore è dato dai "redirect loop", ovvero l'errore dei troppi reindirizzamenti. In questo caso i redirect si susseguono senza mai fermarsi.
Per una buona scansione è fondamentale individuare e risolvere tempestivamente questo errore.
5) Link Sculpting
Fare "link sculpting" significa curare con minuzia i link interni per controllare il link juice ed evitare di sprecarlo in punti del sito poco interessanti.
Questa tecnica è applicabile sia ai link interni che esterni.
Un altro vantaggio è che aiuta a ottimizzare il crawl budget del sito, perché "scolpendo" i link, conduciamo il Google bot per la strada giusta, evitando che entri in pagine che non valgono la pena.
6) Creare un file sitemap.html e inserirlo nella pagina iniziale o in un altro punto, visibile in tutte le pagine.
Quando decidiamo di creare una sitemap, è abituale posizionarla nel footer.
La sitemap è una pagina HTML nella quale si mostrano tutti i contenuti del sito sotto forma di link. È quindi interessante che Google la scansioni correttamente.
Oltre a inviare il sitemap.xml alla Search Console, è consigliabile anche includere nel footer un file (denominato "Sitemap" o in altro modo) che contenga un link "follow", per far sì che il bot di Google possa raggiungere qualunque risultato in 2 clic.
Chiaramente parliamo di "clic" dello spider, quindi in senso figurato.
Come possiamo aumentare il nostro crawl budget?
Iniziamo subito dal dire che il budget di scansioni è un punteggio assegnato da Google a un sito, di cui però è impossibile conoscere il valore esatto.
Un elemento che possiamo invece calcolare è il tempo che i bot dedicano alle nostre pagine. Per fare in modo che Google aumenti il nostro crawl budget possiamo agire su più fronti:
» Aumentando i link esterni
Aumentando i link esterni, aumentiamo anche il numero di riferimenti del nostro sito su Google e, di conseguenza, il page rank. A questo punto Google attribuisce maggior autorevolezza e pertinenza al sito, aumentando il crawl budget in modo proporzionale.
» Aggiornando regolarmente il sito
Google calcola ogni quanto viene aggiornato un certo sito per determinare quando è opportuno tornare a scansionarlo in cerca di nuovi contenuti. Al contrario, se durante l'analisi non riscontra novità, allungherà progressivamente gli intervalli tra le scansioni. Gli aggiornamenti di qualità sono quindi un ottimo strumento per accorciare i tempi tra una visita e l'altra e aumentare di conseguenza il crawl budget.
I dettagli di questo meccanismo restano comunque nelle mani di Google e non è il momento di approfondirli.
» Aumentando gli URL del progetto
Se il tuo progetto si arricchisce di nuovi URL ogni giorno, o almeno ogni settimana, ad ogni nuova scansione Google scoprirà i nuovi contenuti e aumenterà proporzionalmente il tempo dedicato al tuo sito. Per analizzare i nuovi contenuti ha infatti bisogno di un crawl budget maggiore.
Conclusione
Riepilogando, il crawl budget è un fattore tanto cruciale quanto complesso e richiede un lavoro accurato e strategico.