Ticker

6/recent/ticker-posts

Googlebot bloccato dal file robots.txt - Correggere e ottimizzare robots.txt

Googlebot bloccato del file robots.txt

Googlebot è un software che il motore di ricerca Google utilizza per scansionare, in modo automatico, i siti web alla ricerca di nuove pagine e contenuti da indicizzare seguendo delle linee guida fornite da un file di testo, robots.txt.
Googlebot è il nome generico di due diversi tipi di crawler: un crawler desktop che simula un utente che usa un dispositivo desktop e un mobile crawler che simula un utente che usa un dispositivo mobile.

Questo spider effettua due tipi di scansione: la Deep-crawl, effettuata una volta al mese circa, e la Fresh-crawl effettuata quasi tutti i giorni.
Può, però, succedere che durante la scansione di un sito web Googlebot rilevi qualche problema o che non riesca ad accedere ai file JavaScript e CSS.


Video Tutorial


Googlebot bloccato dal file robots.txt

Per ottenere un rendering e un'indicizzazione ottimali si deve consentire a Googlebot di accedere ai file JavaScript, CSS e immagini.
Se il file robots.txt del sito non consente la scansione di queste risorse si compromette l'efficacia del rendering e dell'indicizzazione dei tuoi contenuti.
Il file robots.txt si trova nella directory principale (root) di ogni sito web.
Se un sito web ha uno o più sottodomini, il file robots.txt dovrà essere presente nella directory principale di ognuno di essi.
I comandi più comuni presenti nel file robots.txt sono tre:

  • User-Agent: * (con il quale è concesso l’accesso a tutti gli spider dei vari motori di ricerca);
  • Disallow: (con il quale si limita l’accesso ad una risorsa);
  • Allow: (per consentire l’accesso ad una risorsa).

Vediamo adesso un esempio del file robots.txt per un sito realizzato con Joomla e uno realizzato con WordPress.
Fare molta attenzione ad asterisco e slash.

Per Joomla possiamo scriverlo così:

User-agent: *
Disallow: /administrator/
Disallow: /tag/
Disallow: /category
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Per WordPress possiamo scriverlo così:

User-agent: *
Disallow: /wp-admin/
Disallow: /category
Disallow: /tag/
Allow: /wp-admin/admin-ajax.php

Per consentire l'accesso ai files JavaScript e CSS, in qualsiasi posizione essi si trovino, sia per Joomla che per WordPress, si devono aggiungere al file robots.txt due comandi:
Allow: *.js$
Allow: *.css$

“$” per specificare la fine di uno URL

Infine è molto importante permettere la scansione della Sitemap. Per fare ciò basta inserire, all’interno del file robots.txt, il percorso del file sitemap.xml presente sul sito web, ad esempio:
http://www.miosito.it/sitemap.xml
Quindi nel file robots.txt il comando da scrivere per permettere la scansione della sitemap è:
Sitemap: http://www.miosito.it/sitemap.xml (su miosito.it va inserito il nome del tuo dominio)

Dopo aver effettuato tutte le correzioni e caricato il file robots.txt nella root del sito web, accedi al tuo account Google Search Console. Da qui, tramite lo strumento Tester dei file robots.txt è possibile controllarlo e verificarlo.
Dopo aver selezionato una proprietà verrà mostrato il contenuto del file robots.txt presente sul sito web.

Nel campo Inserisci un URL per verificare se è bloccato scrivi il percorso del file robots.txt.
In questo caso basta solo scrivere robots.txt e clic su Testa lasciando l'opzione Googlebot.
Ripeti il test selezionando Googlebot-Mobile.
Se il file robots.txt contiene tutti i comandi corretti, il risultato dei due test sarà una scritta Consentito.

Condividi articolo