Che cos'è il file Robots.txt?

Robots.txt

Che cos'è il file Robots.txt?

Un file robots.txt limita i web crawler, come i bot dei motori di ricerca, dall'accesso a URL specifici di un sito web. Può anche essere utilizzato per regolare la velocità di crawling di alcuni web crawler.

Tutti i web crawler "buoni" rispettano le regole specificate nel file robots.txt. Tuttavia, esistono crawler "cattivi" non registrati, spesso utilizzati a scopo di scraping, che ignorano completamente il file robots.txt.

Il file robots.txt deve essere utilizzato per ridurre/ottimizzare il traffico dei crawler su un sito web e non deve essere utilizzato per controllare l'indicizzazione delle pagine web. Anche se un URL è vietato nel file robots.txt, può comunque essere indicizzato da Google se viene scoperto tramite un link esterno.

Sintassi di Robots.txt

La sintassi del file robots.txt contiene i seguenti campi:

user-agent: il crawler a cui si applicano le regole
disallow: un percorso che non deve essere strisciato
allow: un percorso che può essere carrellato (facoltativo)
sitemap: posizione del file della sitemap (opzionale)
crawl-delay: controlla la velocità di crawling (opzionale e non supportato da GoogleBot)

Ecco un esempio:

User-agent: RanktrackerSiteAudit Disallow: /resources/ Allow: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml

Questo file robots.txt indica al crawler di RanktrackerSiteAudit di non eseguire il crawling degli URL nella directory "/resources/" ad eccezione di quelli in "/resources/images/" e imposta il ritardo tra le richieste a 2 secondi.

Perché il file Robots.txt è importante?

Il file robots.txt è importante perché consente ai webmaster di controllare il comportamento dei crawler sui loro siti web, ottimizzando il crawl budget e limitando il crawling di sezioni del sito non destinate all'accesso pubblico.

Molti proprietari di siti web scelgono di non indicizzare alcune pagine, come le pagine degli autori, le pagine di login o le pagine di un sito associativo. Possono anche bloccare il crawling e l'indicizzazione di risorse riservate, come PDF o video che richiedono un opt-in via e-mail per l'accesso.

Vale la pena notare che se si utilizza un CMS come WordPress, la pagina di login /wp-admin/ viene automaticamente bloccata dall'indicizzazione dei crawler.

Tuttavia, è importante notare che Google non consiglia di affidarsi esclusivamente al file robots.txt per controllare l'indicizzazione delle pagine. Se si apportano modifiche a una pagina, come ad esempio l'aggiunta di un tag "noindex", è necessario assicurarsi che la pagina non sia stata disabilitata nel file robots.txt. In caso contrario, Googlebot non sarà in grado di leggerla e di aggiornare il suo indice in modo tempestivo.

Domande frequenti

Cosa succede se non ho un file robots.txt?

La maggior parte dei siti non richiede assolutamente un file robots.txt. Lo scopo di un file robots.txt è quello di comunicare istruzioni specifiche ai bot di ricerca, ma potrebbe non essere necessario se si dispone di un sito web più piccolo o senza molte pagine da bloccare dai crawler di ricerca.

Detto questo, non c'è alcun svantaggio nel creare un file robots.txt e nel mantenerlo attivo sul vostro sito web. In questo modo sarà facile aggiungere direttive se sarà necessario farlo in futuro.

Posso nascondere una pagina ai motori di ricerca utilizzando robots.txt?

Sì. Nascondere le pagine ai motori di ricerca è una delle funzioni principali di un file robots.txt. È possibile farlo con il parametro disallow e l'URL che si desidera bloccare.

Tuttavia, è importante notare che il semplice fatto di nascondere un URL a Googlebot utilizzando il file robots.txt non garantisce che non venga indicizzato. In alcuni casi, un URL può ancora essere indicizzato in base a fattori quali il testo dell'URL stesso, il testo di ancoraggio utilizzato nei link esterni e il contesto della pagina esterna in cui l'URL è stato scoperto.

Come verificare il mio file robots.txt?

È possibile convalidare il file robots.txt e verificare il funzionamento delle istruzioni su URL specifici utilizzando il tester robots.txt in Google Search Console o utilizzando validatori esterni, come quello di Merkle.

Robots.txt