Il file Robots.txt

Archiviato in: Motori Di Ricerca il 26 Marzo 2007 da Fabio Dell'Orto

Robots txtIl robots.txt è un file molto semplice attraverso il quale è possibile ridurre l’attività di scansione degli spider dei motori di ricerca.
In italia sono ancora pochissimi i siti che hanno il file robots.txt nella roth del loro server; la colpa è dei  webmaster attenti come sempre soprattutto  alla forma più che alla sostanza !
Peccato perchè i motori di ricerca seguono diligentemente le istruzioni che trovano nel file robots.txt; in questo articolo vedremo insieme qualche esempio “estremo” che dovrebbe convincervi ad utilizzarlo.


Come scritto poco sopra devi utilizzare il file robots.txt soprattutto per evitare che vengano indicizzate pagine e documenti riservati, oppure intere sezioni del tuo web site.
Per fare un file robots.txt non servono particolari strumenti e competenze tecniche; il blocco note di windows per scriverlo, e imparare delle semplicissime regole che faranno svolgere ai motori di ricerca le azioni volute.
Con questo articolo non voglio insegnarti come fare un file robots.txt, troverai in rete tantissime risorse – ti basterà ricercare tra le pagine in italiano di google: robots.txt; voglio invece farti riflettere e portarti a conoscenza di “alcuni casi molto particolari”.  
Se il tuo sito è un e-commerce di prodotti di consumo, come per esempio; telefonini, orologi, occhiali, moda -  il file robots.txt ti aiuterà ad arginare l’indicizzazione delle immagini.
Molti web marketer sono convinti che lasciare libera l’indicizzazione delle immagini sia importante per generare traffico, è vero ! Ti posso però assicurare che è tutto traffico con un bassissimo indice di conversione è che produce un alto consumo della banda con un ingente aumento dei costi, chi conosce i miei siti di e-commerce può verificare che non lascio indicizzare le immagini e per farlo uso naturalmente il robots txt.
Un altro fenomeno a cui quasi nessun webmaster da il giusto valore è di proteggere con robots i documenti xls, pdf, word. Quasi nessuno si preoccupa del fatto che su google è possibile ricercare dei documenti con dei criteri di ricerca di questo tipo:
filetype:xls intext:bilancio 2006, con il risultato che questi documenti se non sono protetti, possono essere scaricati e consultati comodamente.
Fai una prova  e vedrai quanti bilanci di aziende troverai !
Nell’edizione 2006 del SES, si consigliava di non mettere nel file robots.txt directory contenenti informazioni sensibili in quanto gli hackers possono utilizzare il file robots.txt come punto di partenza per capire dove trovare informazioni importanti del sito, in questo caso il modo di “nascondere” i contenuti è di utilizzare un META TAG ROBOTS, questo meta dice al motore di ricerca di non indicizzare il contenuto della pagina.

Technorati Tag: Seo, Motori di ricerca

1 Commento


  1. Commento di fradefra

    Giuste indicazioni. Mi permetto solo di aggiungere una cosa. Il robots.txt, però, non deve essere inteso come un vincolo certificato all’accesso degli spider.
    Si tratta solo di una indicazione che la maggior parte dei motori di solito segue. Non sono obbligati, però. Infatti non è un vincolo sistemistico. Se vogliono, leggono lo stesso.

    Se si vuole avere la certezza matematica che una certa risorsa non sia indicizzata, il robots.txt non è lo strumento giusto.

    Poi, ovviamente, nella maggior parte dei casi va più che bene.
    Questo per dire che come c’è quello che non protegge nulla, c’è quello che si sente tranquillo solo perché ha protetto con il robots.txt ed invece questo è altrettanto sbagliato.

    Wuè, Fabio, il bilancio 2006 di chi era? :-P

Lascia un commento