Sitemap.xml e robots.txt

È di pochi giorni fa l’annuncio a blog unificati con cui i quattro principali motori di ricerca mondiali (Google, Yahoo!, Microsoft Live Search e Ask.com) si sono accordati per introdurre un nuovo sistema, semplice e standardizzato, per segnalare ai loro spider l’esistenza delle sitemap sui nostri siti senza dover per forza ricorrere a segnalazioni “manuali” a ciascun motore di ricerca; sarà sufficiente aggiungere una riga al file robots.txt, con questa sintassi:

Sitemap: http://www.miosito.ext/sitemap.xml

dove www.miosito.ext andrà ovviamente sostituito col nostro dominio.
Nell’arco di circa un anno e mezzo, quindi, quello che nacque come servizio di Google, il protocollo Sitemap (vedi Google Sitemaps), diventa una sorta di standard per favorire una più profonda e completa indicizzazione (crawling) da parte degli spider dei motori di ricerca.

Il Protocollo Sitemap consente infatti di indicare ai motori di ricerca gli URL dei siti web disponibili per la scansione, grazie ad un semplice file XML, in cui è possibile includere ulteriori informazioni su ogni URL (data dell’ultimo aggiornamento, frequenza delle modifiche, importanza in relazione ad altri URL del sito) in modo che i motori di ricerca possano eseguire la scansione del sito in modo intelligente. Attenzione, però: aggiungere questa modifica al file robots.txt non è in sé una garanzia di inclusione nei risultati dei motori di ricerca, ma facilita il processo di scansione da parte dei crawler web.

Sono disponibili ulteriori informazioni sul sito ufficiale dedicato al protocollo Sitemaps: ad esempio, come fare se si hanno più sitemap sullo stesso sito, visto che il limite per ogni file XML è di 50.000 URL (soluzione semplice: si creano più sitemap e si elencano tutte nel file sitemap indice).

Per approfondimenti sulla compilazione del file robots.txt, invece, rimando alla lettura della voce su Wikipedia e al sito www.robotstxt.org.

Technorati Tags: , , , , , , ,

Pubblicato in Dentro il Web, Motori di ricerca

Mauro Ginelli: chi?

In questo sito troverete qualche considerazione su SEO e ottimizzazione dei siti web, adozione degli Standard Web, Web Analytics e altro ancora.

Il mio profilo su LinkedIn