Ce chapitre va aborder quelques outils liés au référencement... D'abord des fichiers que nous allons donner à manger aux moteurs (c'est qu'ils sont gourmands !), ensuite, l'exploitation d'outils biens utiles qui nous permettront de nous améliorer...
Ce petit fichier doit se trouver à la racine de votre hébergement.
Reprenons notre site www.test.fr, les moteurs, dès qu'ils auront connaissance de votre site, vont aller chercher ce fichier "robots.txt" à la racine, c'est à dire à cette adresse : http://www.test.fr/robots.txt. Si vous en doutez, consultez l'error.log d'apache, et vous y trouverez des tentatives d'accès qui ont débouchées sur des erreur 404.
Bref, ce fichier est un bête fichier texte, qui va contenir bien peu d'information, mais l'une d'elle est essentielle : l'adresse du sitemap, autre fichier dont on parlera un peu plus bas.
Ce fichier indique aux robots ce qu'ils ont le droit -ou pas- de "crawler". Chaque robot peut se voir autoriser ou refuser certains dossiers ou certains types de fichiers.
Allez, entrons dans le vif du sujet, et éditons notre fichier robots.txt. On va commencer doucement, avec deux lignes :
Sitemap: http://www.pixme.fr/sitemap.xml User-agent: *
La première ligne indique l'adresse du "sitemap".
La seconde indique que les instructions qui suivent s'adressent à tous les robots... Sauf qu'aucune instruction ne suit ! Alors ajoutons-en quelques-unes :
Disallow: *.gif$ Disallow: /admin
Maintenant, on peut parfaitement imaginer que vous ne souhaitiez pas indexer votre site sur l'un ou l'autre des moteurs de recherche... Après tout, libre à vous de boycotter google, par exemple ! Voilà comment faire :
User-agent: Googlebot Disallow: /
Et hop ! Vous ne serez jamais importuné par personne avec votre site !! Plus sérieusement, certains administrateurs de serveurs souhaitent banir certains robots pour une raison ou pour une autre... En consultant les logs d'apache, ils pourront juger certains robots un peu trop gourmands en ressource, et les écarter momentanément... ou définitivement. Dorénavant, ça vous est possible ;-)
2 choses :
Je vous avais dit qu'on en reparlerai !
Le sitemap.xml est un fichier qui doit répertorier toutes les URL de votre site, avec leur date de dernière mise à jour, et éventuellement, deux paramètres supplémentaires : l'importance et la fréquence de mise à jour.
Utilisé au départ par google, selon une norme qui lui était propre, le principe a été repris par d'autres moteurs, et la norme a évolué vers une version compatible tous moteurs.
La structure de ce document est très simple, voici en exemple un extrait du plan de ce site :
<?xml version="1.0" encoding="UTF-8" ?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.pixme.fr/rub-9-Referencement.html</loc> <lastmod>2009-04-06</lastmod> </url> <url> <loc>http://www.pixme.fr/</loc> <lastmod>2009-04-10</lastmod> </url> </urlset>
Si vous êtes familié au xml et au xhtml, ce fichier ne nécessite aucune explication... La vraie difficulté réside dans la génération de ce fichier, surtout si vous n'utilisez pas de CMS... Il existe des solutions, certaines sont fournies par votre hébergeur, renseignez-vous. Sinon, il existe des tutos très bien faits, Google est votre ami !
Et bien sur, la référence pour aller plus loin reste le site officiel : http://www.sitemaps.org/fr/
Pour aller plus loin dans l'art du référencement, il faut utiliser les outils dont on dispose qui sont véritablement utile et qui nous guide pour nous améliorer. Parmi ceux là, les outils webmaster de Google ou de Yahoo. Je ne vous parlerai que de ceux de google parce que je les connais mieux, mais sachez que Yahoo en propose aussi.
Première étape, avoir un compte Google. Un compte google peut servir à beaucoup de chose, si vous en avez déjà un pour un autre service google (analytics, gmail, adsense, maps, picassa...), inutile d'en créer un nouveau, sinon, rendez-vous en direct sur les outils pour webmaster (http://www.google.fr/webmasters/tools) puis "Créez un compte maintenant".
Une fois sur la page d'accueil des outils webmaster, ajoutez votre site, procédez immédiatement à la validation de votre site (par l'ajout d'une balise meta ou d'une page html statique à la racine), et très bientôt, vous allez pouvoir exploiter la puissance de cet outils pour améliorer votre site.
Rien de bien compliqué dans les outils, mais des information essentielles sur les erreurs rencontrées : Erreurs dans le sitemap, erreurs dans les balise title, dans les meta description, keyword, etc etc...
Parmi les informations qui me sont les plus utiles :
Je vous laisse découvrir tout le reste !
Bon référencement !