Aide au fichier robots.txt pour fournir des instructions aux moteurs de recherche

Ouvrir l’index du contenu

Ce guide a été mis à jour le

Vous avez entendu parler des rangées robots.txt et vous voulez savoir comment l’utiliser pour votre site web ? Ce rangées est le support utilisé par les webmestres pour donner des instructions aux robot dieux outils de recherchec’est-à-dire, les programmes utilisés pour le scannage contenu des sites Web. Le nom de ces détails robot è chenille.

Grâce aux instructions contenues dans le présent rangéesvous pouvez envoyer des instructions au chenille sur ce qu’ils devraient scanner et ce qu’ils ne devraient pas scanner, ce qui devrait être indexé et ce qui devrait rester caché.

Cet outil s’appelle le Protocole d’exclusion des robots, Protocole d’exclusion des robots).

Lorsqu’un robot le processus de scannage d’un site Web, la première URL que vous visitez est www.example.com/robots.txtVous trouverez ici les instructions fournies par le webmestre.

Comme nous l’avons mentionné, vous pouvez utiliser l’option rangées robots.txt d’indiquer au robot de ne pas procéder à l’exécution de la scannage d’une ou plusieurs pages de son site web. Ceci est particulièrement utile si vous avez, par exemple, du contenu dupliqué qui pourrait entraîner une pénalité de la part de l’utilisateur. outils de recherche.

La structure du fichier robots.txt

La structure de base de ce rangées est très simple ; en voici un exemple :

User-agent: *
Disallow:

La première ligne sert à indiquer l’option robot à laquelle vous souhaitez communiquer les instructions (dans ce cas, le symbole * indique  » « .tous robot”).

La deuxième ligne, cependant, fait référence aux pages ou aux sections du site Web qui ne devraient pas être visitées par le robot (dans l’exemple, aucun).

Dans notre exemple, nous n’avons donc pas d’exclusion : toutes les robot doit balayer tout le contenu du site.

Dans les prochaines sections, j’approfondirai l’utilisation des différents outils de l codex au sein de la rangées.

En suivant toutes les étapes que nous vous illustrons dans ce document pilotagevous ne devriez pas avoir à faire face à des difficultés majeures. Mais nous savons tous que parfois, tout peut arriver. Ne paniquez pas : activez notre support WordPress dès que possible et demandez notre aide.

Nous serons heureux de vous offrir un soutien et une assistance rapides, en vous suivant pas à pas vers la solution de votre problème.

Plan du site

Le rangées robots.txt peut également être utilisé pour indiquer à l robot l’emplacement de la plan de site de leur site web. Pour insérer correctement les instructions dans le fichier robot sur la façon de trouver le plan de sitetu vas devoir utiliser cette ficelle :

Sitemap: https://example.com/sitemap_location.xml

Vous devrez ensuite entrer l’URL exacte de votre plan de site. N’oubliez pas d’insérer le renseignement de votre site au lieu de l’exemple que je vous ai montré.

Où créer le fichier

Tous les sites n’ont pas un fichier robots.txt : si le fichier robot ils n’en trouvent pas. rangéesnumérisera toutes les pages. C’est également le cas si un rangées existe mais ne contient aucun texte.

Si vous voulez créer un rangées robots.txt pour votre espace webAjoutez le rangées dans le porte-documents de votre serveur (de sorte que le robot peut le trouver en visitant www.example.com/robots.txt, ou en d’autres termes, en remplaçant robots.txt a index.html)

Nom de fichier

Lorsque vous créez le rangées pour votre site web, n’oubliez pas de l’appeler exactement robots.txt. N’utilisez que des lettres minuscules, n’ajoutez pas de caractères ou de symboles : le nom de l’élément rangées doit être précisément ceci, sinon le robot ne sera pas en mesure de reconnaître l’élément rangées.

Les codes à utiliser

Voyons, alors, quelles sont les codex que vous pouvez utiliser dans le menu rangées de donner des instructions à la outils de recherche (dans cette pilotage Je ne fais que souligner l’importance de l codex pour en savoir plus sur le sujet, visitez le site officiel dédié au Protocole d’Exclusion des Robots)

User-agent

Comme nous l’avons déjà vu, ce champ est utilisé pour indiquer l’attribut robot des instructions spécifiques sont adressées à.

Un astérisque, comme vous le voyez ci-dessous, est utilisé pour indiquer  » « .tous les robots” :

User-agent: *
Disallow:

Toutefois, il est également possible d’indiquer les noms des différents agents utilisateurs (par exemple, si vous souhaitez limiter l’accès à la fonction robot d’un moteur de recherche). Vous pouvez consulter la liste des noms des robots de tous les moteurs de recherche.

Si vous souhaitez créer des instructions spécifiques pour différents agents utilisateurs, vous pouvez le faire de cette façon :

User-agent: nomeuseragent1
Disallow:
User-agent: *
Disallow: /latuadirectory/

Les deux premières lignes sont les instructions pour l’agent utilisateur particulier appelé « usernameagent1 », tandis que les troisième et quatrième lignes sont les instructions pour tous les fichiers robot.

Refuser

Aide au fichier robots.txt pour fournir des instructions aux moteurs de recherche

Cette entrée présente la liste des pages ou des sections que l’élément robot ne devrait pas être en visite.

Une barre oblique indique  » « .tout le contenu du site”.

User-agent: *
Disallow: /

Ainsi, le codifier ça va bloquer tout le système robot de tout le site.

Laisser un espace vide, comme vous le voyez ci-dessous, permet un accès complet à la place (quand aucune restriction n’est définie).

User-agent: *
Disallow:

Annuaires

Si vous voulez écarter l’hypothèse d’une certaine cartables à partir du scan, entrez leur nom après le mot Refuserprécédée et suivie d’une barre oblique. Pour en savoir plus cartablessaisissez une autre ligne de Désactiver :

User-agent: *
Disallow: /junk/
Disallow: /tmp/

Vous trouverez des informations plus spécifiques dans la section robots.txt de Google Webmaster.

Remarques importantes

I robot peut décider de ignorer la rangées robots.txt. C’est plus souvent le cas avec robot « malveillants  » (p. ex., ceux utilisés pour des activités de pollupostage) ;

Le rangées robots.txt est accessible au public. Veillez donc à ne pas entrer d’informations confidentielles.

A partir de ces deux notes, vous pouvez facilement comprendre pourquoi cette rangées ne doit pas être utilisé pour cacher des parties de votre site Web. Par exemple, n’utilisez pas la chaîne Disallow pour cacher un fichier porte-documents contenant des informations confidentielles, car cela n’aurait aucun effet.

Aussi, je le signale :

  • Chaque sous-domaine doivent avoir leur propre fichier robots.txt ;
  • Chaque paramètre doit être inséré sur une seule ligne (comme nous l’avons vu dans l’exemple relatif aux répertoires). Aucun espace ou virgule n’est reconnu.

Robots.txt et SEO

Voyons voir, maintenant, si le rangées robots.txt peut vraiment être utilisé et optimisé pour le référencement.

Tout d’abord, je tiens à faire une distinction importante entre l’activité de l scannage (rampant) et l’indexation.

Le terme scannage fait référence à lales activités d’analyse des pages Web menées par l chenille dieux outils de recherche. Ces robots analysent le contenu, les liens, etc. et transmettent l’information trouvée à l serveur.

L’indexation indique, au lieu de cela, l’attributinsertion d’URL de pages Web dans l’index de la base de données outils de recherche.

Parfois, même si le robot dieux outils de recherche ils « respectent » l’instruction de ne pas exécuter l’instruction scannage de pages Web spécifiques, celles-ci sont toujours indexées.

Dans ce cas, les URL des pages individuelles apparaissent sur le SERP mais ne sont associées à aucune information. Avez-vous déjà lu la phrase « Il n’y a pas de description disponible pour ce résultat à cause de l’attribut rangées robots.txt du site. » dans les résultats de recherche ? Eh bien, cela signifie que cette page a été exclue par l’intermédiaire du rangées robots.txt.

D’autre part, il est également possible que l robot ignorer l’ensemble rangées robots.txt.

Je suggère donc que nous bloquions l’accès de l robot dieux outils de recherche en utilisant Meta NoIndex. Dans ce cas, je me réfère aux meta tags à placer dans la section  » « .crâne« de la page HTML à laquelle vous voulez restreindre l’accès.

En général, cette solution fonctionne mieux, car elle empêche l’indexation des pages.

Bien qu’il soit préférable d’utiliser les balises meta, il convient de noter qu’elles peuvent elles aussi être ignorées par l’option robot dieux outils de recherche.

D’autre part, il est important de s’assurer que l’accès aux parties du site que vous voulez être indexées par la fonction outils de recherche.

Aide au fichier robots.txt pour fournir des instructions aux moteurs de recherche

Conclusion

Dans ce pilotage l’introduction que vous avez apprise ce que c’est et comment créer un rangées robots.txt. Nous avons également vu s’il est réellement utile pour l’Assemblée de l RÉFÉRENCEMENT et en quoi elle diffère de la balise Meta NoIndex.

Votre site a déjà ceci rangées?

Quelles configurations avez-vous utilisées ?

Si vous avez des questions ou des suggestions, partagez-les dans notre communauté SEO. Vous trouverez des experts dans le domaine pour répondre à vos doutes et les dissiper.

Partager l'article :

Facebook
Twitter
Pinterest
LinkedIn

Laisser un commentaire

Votre adresse courriel ne sera pas publiée.

Continuer votre lecture