/**/ Le referencement naturel offshore » indexation internet robots
Home Contact Sitemap

Le referencement naturel offshore

Toutes les astuces pour etre premier sur google

Le référencement internet pas à pas !

Ce site est une recommandation pour le référencement de sites Internet.
Étape par étape, nous fournirons une liste de pratiques à mettre en place pour améliorer naturellement la visibilité d’un site, ainsi que celles à éviter dans la mesure où elles peuvent nuire au bon référencement de votre projet Web.
Vous aussi augmenter la visibilité et le positionnement de votre site internet . Entrez dans le e-commerce grace à une équipe de professionels de la création et du référencement web avec des bases solides .Découvrez dès maintenant les services et les avantages tarifaires de l'externalisations offshore de vos services internet .

xanax onlineAdderallLevitraCialis online

3.2 Architecture

3.2.1 Guider les robots d’indexation
Les résultats des moteurs de recherche sont alimentés par des programmes nommés robots d’indexation (ou bot ou spider ou crawler, voir l’Annexe Fonctionnement des Robots d’indexation pour plus d’informations). Ceux-ci :
parcourent régulièrement Internet à la recherche de nouvelles pages
incluent de manière automatisée ces pages dans leurs bases de données
Bien que les robots soient censés réaliser automatiquement ce travail d’indexation, il arrive qu’ils ne parcourent pas un site. Il est possible en complément de les guider à l’aide de fichiers (« robots.txt » ou « sitemap.xml »), placés à la racine du site, qui seront parcourus en premier par le robot, avant même les pages du site.
Par ailleurs, il faut considérer que les robots ne tiennent compte que des éléments textuels d’une page. Pour simuler ce qu’un robot peut indexer, désactivez dans votre navigateur Web :
l’affichage des images
les scripts (Javascript)
les composants Flash et JAVA
les styles de mises en forme (CSS externes et internes)
Vous pouvez aussi, par exemple, vous rendre sur un moteur de recherche et visualiser la version « en cache » de votre page.
a/ Le fichier « robots.txt »
Le fichier « robots.txt » est un standard12 donnant des règles aux robots d’indexation sur :
les pages à indexer
les pages et répertoires à ne pas indexer. Par exemple :
les pages de résultats d’un moteur de recherche interne au site,
les pages auto-générées (par exemple, celle d’un calendrier, qui peuvent produire des crawls infinis du robot)
les pages temporaires (par exemple, celle de votre système de mise en cache de pages si vous en avez un)
les pages d’erreurs (404), d’identification des utilisateurs
les documents sans intérêt « mais en accès libre » (statistiques, liste d’utilisateurs, etc.)
1 <http://www.w3.org/TR/REC-html40/appendix/notes.html#h-B.4.1 >
2 <http://www.robotstxt.org/wc/norobots.html >

Les robots d’indexation ne sont pas forcés de respecter le fichier « robots.txt », mais une majorité d’entre eux l’utilisent.
Le nom du fichier doit être en minuscule
Il n’y a qu’un fichier robots.txt par site
Il est placé à la racine du site ou dans le répertoire contenant la page d’accueil de manière à être accessible via http://www.site.com/robots.txt
Pour permettre à tous les robots d’indexer les pages de votre site, il faut y inclure l’instruction suivante :
User-agent : *
# une seule instruction « User-agent: * » par robots.txt
Pour définir une règle propre à un robot en particulier, il faut spécifier son nom1
User-agent: Googlebot # Le robot de Google
Tout ce qui n’est pas spécifiquement exclu est autorisé.
Il est possible également d’interdire l’accès à certains répertoires et fichiers en utilisant l’instruction de restriction Disallow :
Disallow : /[nom du répertoire]/
Disallow : /[nom du répertoire]/[nom de fichier] (exemple Disallow:
/404.html)
Si l’on souhaite interdire tout comme le fait webmasterworld2,

User-agent : * Disallow : /
Si vous n’avez aucun fichier à masquer, vous n’avez pas besoin de robots.txt en principe. Si vous souhaitez en utiliser un quand même, vous pouvez y inclure les instructions non restrictives suivantes :
User-agent : * # Pour tous les robots
Disallow: # Rien n’est interdit
Il est possible d’insérer des commentaires en commençant la ligne avec un dièse #.
1 http://www.iplists.com/
2 http://www.webmasterworld.com/robots.txt

Enfin, certains robots prennent en compte des commandes supplémentaires comme Google, Yahoo (remplacement de caractères avec *, ? ou $, l’instruction Yahoo1 « Crawl-Delay » indiquant au robot un temps d’attente minimum avant d’accéder à votre site).

1 <http://help.yahoo.com/help/us/ysearch/slurp/slurp-03.html >
3.2.2 Plan du site (ou sitemap)
Le plan du site est une liste (ou classification) de toutes les pages d’un site. a/ Plan du site HTML
Il peut être physique (HTML) auquel cas il fait l’objet d’une page à part entière du site.

http://www.clever-age.com/navigation-transversale/plan-du-site.html
Le plan de site HTML doit être mis en évidence sur toutes les pages (par exemple, sur chaque pied de page du site).
b/ Plan du site au format Sitemaps
Ce plan du site n’est pas destiné aux visiteurs du site mais aux robots d’indexation. Il simplifie leur travail en listant l’ensemble des pages du site à indexer.
Auparavant il s’agissait d’un fichier texte placé à la racine du site et contenant les URL du site à indexer (une URL par ligne).
Désormais, il s’agit d’un fichier XML nommé « sitemap.xml » et basé sur le protocole Sitemaps1. Ce standard, soutenu au départ par Google2, est aujourd’hui adopté3 par les services de recherche les plus importants (Yahoo4 et Microsoft Live5). Le format XML permet d’associer des méta-données relatives à chaque page (dernière mise à jour, fréquence de mise à jour, importance par rapport aux autres pages du site).
1 http://www.sitemaps.org/
2 <https://www.google.com/webmasters/tools/docs/en/protocol.html >
3 http://www.unearaigneeauplafond.fr/sitemaps-enfin-adopte-par-les-trois-grands-moteurs-de-recherche <http://googleblog.blogspot.com/2006/11/search-engines-united.html >
4 <http://www.ysearchblog.com/archives/000380.html >
5 http://blogs.msdn.com/livesearch/archive/2006/11/15/microsoft-google-yahoo-unite-to-support­sitemaps.aspx
Voici un exemple de « sitemap.xml » bien formé (balises optionnelles en italique) :

<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.google.com/schemas/sitemap/0.84″> <url>
<loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq>
<priority>0.8</priority>
< /url>
</urlset>
Le « sitemap.xml » évite au robot de parcourir aveuglément un site à la recherche de contenus nouveaux. D’une part, les webmestres peuvent guider plus finement le robot en lui indiquant explicitement les nouveaux contenus, leur importance et fraîcheur ; d’autre part, le travail d’indexation est optimal puisque le robot axe son parcours sur des contenus ciblés.
Utilisez des outils automatisés pour construire votre « sitemap.xml » de départ. Par exemple,
- applet Java : par exemple le Site Map Generator de Audit My PC
(http://www.auditmypc.com/xml-sitemap.asp)

- les plugins de blogs : par exemple, Gsitemap pour Dotclear ou Google Sitemap Generator pour Wordpress

3.2.3 Accessibilité & Ergonomie HTML

Recommandé A éviter
0 Utilisez les services W3C pour assurer la validité (HTML, XHTML, CSS, etc) de vos pages 0 Les sites utilisant des cadres (frames, iframes)
En procédant directement à des
0 Assurez-vous que la navigation repose sur des éléments textes1 recherches sur différents outils de recherche, vous constaterez que peu de pages bien référencées
0 Séparez autant que possible le code Javascript et CSS dans des feuilles externes utilisent des cadres2 : nous recommandons donc de ne pas les utiliser
0 Redirigez le visiteur vers une page d’erreur 404 en cas de liens cassés 0 Les pages trop longues (scindez les en plusieurs pages)
(cf. ci-dessous la page d’erreur
d’Apple) 0 Les pages multilingues
0 Mettez en place l’URL Rewriting 0 Les pages vides ou en construction
(cf. a/ URLs simplifiées)
0 Dissimulation de mots-clés ou de contenu :
Texte, liens de la même couleur que le fond de la page
Les bulles (ou tips) s’affichant au passage de la souris sur un
élément de la page. Typiquement, un balise HTML div contenant du texte masqué en CSS (avec la propriété display:none) ou du texte placé hors de l’écran
0 Les redirections de pages
Javascript (location. href=..). Les robots n’extraient pas encore les
URLs contenues dans le code
Javascript
0 Les éléments multimédias nécessitant l’installation de plugins ou de contrôles Active X (cf. b/

1 http://www.secrets2moteurs.com/chroniques4.html <http://solutions.journaldunet.com/0604/060428-referencement-accessibilite-sites-web.shtml >
http://s.billard.free.fr/referencement/index.php?2006/04/09/220-standards-et-accessibilite-benefices­concrets
2 Comment référencer un site utilisant des frames ? (http://www.abondance.com/docs/frames.html)
Utilisation exclusive de Flash ou Java)

Page 404 d’erreur Apple http://www.apple.com
La page d’erreur 404 est importante car elle permet de redigirer le visiteur égaré, en lui proposant notamment un plan de site ou un moteur de recherche. Ainsi, l’information reste accessible et la page 404 n’est plus une porte de sortie pour votre site.
a/ URLs simplifiées
Les noms de pages comportant des caractères spéciaux ou des paramètres à rallonge passés via la méthode GET (identifiant de sessions, valeurs des champs d’un formulaire, etc) sont mal supportés par les robots d’indexation.

Soit une URL dans laquelle on transmet un identifiant de session : <http://www.monsite.com/catalogue.html?sessionid=2df458ze11000 >
Ce numéro de session changeant à chaque nouvelle visite, à chaque fois qu’un robot d’indexation viendra visiter un site, toutes les pages auront une nouvelle URL. Plus précisément, une même page aura à chaque visite une nouvelle URL.
Le robot verra donc 2 pages aux URL différentes mais aux contenus identiques, ce qu’il pénalisera fortement (baisse du classement de la page, voire blacklistage).
Contournez le problème en exploitant les mécanismes de réécriture complète de l’URL (URL Rewriting). La plupart des CMS et plateformes de blogs fournissent désormais ce mécanisme en standard (par exemple, le CMS Drupal gère la réécriture avec le module PathAuto).
Il vous faudra aussi activer le module permettant au serveur Web de traduire ces URL (par exemple, sous Apache le module mod_rewrite).
Le résultat peut être le suivant :
http://www.clever-age.com/actualites/petits-dejeuners/paris/les- framework-oss-java-2-.html
Ici, les répertoires « actualites / petits-dejeuners / paris » et la page « les-framework- oss-java-2-.html » ne sont pas des fichiers existants physiquement sur le serveur mais l’URL Rewriting simule leurs existences, et permet aux robots d’indexer le contenu de la page générée dynamiquement.
Utilisez donc des tiny / friendly URL, soit des URL claires, simples à retenir pour l’utilisateur et permettant aux robots d’indexation de travailler correctement :
dans vos URL, remplacez les séparateurs de mots « virgule, point et underscore » par des tirets (pour des raisons d’indexation mais aussi de bookmarking)
évitez les dates dans l’URL : au final, elles n’apportent pas de valeur ajoutée au robot d’indexation1
remplacez les extensions de page non standard (.php, .cfm, etc) par des extensions communes (.htm ou .html)
les robots limitent leur indexation aux rubriques de niveaux 2 ou 3 de profondeur. Raccourcissez vos URL en usant de l’URL Rewriting ou limitez le nombre de sous de répertoires sur le serveur.
1 http://performancing.com/node/397
b/ Utilisation exclusive de Flash ou Java
Il n’est pas recommandé d’utiliser des objets Flash ou des applets Java à outrance. Il faut considérer que ces éléments ne sont adaptés qu’à des contextes spécifiques :
bannières publicitaires
vidéos
interfaces nécessitant la communication avec des composants systèmes ou avancés telles qu’une carte géographique interactive

Une page d’accueil Flash - LeNotre.fr http://www.lenotre.fr/fr/index.html (non recommandé1)
Dans des contextes habituels (pages d’accueil d’un site, navigation), ces éléments ne sont pas recommandés, particulièrement s’ils remplacent les éléments texte de la page.
Plusieurs raisons peuvent être évoquées :
si la page et l’objet contiennent des contenus texte communs, les robots peuvent considérer qu’il s’agit d’une stratégie malicieuse de duplication du contenu :
les robots indexent mal les contenus texte inclus dans ces objets.
Si ces éléments sont justifiés et indispensables à votre site, optimisez-les2.
1 <http://solutions.journaldunet.com/0601/060120_referencement-flash.shtml >

Veillez à inclure un fichier robots.txt qui interdit l’exploration des pages Flash afin que ces pages ne soient pas considérées comme des doublons.1
Le centre d’aide de Google

simulez ce qu’un robot serait capable d’en extraire comme contenu texte.
Pour vos fichiers .swf par exemple, utilisez le Flash Search Engine SDK1 qui propose une application nommée « swf2html »
Analysez directement comment Google interprète ce format de fichier :

étudiez les outils d’optimisation existants. Pour Flash, par exemple :
le script SWF Object
le script UFO Unobstrusive Flash Object
proposez des contenus texte alternatifs. Par exemple, pour une animation Flash, renseignez la balise noembed (bien qu’en voie de disparition)
2 http://www.informit.com/articles/article.asp?p=454163&seqNum=1&rl=1 1 http://www.adobe.com/licensing/developer/

Tags: