<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	>

<channel>
	<title>Le referencement naturel offshore &#187; 3.2 Architecture</title>
	<atom:link href="http://www.referencement-naturel-offshore.com/positionnement-de-site-internet-externalise-offshore-ile-maurice/3-architecture-du-site/32-architecture/feed" rel="self" type="application/rss+xml" />
	<link>http://www.referencement-naturel-offshore.com</link>
	<description>Toutes les astuces pour etre premier sur google</description>
	<pubDate>Wed, 23 Apr 2008 13:28:46 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.5</generator>
	<language>en</language>
			<item>
		<title>3.2 Architecture</title>
		<link>http://www.referencement-naturel-offshore.com/archives/12</link>
		<comments>http://www.referencement-naturel-offshore.com/archives/12#comments</comments>
		<pubDate>Wed, 05 Mar 2008 11:35:38 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[3.2 Architecture]]></category>

		<category><![CDATA[indexation internet robots]]></category>

		<guid isPermaLink="false">http://www.referencement-naturel-offshore.com/?p=12</guid>
		<description><![CDATA[3.2.1 Guider les robots d&#8217;indexation
Les résultats des moteurs de recherche sont alimentés par des programmes nommés robots d&#8217;indexation (ou bot ou spider ou crawler, voir l&#8217;Annexe Fonctionnement des Robots d&#8217;indexation pour plus d&#8217;informations). Ceux-ci :
parcourent régulièrement Internet à la recherche de nouvelles pages
incluent de manière automatisée ces pages dans leurs bases de données
Bien que les [...]]]></description>
			<content:encoded><![CDATA[<p>3.2.1 Guider les robots d&#8217;indexation<br />
Les résultats des moteurs de recherche sont alimentés par des programmes nommés robots d&#8217;indexation (ou bot ou spider ou crawler, voir l&#8217;Annexe Fonctionnement des Robots d&#8217;indexation pour plus d&#8217;informations). Ceux-ci :<br />
parcourent régulièrement Internet à la recherche de nouvelles pages<br />
incluent de manière automatisée ces pages dans leurs bases de données<br />
Bien que les robots soient censés réaliser automatiquement ce travail d&#8217;indexation, il arrive qu&#8217;ils ne parcourent pas un site. Il est possible en complément de les guider à l&#8217;aide de fichiers (« robots.txt » ou « sitemap.xml »), placés à la racine du site, qui seront parcourus en premier par le robot, avant même les pages du site.<br />
Par ailleurs, il faut considérer que les robots ne tiennent compte que des éléments textuels d&#8217;une page. Pour simuler ce qu&#8217;un robot peut indexer, désactivez dans votre navigateur Web :<br />
l&#8217;affichage des images<br />
les scripts (Javascript)<br />
les composants Flash et JAVA<br />
les styles de mises en forme (CSS externes et internes)<br />
Vous pouvez aussi, par exemple, vous rendre sur un moteur de recherche et visualiser la version « en cache » de votre page.<br />
a/ Le fichier « robots.txt »<br />
Le fichier « robots.txt » est un standard12 donnant des règles aux robots d&#8217;indexation sur :<br />
les pages à indexer<br />
les pages et répertoires à ne pas indexer. Par exemple :<br />
les pages de résultats d&#8217;un moteur de recherche interne au site,<br />
les pages auto-générées (par exemple, celle d&#8217;un calendrier, qui peuvent produire des crawls infinis du robot)<br />
les pages temporaires (par exemple, celle de votre système de mise en cache de pages si vous en avez un)<br />
les pages d&#8217;erreurs (404), d&#8217;identification des utilisateurs<br />
les documents sans intérêt « mais en accès libre » (statistiques, liste d&#8217;utilisateurs, etc.)<br />
1 &lt;http://www.w3.org/TR/REC-html40/appendix/notes.html#h-B.4.1 &gt;<br />
2 &lt;http://www.robotstxt.org/wc/norobots.html &gt;</p>
<p>Les robots d&#8217;indexation ne sont pas forcés de respecter le fichier « robots.txt », mais une majorité d&#8217;entre eux l&#8217;utilisent.<br />
Le nom du fichier doit être en minuscule<br />
Il n&#8217;y a qu’un fichier robots.txt par site<br />
Il est placé à la racine du site ou dans le répertoire contenant la page d&#8217;accueil de manière à être accessible via http://www.site.com/robots.txt<br />
Pour permettre à tous les robots d&#8217;indexer les pages de votre site, il faut y inclure l&#8217;instruction suivante :<br />
User-agent : *<br />
# une seule instruction « User-agent: * » par robots.txt<br />
Pour définir une règle propre à un robot en particulier, il faut spécifier son nom1<br />
User-agent: Googlebot    # Le robot de Google<br />
Tout ce qui n’est pas spécifiquement exclu est autorisé.<br />
Il est possible également d&#8217;interdire l&#8217;accès à certains répertoires et fichiers en utilisant l&#8217;instruction de restriction Disallow :<br />
Disallow : /[nom du répertoire]/<br />
Disallow : /[nom du répertoire]/[nom de fichier]    (exemple Disallow:<br />
/404.html)<br />
Si l&#8217;on souhaite interdire tout comme le fait webmasterworld2,</p>
<p>User-agent : * Disallow : /<br />
Si vous n&#8217;avez aucun fichier à masquer, vous n&#8217;avez pas besoin de robots.txt en principe. Si vous souhaitez en utiliser un quand même, vous pouvez y inclure les instructions non restrictives suivantes :<br />
User-agent : *    # Pour tous les robots<br />
Disallow:    # Rien n’est interdit<br />
Il est possible d&#8217;insérer des commentaires en commençant la ligne avec un dièse #.<br />
1 http://www.iplists.com/<br />
2 http://www.webmasterworld.com/robots.txt</p>
<p>Enfin, certains robots prennent en compte des commandes supplémentaires comme Google, Yahoo (remplacement de caractères avec *, ? ou $, l&#8217;instruction Yahoo1 « Crawl-Delay » indiquant au robot un temps d&#8217;attente minimum avant d’accéder à votre site).</p>
<p>1 &lt;http://help.yahoo.com/help/us/ysearch/slurp/slurp-03.html &gt;<br />
3.2.2 Plan du site (ou sitemap)<br />
Le plan du site est une liste (ou classification) de toutes les pages d’un site. a/ Plan du site HTML<br />
Il peut être physique (HTML) auquel cas il fait l’objet d’une page à part entière du site.</p>
<p>http://www.clever-age.com/navigation-transversale/plan-du-site.html<br />
Le plan de site HTML doit être mis en évidence sur toutes les pages (par exemple, sur chaque pied de page du site).<br />
b/ Plan du site au format Sitemaps<br />
Ce plan du site n&#8217;est pas destiné aux visiteurs du site mais aux robots d&#8217;indexation. Il simplifie leur travail en listant l’ensemble des pages du site à indexer.<br />
Auparavant il s&#8217;agissait d&#8217;un fichier texte placé à la racine du site et contenant les URL du site à indexer (une URL par ligne).<br />
Désormais, il s&#8217;agit d&#8217;un fichier XML nommé « sitemap.xml » et basé sur le protocole Sitemaps1. Ce standard, soutenu au départ par Google2, est aujourd&#8217;hui adopté3 par les services de recherche les plus importants (Yahoo4 et Microsoft Live5). Le format XML permet d&#8217;associer des méta-données relatives à chaque page (dernière mise à jour, fréquence de mise à jour, importance par rapport aux autres pages du site).<br />
1 http://www.sitemaps.org/<br />
2 &lt;https://www.google.com/webmasters/tools/docs/en/protocol.html &gt;<br />
3 http://www.unearaigneeauplafond.fr/sitemaps-enfin-adopte-par-les-trois-grands-moteurs-de-recherche &lt;http://googleblog.blogspot.com/2006/11/search-engines-united.html &gt;<br />
4 &lt;http://www.ysearchblog.com/archives/000380.html &gt;<br />
5 http://blogs.msdn.com/livesearch/archive/2006/11/15/microsoft-google-yahoo-unite-to-support­sitemaps.aspx<br />
Voici un exemple de « sitemap.xml » bien formé (balises optionnelles en italique) :</p>
<p>&lt;?xml version=&#8221;1.0&#8243; encoding=&#8221;UTF-8&#8243;?&gt;<br />
&lt;urlset xmlns=&#8221;http://www.google.com/schemas/sitemap/0.84&#8243;&gt; &lt;url&gt;<br />
&lt;loc&gt;http://www.example.com/&lt;/loc&gt; &lt;lastmod&gt;2005-01-01&lt;/lastmod&gt; &lt;changefreq&gt;monthly&lt;/changefreq&gt;<br />
&lt;priority&gt;0.8&lt;/priority&gt;<br />
&lt; /url&gt;<br />
&lt;/urlset&gt;<br />
Le « sitemap.xml » évite au robot de parcourir aveuglément un site à la recherche de contenus nouveaux. D&#8217;une part, les webmestres peuvent guider plus finement le robot en lui indiquant explicitement les nouveaux contenus, leur importance et fraîcheur ; d&#8217;autre part, le travail d&#8217;indexation est optimal puisque le robot axe son parcours sur des contenus ciblés.<br />
Utilisez des outils automatisés pour construire votre « sitemap.xml » de départ. Par exemple,<br />
- applet Java : par exemple le Site Map Generator de Audit My PC<br />
(http://www.auditmypc.com/xml-sitemap.asp)</p>
<p>- les plugins de blogs : par exemple, Gsitemap pour Dotclear ou Google Sitemap Generator pour Wordpress</p>
<p>3.2.3 Accessibilité &amp; Ergonomie HTML</p>
<p>Recommandé        A éviter<br />
0    Utilisez les services W3C pour assurer la validité (HTML, XHTML, CSS, etc) de vos pages    0    Les sites utilisant des cadres (frames, iframes)<br />
En procédant directement à des<br />
0    Assurez-vous que la navigation repose sur des éléments textes1        recherches sur différents outils de recherche, vous constaterez que peu de pages bien référencées<br />
0    Séparez autant que possible le code Javascript et CSS dans des feuilles externes        utilisent des cadres2 : nous recommandons donc de ne pas les utiliser<br />
0    Redirigez le visiteur vers une page d&#8217;erreur 404 en cas de liens cassés    0    Les pages trop longues (scindez les en plusieurs pages)<br />
(cf. ci-dessous la page d&#8217;erreur<br />
d&#8217;Apple)    0    Les pages multilingues<br />
0    Mettez en place l&#8217;URL Rewriting    0    Les pages vides ou en construction<br />
(cf. a/ URLs simplifiées)<br />
0    Dissimulation de mots-clés ou de contenu :<br />
Texte, liens de la même couleur que le fond de la page<br />
Les bulles (ou tips) s&#8217;affichant au passage de la souris sur un<br />
élément de la page. Typiquement, un balise HTML div contenant du texte masqué en CSS (avec la propriété display:none) ou du texte placé hors de l&#8217;écran<br />
0    Les redirections de pages<br />
Javascript (location. href=..). Les robots n&#8217;extraient pas encore les<br />
URLs contenues dans le code<br />
Javascript<br />
0    Les éléments multimédias nécessitant l&#8217;installation de plugins ou de contrôles Active X (cf. b/</p>
<p>1 http://www.secrets2moteurs.com/chroniques4.html  &lt;http://solutions.journaldunet.com/0604/060428-referencement-accessibilite-sites-web.shtml &gt;<br />
http://s.billard.free.fr/referencement/index.php?2006/04/09/220-standards-et-accessibilite-benefices­concrets<br />
2 Comment référencer un site utilisant des frames ? (http://www.abondance.com/docs/frames.html)<br />
Utilisation exclusive de Flash ou Java)</p>
<p>Page 404 d&#8217;erreur Apple http://www.apple.com<br />
La page d&#8217;erreur 404 est importante car elle permet de redigirer le visiteur égaré, en lui proposant notamment un plan de site ou un moteur de recherche. Ainsi, l&#8217;information reste accessible et la page 404 n&#8217;est plus une porte de sortie pour votre site.<br />
a/ URLs simplifiées<br />
Les noms de pages comportant des caractères spéciaux ou des paramètres à rallonge passés via la méthode GET (identifiant de sessions, valeurs des champs d&#8217;un formulaire, etc) sont mal supportés par les robots d&#8217;indexation.</p>
<p>Soit une URL dans laquelle on transmet un identifiant de session : &lt;http://www.monsite.com/catalogue.html?sessionid=2df458ze11000 &gt;<br />
Ce numéro de session changeant à chaque nouvelle visite, à chaque fois qu&#8217;un robot d&#8217;indexation viendra visiter un site, toutes les pages auront une nouvelle URL. Plus précisément, une même page aura à chaque visite une nouvelle URL.<br />
Le robot verra donc 2 pages aux URL différentes mais aux contenus identiques, ce qu&#8217;il pénalisera fortement (baisse du classement de la page, voire blacklistage).<br />
Contournez le problème en exploitant les mécanismes de réécriture complète de l’URL (URL Rewriting). La plupart des CMS et plateformes de blogs fournissent désormais ce mécanisme en standard (par exemple, le CMS Drupal gère la réécriture avec le module PathAuto).<br />
Il vous faudra aussi activer le module permettant au serveur Web de traduire ces URL (par exemple, sous Apache le module mod_rewrite).<br />
Le résultat peut être le suivant :<br />
http://www.clever-age.com/actualites/petits-dejeuners/paris/les- framework-oss-java-2-.html<br />
Ici, les répertoires « actualites / petits-dejeuners / paris » et la page « les-framework- oss-java-2-.html » ne sont pas des fichiers existants physiquement sur le serveur mais l’URL Rewriting simule leurs existences, et permet aux robots d’indexer le contenu de la page générée dynamiquement.<br />
Utilisez donc des tiny / friendly URL, soit des URL claires, simples à retenir pour l&#8217;utilisateur et permettant aux robots d&#8217;indexation de travailler correctement :<br />
dans vos URL, remplacez les séparateurs de mots « virgule, point et underscore » par des tirets (pour des raisons d&#8217;indexation mais aussi de bookmarking)<br />
évitez les dates dans l&#8217;URL : au final, elles n&#8217;apportent pas de valeur ajoutée au robot d&#8217;indexation1<br />
remplacez les extensions de page non standard (.php, .cfm, etc) par des extensions communes (.htm ou .html)<br />
les robots limitent leur indexation aux rubriques de niveaux 2 ou 3 de profondeur. Raccourcissez vos URL en usant de l&#8217;URL Rewriting ou limitez le nombre de sous de répertoires sur le serveur.<br />
1 http://performancing.com/node/397<br />
b/ Utilisation exclusive de Flash ou Java<br />
Il n&#8217;est pas recommandé d&#8217;utiliser des objets Flash ou des applets Java à outrance. Il faut considérer que ces éléments ne sont adaptés qu&#8217;à des contextes spécifiques :<br />
bannières publicitaires<br />
vidéos<br />
interfaces nécessitant la communication avec des composants systèmes ou avancés telles qu&#8217;une carte géographique interactive</p>
<p>Une page d&#8217;accueil Flash - LeNotre.fr http://www.lenotre.fr/fr/index.html (non recommandé1)<br />
Dans des contextes habituels (pages d&#8217;accueil d&#8217;un site, navigation), ces éléments ne sont pas recommandés, particulièrement s&#8217;ils remplacent les éléments texte de la page.<br />
Plusieurs raisons peuvent être évoquées :<br />
si la page et l&#8217;objet contiennent des contenus texte communs, les robots peuvent considérer qu&#8217;il s&#8217;agit d&#8217;une stratégie malicieuse de duplication du contenu :<br />
les robots indexent mal les contenus texte inclus dans ces objets.<br />
Si ces éléments sont justifiés et indispensables à votre site, optimisez-les2.<br />
1 &lt;http://solutions.journaldunet.com/0601/060120_referencement-flash.shtml &gt;</p>
<p>Veillez à inclure un fichier robots.txt qui interdit l&#8217;exploration des pages Flash afin que ces pages ne soient pas considérées comme des doublons.1<br />
Le centre d&#8217;aide de Google</p>
<p>simulez ce qu&#8217;un robot serait capable d&#8217;en extraire comme contenu texte.<br />
Pour vos fichiers .swf par exemple, utilisez le Flash Search Engine SDK1 qui propose une application nommée « swf2html »<br />
Analysez directement comment Google interprète ce format de fichier :</p>
<p>étudiez les outils d&#8217;optimisation existants. Pour Flash, par exemple :<br />
le script SWF Object<br />
le script UFO Unobstrusive Flash Object<br />
proposez des contenus texte alternatifs. Par exemple, pour une animation Flash, renseignez la balise noembed (bien qu&#8217;en voie de disparition)<br />
2 http://www.informit.com/articles/article.asp?p=454163&amp;seqNum=1&amp;rl=1  1 http://www.adobe.com/licensing/developer/</p>
]]></content:encoded>
			<wfw:commentRss>http://www.referencement-naturel-offshore.com/archives/12/feed</wfw:commentRss>
		</item>
	</channel>
</rss>
