Posts Tagged ‘DUST’

URLs canonical - DUST

Tuesday, April 22nd, 2008

La optimización del canonical se refiere a la forma en la que el servidor web hace los “redirects” adecuados para que 1 sola pagina de contenido que puede ser servida a través mas de una URL diferente, sea considerada como un solo documento por los buscadores.

Esto ocurre principalmente porque es posible que existan enlaces externos en paginas web hacia un solo documento web con distintas URL’s.

El termino DUST se refiere precisamente a esto, Differente URL’s Same Text.

Por ejemplo:

  • www.example.com
  • www.Example.com
  • example.com/
  • www.example.com/index.html

En este caso, el documento es el mismo, pero las 4 URL’s son diferentes.

Los buscadores como Google, que contabilizan los enlaces hacia la URL, no hacia el documento, contarían estos 4 enlaces como 4 documentos diferentes con sus consecuentes perjuicios.

Por un lado Google asignara 4 PageRanks diferentes para cada una de las URLs, el documento pierde fuerza en cuanto a posicionamiento ya que de otra forma su PageRank seria el de las 4 URL’s sumadas.

Para esta técnica es necesario modificar los “http headers” que el servidor web (Apache, IIS, etc …) envía cuando recibe una petición de una pagina web. Para informar a los Buscadores que las 4 URL’s son en realidad el mismo documento.

El MOD Rewrite del Servidor Apache (y su equivalente en IIS y demas) son la clave para poder llevar a cabo esta optimización,

Ya que no es posible controlar al 100% del modo en el que paginas externas enlazan hacia nuestras web, esta técnica permite maximizar todos los enlaces externos y concentrar su fuerza.

Es de utilidad consultar las aplicaciones de analítica Web y los logs del servidor web para darse cuenta de las diferentes URL’s a través de las que los usuarios llegan hasta nuestros documentos web y así poder optimizar las mismas.

En algunos casos, ademas del la perdida de PageRank, podría significar también penalizaciones por considerar duplicidad de contenidos, pues el buscador se encuentra con 2 url’s distintas pero con el mismo contenido exacto.