Archive for April, 2007

Vulneradidad en Google

Thursday, April 12th, 2007

Interesantísimo articulo en Search Engine War donde descubre lo que podría considerarse como una “vulnerabilidad” en Google.

El articulo muestra como aunque un webmaster haya específicamente indicado a Google que no indexe sus paginas a través del archivo robots.txt, es posible que estas aparezcan en los resultados de búsqueda en Google si alguien hace un enlace hacia dichas paginas.

Lo peor de todo, es que esta otra página que nos enlaza, podría controlar el sniped (texto que aparece en el resultado de búsqueda) de nuestras páginas.

Esto contradice claramente una de las principales políticas de Google, ya que alguien externo podría controlar la forma en la que aparecemos en Google. Consecuentemente podría provocar que esto fuera de forma negativa o denigrante hacia nuestras páginas si quisiera.

El autor del artículo considera esto una vulnerabilidad y cree que Google debería corregirlo.

Technorati Tags: ,

Robots.txt

Thursday, April 12th, 2007

Desde la aparición de las arañas web, esas maquinas que navegan por Internet indexando todas las paginas que encuentran para luego incluirlas en los índices de búsqueda de los buscadores, surgió la necesidad de crear un protocolo de comunicación con dichas arañas.

Nació la idea del fichero robots.txt, las arañas al final son ordenadores programadas para seguir unos patrones de navegación y almacenar ciertos datos de cada una de las paginas que visitan, a modo de “robot”, por eso se le llamo al fichero de comunicación robots.txt.

El fichero robots.txt básicamente informa a las arañas sobre los deseos o no de los administradores de una web que esta siendo visitada, de ser indexada por parte de la araña. Se utiliza también para indicarle a la araña que partes del sitio quiere restringir de ser indexada o que tipos de archivos (determinados por la extensión de dicho archivo) deben de ser excluidos de la indexación.

El fichero robots.txt no existe por defecto en las instalaciones de la mayoría de servidores web, por lo que es necesario crear este fichero, de hecho, una de las primeras formas a través de las que descubrí que los arañas buscan los archivos robots.txt viendo el error Log de mi apache, donde había constantes peticiones de dicho fichero que provocaban un error 404 al no hallarse el archivo.

Contenidos del fichero robots.txt:

El formato básico define el nombre de la araña a la que nos referimos y lo que queremos restringir.

User-Agent: GoogleBot
Disallow: /private

Este ejemplo prohibiría a GoogleBot (la araña de nuestro querido Google) de indexar el directorio Private y todos sus subdirectorios.

User-Agent: *
Disallow: /veryprivate

Este ejemplo prohibiría a todas las arañas indexar el directorio veryprivate y todos sus subdirectorios.

En realidad, no es cierto que prohibiría, ya que el robots.txt es una fichero de comunicación con la araña, no tiene la capacidad de restringir el acceso a dicha parte de la web, por lo que la prohibición se basa en que la araña sea friendly (amigable) y respete los deseos de los administradores de las webs expresados en el robots.txt. Para restringir de forma imperativa el acceso a ciertos directorios por parte de las arañas habría que utilizar otros métodos más agresivos.

Con la importancia creciente de las arañas web, se están considerando y probando nuevas directivas para controlar mejor la relación entre una web y las arañas.
Visit-time para definir las horas en las que una web permitiría que una araña realizase su indexación.

Visit-time: 0100-0500
Este ejemplo indicaría a las arañas que las horas permitidas para la indexación de la web son de la 1 de la madrugada a las 5. Esto seria útil para evitar que las arañas añadan sobrecarga a los servidores en horarios prioritarios.

Request-rate: para definir la velocidad de rastreo de la arañas.

Request-rate: 1/10m

Este ejemplo indicaría a las arañas que como máximo indexaran 1 página cada 10 minutos, al igual que antes, para evitar la sobre carga en los servidores por parte de arañas muy potentes que indexan un gran numero de páginas a la vez.

Podemos utilizar también el fichero robotx.txt para saber que arañas nos visitan y con que frecuencia. Este dato lo obtendríamos al consultar las entradas para este fichero en el Log de nuestro servidor web.

Technorati Tags:

Anchor Text

Wednesday, April 11th, 2007

El “anchor text” es el texto que aparece subrayado, el texto en el que hacemos clic para seguir un enlace, aunque a veces, según el diseño de las webs, es posible que no salga subrayado, pues el diseñador puede modificar el aspecto grafico de los enlaces.

Este es uno de los aspectos más importantes en las técnicas de posicionamiento web, sobre todo en el anchor text que se encuentra en webs externas a la nuestra, enlaces que apuntan hacia nuestra web desde otras webs.

Google asigna un alta prioridad a este texto con lo cual debemos de esmerarnos a la hora de conseguir enlaces y preocuparnos de que el anchor text sea el mas adecuado para el posicionamiento que queramos conseguir.

Como en muchos otros aspectos del posicionamiento, deberemos hacer una elección a la hora de definir el anchor text de los enlaces que apunten hacia nuestra web, lo normal es que alguien que hace un enlace hacia nuestra web lo haga utilizando en nombre de nuestra empresa o de nuestra web en el anchor text. Aunque esto no es perjudicial, ni negativo, añade muy poco o ningún valor en lo que a posicionamiento web se refiere.

Lo explicare con algunos ejemplos.

Caso Vueling Airlines:

Desde una web de viajes se podrían hacer enlaces hacia la página de vueling airlines de infinidad de formas diferentes.

  1. Vueling Airlines
  2. Vueling
  3. Vuelos Baratos
  4. Vuelos

etc.…

Caso 1

Se trata del nombre social de la empresa, no seria incorrecto, pero solo nos aportaría tráfico para las personas que buscase la palabra “Vueling Airlines”. Es poco probable que alguien que este interesado en buscar vuelos baratos (principal producto de la compañía) busque la cadena de texto “Vueling Airlines” y si lo hace, es mas que posible que igualmente salga su web la primera dado que el dominio de la empresa ya incluye la palabra “Vueling” y seguramente el TITLE y el H1 (header 1) de la pagina principal de Vueling incluyan “Vueling Airlines”. Además, no es fácil que haya una gran competencia para esta cadena de texto, al menos de forma “legal”, pues los competidores de Vueling estas mas interesados en captar a cliente que buscan vuelos baratos que en captar a clientes que quieren directamente ir a la pagina de Vueling.

Caso 2

Es un caso muy parecido al Caso 1, quizás seria menos malo, pues es posible que alguna persona busque Vueling, pero como he explicado en el caso anterior, no aportaría demasiado en cuanto a posicionamiento por los mismos motivos. Seria menos malo que el anterior, en el sentido de que destinamos el 100% del anchor text a la palabra “vueling” que es posiblemente una búsqueda mas utilizada respecto a “Vueling Airlines” y en el caso anterior solo el 50% del anchor text era Vueling.
Caso 3

Aunque es un texto muy genérico, es posiblemente el texto por el cual Vueling Airlines querría posicionarse en los buscadores, imagino que Vueling quiere asociar el nombre de su empresas a Vuelos Baratos, y aunque decidieron por tema de marcas llamarse Vueling, seguro que contemplaron llamarse Vuelos Baratos S.A. Conseguir enlaces hacia la web de Vueling con el texto “Vuelos Baratos” ayudaría mucho a que su web apareciera mas alto en las búsquedas de “Vuelos Baratos” en los buscadores.

Caso 4

Quizás es un texto “demasiado” genérico, es un texto con más competencia, hay más webs que tiene como parte de su posicionamiento la palabra vuelos, pero no necesariamente “vuelos baratos”, así que si el producto principal de la empresa son los “vuelos baratos”, vuelos seria insuficiente.

En anchor text es importante en web externas hacia nosotros, nuestros propios enlaces internos y los mapas web.

Un error común e imperdonable:

Desde hace un tiempo, las herramientas para webmasters de Google nos dan esta información que es de gran importancia.

Existen también herramientas creadas por terceros para encontrar el anchor text de las webs que enlazan hacia nosotros. Backlink Anchor Text Analysis

Link Farms (Granjas de Links)

Wednesday, April 11th, 2007

Desde hace muchos años, principalmente desde que Google desvelo la forma en la que adjudicaba su PageRank, surgieron infinidad de sitios webs que ofrecían enlazar hacia nuestras webs para así incrementar nuestro PageRank.

Este tipo de webs se denomina Link Farms o Granja de links en castellano y su característica principal es que carecen de valor para el usuario, ya que su único objetivo es “vender” sus enlaces para los sitios web que quieran incrementar su PageRank.

¿Penaliza Google por estar en un Link Farm (Granja de Enlaces)?

En teoría, Google dice que no va a penalizar a nadie por los enlaces que recibe, con lo cual Google no va a penalizar a una web por estar en un Link Farm. Si lo hiciera, esto podría inducir a formas de sabotear una web, como por ejemplo introducirla en uno o varios Link Farms para que Google la penalizara, por este motivo, y como Google reconoce que uno no puede controlar los enlaces hacia su sitio web, Google no penalizar a una web por estar incluida en un Link Farm.

¿Es buena idea estar en un Link Farm (Granja de Enlaces)?

Pues no, es una buena estrategia conseguir enlaces de calidad hacia nuestra web, enlaces en un Link Farm son “pan para hoy, hambre para mañana”, es una perdida de tiempo y no debe de ser incluida entre las practicas de una web que pretenda incrementar su PageRank o que pretenda mejorar su posicionamiento.

Un Link Farm esta considerado una forma de Spam en buscadores y debe de ser eludido.