La historia del algoritmo de Google

How Google’s Algorithm Rules the Web (Cómo el algoritmo de Google domina la web) es un interesantísmo artículo que mezcla la historia y evolución del algoritmo de Google con su funcionamiento.

La historia de Google comienza con el algoritmo de PageRank™, inventado por Larry Page, cofundador de Google junto a Sergey Brin. Este sistema se basaba en puntuar los sitios web dependiendo del número de enlaces que recibían. Un sistema de votación en el que el más popular es el que recibía más votos (enlaces). En Septiembre de 1997, el buscador, que se hospedaba en los servidores de la Universidad de Stanford, toma el nombre de Google.

El procedimiento empieza con un rastreo de toda Internet para recopilar los contenidos de toda web accesible. Toda esta inmensa cantidad de datos se almacena en un índice (organizado por palabras, al igual que el índice de un libro). Cada vez que un usuario escribe una búsqueda, se escudriña este índice en busca de contenido relevante para esa búsqueda. La parte interesante consiste en cómo posicionar este listado devuelto del índice, es decir, determinar como se ordenarán estos resultados y que páginas serán las primeras.

En Agosto de 2001 se renueva completamente el algoritmo para incorporar criterios de posicionamiento adicionales. La capacidad para realizar una ordenación satisfactoria de los resultados, es decir, que los resultados en primera posición sean lo mas relevantes posibles para la búsqueda, tiene un fundamento principal en lo que se conocen como “señales“: factores o propiedades de una página web que la hacen más o menos relevante. El PageRank™, el título de la página, el anchor text de los enlaces que apuntan a ella… todo son señales. Se dice que el buscador utiliza más de 200 señales que le ayudan a posicionar sus resultados.

Google está constantemente investigando nuevas señales que permitan mejorar la relevancia de las búsquedas. En Febrero de 2003, la primera patente de Google, se aplica a una característica que da más peso a los enlaces provenientes de sitios autoritarios, dando más valor a los vínculos procedentes de sitios de referencia o expertos. Otras señales incorporan la distinción entre páginas comerciales y no comerciales, la frescura de los resultados, ya que hay ciertas búsquedas cuyos resultados recientes pueden ser más valiosos que los antiguos, la localización, puesto que Google conoce las coordenadas geográficas de las búsquedas y favorece los resultados locales, etc.

Sin embargo, las señales más importantes provienen de la propia información que Google obtiene de los cientos de millones de búsquedas que los usuarios envían: en qué resultados hacen clic, que palabras usan para reemplazar las consultas cuando no están satisfechos o cómo las búsquedas encajan con dónde están físicamente. En Junio de 2005, se introducen los resultados personalizados, permitiendo que Google memorice el comportamiento de búsqueda de los usuarios para suministrar resultados individualizados.

Toda esta información acumulada permitió al algoritmo interpretar sinónimos y la relación semántica de las palabras. Así que cuando alguien busca “fotos de perritos”, Google entiende que también puede estar interesado en “fotos de cachorritos” y que “hervir agua” implica que el agua está caliente. El problema es que el algoritmo llegó a la conclusión de que un perrito caliente era lo mismo que un cachorrito hervido. Con la información de billones de documentos, esto fue solucionado en 2002, relacionando las palabras con el contexto en el que se encuentran. Así que perrito caliente debería encontrarse en búsquedas que también contengan mostaza y pan y partidos de béisbol, por ejemplo, y nada sobre chuchos escalfados.

Otro interesante reto es la búsqueda de nombres, que representa el 8% del total de peticiones al buscador. Un número muy significativo y que ha requerido grandes esfuerzos para no devolver falsos resultados. Para ello deben separar las palabras en unidades discretas. “New York” son dos palabras que van unidas pero que representan algo distinto cuando son las tres de “New York Times”, y cuyo significado cambia por completo cuando es “New York Times Square”. Algo que los humanos reconocen instantáneamente, pero que algorítmicamente no es tarea banal, y cuyo objetivo es adivinar el significado de lo que queremos decir.

En Mayo de 2007, se introdujeron las búsquedas universales. A partir de Google Images, las Google News (noticias) y el Book Search (libros), la búsqueda universal permite a los usuarios tener enlaces a cualquier medio dentro de las páginas de resultados. Todos estos cambios hacen que en realidad estén constantemente haciendo pruebas de cada ajuste del algoritmo. Y no sólo realizan tests con sus miles de “evaluadores oficiales”, sino que en cualquier momento pueden ejecutar los cambios en un número reducido de usuarios al azar. Son líderes por esta flexibilidad para añadir señales, ajustar el código y testear instantaneamente los resultados.

Desde que Larry Page dijo que Google debería estar escaneando la web cada segundo, el buscador ofrece, desde Diciembre de 2009, resultados en tiempo real con contenido producido desde Twitter o blogs tal cómo se publican. Hablamos de las últimas grandes actualizaciones hace poco, Caffeine y Mayday, pero la mayoría de ellas ni las notamos. Este año, Google planea introducir unas 550 mejoras, más de una por día. Impresionante.

How Google Works.
Extra: infografía sobre cómo funciona Google

9 respuestas a “La historia del algoritmo de Google”

  1. [...] La historia y funcionamiento del algoritmo de Google blog.linklift.es/la-historia-del-algoritmo-de-google/  por xema.mediocre hace 2 segundos [...]

  2. Daniel says:

    Me parece buenisima la imagen, muy gráfica, muy clara…

    Te agradezco que la compartas con nosotros!

  3. Juantxu says:

    Esto es como los ingredientes secretos de la coca-cola.
    Haber si algun dia alguien rompe el silencio y deja escapar un pequeño hilo con informacion oficial de lo que se mueve por el algoritmo de google, para muchos webmasters eso sera mejor que tocarles la loteria.

  4. José Luis says:

    Realmente es algo increible lo que, con simples cuentas lograron hacer… Se que he dicho simples y no lo son, pero en realidad el conjunto de todas para llegar al fin que llegaron es dificil, pero todas por separado, como en otros casos podremos encontrar, no lo son… Realmente es un excelente trabajo el que han hecho a lo largo de este tiempo los ingenieros de google.

    Muy buena información.

  5. irun says:

    La verdad que son la referencia, y lo seguirán siendo, el imperio continua, y nos engullirá a todos

  6. irun says:

    Yo estoy super contento con el adwods

  7. Belleza Chic says:

    Gracias. Entiendo un poco mejor todo el rollo.
    El grafico me parece estupendo pero no leo bien el ingles, habrá algien que lo tenga en español??
    Gracias Saludos
    Ana

  8. No esta mal esta info pero he visto algunas que son un poco mas interesantes, quizas porque estan en nuestro idioma.

  9. Cobra says:

    muy ilustrativo, gracias

Deja una respuesta