Cómo funciona Google: la búsqueda, indexación y ordenación de las páginas

Como ya vimos en el artículo cómo funciona Google 1: el proceso de búsqueda, el éxito de este buscador reside en su propia naturaleza que le permite atender casi instantáneamente miles de peticiones de búsqueda por segundo. En esta ocasión vamos a detenernos en el proceso de búsqueda, indexación y ordenación de las páginas:

Búsqueda y Parsing (parseo): Google debe ser capaz de recorrer Internet, procesar e interpretar correctamente todos los documentos que encuentre. Por este motivo necesita solventar correctamente cualquier error o problema que encuentre en un documento: manejar caracteres no ASCII, Tags incorrectos o mal anidados, múltiples tipos de documentos y muchos otros problemas que desafiarían a las mentes más retorcidas. La búsqueda y el parsing lo realiza, como veremos más adelante, el GoogleBot.
Indexación de los keywords y documentos: Cuando un documento es parseado, cada una de las palabras que lo conforman se almacenan en un índice que pemitirá a Google manejar miles de terabytes de información de manera realmente ágil y eficiente.
Ordenación: Finalmente y antes de poderle ofrecer el resultado de su búsqueda, Google deberá ordenar todos los documentos en función de su importancia. Como veremos adelante existen múltiples factores que determinan la posición de un documento en la página de resultados.

Deep crawling: el proceso de indexación de las páginas

Googlebot: La araña de Google.

Googlebot es el nombre de la aplicación de Google que navega las 24 horas del día visitando los miles de millones de páginas que habitan Internet, como si de un incansable usuario se tratase. Aunque, estrictamente hablando, Googlebot no navega por Internet como lo hace un ser humano; Una vez que ha accedido a una web la almacena en sus servidores de documentos y le asigna un identificativo único, a continuación busca todos sus enlaces y prosigue su navegación accediendo e indexando estos nuevos documentos que procesa de manera idéntica. Está técnica se denomina deep crawling y es similar a una araña que va tejiendo su tela (por este motivo a este tipo de programas se les denominen arañas.)

Un dato curioso: Googlebot es incluso capaz de cumplimentar los campos de un formulario, para poder acceder a las páginas que de otra manera serían inaccesibles.

Googlebot tiene tal potencia que si funcionara al 100% de su capacidad, podría saturar con sus peticiones cualquier servidor web. Por este motivo funciona deliberadamente muy por debajo de su capacidad real. En este sentido, Googlebot es realmente educado, ¿no cree?

GoogleBot: Yo domino el mundo!

Cada vez que el Googlebot encuentra un documento html realiza un parsing o parseo para extraer e interpretar la información. HTML no es un lenguaje de programación, si no un lenguaje de marcación que permite enriquecer el texto plano con una serie de etiquetas que en algunos casos imprime un valor semántico al texto que alberga. HTML también permite ordenar jerárquicamente la información de una página con titulares, subtitulares, listas, etc…

El parsing de un documento consiste precisamente en interpretar esta información para ser capaz de conocer de conocer cuál fue la intención del autor cuando lo escribió y extraer los keywords más relevantes. De esta manera no debería tener la misma relevancia para google la frase «Los mejores complementes para la mujer» como titular de una página que si aparece al pie de una foto.

Como posiblemente ya haya deducido, la optimización orgánica de un Site consiste en codificar el HTML de tal manera que Google sea capaz de valorar positivamente su contenido. Para ello debemos saber cómo utilizar los tags de cabecera, cómo destacar información con tags semánticos, incluir alts en las imágenes, optimizar los títulos, cuidar la meta información, etc. Puede ampliar esta información en el siguiente artículo sobre posicionamiento web.

Google visita con mayor frecuencia algunas páginas populares que sabe que actualizan su información de forma muy dinámica: periódicos, boletines, tiendas on-line, etc. Este tipo de indexación se denomina fresh crawling.

Una manera de facilitar la labor del Googlebot a la hora de indexar nuestras páginas son los Google SiteMaps. Se trata de un documento XML en el que podemos informar activamente al robot de Google sobre las páginas que conforman nuestro Sitio Web. Adicionalmente los Google SiteMaps ofrecen al webmaster estadísticas de acceso del robot y posibles errores de indexación.

También podemos enviar a Googlebot la dirección de una página indicando la URL en el formulario www.google.com/addurl.html.

El proceso de búsqueda de Google paso a paso.

Los servidores de índice.

El siguiente paso consiste en generar un índice para organizar y catalogar todos los documentos web que Googlebot ha encontrado. Este índice es el que permite a Google responder de manera casi instantánea a nuestras búsquedas, devolviéndonos todos los documentos relacionados con nuestra solicitud. Sin este índice Google necesitaría recorrer una a una todos los páginas almacenadas en sus servidores de documentos y le llevaría varias horas atender cada petición.

Los servidores de índices contienen una entrada por cada uno de los keywords o palabras que aparecen en los documentos que GoogleBot encuentra. Los índices contemplan cualquier término de búsqueda en cualquier idioma, por lo que para mejorar la eficiencia de sus índices Google ignora todos los términos demasiado generales: preposiciones, artículos, conjunciones, símbolos de puntuación, espacios dobles, etc. A estos keywords poco relevantes les denomina stop words.

Los servidores de índice de Google permiten a Google conocer de todos los documentos que contienen un keyword concreto. Por ejemplo, podríamos tener una entrada del índice para la palabra «bolso» asociada a los documentos 5, 8, 102, 203, 256 y 430. De igual manera la palabra «piel» podría estar asociada a los documentos 12, 34, 102, 203, 213, 256 y 430, y la palabra «mujer» aparecería en los documentos 8, 23, 102, 234, 390, 394, 430 y 516.

Keyword	documentos
bolso	5 8 102 203 256 430
piel	12 34 102 203 213 256 430
mujer	8 23 102 234 256 394 430 516
…	…

Para agilizar las consultas a su índice y poder conocer de manera inmediata qué documentos están relacionados con un keyword, Google distribuye la información en cientos de ordenadores que trabajan en paralelo. Imagínese que usted está leyendo un libro sobre complementos de moda que contiene un índice de 100 páginas. Si una persona tuviera que encontrar cierta información, por ejemplo bolsos de piel de mujer, necesitaría leer detenidamente las cien páginas del índice. En cambio si distribuye la tarea entre 100 personas, cada uno de ellos tan sólo necesita leer una página del índice. De esta misma manera actúa Google.

El orden de los resultados.

Hemos visto que el índice permite a Google conocer qué documentos están relacionados con los keywords de una búsqueda. Por ejemplo, imaginemos que usted accede a Google e introduce el término de búsqueda: «bolsos de piel de mujer«. La lista de documentos que contienen una de los keywords de la búsqueda se denomina «lista de publicación» y las listas de publicación que contienen todos los keywords de la búsqueda se denomina «intersección de listas de publicación«.

Para agilizar la intersección de varias listas de publicación, se recorren simultáneamente los documentos de cada una. Si , por ejemplo, una de las listas no contiene documentos entre los índices 8 y 102, podemos saltar en todas las listas hasta el índice 102.

Según nuestro índice, los documentos que contienen los keywords de la búsqueda son el 102, 256 y 430.

Keyword	documentos
bolso	5 8 102 203 256 430
piel	12 34 102 203 213 256 430
mujer	8 23 102 234 256 394 430 516
…	…

Ahora bien, antes de presentar al usuario el resultado de la búsqueda es necesario ordenar los documentos en función de su relevancia. Google siempre intentar ofrecer las páginas más relevantes e importantes para la búsqueda.Si varias páginas ofrecen información igualmente relevante para la entrada introducida, Google ponderará entonces otros factores:

La entidad de las páginas que la enlazan.
La estructura orgánica de la página.
El page rank (marca patentada)
En ocasiones la naturaleza de la propia página puede ser más determinante que el page rank o los enlaces entrantes. Por ejemplo un Site dedicado por completo a complementos de mujer será generalmente más útil que un artículo de opinión sobre las costumbres tribales de un poblado africano que confecciona bolsos con piel de mujer.

Los resultados de las búsquedas más populares son mantenidas en una cache durante horas, para evitar tener que repetir el proceso una y otra vez. Así si usted quiere buscar información sobre Britney Spears, el proceso de búsqueda será muy rápido para Google.

La precisión de de Google es tal, que puede advertir si existe un error ortográfico en una búsqueda y proponerle una búsqueda alternativa. Esto lo consigue gracias a sus servidores ortográficos que son capaces de determinar el idioma y si cambiando alguna letra al término de búsqueda se incrementa de manera sustancial el número de resultados.

Como puede ver, Google se comporta como una gran orquesta, en la que todos sus músicos participan de manera armónica y acompasada para ofrecernos a todos sus usuarios millones de sinfonías al día. Sinfonías en forma de búsquedas que en a penas medio segundo ofrecen un claro ejemplo de técnica, oficio y precisión.

5 thoughts on “Cómo funciona Google: la búsqueda, indexación y ordenación de las páginas”

Pingback: Britney Spears » Cómo funciona Google 2: la búsqueda, indexación y ordenación de las páginas
Pingback: betacontinua » “aguamala y búcaro” en el tejido Google.
Javine dice:

17 agosto, 2010 a las 15:50

Gracias, es un artículo muy interesante.
Pingback: Autos sin chofer de Google « Lat.: Ars longa, vita brevis
juan carlos joya v dice:

17 octubre, 2010 a las 15:08

exelente articulo,el producto promete y deja mucho a la imaginacion pero me gustaria conocer detalles de la plataforma de voz ip y las posibles vpn que puede soportar el mismo para cosiderar alternativas de uso como softphone sin estar atado a un operador celular especifico bastaria con un plan de datos y listo!!!.

Googlebot: La araña de Google.

Los servidores de índice.

El orden de los resultados.

5 thoughts on “Cómo funciona Google: la búsqueda, indexación y ordenación de las páginas”

Deja un comentario Cancelar respuesta