La verdadera magia de Google reside en su concepción de la web: Google nunca ha entendido la web como un conjunto de documentos de texto, si no como un conjunto de relaciones entre documentos de texto y cada una de éstas relaciones constituye verdaderamente la esencia de Google. En este artículo de HelloGoogle veremos cómo se desarrolla todo el proceso de búsqueda:
Cuando escribimos una búsqueda en www.google.com nuestra petición viaja por el hiperespacio hasta el servidor web de Google. Google recibe más de 1000 peticiones de búsqueda cada segundo de todos los días del año:
- El servidor web de Google está formado por una red de más de 10.000 equipos trabajando en paralelo.
- Cada servidor de la red de Google es extremadamente sencillo y económico: PCs con procesadores X86, disco duro IDE y demás prestaciones estándar.
- El bajo coste del hardware es la base del modelo de negocio de Google y lo que le permite ofrecer la mayoría de sus servicios de manera gratuita.
- Cada servidor falla una vez cada tres años.
- Cada día fallan dos servidores.
- Si se produce cualquier problema de hardware, el software de Google lo hace imperceptible para sus usuarios.
- Google no ha sufrido un fallo general desde el año 2000.
A continuación se envía la consulta a los servidores de índices de Google. Cada índice está formado por una relación entre una palabra y la dirección del servidor de documentos de Google donde se almacenan las páginas que contienen dicha palabra.
- Cada servidor de índices contiene sólo una parte de las webs de Internet y son necesarios varios servidores trabajando en paralelo para calcular el resultado de la búsqueda.
Con la información de los índices se accede a los servidores de documentos de Google que contienen una copia de cada web indexada.
- Google contiene más de 4000 millones de páginas, por cada página almacena 10KB de información, lo que supone 40 Terabytes de información.
- Google dispone de 50 mirrows (replicas) por cada servidor.
Por último se aplica el algoritmo de PageRank para ordenar los resultados de la búsqueda por relevancia. El algoritmo de PR calcula la relevancia de una web gracias a 2 billones de ecuaciones con más de 500 millones de variables.
Con toda esta información se crea y muestra al usuario la conocida página de resultados SERP, merece la pena mencionar que Google completa todo este proceso de búsqueda en menos de 1 segundo.



Agosto 30th, 2007 a las 8:11 pm
Muy buena la imagen, gracia por compartirla y ayudar a entender mejor el funcionamiento del motor de Gooogle
Agosto 31st, 2007 a las 8:56 am
Gracias a ti por tu comentario.
Septiembre 14th, 2007 a las 10:57 pm
Cuidadín con esas traducciones:
1 billion = 1.000 millones
Donde dice: “Google contiene más de 4 billones de páginas, por cada página almacena 10KB de información, lo que supone 40 Terabytes de información.”
Debe de decir: “4 mil millones de páginas”
4.000 millones de páginas a 10.000 bytes cada una, nos da 40 billones de bytes, o lo que es lo mismo, 40 TB.
Septiembre 15th, 2007 a las 11:54 am
Hola Antonio, gracias por la corrección. Ya he actualizado el post.
Noviembre 7th, 2007 a las 2:13 pm
Muy util tu nota
Diciembre 26th, 2007 a las 12:27 pm
He visto en otras paginas que el numero de paginas indexadas por google , pasan los 8 mil millones ! las informaciones en esta pagina son de que fecha???
Gracias por poner al dia estas informaciones.
Febrero 23rd, 2008 a las 6:45 am
[…] Una imagen vale mas que mil palabras, ahora se como Google puede responder en milésimas de segundos una búsqueda Enlace | Cómo funciona Google 1: el proceso de búsqueda […]
Abril 10th, 2008 a las 11:06 am
[…] Cómo funciona Google 1: el proceso de búsqueda […]
Abril 25th, 2008 a las 3:19 am
[…] Fuente: HelloGoogle […]