<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="wordpress/2.3.3" -->
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	>

<channel>
	<title>Hello Google, su primera posición en Internet &#187; Web 2.0</title>
	<link>http://www.hellogoogle.com</link>
	<description>HelloGoogle es la web donde encontrará Artículos que debe leer si quiere Destacar con su empresa en Internet</description>
	<pubDate>Wed, 23 Apr 2008 07:47:06 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.3.3</generator>
	<language>en</language>
			<item>
		<title>Cómo funciona Google: la búsqueda, indexación y ordenación de las páginas</title>
		<link>http://www.hellogoogle.com/google-busqueda-indexacion-ordenacion-paginas/</link>
		<comments>http://www.hellogoogle.com/google-busqueda-indexacion-ordenacion-paginas/#comments</comments>
		<pubDate>Thu, 10 Apr 2008 09:06:34 +0000</pubDate>
		<dc:creator>Ignacio G.</dc:creator>
		
		<category><![CDATA[Google]]></category>

		<category><![CDATA[SEO]]></category>

		<category><![CDATA[Web 2.0]]></category>

		<category><![CDATA[Webmaster]]></category>

		<guid isPermaLink="false">http://www.hellogoogle.com/como-funciona-google-2-la-busqueda-indexacion-y-ordenacion-de-las-paginas/</guid>
		<description><![CDATA[Como ya vimos en el artículo cómo funciona Google 1: el proceso de búsqueda, el éxito de este buscador reside en su propia naturaleza que le permite atender casi instantáneamente miles de peticiones de búsqueda por segundo. En esta ocasión vamos a detenernos en el proceso de búsqueda, indexación y ordenación de las páginas:

Búsqueda y [...]]]></description>
			<content:encoded><![CDATA[<p>Como ya vimos en el artículo <a href="http://www.hellogoogle.com/como-funciona-google-busqueda/" title="Permanent Link to Cómo funciona Google 1: el proceso de búsqueda">cómo funciona Google 1: el proceso de búsqueda</a>, el éxito de este buscador reside en su propia naturaleza que le permite atender casi instantáneamente miles de peticiones de búsqueda por segundo. En esta ocasión vamos a detenernos en el proceso de <strong>búsqueda</strong>, <strong>indexación</strong> y <strong>ordenación</strong> de las páginas:</p>
<ul type="disc">
<li><strong>Búsqueda y Parsing (parseo): </strong>Google debe ser capaz de recorrer Internet, procesar e interpretar correctamente todos los documentos que encuentre. Por este motivo necesita solventar correctamente cualquier error o problema que encuentre en un documento: manejar caracteres <em>no ASCII</em>, Tags <em>incorrectos</em> o <em>mal anidados</em>, múltiples tipos de documentos y muchos otros problemas que desafiarían a las mentes más retorcidas. La búsqueda y el <em>parsing </em>lo realiza, como veremos más adelante, el <em>GoogleBot</em>.</li>
<li><strong>Indexación de los keywords y documentos: </strong>Cuando un documento es parseado, cada una de las palabras que lo conforman se almacenan en un índice que pemitirá a Google manejar miles de terabytes de información de manera realmente ágil y eficiente.</li>
<li><strong>Ordenación</strong>: Finalmente y antes de poderle ofrecer el resultado de su búsqueda, Google deberá ordenar todos los documentos en función de su importancia. Como veremos adelante existen múltiples factores que determinan la posición de un documento en la página de resultados.</li>
</ul>
<p><a href="http://www.hellogoogle.com/wp-content/uploads/2008/04/como_indexa_google.jpg" title="Cómo indexa Google"></a></p>
<p style="text-align: center"><a href="http://www.hellogoogle.com/wp-content/uploads/2008/04/como_indexa_google.jpg" title="Cómo indexa Google"><img src="http://www.hellogoogle.com/wp-content/uploads/2008/04/como_indexa_google.jpg" alt="Cómo indexa Google" /></a><br />
Deep crawling: el proceso de indexación de las páginas</p>
<h3>Googlebot: La araña de Google.</h3>
<p><span><strong>Googlebot </strong>es el nombre de la aplicación de Google que navega las 24 horas del día visitando los miles de millones de páginas que habitan Internet, como si de un incansable usuario se tratase. Aunque, estrictamente hablando, Googlebot no navega por Internet como lo hace un ser humano; Una vez que ha accedido a una web la almacena en sus <em>servidores de documentos</em> y le asigna un <strong>identificativo único</strong>, a continuación busca todos sus enlaces y prosigue su navegación accediendo e indexando estos nuevos documentos que procesa de manera idéntica. Está técnica se denomina <em>deep crawling </em>y es similar a una araña que va tejiendo su tela (por este motivo a este tipo de programas se les denominen <strong>arañas</strong>.)</span></p>
<p>Un dato curioso: Googlebot es incluso capaz de <a href="http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html" target="_blank">cumplimentar los campos de un formulario</a>, para poder acceder a las páginas que de otra manera serían inaccesibles.</p>
<p><span>Googlebot tiene tal potencia que si funcionara al 100% de su capacidad, podría saturar con sus peticiones cualquier servidor web. Por este motivo funciona deliberadamente muy por debajo de su capacidad real. En este sentido, Googlebot es realmente educado, ¿no cree?</span></p>
<p style="text-align: center"><a href="http://www.hellogoogle.com/wp-content/uploads/2008/04/124323752_3aa84a8d3e_o.png" title="Googlebot"><br />
<img src="http://www.hellogoogle.com/wp-content/uploads/2008/04/124323752_3aa84a8d3e_o.png" alt="Googlebot" /></a><br />
GoogleBot: Yo domino el mundo!</p>
<p>Cada vez que el Googlebot encuentra un documento html realiza un <em>parsing </em>o <em>parseo </em>para extraer e interpretar la información. <em>HTML no </em>es un lenguaje de programación, si no un <em>lenguaje de marcación </em>que permite enriquecer el texto plano con una serie de etiquetas que en algunos casos imprime un valor semántico al texto que alberga. HTML también permite ordenar <em>jerárquicamente </em>la información de una página con  titulares, subtitulares, listas, etc&#8230;</p>
<p>El parsing de un documento consiste precisamente en <strong>interpretar </strong>esta información para ser capaz de conocer de conocer cuál fue la <strong>intención </strong>del autor cuando lo escribió y extraer los keywords más relevantes. De esta manera no debería tener la misma relevancia para google la frase &#8220;Los mejores complementes para la mujer&#8221; como titular de una página que si aparece al pie de una foto.</p>
<p>Como posiblemente ya haya deducido, la <strong>optimización orgánica </strong>de un Site consiste en codificar el HTML de tal manera que Google sea capaz de valorar <strong>positivamente </strong>su contenido. Para ello debemos saber cómo utilizar los tags de cabecera, cómo destacar información con tags semánticos, incluir alts en las imágenes, optimizar los títulos, cuidar la meta información, etc. Puede ampliar esta información en el siguiente artículo sobre <a href="http://www.hellogoogle.com/como-posicionar-pagina-web-en-google" target="_blank" title="como posicionar una web en Google"><u>posicionamiento web</u></a>.</p>
<p>Google visita con mayor frecuencia algunas páginas populares que sabe que actualizan su información de forma muy dinámica: periódicos, boletines, tiendas on-line, etc. Este tipo de indexación se denomina <em>fresh crawling</em>.</p>
<p>Una manera de facilitar la labor del Googlebot a la hora de indexar nuestras páginas son los <a href="https://www.google.com/webmasters/tools/docs/es/about.html" target="_blank"><u>Google SiteMaps</u></a>. Se trata de un documento <em>XML </em>en el que podemos informar activamente al robot de Google sobre las páginas que conforman nuestro Sitio Web. Adicionalmente los Google SiteMaps ofrecen al webmaster estadísticas de acceso del robot y posibles errores de indexación.</p>
<p>También podemos enviar a Googlebot la dirección de una página indicando la URL en el formulario <a href="http://www.google.com/addurl.html" target="_blank">www.google.com/addurl.html</a>.</p>
<p style="text-align: center"><a href="http://www.hellogoogle.com/wp-content/uploads/2008/04/como_funciona_google3.jpg" title="Cómo funciona Google"><img src="http://www.hellogoogle.com/wp-content/uploads/2008/04/como_funciona_google3.jpg" alt="Cómo funciona Google" /></a><br />
El proceso de búsqueda de Google paso a paso.</p>
<h3>Los servidores de índice.</h3>
<p>El siguiente paso consiste en generar un <strong>índice </strong>para organizar y catalogar todos los documentos web que Googlebot ha encontrado. Este índice es el que permite a Google responder de manera <strong>casi instantánea </strong>a nuestras búsquedas, devolviéndonos todos los documentos relacionados con nuestra solicitud. Sin este índice Google necesitaría recorrer una a una todos los páginas almacenadas en sus servidores de documentos y le llevaría <strong>varias horas </strong>atender cada petición.</p>
<p>Los servidores de índices contienen <strong>una entrada</strong> por cada uno de los <strong>keywords</strong> o palabras que aparecen en los documentos que GoogleBot encuentra. Los índices contemplan cualquier término de búsqueda en cualquier idioma, por lo que para mejorar la eficiencia de sus índices Google ignora todos los términos demasiado generales: preposiciones, artículos, conjunciones, símbolos de puntuación, espacios dobles, etc. A estos keywords poco relevantes les denomina <em>stop words. </em></p>
<p>Los servidores de índice de Google permiten a Google conocer de todos los documentos que contienen un keyword concreto. Por ejemplo, podríamos tener una entrada del índice para la palabra &#8220;<em>bolso</em>&#8221; asociada a los documentos <em>5, 8, 102, 203, 256 </em>y <em>430</em>. De igual manera la palabra &#8220;<em>piel</em>&#8221; podría estar asociada a los documentos <em>12, 34, 102, 203, 213, 256</em> y <em>430</em>, y la palabra &#8220;<em>mujer</em>&#8221; aparecería en los documentos <em>8, 23, 102, 234, 390, 394, 430</em> y <em>516</em>.</p>
<table style="border-collapse: collapse" border="1" cellpadding="5" cellspacing="0">
<tr>
<td><strong>Keyword</strong></td>
<td><strong>documentos</strong></td>
</tr>
<tr>
<td>bolso</td>
<td>5 8 102 203 256 430</td>
</tr>
<tr>
<td>piel</td>
<td>12 34 102 203 213 256 430</td>
</tr>
<tr>
<td>mujer</td>
<td>8 23 102 234 256 394 430 516</td>
</tr>
<tr>
<td>&#8230;</td>
<td>&#8230;</td>
</tr>
</table>
<p>Para agilizar las consultas a su índice y poder conocer de manera inmediata qué documentos están relacionados con un keyword, Google distribuye la información en <strong>cientos de ordenadores </strong>que trabajan en paralelo. Imagínese que usted está leyendo un libro sobre complementos de moda que contiene un índice de 100 páginas. Si una persona tuviera que encontrar cierta información, por ejemplo <em>bolsos de piel de mujer</em>, necesitaría leer detenidamente las cien páginas del índice. En cambio si distribuye la tarea entre 100 personas, cada uno de ellos tan sólo necesita leer una página del índice. De esta misma manera actúa Google.</p>
<h3 style="margin: auto 0cm; line-height: 15.6pt">El orden de los resultados.</h3>
<p>Hemos visto que el índice permite a Google conocer qué documentos están relacionados con los keywords de una búsqueda. Por ejemplo, imaginemos que usted accede a Google e introduce el término de búsqueda: &#8220;<em>bolsos de piel de mujer</em>&#8220;. La lista de documentos que contienen una de los keywords de la búsqueda se denomina &#8220;<strong>lista de publicación</strong>&#8221; y las listas de publicación que contienen todos los keywords de la búsqueda se denomina &#8220;<strong>intersección de listas de publicación</strong>&#8220;.</p>
<p>Para agilizar la intersección de varias listas de publicación, se recorren simultáneamente los documentos de cada una. Si , por ejemplo, una de las listas no contiene documentos entre los índices 8 y 102, podemos saltar en todas las listas hasta el índice 102.</p>
<p>Según nuestro índice, los documentos que contienen los keywords de la búsqueda son el <em>102</em>, <em>256 </em>y <em>430</em>.</p>
<table style="border-collapse: collapse" border="1" cellpadding="5" cellspacing="0">
<tr>
<td><strong>Keyword</strong></td>
<td><strong>documentos</strong></td>
</tr>
<tr>
<td>bolso</td>
<td>5 8 <strong>102 </strong>203 <strong>256 430</strong></td>
</tr>
<tr>
<td>piel</td>
<td>12 34 <strong>102 </strong>203 213 <strong>256 430</strong></td>
</tr>
<tr>
<td>mujer</td>
<td>8 23 <strong>102 </strong>234 256 394 <strong>430 </strong>516</td>
</tr>
<tr>
<td>&#8230;</td>
<td>&#8230;</td>
</tr>
</table>
<p>Ahora bien, antes de presentar al usuario el resultado de la búsqueda es necesario ordenar los documentos en función de su relevancia. Google siempre intentar ofrecer las páginas más <strong>relevantes </strong>e <strong>importantes </strong>para la búsqueda.Si varias páginas ofrecen información igualmente relevante para la entrada introducida, Google ponderará entonces otros factores:</p>
<ul type="disc">
<li>La entidad de las páginas que la <strong>enlazan.</strong></li>
<li>La estructura <strong>orgánica </strong>de la página.</li>
<li>El <strong>page rank</strong> (<a href="http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&amp;Sect2=HITOFF&amp;p=1&amp;u=/netahtml/PTO/search-bool.html&amp;r=1&amp;f=G&amp;l=50&amp;co1=AND&amp;d=PG01&amp;s1=20050071741&amp;OS=20050071741&amp;RS=20050071741" target="_blank">marca patentada</a>)</li>
<li>En ocasiones la <strong>naturaleza </strong>de la propia página puede ser más determinante que el page rank o los enlaces entrantes. Por ejemplo un Site dedicado por completo a c<em>omplementos de mujer</em> será generalmente más útil que un artículo de opinión sobre las costumbres tribales de un poblado africano que <em>confecciona bolsos con piel de mujer</em>.</li>
</ul>
<p>Los resultados de las búsquedas más populares son mantenidas en una <strong>cache </strong>durante horas, para evitar tener que repetir el proceso una y otra vez. Así si usted quiere buscar información sobre <em>Britney Spears, </em>el proceso de búsqueda será muy rápido para Google.</p>
<p>La precisión de de Google es tal, que puede advertir si existe un error ortográfico en una búsqueda y proponerle una búsqueda alternativa. Esto lo consigue gracias a sus <strong>servidores ortográficos </strong>que son capaces de determinar el <strong>idioma </strong>y si cambiando alguna letra al término de búsqueda se incrementa de manera sustancial el número de resultados.</p>
<p>Como puede ver, Google se comporta como una gran orquesta, en la que todos sus músicos participan de manera armónica y acompasada para ofrecernos a todos sus usuarios millones de sinfonías al día. Sinfonías en forma de búsquedas que en a penas medio segundo ofrecen un claro ejemplo de técnica, oficio y precisión.</p>
<p class="akst_link"><a href="http://www.hellogoogle.com/?p=51&amp;akst_action=share-this"  title="E-mail this, post to del.icio.us, etc." id="akst_link_51" class="akst_share_link">&iquest;Le ha gustado este art&iacute;culo&#63;, ay&uacute;deme a compartirlo.</a>
</p>]]></content:encoded>
			<wfw:commentRss>http://www.hellogoogle.com/google-busqueda-indexacion-ordenacion-paginas/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Cómo funciona Google: el proceso de búsqueda</title>
		<link>http://www.hellogoogle.com/como-funciona-google-busqueda/</link>
		<comments>http://www.hellogoogle.com/como-funciona-google-busqueda/#comments</comments>
		<pubDate>Thu, 23 Aug 2007 13:18:55 +0000</pubDate>
		<dc:creator>Ignacio G.</dc:creator>
		
		<category><![CDATA[Google]]></category>

		<category><![CDATA[Web 2.0]]></category>

		<category><![CDATA[Webmaster]]></category>

		<guid isPermaLink="false">http://www.hellogoogle.com/como-funciona-google-1-el-proceso-de-busqueda/</guid>
		<description><![CDATA[
La verdadera magia de Google reside en su concepción de la web: Google nunca ha entendido la web como un conjunto de documentos de texto, si no como un conjunto de relaciones entre documentos de texto y cada una de éstas relaciones constituye verdaderamente la esencia de Google. En este artículo de HelloGoogle veremos cómo [...]]]></description>
			<content:encoded><![CDATA[<p align="center"><a href="/wp-content/uploads/2007/08/google_image_big.jpg"><img src="http://www.hellogoogle.com/wp-content/uploads/2007/08/google_image_middle.jpg" alt="google_image_middle.jpg" height="509" width="500" /></a></p>
<p>La verdadera magia de Google reside en su concepción de la web: Google nunca ha entendido la web como un conjunto de documentos de texto, si no como un conjunto de <strong>relaciones</strong> entre documentos de texto y cada una de éstas relaciones constituye verdaderamente la esencia de Google. En este artículo de <a href="http://www.hellogoogle.com/">HelloGoogle</a> veremos cómo se desarrolla todo el proceso de búsqueda:</p>
<p>Cuando escribimos una búsqueda en www.google.com nuestra petición viaja por el hiperespacio hasta el <strong>servidor web de Google</strong>. Google recibe más de <strong>1000 </strong>peticiones de búsqueda<strong> cada segundo de todos los días del año:</strong></p>
<ul>
<li>El servidor web de Google está formado por una red de más de <strong>10.000 equipos</strong> trabajando en paralelo.</li>
<li>Cada servidor de la red de Google es extremadamente <strong>sencillo y económico: </strong>PCs con procesadores X86, disco duro IDE y demás prestaciones estándar.</li>
<li>El <strong>bajo coste de</strong><strong>l hardware</strong> es la base del modelo de negocio de Google y lo que le permite ofrecer la mayoría de sus servicios de manera gratuita.</li>
<li>Cada servidor<strong> falla una vez cada tres años</strong>.</li>
<li>Cada día fallan dos servidores.</li>
<li>Si se produce cualquier problema de hardware, el <strong>software de Google</strong> lo hace imperceptible para sus usuarios.</li>
<li>Google <strong>no ha sufrido un fallo general</strong> desde el año 2000.</li>
</ul>
<p>A continuación se envía la consulta a los <strong>servidores de índices</strong> de Google. Cada índice está formado por una relación entre una palabra y la dirección del <strong>servidor de documentos de Google</strong> donde se almacenan las páginas que contienen dicha palabra.</p>
<ul>
<li>Cada servidor de índices contiene sólo una parte de las webs de Internet y son necesarios varios servidores trabajando en paralelo para calcular el resultado de la búsqueda.</li>
</ul>
<p>Con la información de los índices se accede a los <strong>servidores de documentos de Google </strong>que contienen una copia de cada web indexada.</p>
<ul>
<li>Google contiene más de <strong>4000 millones </strong>de páginas, por cada página almacena 10KB de información, lo que supone <strong>40 Terabytes</strong> de información.</li>
<li>Google dispone de <strong>50 mirrows </strong>(replicas) por cada servidor.</li>
</ul>
<p>Por último se aplica el algoritmo de <a href="http://www.google.com/technology/">PageRank</a> para ordenar los resultados de la búsqueda por relevancia. El algoritmo de PR calcula la relevancia de una web gracias a <strong>2 billones de ecuaciones</strong> con más de <strong>500 millones de variables</strong>.</p>
<p>Con toda esta información se crea y muestra al usuario la conocida página de resultados <strong>SERP</strong>, merece la pena mencionar que Google completa todo este proceso de búsqueda en menos de <strong>1 segundo</strong>.</p>
<p class="akst_link"><a href="http://www.hellogoogle.com/?p=40&amp;akst_action=share-this"  title="E-mail this, post to del.icio.us, etc." id="akst_link_40" class="akst_share_link">&iquest;Le ha gustado este art&iacute;culo&#63;, ay&uacute;deme a compartirlo.</a>
</p>]]></content:encoded>
			<wfw:commentRss>http://www.hellogoogle.com/como-funciona-google-busqueda/feed/</wfw:commentRss>
		</item>
	</channel>
</rss>
