...es la web donde encontrará Artículos que debe leer,
si quiere Destacar con su Empresa en Internet
Hello Google, su primera posición en Internet: HelloGoogle es la web donde encontrará Artículos que debe leer si quiere Destacar con su empresa en Internet

Jue
10
Abr '08

Cómo funciona Google: la búsqueda, indexación y ordenación de las páginas

Como ya vimos en el artículo cómo funciona Google 1: el proceso de búsqueda, el éxito de este buscador reside en su propia naturaleza que le permite atender casi instantáneamente miles de peticiones de búsqueda por segundo. En esta ocasión vamos a detenernos en el proceso de búsqueda, indexación y ordenación de las páginas:

  • Búsqueda y Parsing (parseo): Google debe ser capaz de recorrer Internet, procesar e interpretar correctamente todos los documentos que encuentre. Por este motivo necesita solventar correctamente cualquier error o problema que encuentre en un documento: manejar caracteres no ASCII, Tags incorrectos o mal anidados, múltiples tipos de documentos y muchos otros problemas que desafiarían a las mentes más retorcidas. La búsqueda y el parsing lo realiza, como veremos más adelante, el GoogleBot.
  • Indexación de los keywords y documentos: Cuando un documento es parseado, cada una de las palabras que lo conforman se almacenan en un índice que pemitirá a Google manejar miles de terabytes de información de manera realmente ágil y eficiente.
  • Ordenación: Finalmente y antes de poderle ofrecer el resultado de su búsqueda, Google deberá ordenar todos los documentos en función de su importancia. Como veremos adelante existen múltiples factores que determinan la posición de un documento en la página de resultados.

Cómo indexa Google
Deep crawling: el proceso de indexación de las páginas

Googlebot: La araña de Google.

Googlebot es el nombre de la aplicación de Google que navega las 24 horas del día visitando los miles de millones de páginas que habitan Internet, como si de un incansable usuario se tratase. Aunque, estrictamente hablando, Googlebot no navega por Internet como lo hace un ser humano; Una vez que ha accedido a una web la almacena en sus servidores de documentos y le asigna un identificativo único, a continuación busca todos sus enlaces y prosigue su navegación accediendo e indexando estos nuevos documentos que procesa de manera idéntica. Está técnica se denomina deep crawling y es similar a una araña que va tejiendo su tela (por este motivo a este tipo de programas se les denominen arañas.)

Un dato curioso: Googlebot es incluso capaz de cumplimentar los campos de un formulario, para poder acceder a las páginas que de otra manera serían inaccesibles.

Googlebot tiene tal potencia que si funcionara al 100% de su capacidad, podría saturar con sus peticiones cualquier servidor web. Por este motivo funciona deliberadamente muy por debajo de su capacidad real. En este sentido, Googlebot es realmente educado, ¿no cree?


Googlebot

GoogleBot: Yo domino el mundo!

Cada vez que el Googlebot encuentra un documento html realiza un parsing o parseo para extraer e interpretar la información. HTML no es un lenguaje de programación, si no un lenguaje de marcación que permite enriquecer el texto plano con una serie de etiquetas que en algunos casos imprime un valor semántico al texto que alberga. HTML también permite ordenar jerárquicamente la información de una página con titulares, subtitulares, listas, etc…

El parsing de un documento consiste precisamente en interpretar esta información para ser capaz de conocer de conocer cuál fue la intención del autor cuando lo escribió y extraer los keywords más relevantes. De esta manera no debería tener la misma relevancia para google la frase “Los mejores complementes para la mujer” como titular de una página que si aparece al pie de una foto.

Como posiblemente ya haya deducido, la optimización orgánica de un Site consiste en codificar el HTML de tal manera que Google sea capaz de valorar positivamente su contenido. Para ello debemos saber cómo utilizar los tags de cabecera, cómo destacar información con tags semánticos, incluir alts en las imágenes, optimizar los títulos, cuidar la meta información, etc. Puede ampliar esta información en el siguiente artículo sobre posicionamiento web.

Google visita con mayor frecuencia algunas páginas populares que sabe que actualizan su información de forma muy dinámica: periódicos, boletines, tiendas on-line, etc. Este tipo de indexación se denomina fresh crawling.

Una manera de facilitar la labor del Googlebot a la hora de indexar nuestras páginas son los Google SiteMaps. Se trata de un documento XML en el que podemos informar activamente al robot de Google sobre las páginas que conforman nuestro Sitio Web. Adicionalmente los Google SiteMaps ofrecen al webmaster estadísticas de acceso del robot y posibles errores de indexación.

También podemos enviar a Googlebot la dirección de una página indicando la URL en el formulario www.google.com/addurl.html.

Cómo funciona Google
El proceso de búsqueda de Google paso a paso.

Los servidores de índice.

El siguiente paso consiste en generar un índice para organizar y catalogar todos los documentos web que Googlebot ha encontrado. Este índice es el que permite a Google responder de manera casi instantánea a nuestras búsquedas, devolviéndonos todos los documentos relacionados con nuestra solicitud. Sin este índice Google necesitaría recorrer una a una todos los páginas almacenadas en sus servidores de documentos y le llevaría varias horas atender cada petición.

Los servidores de índices contienen una entrada por cada uno de los keywords o palabras que aparecen en los documentos que GoogleBot encuentra. Los índices contemplan cualquier término de búsqueda en cualquier idioma, por lo que para mejorar la eficiencia de sus índices Google ignora todos los términos demasiado generales: preposiciones, artículos, conjunciones, símbolos de puntuación, espacios dobles, etc. A estos keywords poco relevantes les denomina stop words.

Los servidores de índice de Google permiten a Google conocer de todos los documentos que contienen un keyword concreto. Por ejemplo, podríamos tener una entrada del índice para la palabra “bolso” asociada a los documentos 5, 8, 102, 203, 256 y 430. De igual manera la palabra “piel” podría estar asociada a los documentos 12, 34, 102, 203, 213, 256 y 430, y la palabra “mujer” aparecería en los documentos 8, 23, 102, 234, 390, 394, 430 y 516.

Keyword documentos
bolso 5 8 102 203 256 430
piel 12 34 102 203 213 256 430
mujer 8 23 102 234 256 394 430 516

Para agilizar las consultas a su índice y poder conocer de manera inmediata qué documentos están relacionados con un keyword, Google distribuye la información en cientos de ordenadores que trabajan en paralelo. Imagínese que usted está leyendo un libro sobre complementos de moda que contiene un índice de 100 páginas. Si una persona tuviera que encontrar cierta información, por ejemplo bolsos de piel de mujer, necesitaría leer detenidamente las cien páginas del índice. En cambio si distribuye la tarea entre 100 personas, cada uno de ellos tan sólo necesita leer una página del índice. De esta misma manera actúa Google.

El orden de los resultados.

Hemos visto que el índice permite a Google conocer qué documentos están relacionados con los keywords de una búsqueda. Por ejemplo, imaginemos que usted accede a Google e introduce el término de búsqueda: “bolsos de piel de mujer“. La lista de documentos que contienen una de los keywords de la búsqueda se denomina “lista de publicación” y las listas de publicación que contienen todos los keywords de la búsqueda se denomina “intersección de listas de publicación“.

Para agilizar la intersección de varias listas de publicación, se recorren simultáneamente los documentos de cada una. Si , por ejemplo, una de las listas no contiene documentos entre los índices 8 y 102, podemos saltar en todas las listas hasta el índice 102.

Según nuestro índice, los documentos que contienen los keywords de la búsqueda son el 102, 256 y 430.

Keyword documentos
bolso 5 8 102 203 256 430
piel 12 34 102 203 213 256 430
mujer 8 23 102 234 256 394 430 516

Ahora bien, antes de presentar al usuario el resultado de la búsqueda es necesario ordenar los documentos en función de su relevancia. Google siempre intentar ofrecer las páginas más relevantes e importantes para la búsqueda.Si varias páginas ofrecen información igualmente relevante para la entrada introducida, Google ponderará entonces otros factores:

  • La entidad de las páginas que la enlazan.
  • La estructura orgánica de la página.
  • El page rank (marca patentada)
  • En ocasiones la naturaleza de la propia página puede ser más determinante que el page rank o los enlaces entrantes. Por ejemplo un Site dedicado por completo a complementos de mujer será generalmente más útil que un artículo de opinión sobre las costumbres tribales de un poblado africano que confecciona bolsos con piel de mujer.

Los resultados de las búsquedas más populares son mantenidas en una cache durante horas, para evitar tener que repetir el proceso una y otra vez. Así si usted quiere buscar información sobre Britney Spears, el proceso de búsqueda será muy rápido para Google.

La precisión de de Google es tal, que puede advertir si existe un error ortográfico en una búsqueda y proponerle una búsqueda alternativa. Esto lo consigue gracias a sus servidores ortográficos que son capaces de determinar el idioma y si cambiando alguna letra al término de búsqueda se incrementa de manera sustancial el número de resultados.

Como puede ver, Google se comporta como una gran orquesta, en la que todos sus músicos participan de manera armónica y acompasada para ofrecernos a todos sus usuarios millones de sinfonías al día. Sinfonías en forma de búsquedas que en a penas medio segundo ofrecen un claro ejemplo de técnica, oficio y precisión.

Sab
1
Mar '08

Cómo Evitar que mis correos sean catalogados como SPAM

Cómo Evitar que sus correos se cataloguen como SPAM

El SPAM no sólo es un problema para los usuarios de Internet que reciben diariamente en sus buzones docenas de e-mails no deseados en los que se les oferta variados artículos para aumentar su potencia sexual o conseguir una tupida melena. También es un problema muy serio para las empresas que ven cómo sus correos publicitarios o comerciales por algún misterioso motivo son catalogados como SPAM y no llegan a sus clientes.

Recuerdo el caso de una empresa que tras varios años realizando inadecuadas campañas de e-mailings para captar y fidelizar clientes, acabó consiguiendo que el 75% de sus correos fueran catalogados como SPAM y nunca llegaran a su destino. Los responsables de marketing se reunieron y tomaron una decisión: había que comprar un ordenador con una capacidad 100 veces mayor de envío de correos. Por supuesto aquello no funcionó.

Lo primero que debe conocer son los dos motivos principales por los que sus correos pueden ser catalogados como SPAM:

  1. Los destinatarios de sus correos no deseaban recibirlos o no son capaces de visualizarlos correctamente y realizan una denuncia de SPAM en las listas RBL (listas negras publicas internacionales). 
  2. Sus correos son detectados automáticamente como SPAM por un filtro Bayesiano.

Si quiere saber cómo evitar que sus e-mails sean catalogados como SPAM le recomiendo que lea el siguiente artículo de HelloGoogle.com donde detallo consejos muy concretos y prácticos, que le ayudaran a optimizar el ratio de recepción de sus campañas de Marketing:

1. Filtre su base de datos de e-mails para evitar envíos innecesarios.

  • Elimine e-mails incorrectos de su base de datos. Los correos del tipo aa@aa.es son fácilmente descartables.
  • Ofrezca un servicio para que sus clientes puedan actualizar sus correos: Más del 30% de sus clientes podrán cambiar de correo a lo largo de un año.
  • Utilice servicios de list hygiene: Más del uno por ciento de sus correos serán direcciones mal formadas del tipo johngmail.com que claramente deberían ser john@gmail.com. Las aplicaciones de list hygiene son capaces de corregir este tipo de errores de sus bases de datos.
  • Elimine de su base de datos direcciones de correo “Spam flag": Se trata de direcciones de correo que se han añadido de manera malintencionada y que pueden hacer que su empresa se autodenuncie en listas negras. Por ejemplo: abuse@somedomain.

2. Tenga presente la siguiente guía de Buenas prácticas para obtener el permiso de las personas que recibirán sus e-mails.

  • Realice el sistema de suscripciones más conservador que pueda permitirse: Antes de incluir una dirección de correo en su base de datos, la mayoría de las empresas envían a sus suscriptores un correo de confirmación en el que se solicita que confirmen su interés en recibir información comercial por correo.
  • Conserve la dirección IP de sus suscriptores: Le permitirá cubrirse las espaldas en el caso de que se vea en la necesidad de conversar con ISPs y Listas negras.
  • Evite comprar listas de e-mails, y si lo hace, investigue la fuente de estas listas. Puede recurrir a un trustworthy list
    broker
    para que le asesore en la adquisición de una lista de calidad.
  • Permita que sus clientes puedan desuscribirse de manera clara, sencilla y rápida.

3. Elija el ISP de su servidor de correo cuidadosamente.

Si su ISP ha sido denunciado a una blacklist, los correos que envía a través de sus servidores serán catalogados como SPAM. Puede apuntarse a la siguiente lista de discusión sobre SPAM http://peach.ease.lsoft.com/archives/spam-l.html donde podrá buscar ISP de confianza.

4. Cuide minuciosamente el contenido del Subject y cuerpo de sus correos para evitar los filtros anti-spam por contenido o filtros Bayesianos. 

Los filtros Bayesianos aunque representan la última técnica en la lucha contra el SPAM se basan en un método estadístico descubierto en el siglo XVIII, por el clérigo y matemático Thomas Bayes, (1701-1761). La estadística bayesiana es una herramienta muy eficaz para poder calcular la probabilidad de que ocurra un suceso determinado, en nuestro caso que un e-mail sea SPAM. Para realizar este cáculo estadístico nos basamos en la experiencia de lo ocurrido anteriormente en casos semejantes.

Para evitar que nuestros e-mails sean catalogados como SPAM por un filtro Bayesiano es importante que conozcamos cómo funcionan: Cuando un ISP recibe un email y una persona determina manualmente que se trata de un caso de spam, se observa la frecuencia relativa de cada una de las palabras del mensaje, se calcula su probabilidad de ocurrencia y se actualiza el filtro Bayesiano con esta información. También se hace exactamente lo mismo con los mensajes que se reciben y son considerados como no spam.

Cuando ya hemos entrenado a nuestro filtro Bayesiano con muchas palabras asociadas a la práctica de spam y no-spam, podemos pedirle que calcule de manera automática  la probabilidad de que cada e-mail que se reciba sea o no sea spam en función de las palabras que contiene, por ejemplo "viagra" ó "gratis", "enlarge". Así se calcula la probabilidad de que el mensaje sea spam. A esta cifra se le llama "spamicidad" y cuando  supera un umbral (por ejemplo el 90%), se puede clasificar de manera segura como spam.

Una vez entrenado, un filtro Bayesiano ofrece muy pocos falsos positivos, ya que a diferencia de otros filtros, ataca la esencia del problema del spam: el contenido del mensaje. Recuerde que el método bayesiano es multilingüe e internacional, un filtro anti-spam bayesiano, al ser adaptable, puede utilizarse con cualquier idioma.

Por tanto, para evitar los filtros Bayesianos debe prestar especial atención al contenido y redacción de sus e-mails:

  • Evite utilizar un estilo demasiado comercial en la redacción de sus contenidos.
  • Evita las expresiones y palabras demasiado agresivas como "FREE", "GRATIS", "COMPRE AHORA" o "DESCUENTOS".
  • No escriba nunca en mayúsculas en el Subject.
  • Evite el uso excesivo de signos de admiración o símbolos como $$.
  • Evite la utilización de la frase “haga click aquí ”.
  • Evite las frases redundantes y las instrucciones poco concisas.

Además, las más avanzadas soluciones en materia anti-spam incluyen un motor de filtro bayesiano de segunda generación, lo que supone no sólo un simple análisis de texto, sino también un amplio exámen de la forma y los atributos de los archivos adjuntos. 

Si tiene curiosidad por ver cómo funcionan los filtros bayesianos, puede descargarse el programa gratuito anti SPAM K9 desde esta dirección.

5. Cuide el código HTML de sus e-mails:

  • Evite las imágenes de fondo, en muchos webmails no se visualizarán.
  • No ponga texto editable sobre las imágenes de fondo, pues al desaparecer la imagen perderán su contexto.
  • Todas las imágenes deben tener la etiqueta "ALT" y “TITLE” con su correspondiente texto descriptivo.
  • No utilice hojas de estilo CSS externas, ni declare los estilos en la cabecera pues algunos webmails los eliminan.
  • Aplique los estilos CSS directamente sobre los tags (style="…").
  • Utilice tablas para la maquetación de sus contenidos.
  • Evite los layouts líquidos .
  • Evite siempre incluir controles ActiveX
  • No utilice imágenes animadas ni flash.
  • Incluya siempre el charset para la definición de los caracteres en el idioma correspondiente.

6. Configure correctamente su infraestructura de envío de e-mails:

  • Mantenga Activado la resolución inversa de DNS: Muchos filtros de correo utilizan la resolución inversa para asegurarse que la compañía que se supone está enviando los e-mails es realmente el emisor. En el caso de que no esté activa, sus correos no se enviarán.
  • Compruebe si mantiene Relays abiertos en su servidor de correo y ciérrelos: Los Spammers a menudo buscan relays abiertos para enviar sus correos a través de los servidores de correo de otras compañías.
  • No haga relay entre servidores antes de enviar los correos: Los correos de algunas empresas suelen viajar entre varios servidores internos antes de entregarlos al destinatario final; ésto podría ser irrelevante si no fuera porque el relay entre servidores es una práctica habitual entre los Spammers para intentar ocultar la procedencia de sus correos. Tenga en cuenta que cuanto menos relay haga, menos dudas habrá sobre la procedencia de sus correos.
  • Utilice un formMail seguro en su página web: Un agujero de seguridad en su formulario de envio de correos puede ser una puerta abierta para que los Spammers envíen información desde su servidor de correo.

7. Monitorice constantemente su sistema para saber si está ocurriendo un problema. Hay varias formas de saber cuándo hay un problema en la entrega de los correos:

  • Monitorice los ratios de entrega por dominio: De esta manera puede comprobar por ejemplo si hay una caida en los ratios de entrega de correos de GMail.
  • Monitorice sus campañas de e-mails antes de comenzarlas: Antes de lanzar una campaña es importante asegurarse que nuestros correos serán aceptados por los principales ISP (en la práctica los 15 ISPs principales representan el 60% del mercado). Existen empresas de seguridad que ofrecen servicios de chequeo automático de e-mails para saber si sus campañas pasarán los filtros antispam de los principales ISPs.
  • Monitorice las blacklists: Compruebe si su servidor de correo está dentro de alguna lista negra. Algunos sistemas de seguridad ofrecen un servicio de Blacklist Alert que le alerta si su servidor de correo se encuentra en más de 300 blacklists.

8. Mantenga buenas relaciones con los ISPs.

Siempre es de ayuda saber a quién dirigirse cuando hay un problema, pero recuerde que para mantener una buena relación es importante dedicarle mucho tiempo y recursos.

9. Y por supuesto, no haga SPAM.

El envío masivo e indiscriminado de e-mailings a personas que no los han solicitado, no le harán incrementar sus ventas. Por el contrario dañara la imagen de su empresa y tarde o temprano acabará originándole serios problemas. 

Espero que con la ayuda de estos consejos sus campañas de e-marketing acaben llegando siempre a buen puerto. 

Dom
4
Nov '07

¿Cuál es el ranking de mi web?

Ranking en Google

Cuando usted pregunta cuál es el ranking de su web, ¿tiene claro qué quiere conocer realmente? Lo cierto es que no existe un ranking en Internet, o al menos no existe un ranking único. De momento no hay un organismo o consorcio que se haya ocupado de analizar las webs bajo un prisma determinado para finalmente establecer un orden lógico en la red. Lo mismo ocurre en el mundo real, ¿alguna vez se ha preguntado cuál es su popularidad? Es difícil conocer si gozamos de una popularidad 5 o una popularidad 7, principalmente porque necesitaríamos un referente inmutable con el que compararnos y también conocer una innumerable cantidad de factores tales como nuestra situación económica, nuestra salud, nuestra cartera de amigos y enemigos, etc

Sin embargo, volviendo al mundo virtual, existen varios ratios que miden diferentes aspectos importantes de una web. Atendiendo a todos ellos podemos hacernos una idea global del ranking de nuestro Sitio en Internet.

Es importante conocer estos rankings para poder evaluar la evolución de nuestra web a lo largo del tiempo, y poder tomar medidas de promoción en función de un baremo objetivo. A continuación veremos cuáles son los rankings web más importantes:

1. Page Rank.

El PageRank es el ratio utilizado por el popular motor de búsqueda Google para medir la importancia o relevancia de una página.

PageRank™ es una marca registrada y patentada por Google

El algoritmo de PageRank fue desarrollado por los fundadores de Google, Larry Page y Sergey Brin , en 1998 como parte de un proyecto final de carrera. Este algoritmo está basado en el estudio Science Citation Index (SCI) desarrollado por Eugene Garfield durante la década de los 50.

El algoritmo de PageRank deposita en la comunidad web toda la responsabilidad a la hora de ponderar la importancia de una web. Cada enlace de una página A a otra página B, representa un voto. A este voto se le debe aplicar un factor de corrección en función de la importancia de la web que realiza el enlace. Los enlaces de las páginas importantes tienen mayor fuerza que los enlaces de las páginas menos importantes. Por tanto el PageRank de una web se define recursivamente y depende del número de páginas que la enlazan y de cada uno de los PageRanks particulares de estas páginas.

La manera más sencilla de conocer el PageRank de una página es instalando en nuestro navegador la barra de búsqueda de Google. Esta herramienta muestra el valor del PageRank en una escala de 0 a 10.

Los valores que se muestran en la Google Toolbar no se corresponden con el valor real del PageRank. Según la ecuación y los propios creadores de Google, los miles de millones de páginas contribuyen de media con un valor de 1 al PageRank total de Internet. Si todas las páginas de Internet enlazaran a hellogoogle.com, el pagerank de mi página sería exactamente el PageRank total.

Google dividie el rango completo de valores de PageRank en 10 partes - cada parte está representada por uno de los valores mostrados en la toolbar. Por tanto la toolbar sólo muestra en qué parte del rango total de PageRank se sitúa la página y no el verdadero valor del PageRank.

Teniendo en cuenta que es mucho más complicado alcanzar un valor cercano al 10 que al 1, mucha gente opina (y digo opina porque Google nunca se ha pronunciado al respecto) que el rango total no se ha dividido en 10 partes iguales si no que las divisiones están basadas en una escala logarítmica. Por ejemplo, podríamos asumir que en una escala logarítmica en base a 10 serían necesarios 10 enlaces para alcanzar un PageRank de 1, 100 enlaces para subir hasta el 2, 1000 para el tres y así sucesivamente.

Evidentemente a medida que el número de páginas web que indexa Google se incrementa, el PageRank total también lo hace y esto consigue que los valores que representan los límites de los 10 sectores también puedan variar. Esto explicaría las repentinas caídas que sufren los webmasters en el pageRank de sus páginas.

Por tanto la barra de Google es un buen indicador para conocer la popularidad que goza una página web en Google.

A modo de curiosidad, en el siguiente enlace puede revisar los sitios que tienen un PageRank de 10

2. Ranking Alexa.

El ranking de Alexa mide la importancia de una web, en función de las visitas realizadas por aquellos usuarios que tienen instalada la barra de Alexa en sus ordenadores. Debemos tener en cuenta que cuanto más tráfico recibe el sitio, menor es su ranking de Alexa. De está forma tenemos que yahoo.com es el Site que actualmente tiene más tráfico y por tanto ostentan el ranking 1 de Alexa.

Actualmente existen más de 10 millones de usuarios en todo el mundo por lo que la muestra es bastante importante.

Usted también puede tener instalada la barra de Alexa en su equipo.

El ranking de Alexa está basado en una combinación de dos conceptos: alcance y páginas vistas:

  • El alcance representa el número de usuarios únicos que visitan una web durante un día.
  • Las páginas vistas representan el número total de páginas distintas que ha visto cada usuario único durante un día.

Pongamos un ejemplo: Jorge se ha levantado pronto esta mañana y ha leído desde su portátil 10 artículos de hellogoole.com. Su novia Sonia accedió desde el trabajo a hellogoogle.com y ha leído 2 artículos. Jorge después de comer ha vuelto ha acceder a nuestra web para leer de nuevo 2 de los artículos que ya leyó por la mañana. En este caso tendríamos que el alcance sería de 2 y las páginas vistas serían 12.

El ranking de Alexa es un baremo importante para conocer la importancia de una web, pero tiene una serie de particularidades que es necesario conocer para no dejarnos llevar por conclusiones erróneas o incompletas:

  • La barra de Alexa sólo funciona para Internet Explorer y Windows, por lo que no contabiliza a los usuarios con otros navegadores como firefox o Safari.
  • La popularidad de la barra Alexa viene determinada por su idioma (inglés). Por este motivo su uso está más extendido en las culturas de habla inglesa.
  • El ranking de Alexa se calcula sobre una gran muestra de varios millones de usuarios, sin embargo no es una muestra suficientemente grande como para poder determinar con precisión el ranking para Sites con poco tráfico (menos de 1000 visitas/mes).
  • La muestra es demasiado pequeña para calcular de manera fiable el ranking Alexa de los sitios por encima del puesto 100.000.
  • En cambio, cuanto más tráfico reciba un sitio, su ranking de Alexa es más fiable
  • La barra de Alexa no funciona para conexiones seguras https.

A efectos prácticos un ranking Alexa menor de 5.000 es propio de un Site de referencia en Internet y un ranking menor de 100 sólo está al alcance de unos pocos pesos pesados: ebay, youtube, etc.

Actualmente yahoo.com ocupa el ranking 1 de Alexa.

3 BookMarks sociales: del.icio.us

Del.icio.us es una web creada por y para la comunidad web, técnicamente se trata de una web de bookmarking social que funciona como una enorme "carpeta de favoritos" en la que podemos guardar todas aquellas webs que consideremos interesantes. De esta manera podemos acceder a nuestra selección de webs desde cualquier ubicación y ordenador. Además podemos descubrir nuevas webs que otros usuarios guardaron y compartir las nuestras con el resto de la comunidad web.

En Del.icio.us podemos utilizar etiquetas para organizar nuestras páginas. También podemos buscar que páginas guardaron otros usuarios para una etiqueta determinada.

Podemos medir la popularidad de una web para una etiqueta determinada analizando cuánta gente la guardó .Por ejemplo, para la etiqueta "web2.0" tenemos que Ebay.com ha sido guardado por 8997 usuarios, Netvibes.com por 27159 y Go2Web20.net por 14961. En cambio para la etiqueta "Auctions", tenemos que e-bay.com ha sido guardada por 8989 usuarios. Podríamos concluir por tanto que para usuarios interesados por la web 2.0, Netvibes es una web más popular que Ebay, aunque para los usuarios interesados en las subastas e-bay.com es una web de enorme relevancia. Lo cierto es que también podríamos deducir que la etiqueta "Shopping" es más popularidad que "web2.0" por él número de páginas que tienen asociadas.

4. Rankings para blogs: Technorati

Technorati es una web muy reconocida dentro de la comunidad web que busca e indexa diariamente información sobre millones de blogs. La naturaleza de esta web es más dinámica que la de la mayoría de buscadores, según ellos mismos dicen, cada día se crean 175.000 nuevos blogs, se escriben 1.6 millones de nuevos artículos y cada segundo se realizan 18 actualizaciones. Actualmente tiene información sobre 110 millones de blogs y es un buen referente para medir la popularida de un blog en Internet

Technorati mantiene en su índice una matriz de blogs interrelacionados entre sí. Estas relaciones se crean cada vez que desde un blog se hace mención a otro con un enlace. Estás relaciones se crean diaríamente de manera muy dinámica, cada hora se crean miles de nuevos enlaces que son automáticamente reportados en Technorati.

Technorati muestra la relevancia de un blog con el concepto de Autoridad. La autoridad de nuestro blog indica el número de blogs que nos hacen referencia. Cuanto más autoridad tengamos, mayor es nuestra popularidad en Internet.

La forma de aumentar nuestra autoridad pasa por conseguir atraer con nuestros artículos la atención de la comunidad web.

5. Otras formas de medir el ranking de una web.

Compare su Site con otros: http://www.ranking.com/

Calcula la popularidad de una web en función de los datos obtenidos de http://www.7search.comy http://www.linkstoyou.com

Ofrece la siguiente información:

  • Ranking Web: El ranking que otorga a la web analizada, lo calcula en función de la muestra de usuarios con los que trabaja. A fecha de hoy msn.com ocupa el primer puesto del Ranking.
  • TrustGauge: Refleja el nivel de confianza que ofrece la web a los usuarios. Lo calcula en base a diversos factores como puede ser la presencia de páginas seguras https, la posibilidad de realizar pagos a través de webs de terceros como PayPal, el tráfico de la web, etc.
  • Links: Muestra el número de webs que nos enlazan actualmente, es un valor aproximado que calcula gracias a los datos obtenidos de algunos buscadores.
  • Category Rank: Refleja el ranking de nuestro Site dentro del sector al que pertenece. En este caso es necesario que el webmaster ubique la web en el sector apropiado ya que la aplicación no es capaz de hacerlo por si mismo.

Puede conocer la popularidad de su web a través de sus enlaces

Existen diversas herramientas para webmasters que calculan la popularidad de una web analizando sus back-links o enlaces entrantes. Los enlaces son una consecuencia directa del interés que una web despierta en la comunidad y por tanto es un buen ratio para medir la popularidad de una web.

La fiabilidad de los datos que ofrecen las herramientas varía en función de las fuentes de las que se nutren. En este sentido, las principales fuentes de datos son los buscadores y directorios de Internet.

Un ejemplo de estas herramientas son:

http://www.marketleap.com/publinkpop/ (Fuente: AllTheWeb, Alta Vista, AOL, Google, HotBot, MSN )

www.widexl.com/remote/link-popularity/index.html (Fuente: Google, AllTheWeb, AltaVista, AOL, MSN, HotBot, Lycos)

http://www.linkpopularitycheck.com/ (Fuente: AllTheWeb, Alta Vista, MSN)

http://www.seotoolkit.co.uk/link_popularity_checker.asp (Fuente: Alltheweb, Altavista UK, Google, MSN UK, Yahoo )

www.uptimebot.com (Fuente: Google, AllTheWeb, AltaVista, Hotbot MSN, Teama, Dmoz)

http://www.linkpopularity.com/ (Fuente: Altavista, Google, HotBot )

www.addme.com/popularity.htm (Fuente: AllTheWeb, MSN)

http://www.businessweb.com.au/free/popularity/(Fuente: AltaVista, Northern Light, Lycos, Teoma, HotBot)

http://www.trafficzap.com/linkpopularity.asp (Fuente: AltaVista, AllTheWeb, MSN)

http://www.mikes-marketing-tools.com/link-popularity/ (Fuente: Google, AltaVista, MSN, HotBot, AllTheWeb, and Lycos)

http://www.sitesolutions.com/webtools.asp?F=Form&T=WSPC&URL=(Fuente: HotBot, Lycos, Altavista, Google, MSN)

http://watson.addy.com/(Fuente: AltaVista )

http://www.linkstoyou.com(Fuente: AltaVista, Fast, HotBot, MSN, 7Search)

http://www.linkgnome.com/(Fuente: Altavista, Infoseek/Go, HotBot, Google)

http://www.webmaster-toolkit.com/link-popularity-checker.shtml(Fuente: Google, Altavista, MSN, HotBot, AllTheWeb)

www.absolute-protect.com/populari.htm(Fuente: Google, AltaVista, MSN, HotBot, AllTheWeb, and Lycos)

4. Conclusiones.

Como hemos visto no existe un único ranking web. El PageRank puede ser un buen referente para conocer la popularidad de nuestra web en Google, y por otra parte el ranking Alexa nos permite conocer la evolución del tráfico de visitantes. También hemos visto herramientas para conocer la popularidad de nuestra web en función de los enlaces entrantes. Todos estos rankings son un buen termómetro para medir la salud de nuestra web, de nuestras acciones dependerán que la tendencía sea ascendente o descendente. No olvide que la constancia y la dedicación, son el único camino hacia el éxito. Manténgase firme en el camino y verá los resultados.

Mar
4
Sep '07

Predecir Google: Cuándo y cómo indexará Google mi web

google tarot

Deberíamos comenzar este artículo afirmando que es casi imposible adelantarse en el tiempo a los caprichosos designios de Google, pero en vez de esto, prefiero mandar un mensaje de esperanza a los webmasters pues existen diversas técnicas y herramientas que nos pueden ayudar a predecir, o al menos intuir, el futuro de nuestras páginas webs en Google.

Herramientas para predecir el PR

Existen herramientas para webmaster que predicen con bastante precisión cuál será el page rank de una página en un futuro inmediato. Estas herramientas realizan su estimación estudiando el XML de las búsquedas de Google en concreto mirando el contenido del tag RK que contiene un entero entre 0-10 que representa la importancia que google otorga a la página. ( Los XML de búsqueda de Google son documentos con información muy relevante sobre búsquedas que sólo están disponibles para los partners autorizados de Google). Un buen ejemplo es la herramienta Rankit: http://rankit.free.fr.

También existen herramientas para webmasters que basan su cálculo en el contenido de los Google Datacenters (Ver más abajo). Por ejemplo: Future PageRank

Por último hay herramientas que basan su cálculo en los backlinks (links que apuntan a una web), pero sus predicciones suelen ser poco fiables. Un ejemplo: http://www.iwebtool.com/pagerank_prediction

Herramienta Google Site Status

Esta utilidad es accesible desde la sección de Webmasters de Google y le permite conocer cuál es el estado actual de su página web, es decir, si ya ha sido indexada y cuándo fue la última vez que el robot de Google (googlebot) accedió a ella.

https://www.google.com/webmasters/tools/sitestatus

En relación a esta herramienta merece la pena citar los Google Sitemaps, que ya mencionamos en otros artículos de HelloGoogle. Un Sitemap de Google es un archivo XML que permite indicar explícitamente a Google cuáles son las páginas que forman su Site. Esta herramienta  le ofrece estadísticas avanzadas sobre su web: qué páginas se han indexado, cuáles disponen del PageRank más elevado, cuáles son los términos de búsqueda más habituales por los que le han encontrado y si existe alguna página no encontrada o que presente errores.

Google Datacenter

Los Google Datacenters son los servidores que alimentan a Google,  utilizando una metáfora, son los ríos que van a dar al mar, que en esta ocasión no es morir, sino Google. Cada vez que hacemos una búsqueda en Google, éste solicita la respuesta a uno de sus Datacenters.

Google actualiza en profundidad su contenido cada 30 días aproximadamente tras haber recorrido e indexado millones de webs. Las actualizaciones suelen comenzar los fines de semana y duran unos cuatro días durante los cuales se van actualizando cada uno de los Datacenters (la actualización de un sólo servidor de datos puede durar horas o días).

Como seguramente habrá comprobado, al realizar una búsqueda podemos encontrar resultados diferentes de un día a otro (Aka Google Dance), esto es debido a que Google obtiene sus resultados de diferentes centros de datos que pueden no contener siempre la misma información. En cualquier caso no piense que las actualizaciones sólo se producen cada 30 días, Google trabaja a diario actualizando el contenido de las páginas principales de las webs que ya conoce.

Revisar la información contenida en los Google Datacenters en ocasiones puede ayudarle a anticiparse a sus actualizaciones y ver qué resultados va a mostrar en un futuro inmediato. A continuación puede ver una lista con las IPs de los DataCenters conocidos.

1. 64.233.161.18
2. 64.233.161.19
3. 64.233.161.44
4. 64.233.161.80
5. 64.233.161.81
6. 64.233.161.83
7. 64.233.161.84
8. 64.233.161.91
9. 64.233.161.93
10. 64.233.161.95
11. 64.233.161.98
12. 64.233.161.99
13. 64.233.161.99
14. 64.233.161.100
15. 64.233.161.101
16. 64.233.161.102
17. 64.233.161.104
18. 64.233.161.105
19. 64.233.161.107
20. 64.233.161.115
21. 64.233.161.133
22. 64.233.161.147
23. 64.233.161.184
24. 64.233.163.19
25. 64.233.163.44
26. 64.233.163.80
27. 64.233.163.83
28. 64.233.163.84
29. 64.233.163.99
30. 64.233.163.100
31. 64.233.163.101
32. 64.233.163.104
33. 64.233.163.107
34. 64.233.163.115
35. 64.233.163.133
36. 64.233.163.184
37. 64.233.163.189
38. 64.233.167.18
39. 64.233.167.19
40. 64.233.167.44
41. 64.233.167.80
42. 64.233.167.81
43. 64.233.167.83
44. 64.233.167.84
45. 64.233.167.91
46. 64.233.167.93
47. 64.233.167.99
48. 64.233.167.104
49. 64.233.167.107
50. 64.233.167.115
51. 64.233.167.133
52. 64.233.167.147
53. 64.233.167.184
54. 64.233.169.19
55. 64.233.169.44
56. 64.233.169.80
57. 64.233.169.81
58. 64.233.169.83
59. 64.233.169.84
60. 64.233.169.99
61. 64.233.169.104
62. 64.233.169.107
63. 64.233.169.115
64. 64.233.169.133
65. 64.233.169.184
66. 64.233.171.18
67. 64.233.171.19
68. 64.233.171.44
69. 64.233.171.80
70. 64.233.171.81
71. 64.233.171.83
72. 64.233.171.84
73. 64.233.171.99
74. 64.233.171.100
75. 64.233.171.101
76. 64.233.171.102
77. 64.233.171.103
78. 64.233.171.104
79. 64.233.171.105
80. 64.233.171.107
81. 64.233.171.115
82. 64.233.171.133
83. 64.233.171.147
84. 64.233.171.184
85. 64.233.179.19
86. 64.233.179.44
87. 64.233.179.80
88. 64.233.179.81
89. 64.233.179.83
90. 64.233.179.84
91. 64.233.179.91
92. 64.233.179.93
93. 64.233.179.99
94. 64.233.179.100
95. 64.233.179.101
96. 64.233.179.104
97. 64.233.179.106
98. 64.233.179.107
99. 64.233.179.115
100. 64.233.179.133
101. 64.233.179.184
102. 64.233.183.17
103. 64.233.183.18
104. 64.233.183.19
105. 64.233.183.44
106. 64.233.183.80
107. 64.233.183.81
108. 64.233.183.83
109. 64.233.183.84
110. 64.233.183.91
111. 64.233.183.93
112. 64.233.183.99
113. 64.233.183.103
114. 64.233.183.104
115. 64.233.183.107
116. 64.233.183.115
117. 64.233.183.133
118. 64.233.183.147
119. 64.233.183.184
120. 64.233.185.19
121. 64.233.185.44
122. 64.233.185.80
123. 64.233.185.81
124. 64.233.185.83
125. 64.233.185.84
126. 64.233.185.99
127. 64.233.185.100
128. 64.233.185.101
129. 64.233.185.104
130. 64.233.185.107
131. 64.233.185.115
132. 64.233.185.133
133. 64.233.185.147
134. 64.233.185.184
135. 64.233.185.189
136. 64.233.187.19
137. 64.233.187.44
138. 64.233.187.80
139. 64.233.187.81
140. 64.233.187.83
141. 64.233.187.84
142. 64.233.187.91
143. 64.233.187.93
144. 64.233.187.99
145. 64.233.187.104
146. 64.233.187.106
147. 64.233.187.107
148. 64.233.187.115
149. 64.233.187.133
150. 64.233.187.184
151. 64.233.189.44
152. 64.233.189.80
153. 64.233.189.81
154. 64.233.189.83
155. 64.233.189.84
156. 64.233.189.104
157. 64.233.189.107
158. 64.233.189.115
159. 64.233.189.133
160. 64.233.189.184
161. 66.102.1.44
162. 66.102.1.80
163. 66.102.1.81
164. 66.102.1.83
165. 66.102.1.84
166. 66.102.1.91
167. 66.102.1.93
168. 66.102.1.104
169. 66.102.1.107
170. 66.102.1.115
171. 66.102.1.133
172. 66.102.1.184
173. 66.102.7.18
174. 66.102.7.19
175. 66.102.7.44
176. 66.102.7.80
177. 66.102.7.81
178. 66.102.7.83
179. 66.102.7.84
180. 66.102.7.98
181. 66.102.7.99
182. 66.102.7.100
183. 66.102.7.101
184. 66.102.7.102
185. 66.102.7.104
186. 66.102.7.105
187. 66.102.7.106
188. 66.102.7.107
189. 66.102.7.115
190. 66.102.7.133
191. 66.102.7.147
192. 66.102.7.184
193. 66.102.9.18
194. 66.102.9.80
195. 66.102.9.81
196. 66.102.9.83
197. 66.102.9.84
198. 66.102.9.99
199. 66.102.9.100
200. 66.102.9.101
201. 66.102.9.102
202. 66.102.9.104
203. 66.102.9.107
204. 66.102.9.115
205. 66.102.9.133
206. 66.102.9.147
207. 66.102.9.184
208. 66.102.11.99
209. 66.102.11.100
210. 66.102.11.101
211. 66.102.11.104
212. 66.102.11.106
213. 66.102.11.107
214. 66.249.81.18
215. 66.249.81.19
216. 66.249.81.44
217. 66.249.81.80
218. 66.249.81.81
219. 66.249.81.83
220. 66.249.81.84
221. 66.249.81.99
222. 66.249.81.100
223. 66.249.81.101
224. 66.249.81.102
225. 66.249.81.104
226. 66.249.81.107
227. 66.249.81.115
228. 66.249.81.133
229. 66.249.81.147
230. 66.249.81.184
231. 66.249.83.19
232. 66.249.83.44
233. 66.249.83.80
234. 66.249.83.81
235. 66.249.83.83
236. 66.249.83.84
237. 66.249.83.99
238. 66.249.83.100
239. 66.249.83.101
240. 66.249.83.104
241. 66.249.83.107
242. 66.249.83.115
243. 66.249.83.133
244. 66.249.83.184
245. 66.249.83.214
246. 66.249.85.19
247. 66.249.85.44
248. 66.249.85.80
249. 66.249.85.81
250. 66.249.85.83
251. 66.249.85.84
252. 66.249.85.99
253. 66.249.85.104
254. 66.249.85.107
255. 66.249.85.115
256. 66.249.85.133
257. 66.249.85.184
258. 66.249.87.99
259. 66.249.87.104
260. 66.249.87.106
261. 66.249.87.107
262. 66.249.89.19
263. 66.249.89.44
264. 66.249.89.80
265. 66.249.89.81
266. 66.249.89.83
267. 66.249.89.84
268. 66.249.89.99
269. 66.249.89.104
270. 66.249.89.107
271. 66.249.89.115
272. 66.249.89.133
273. 66.249.89.184
274. 66.249.91.18
275. 66.249.91.19
276. 66.249.91.44
277. 66.249.91.80
278. 66.249.91.81
279. 66.249.91.83
280. 66.249.91.84
281. 66.249.91.91
282. 66.249.91.93
283. 66.249.91.99
284. 66.249.91.104
285. 66.249.91.107
286. 66.249.91.115
287. 66.249.91.133
288. 66.249.91.147
289. 66.249.91.184
290. 66.249.93.19
291. 66.249.93.44
292. 66.249.93.80
293. 66.249.93.81
294. 66.249.93.83
295. 66.249.93.84
296. 66.249.93.91
297. 66.249.93.93
298. 66.249.93.99
299. 66.249.93.100
300. 66.249.93.101
301. 66.249.93.104
302. 66.249.93.106
303. 66.249.93.107
304. 66.249.93.115
305. 66.249.93.133
306. 66.249.93.184
307. 72.14.203.99
308. 72.14.203.100
309. 72.14.203.101
310. 72.14.203.102
311. 72.14.203.104
312. 72.14.203.107
313. 72.14.203.133
314. 72.14.203.147
315. 72.14.203.184
316. 72.14.205.99
317. 72.14.205.100
318. 72.14.205.101
319. 72.14.205.102
320. 72.14.205.104
321. 72.14.205.107
322. 72.14.205.133
323. 72.14.205.147
324. 72.14.205.189
325. 72.14.207.99
326. 72.14.207.100
327. 72.14.207.101
328. 72.14.207.102
329. 72.14.207.104
330. 72.14.207.106
331. 72.14.207.107
332. 72.14.207.133
333. 72.14.207.147
334. 72.14.207.184
335. 72.14.209.99
336. 72.14.209.101
337. 72.14.209.102
338. 72.14.209.104
339. 72.14.209.107
340. 72.14.209.147
341. 72.14.211.99
342. 72.14.211.100
343. 72.14.211.101
344. 72.14.211.102
345. 72.14.211.104
346. 72.14.211.107
347. 72.14.211.147
348. 72.14.211.184
349. 72.14.215.19
350. 72.14.215.44
351. 72.14.215.80
352. 72.14.215.81
353. 72.14.215.83
354. 72.14.215.84
355. 72.14.215.99
356. 72.14.215.101
357. 72.14.215.102
358. 72.14.215.104
359. 72.14.215.107
360. 72.14.215.115
361. 72.14.215.133
362. 72.14.215.147
363. 72.14.215.184
364. 72.14.217.99
365. 72.14.217.101
366. 72.14.217.102
367. 72.14.217.104
368. 72.14.217.107
369. 72.14.217.147
370. 72.14.219.99
371. 72.14.219.100
372. 72.14.219.101
373. 72.14.219.102
374. 72.14.219.104
375. 72.14.219.107
376. 72.14.219.147
377. 72.14.221.99
378. 72.14.221.101
379. 72.14.221.102
380. 72.14.221.104
381. 72.14.221.107
382. 72.14.221.147
383. 72.14.223.99
384. 72.14.223.100
385. 72.14.223.101
386. 72.14.223.102
387. 72.14.223.104
388. 72.14.223.107
389. 72.14.223.147
390. 72.14.235.99
391. 72.14.235.100
392. 72.14.235.101
393. 72.14.235.102
394. 72.14.235.104
395. 72.14.235.107
396. 72.14.235.147
397. 72.14.253.99
398. 72.14.253.100
399. 72.14.253.101
400. 72.14.253.102
401. 72.14.253.104
402. 72.14.253.107
403. 72.14.253.147
404. 216.239.37.19
405. 216.239.37.44
406. 216.239.37.80
407. 216.239.37.83
408. 216.239.37.84
409. 216.239.37.91
410. 216.239.37.98
411. 216.239.37.99
412. 216.239.37.101
413. 216.239.37.104
414. 216.239.37.105
415. 216.239.37.106
416. 216.239.37.107
417. 216.239.37.115
418. 216.239.37.147
419. 216.239.37.184
420. 216.239.39.19
421. 216.239.39.44
422. 216.239.39.80
423. 216.239.39.81
424. 216.239.39.98
425. 216.239.39.99
426. 216.239.39.101
427. 216.239.39.104
428. 216.239.39.105
429. 216.239.39.106
430. 216.239.39.107
431. 216.239.39.115
432. 216.239.39.133
433. 216.239.39.184
434. 216.239.51.19
435. 216.239.51.44
436. 216.239.51.80
437. 216.239.51.81
438. 216.239.51.83
439. 216.239.51.84
440. 216.239.51.99
441. 216.239.51.104
442. 216.239.51.107
443. 216.239.51.115
444. 216.239.51.184
445. 216.239.53.19
446. 216.239.53.44
447. 216.239.53.80
448. 216.239.53.81
449. 216.239.53.83
450. 216.239.53.84
451. 216.239.53.98
452. 216.239.53.99
453. 216.239.53.101
454. 216.239.53.102
455. 216.239.53.104
456. 216.239.53.105
457. 216.239.53.106
458. 216.239.53.107
459. 216.239.53.115
460. 216.239.53.133
461. 216.239.53.147
462. 216.239.53.184
463. 216.239.57.17
464. 216.239.57.18
465. 216.239.57.19
466. 216.239.57.44
467. 216.239.57.80
468. 216.239.57.81
469. 216.239.57.83
470. 216.239.57.84
471. 216.239.57.98
472. 216.239.57.99
473. 216.239.57.103
474. 216.239.57.104
475. 216.239.57.105
476. 216.239.57.106
477. 216.239.57.107
478. 216.239.57.115
479. 216.239.57.133
480. 216.239.57.147
481. 216.239.57.184
482. 216.239.59.17
483. 216.239.59.18
484. 216.239.59.19
485. 216.239.59.44
486. 216.239.59.80
487. 216.239.59.81
488. 216.239.59.83
489. 216.239.59.84
490. 216.239.59.91
491. 216.239.59.93
492. 216.239.59.98
493. 216.239.59.99
494. 216.239.59.101
495. 216.239.59.102
496. 216.239.59.103
497. 216.239.59.104
498. 216.239.59.105
499. 216.239.59.106
500. 216.239.59.107
501. 216.239.59.115
502. 216.239.59.133
503. 216.239.59.147
504. 216.239.59.184
505. 216.239.63.19
506. 216.239.63.44
507. 216.239.63.80
508. 216.239.63.83
509. 216.239.63.84
510. 216.239.63.91
511. 216.239.63.93
512. 216.239.63.99
513. 216.239.63.101
514. 216.239.63.104
515. 216.239.63.107
516. 216.239.63.115
517. 216.239.63.133
518. 216.239.63.184
519. 216.239.63.189
Jue
23
Ago '07

Cómo funciona Google: el proceso de búsqueda

google_image_middle.jpg

La verdadera magia de Google reside en su concepción de la web: Google nunca ha entendido la web como un conjunto de documentos de texto, si no como un conjunto de relaciones entre documentos de texto y cada una de éstas relaciones constituye verdaderamente la esencia de Google. En este artículo de HelloGoogle veremos cómo se desarrolla todo el proceso de búsqueda:

Cuando escribimos una búsqueda en www.google.com nuestra petición viaja por el hiperespacio hasta el servidor web de Google. Google recibe más de 1000 peticiones de búsqueda cada segundo de todos los días del año:

  • El servidor web de Google está formado por una red de más de 10.000 equipos trabajando en paralelo.
  • Cada servidor de la red de Google es extremadamente sencillo y económico: PCs con procesadores X86, disco duro IDE y demás prestaciones estándar.
  • El bajo coste del hardware es la base del modelo de negocio de Google y lo que le permite ofrecer la mayoría de sus servicios de manera gratuita.
  • Cada servidor falla una vez cada tres años.
  • Cada día fallan dos servidores.
  • Si se produce cualquier problema de hardware, el software de Google lo hace imperceptible para sus usuarios.
  • Google no ha sufrido un fallo general desde el año 2000.

A continuación se envía la consulta a los servidores de índices de Google. Cada índice está formado por una relación entre una palabra y la dirección del servidor de documentos de Google donde se almacenan las páginas que contienen dicha palabra.

  • Cada servidor de índices contiene sólo una parte de las webs de Internet y son necesarios varios servidores trabajando en paralelo para calcular el resultado de la búsqueda.

Con la información de los índices se accede a los servidores de documentos de Google que contienen una copia de cada web indexada.

  • Google contiene más de 4000 millones de páginas, por cada página almacena 10KB de información, lo que supone 40 Terabytes de información.
  • Google dispone de 50 mirrows (replicas) por cada servidor.

Por último se aplica el algoritmo de PageRank para ordenar los resultados de la búsqueda por relevancia. El algoritmo de PR calcula la relevancia de una web gracias a 2 billones de ecuaciones con más de 500 millones de variables.

Con toda esta información se crea y muestra al usuario la conocida página de resultados SERP, merece la pena mencionar que Google completa todo este proceso de búsqueda en menos de 1 segundo.

Dom
12
Ago '07

Google Heat Maps: Añada color en sus mapas de Google

Google Heat Maps

Hacía tiempo que venía observando webs 2.0 ( pejm: http://www.trulia.com/home_prices/ ) que utilizaban Heat Maps para mostrar de una manera muy sencilla y clara información geográfica. Cuando revisé el Api de Google para ver cómo se podía conseguir este efecto, me llamó la atención que no estaba soportado de manera nativa y que era necesario realizarlo de una manera más o menos artesanal.

El código

En la siguiente página he preparado un ejemplo donde he destacado algunos países europeos con colores elegidos al azar.

Cómo se crea una silueta

Para mostrar líneas y polígonos en los mapas se utiliza VML (Vector Markup Language), recuerde incluir  el VML namespace al comienzo de su documento:

<html xmlns="http://www.w3.org/1999/xhtml" xmlns:v="urn:schemas-microsoft-com:vml"> 

La clase GPolygon del API de Google Maps ofrece funciones para dibujar polígonos en el mapa.

Para nuestro ejemplo he creado la función createPolygon que permite dibujar una silueta vectorial en el mapa pasando tres parámetos:

  1. pts_map: Codificación de las coordenadas de los puntos que conforman el polígono.
  2. lvls_map: Codificación de los niveles que conforman el polígono.
  3. num: Valor entre 1 y 6, cada valor tiene  un color para la silueta.

Cómo obtener los valores de la silueta

A fecha de hoy no conozco ninguna herramienta que permita obtener de manera automática estos valores por lo que es necesario recurrir a un método un tanto artesanal:

  1. Acceda a la sección Mis Mapas en http://maps.google.es/ y haga click en la opción Crear un mapa nuevo.
  2. Ahora viene el trabajo más tedioso, en la zona superior del mapa encontrará un icono para dibujar formas, selecciónelo y comience a pintar los puntos que delimitan la región sobre la que quiere trabajar. Recuerde que cuanto mayor sea el zoom, mejor será la calidad del Heat Map.
  3. Cuando haya terminado haga doble click y elija un nombre para guardar el polígono.
  4. En la esquina superior derecha encontrará la opción Enlazar a esta página, copie esta url en su navegador.
  5. En la nueva página, busque dentro del código HTML el nombre que le dio a su polígono hasta encontrar una cadena similar a esta:

    name:"Forma 1",description:"",polylines:[{id:"0",points:"ol|oFxbaS~df@h`]rqNmfg@qxp@o_d@a~Cren@",levels:"BBBBB"

  6. Por tanto la codificación de las coordenadas de nuestro polígono sería: [{id:"0",points:"ol|oFxbaS~df@h`]rqNmfg@qxp@o_d@a~Cren@ y la codificación de los niveles: BBBBB
  7. El código javascript correspondiente sería:
    createPolygon("ol|oFxbaS~df@h`]rqNmfg@qxp@o_d@a~Cren@","BBBBB",5)

Algunas observaciones

Debe tener en cuenta que los Heat Maps consumen bastante resursos de su sistema, un mapa con muchos polígonos o con formas muy complejas pueden sobrecargar el navagador y hacer la página inmanejable.

Puede personalizar el estilo de sus Heats Maps con algunos parámetros como el color, la opacidad, el borde, el relleno, etc. Para ello utilice la función fromEncoded(color?, weight?, opacity?, points, zoomFactor, levels, numLevels)

Puede descargarse el código de ejemplo y utilizarlo líbremente en sus aplicaciones.

Por último recuerde que para poder utilizar el API de Google Maps en sus aplicaciones es necesario que solicite su Key en la sección sign up for an API key.

Mar
29
May '07

Cómo posicionar gratis un criterio web

Cómo posionar una web para un criterio determinado

Muy a menudo recibo e-mails de empresas solicitando posicionar su página web para un criterio determinado que consideran clave para conseguir visitantes potencialmente interesados en sus productos. Lo cierto es que todavía existen muchas dudas sobre el proceso de posicionamiento web, que erróneamente se considera misterioso, complicado y solamente al alcance de unas pocos expertos. Le aseguro que la realidad es bien distinta y que si sigue los consejos de este artículo, usted mismo podrá posicionar muy fácilmente su página web para todos los criterios que considere relevantes.    

¿Por qué criterios me tengo que posicionar?

Una campaña de posicionamiento será muy poco fructífera si previamente no se realizó un estudio de los criterios de búsqueda que queremos abordar. No hace falta ser un experto en posicionamiento para elegir los criterios más relevantes para su web, simplemente debe realizar un ejercicio de imaginación y ponerse por un instante en la piel de sus clientes potenciales.

Si usted es el propietario de una web que vende paraguas pregúntese por ejemplo ¿Qué escribirían en Google mis clientes si quisieran comprar un paraguas? Seguramente su primera opción serían criterios como: "comprar paraguas" o "venta de paraguas". Ahora piénselo un poco más detenidamente, es un poco extraño que este tipo de términos tan generales atraigan las visitas de clientes verdaderamente potenciales. Una señora que navega por internet en busca del paraguas de sus sueños, no recurrirá a términos tan generales, en cambio sería sensato pensar que optaría por criterios más específicos como: "paraguas de carolina herrera", "paraguas de firma" o "paraguas de diseño". Además debe tener en cuenta que posicionar su página web será más sencillo, cuanto menos general sean los criterios elegidos.  

Existen herramientas especializadas en el análisis de criterios de búsqueda que le pueden ayudar a tomar una decisión. Una de ellas es la herramienta para palabras clave de  Google AddWords. Se trata de una herramienta online que le permite obtener a partir de un criterio conocido nuevas ideas sobre palabras clave relevantes para su negocio. Utiliza la base de conocimientos de Google por lo que le garantiza una gran fiablidad. 

¿Y ahora…qué tengo qué hacer para posicionarme?

1. Seo CopyRighting: mime el contenido de su página web.

Tras un pormenorizado estudio hemos decidido que queremos posicionar nuestra página web por el criterio:"Cunas para bebés gordinflones". Para conseguir un posicionamiento por este término, es imprescindible que  contemos con un buen contenido. Es muy importante que mimemos el contenido de nuestra página, sólo es posible alcanzar un posicionamiento óptimo con un contenido de calidad:

  • Cuide la ortografía y la gramática de manera minuciosa.
  • No meta paja: el contenido de su web debe ser conciso y claro, no esriba por escribir. Es preferible disponer de un par de párrafos interesantes que varias páginas.
  • Despierte el interés de la comunidad web: redacte la información de manera amena en las descripciones y sea preciso en los detalles técnicos.
  • Incluya toda la información que sus clientes pueden demandar: precios, imágenes, enlaces relacionados, etc.
  • Cuide la densidad del término a posicionar dentro de la página: Debe procurar que la frase "cunas para bebes gordinflones" aparezca dentro del contenido. No debe meterlo nunca con calzador
  • Utilice sinónimos y palabras relacionadas con el término a posicionar. 

2. Tags de cabecera y tags semánticos.

Ahora es el momento de codificar su contenido en HTML para conseguir la mayor repercusión en Google. Google no lee texto plano sino código html, por este motivo es muy importante que conozca la mejor forma de presentarselo:

  • Utilice tags de cabecera H1, H2, H3…Hn para establecer un órden jerárquico en el documento. Google otorga mayor relevancia al texto cuanto menor el orden del tag H que la contiene. De esta manera deberíamos definir el título principal con H1, un subtitular con H2 y utilizar esta metodología para ordenar la información de todo el documento. Un ejemplo sería:

    <h1>Las nuevas cunas para bebes gordinflones, una nueva manera de entender el descanso</h1>

    <h2>Si su bebe ya no cabe en la cuna que le dejó su hermana, puede que haya llegado el momento de renovarla. Descubra las nuevas cunas ergonómicas desarrolladas con fibra de vidrio y látex que garantizan el descanso de su tocinillo de cielo.</h2>

  • Incluya cada párrafo dentro de un tag <P> y evite los saltos de línea innecesarios.
  • Destaque la información en su página con tags semánticos <STRONG> </EM>. Se denominan tagas semánticos porque otorgan un significado al texto. Strong (Fuerte) y emphasize (Enfatizar) se utiliza para indicar a Google que el texto tienen especial relevancia.
  • Incluya en todas sus imágenes un atributo alt, con su descripción. Debe tener en cuenta que Google no es capaz de reconcer la información visual.
  • Todo lo que dije anteriormente es cierto pero debe aplicarlo con moderación y elegancia. Si después de leer los puntos anteriores tenía la tentanción de llenar su documento de <H1>s y <STRONG>s, olvídelo. Su página será ininteligible y muy posiblemente Google la considere fraudulenta y la ignore completamente. Aquí, como en la mayoría de situaciones de la vida, la virtud se encuentra en utilizar las cosas en su justa medida.

3. Optimice los títulos

El título de la página que va incluido en el tag <TITLE> es la principal fuente de información sobre la página para Google. Debe tratarlo con especial mimo y estudiarlo con detenimiento pues su contenido será la información que encontrarán sus visitantes en la página de resultados de Google (SERP).

En el caso de nuestra página de ejemplo podríamos tener el siguiente título:

<TITLE>Cunas para bebés gordinflones, todos los artículos para el recién nacido.</TITLE>

En el siguiente artículo puede conocer todo lo que necesita para optimizar los títulos de su página web.

4. Optimice la URL de la página web

La ingeniería de urls es una de las piezas claves del posicionamiento web. Una url debe ser descriptiva para ayudar al posicionamiento, pero a la vez escueta y clara pero facilitar su uso por los usuarios. No existe una url perfecta para posicionar un criterio, pero los siguientes consejos le ayudaran a tomar una decisión:

  • Incluya las palabras clave dentro de la url.
  • Puede utilizar los caracteres "_" "-" para separar las palabras. Personalmente prefiero el guión bajo "_", pues creo que dificulta menos la lectura.
  • Evite urls demasiado largas o demasiado cortas.
  • Puede jerarquizar la url: Incluya en el nombre del directorio el término más genérico (pejm: cunas) y en el nombre del archivo las características (pejm: para bebés gordinflones)

    pejm: /cunas/bebes_gorninflones.htm

  • Puede trabajar sólo con directorios: Inluya en el nombre del directorio los términos más relevantes del criterio a posicionar y utilice un nombre de archivo genérico:

    pejm: /cunas_bebes_gorninflones/index.htm

  • No compre un dominio para posicionar una web. El dominio www.cunas_para_bebes_gorndinflones.com no le ayudará a posicionar su web antes ni mejor, por el contrario conseguirá que las direcciones de su web sean inmanejables y complicará muchísimo la labor de sus visitantes. En el siguiente artículo encontrará algunos consejos para elegir un buen nombre de dominio.

5. Cuide sus meta contenidos.

Si bien es cierto que el contenido de los META Keywords y Description no tienen especial relevancia en el algoritmo de indexación en Google, no debemos pasar por alto que juegan un papel importante en el desarrollo de nuestra web. Por ejemplo, Google utilizará el contenido del META Description para describir nuestra página en su página de resultados. Puede leer más la información sobre los META Tags en el siguiente artículo.

En el ejemplo que nos ocupa podríamos tener los siguientes METAS:

<meta name="keywords" content="artículos para bebés, cunas, bebes gordinflones, salud del bebe, bienestar del bebe, crecer sano, bebes y sobrepeso" >

<meta name="description" content="En esta página podrá encontrar el mayor catálogo de cunas para bebés gordinflones de Internet"/>

6. Consiga enlaces

Los enlaces deben ser una consecuencia directa de una página web de calidad. Los enlaces son un buen medidor del interés que su página despertó en la comunidad web, y a la vez, los enlaces consiguen que nuestra web llegue a un sector cada vez mayor de gente aumentando su popularidad.

  • Dé de alta su web en los principales buscadores y directorios. En este artículo puede encontrar más información al respecto.
  • Escriba a los webmasters de Sites relacionados con sus productos y servicios para notificarles la existencia de su página.
  • Incluya en su web enlaces hacia webs de calidad que le hayan gustado y que considere interesantes para sus propios visitantes.
  • No compre nunca enlaces y evite los links desde Site poco claros o fraudulentos.

7. Haga accesible su página

Todo el trabajo que hizo hasta ahora será inutil si Google no es capaz de acceder a nuestra página, entender lo que escribimos e indexarlo de manera eficiente:

  • Independice contenido, diseño y funcionalidad: Google sólo indexará el contenido textual de su página, si ubica los estilos en hojas externas y el código javascript en archivos externos, estará facilitando su labor.
  • Maquete sus páginas siempre en base a estilos css: La maquetación en base a estilos le permite minimizar el código HTML destinado a posicionar los elementos en pantalla y maximizar por tanto la relación entre HTML y contenido.
  • Utilice las tablas exclusivamente para mostrar tablas.
  • Evite los frames. Debe tener en cuenta que el contenido de un frame será invisible para Google.
  • Evite las redirecciones, especialmente las realizadas en javascript.
  • Desarrolle su página conforme a los estándares.

8. Sea honesto

Ante todo sea honesto, cuando cree una página hágalo con ilusión y dedicación, tenga siempre presente a sus visitantes y no cree una página exclusivamente pensada para Google.

Hace poco tiempo leí un artículo en el que analizaban varias campañas de posicionamiento realizadas por diversas compañías SEO, todas habían fracasado excepto una. En la exitosa la empresa había contratado a un editor que diariamente escribía un artículo acerca de uno de los servicios de la empresa. Los artículos eran de tanta calidad que al cabo de un tiempo había fidelizadado a una gran cantidad de gente y en consecuencia las visitas y las ventas on-line de la empresa habían aumentado de manera formidable.

¿Eso es todo?

Sí, esto es todo. Si recurre a cualquier empresa SEO para posicionar su web, su trabajo no diferirá mucho de relatado en este artículo. Espero que a partir de ahora vea el posicionamiento web como una tarea mucho más clara, sencilla y, por qué no, divertida.

¡Se me olvidaba!, no olvide echar un ojo a nuestras cunas para bebes regordetes.  

Lun
14
May '07

Ajax Lightbox: Una ventana emergente 2.0 en su página web

Durante el desarrollo de mi último proyecto he tenido la suerte de conocer un fantástico efecto 2.0 desarrollado por Lokesh Dhakar. Se trata de un efecto Lightbox que permite mostrar espectaculares pop-ups con imágenes y grupos de imágenes. Las características del código original no eran suficientes para el proyecto en el que trabajaba, así que tuve que ampliarlo para que fuera capaz de mostrar pop-ups que cargaran dinámicamente de un fichero. De este modo nació el que he bautizado como Ajax LightBox, espero que les sea de tanta utilidad como a mi.

Qué es Ajax Lightbox

Ajax Lightbox es un script no intrusivo que permite mostrar una ventana por encima del contenido actual de una página. El término no intrusivo se utiliza para denominar al código javascript que no se ejecuta inmerso en el HTML si no que se aplica de manera indirecta una vez cargado el documento, permitiendo conseguir independizar completamente  “Contenido, Presentación y Comportamiento. Comentar también que un script no intrusivo permite cumplir con el punto de verificación 6.3 de las normas de accesibilidad WCAG (prioridad 1, necesario para nivel A):

"Ensure that pages are usable when scripts, applets, or other programmatic objects are turned off or not supported. If this is not possible, provide equivalent information on an alternative accessible page." 

Como puede observar en el siguiente ejemplo, usted puede visualizar tres tipos diferentes de ventanas:

  • Contenido dinámico extraido vía Ajax de un fichero.
  • Imágenes individuales.
  • Grupos de imágenes.

Si conoce algo de javascript y css puede personalizar el efecto para ajustarlo a sus necesidades:

Ha sido testeado en las últimas versiones de los navegadores más extendidos: IE/FireFox/Opera.

Cómo utilizarlo

1. Configuración

  1. Ajax Lightbox utiliza dos librerías opensource: PrototypeScriptaculous. Por tanto debe incluirlas en la cabecera de su página:

    <script type="text/javascript" xsrc="js/prototype.js" mce_src="js/prototype.js"></script>
    <script type="text/javascript" xsrc="js/scriptaculous.js?load=effects" mce_src="js/scriptaculous.js?load=effects"></script>
    <script type="text/javascript" xsrc="js/lightbox.js" mce_src="js/lightbox.js"></script>

    Puede modificar la librería lightbox.js para configurar algunos parámetros del efecto:

    fileLoadingImage: Imagen de carga
    overlayOpacity: Nivel de transparencia de la capa
    overlayvar animate: Activa/Desactiva rescalable  animations
    resizeSpeed: Controla la velocidad de rescalado de la imagen (1 = muy lento y 10 = muy rápido)
    borderSize: Grosor del borde

  2. Incluya también la hoja de estilos lightbox.css añada los estilos a la hoja de estilos actual de su Site. Puede modificar los estilos para cambiar las características del efecto (Colores, tamaños, etc).

    <link rel="stylesheet" xhref="css/lightbox.css" mce_href="css/lightbox.css" type="text/css" media="screen" />

    Es importante que compruebe dentro de la hoja de estilos que las imágenes están siendo referenciadas a las ubicaciones correctas.

2. Activación

  1.  Añada un atributo rel="lightbox_text"  a cualquier enlace que apunte a una página web para activar el efecto:

    <a xhref="nota.htm" mce_href="nota.htm" rel="lightbox_text" >Ver nota</a>

  2. Añada un atributo   rel="lightbox" a cualquier enlace a una imagen en el que quiera activar el efecto. Puede incluir un atributo title si quiere visualizar un caption en la ventana:

    <a xhref="images/image-1.jpg" mce_href="images/image-1.jpg" rel="lightbox" title="Los recursos de HelloGoogle son la pera">imagen #1</a>

  3. Si quiere agrupar un conjunta de imágenes, incluya un nombre de grupo dentro de unos corchetes en el atributo rel:

    <a xhref="images/image-1.jpg" mce_href="images/image-1.jpg" rel="lightbox[mi_grupo]">imagen #1</a>
    <a xhref="images/image-2.jpg" mce_href="images/image-2.jpg" rel="lightbox[mi_grupo]">imagen #2</a>
    <a xhref="images/image-3.jpg" mce_href="images/image-3.jpg" rel="lightbox[mi_grupo]">imagen #3</a>

Descárgueselo

El código se ofrece bajo la licencia Creative Commons, esto significa que puede utilizarlo y modificarlo libremente en sus aplicaciones. Solamente debe mantener los créditos tal y como están, para reconocer la labor de sus autores.

Espero que este efecto le sea de tanta utilidad como a mi, y que a partir de ahora pueda sorprender a sus visitantes con este Ajax Lightbox 2.0.

Dom
29
Abr '07

Reindexar una web en Google: Cómo recuperarse de una penalización

Recuperar penalización Google

Supongamos que un mal día decidió poner su página en manos de una compañia que le garantizó posicionarle en Google y mejorar su Page Rank. Supongamos que la cosa no fue como usted realmente pensaba y ahora su página tiene un flamante page rank de 0 y su presencia en Google brilla por su asencia. Tal vez no haya necesitado realizar un ejercicio de imaginanción, pues usted ya ha vivido este episodio en sus propias carnes. ¿Y ahora qué?

¿Existe una solución? Bien, por fortuna Google pone a nuestro disposición un teléfono de la esperanza, también conocido como "Solicitud de nueva inclusión para una web que ha infringido las directrices para webmasters". Ahora bién, antes de realizar una petición formal a Google tenemos bastante trabajo por hacer.

¿Qué he hecho mal? 

Lo primero que debemos hacer es un ejercicio de autoanálisis para entender por qué motivo ha podido ser penalizada nuestra web.

Por mi experiencia el 80% de los usuarios que pensaban que su Site había sido penalizado, en realidad la pérdida de posiciones se debía a un problema técnico que podía solucionarse de manera sencilla. Por ejemplo, la reestructuración de la home o la inclusión de un nuevo menú de navegación, o la utilización de una nueva tecnológía web como flash o Dhtml, pueden impedir a Google acceder a nuestro Site y por tanto experimentaremos una perdida en nuestro posicionamiento. Existen herramientas on-line que nos permiten conocer si Google puede indexar nuestra web. Una de estas aplicaciones es el navegador textual Lynx, también dispone de una versión on-line.

Si la pérdida de posicionamiento se ha producido a raíz de haber trabajado con una empresa SEO o tras aventurarse a aplicar alguna técnica de posicionamiento, puede que haya incurrido en alguna técnica prohibida en las directrices de Google para webmasters y su Site haya sido penalizado. Un síntoma evidente de que su web ha sufrido una penalización es la caida del PageRank de la página a 0.

Lo primero que debe hacer es revisar a fondo su Site y localizar y eliminar todas las técnicas de posicionamiento  prohibidas que haya podido aplicar.

  • ¿Existen texto o links ocultos?
  • ¿Se realiza cloaking en alguna página, especialmente en la home?
  • ¿Existen doorways que redireccionan a otras páginas?
  • ¿Ha recurrido a linkfarms o programas automáticos para conseguir enlaces?

Debe asegurarse que su en su web no se realiza alguna de estas técnicas fraudulentas y que cumple rigurósamente con todas las directrices para webmasters de Google. Una vez que tenga la absoluta certeza de que su web esta completamente libre de SPAM es el momento de solicitar a Google que levante la penalización sobre nuestra web.

Go