Ir al contenido principal

Google ha superado el 1.000.000.000.000 de URL en su índice


La Web se ha desarrollado extraordinariamente durante los últimos años, sobre todo a raiz de la popularización de la Web 2.0. Si en 1998 Google tenía indexadas 26 millones de URL y en el año 2000 unos 1.000 millones, hace unos días alcanzó 1.000.000.000.000 de URL. Se trata además de URL únicas, es decir, no duplicadas. Recordemos que cada URL no sólo puede ser una página HTML, sino también documentos PDF, DOC, etc. La noticia aparece en el blog Official de Google: http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html.
Si Google procesa todo ese número de URL es, además, porque en la Web existen muchas más. Para encontrar la mayoría de las páginas comienzan por procesar un conjunto bien definido formado por las páginas más populares, es decir, las de los sitios Web que generan más visitas y que tienen más enlaces. A partir de los enlaces salientes de estas páginas, van añadiendo información al índice, eliminado la información duplicada (por ello, si se han indexado 1.000.000.000.000 de URL es porque se han procesado muchas más). Sin embargo, la cadena no se sigue de forma "infinita", porque el buscador debe repetir el proceso anterior para encontrar nuevas URL importantes, así como actualizar todo su índice para evitar enlaces "rotos". Por ello es importante que los administradores de sitios Web de escasa popularidad o de reciente creación, indexen su página Web manualmente en el buscador y, además, que tengan un fichero "sitemap" para facilitarle este proceso.
Esta claro, que con esta cantidad creciente de información, la única tecnología que permitirá hacer búsquedas eficientes en poco tiempo, será la Web semántica. ¿Todavía crees que es fácil posicionar tus páginas Web en los primeros resultados de búsqueda de Google?...

Comentarios

Entradas populares de este blog

El protocolo OMCI

El protocolo OMCI ( ONT Management and Control Interface ) es el protocolo estándar de GPON para el control por parte de la OLT (equipo de central) de las ONT (equipo de abonado). Este protocolo permite: Establecer y liberar conexiones en la ONT Gestionar los puertos físicos de la ONT Solicitar información de configuración y estadísticas de rendimiento Informar autónomamente al operador del sistema de eventos, tales como cortes de fibra El protocolo OMCI se ejecuta sobre una conexión GEM ( GPON Encapsulation Method ) entre la controladora del a OLT y la controladora de la ONT y es establecido durante la fase de arranque de la ONT. El protocolo OMCI es asimétrico: el OLT es el maestro y la ONT es el esclavo. Un único OLT empleando diversas instancias del protocolo sobre canales de control independientes puede controlar múltiples ONTs. Los requerimientos de la OMCI dados en la recomendación G.984.4 de la ITU-T son necesarios para manejar la ONT en las siguientes áreas: Gestión de la conf

Bing: el nuevo buscador de Microsoft

Microsoft ha lanzado Bing , su nuevo buscador , con el que quiere ganar cuota de mercado ante Google, el líder absoluto de este exitoso negocio en todo el mundo. Hasta ahora, Microsoft ha tenido una modesta presencia en el mercado de motores de búsqueda con su Live Search -anteriormente MSN Search-. Según datos de ComScore de Abril de 2009 , el mercado de buscadores en Estados Unidos estaba liderado por: Google (64,2%), Yahoo! (20,4%), Microsoft (8,2%), Ask (3,8%) y AOL (3,4%). De momento, Bing sólo está disponible en Estados Unidos. Durante los próximos meses el motor de búsqueda será exportado al resto de principales países. A España no llegará hasta dentro de 1,5 años. El siguiente vídeo -en inglés- explica algunas de las principales características distintivas de Bing . En primer lugar, se notan mejoras en los resultados de búsquedas respecto a Live Search, tanto en rapidez como en precisión. Además, es capaz de ofrecer respuestas más concretas que meras páginas Web a ciertas bús

Principales diferencias entre H.323 y SIP

Existen bastantes diferencias entre estos dos protocolos de VoIP. H.323 es un estándar de la ITU-T mientras que SIP , es un estándar más nuevo del IETF. Ambos protocolos realizan las mismas tareas básicas de telefonía (establecimiento de llamada y señalización de su inicio, tonos de marcación y terminación), así como la señalización de características de su mantenimiento, identificación y transferencia de llamadas. Sin embargo, mientras que en las redes H.323 estas tareas dependen de un servidor central (con terminales "tontos" en los extremos), SIP asume un esquema más descentralizado, desplazando cierta inteligencia hacia los clientes (teléfonos, PC, dispositivos inalámbricos, etc.). Las principales diferencias podemos resumirlas en: H.323 se presentó como una evolución de SS7, diseñado para el control de la señalización en redes de conmutación de circuitos. Por el contrario, SIP está más cercano a HTTP, empleado en Internet, paradigma de red de paquetes. De cara al futur