Ir al contenido principal

Google ha superado el 1.000.000.000.000 de URL en su índice


La Web se ha desarrollado extraordinariamente durante los últimos años, sobre todo a raiz de la popularización de la Web 2.0. Si en 1998 Google tenía indexadas 26 millones de URL y en el año 2000 unos 1.000 millones, hace unos días alcanzó 1.000.000.000.000 de URL. Se trata además de URL únicas, es decir, no duplicadas. Recordemos que cada URL no sólo puede ser una página HTML, sino también documentos PDF, DOC, etc. La noticia aparece en el blog Official de Google: http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html.
Si Google procesa todo ese número de URL es, además, porque en la Web existen muchas más. Para encontrar la mayoría de las páginas comienzan por procesar un conjunto bien definido formado por las páginas más populares, es decir, las de los sitios Web que generan más visitas y que tienen más enlaces. A partir de los enlaces salientes de estas páginas, van añadiendo información al índice, eliminado la información duplicada (por ello, si se han indexado 1.000.000.000.000 de URL es porque se han procesado muchas más). Sin embargo, la cadena no se sigue de forma "infinita", porque el buscador debe repetir el proceso anterior para encontrar nuevas URL importantes, así como actualizar todo su índice para evitar enlaces "rotos". Por ello es importante que los administradores de sitios Web de escasa popularidad o de reciente creación, indexen su página Web manualmente en el buscador y, además, que tengan un fichero "sitemap" para facilitarle este proceso.
Esta claro, que con esta cantidad creciente de información, la única tecnología que permitirá hacer búsquedas eficientes en poco tiempo, será la Web semántica. ¿Todavía crees que es fácil posicionar tus páginas Web en los primeros resultados de búsqueda de Google?...

Comentarios

Entradas populares de este blog

El protocolo OMCI

El protocolo OMCI ( ONT Management and Control Interface ) es el protocolo estándar de GPON para el control por parte de la OLT (equipo de central) de las ONT (equipo de abonado). Este protocolo permite: Establecer y liberar conexiones en la ONT Gestionar los puertos físicos de la ONT Solicitar información de configuración y estadísticas de rendimiento Informar autónomamente al operador del sistema de eventos, tales como cortes de fibra El protocolo OMCI se ejecuta sobre una conexión GEM ( GPON Encapsulation Method ) entre la controladora del a OLT y la controladora de la ONT y es establecido durante la fase de arranque de la ONT. El protocolo OMCI es asimétrico: el OLT es el maestro y la ONT es el esclavo. Un único OLT empleando diversas instancias del protocolo sobre canales de control independientes puede controlar múltiples ONTs. Los requerimientos de la OMCI dados en la recomendación G.984.4 de la ITU-T son necesarios para manejar la ONT en las siguientes áreas: Gestión de la conf

Comparativa GPON vs EPON

GPON es la tecnología preferida en Norte América, Latinoamérica, Europa, India y Singapur. En Norteamérica los operadores empezaron a desplegar sistemas BPON, pero ya han comenzado la migración a GPON. EPON -también conocido como GEPON- tiene un gran éxito en Japón. En China, Hong Kong, Taiwan y Corea del Sur, se están utilizando ambas tecnologías. EPON ha sido desplegado masivamente en Japón y Corea del Sur, con la participación de suministradores locales (Mitsubishi, Hitachi, etc.). GPON, aunque cuenta con menor número de líneas desplegadas actualmente, es seleccionado por cada vez más operadores como la tecnología para llevar los nuevos servicios sobre fibra óptica, por ofrecer mayores funcionalidades estándar de gestión de la calidad de servicio y ofrecer mayores garantías de evolución futura . Aunque tanto EPON como GPON fueron definidos el mismo año, en 2004, la mayor sencillez de EPON, supuso una disponibilidad más temprana de equipos comerciales. Además el coste era sensib

Principales diferencias entre H.323 y SIP

Existen bastantes diferencias entre estos dos protocolos de VoIP. H.323 es un estándar de la ITU-T mientras que SIP , es un estándar más nuevo del IETF. Ambos protocolos realizan las mismas tareas básicas de telefonía (establecimiento de llamada y señalización de su inicio, tonos de marcación y terminación), así como la señalización de características de su mantenimiento, identificación y transferencia de llamadas. Sin embargo, mientras que en las redes H.323 estas tareas dependen de un servidor central (con terminales "tontos" en los extremos), SIP asume un esquema más descentralizado, desplazando cierta inteligencia hacia los clientes (teléfonos, PC, dispositivos inalámbricos, etc.). Las principales diferencias podemos resumirlas en: H.323 se presentó como una evolución de SS7, diseñado para el control de la señalización en redes de conmutación de circuitos. Por el contrario, SIP está más cercano a HTTP, empleado en Internet, paradigma de red de paquetes. De cara al futur