Successivo

Software

Caffeine, Google ripensa l’indice di ricerca

Redazione | 9 Giugno 2010

Google Social

Risultati più aggiornati e un indice di contenuti web che Google definisce come la pù grande collezione di contenuti web […]

logo caffeine googleRisultati più aggiornati e un indice di contenuti web che Google definisce come la pù grande collezione di contenuti web mai offerta. E’ questo il senso del nuovo sistema di indicizzazione del search di Google che è appena stato completato e messo on line. Oggi Internet è fatta molto di più di immediatezza e contenuti che vengono aggiornati continuamente durante il giorno: sia che si tratti di un articolo di giornale o di un post di un blog o di un forum, ciò che gli utenti chiedono e anche gli editori, è che nei risultati di ricerca compaia il link al contenuto più aggiornato. Ma per com’era congegnato l’indice del search di Google, questa operazione di update e indicizzazione quasi in tempo reale era praticamente impossibile. Fino a oggi quando si faceva una ricerca con Google —spiegano sul blog — il motore non andava a indicizzare il web in tempo reale, ma effettuava le ricerche sull’indice di Google, che funziona un po’ come l’indice di un libro dove le informazioni sono suddivise in modo che si possa trovare più facilmente ciò che si cerca.

Il vecchio indice di Google era suddiviso in tanti livelli ciascuno dei quali aveva una velocità  di aggiornamento diversa (il principale veniva aggiornato ogni quindici giorni) ma ogni volta per fare il refresh di un livello dell’indice occorreva analizzare l’intero web. Caffeine invece segue un’architettura diversa, non più a livelli sovrastanti, ma ad atomi: il web viene analizzato e spezzettato in tante piccoli porzioni rendendo quindi l’aggiornamento dei contenuti più rapido, sia che si tratti di una pagina web o di una nuova informazione immessa all’interno di quest’ultima. Il risultato è che Caffeine consente di avere informazioni più aggiornate del 50% rispetto all’indice precedente e è in grado di elaborare ogni secondo centinaia di migliaia di pagine in parallelo. Caffeine raccoglie qualcosa come 100 milioni di gigabyte di dati memorizzati in un unico database e aggiunge ogni giorno centinaia di migliaia di gigabyte di nuove informazioni. Ci vorrebbero oltre 625.000 iPod dei più capienti per memorizzare tuta questa mole di dati. Video, immagini, file musicali, post dei blog, update di status, ora la rete è monitorata in tempo reale.