Ricerca personalizzata

mercoledì 25 febbraio 2009

NUOVA GENERAZIONE DI MOTORI, A CACCIA DEL WEB SCONOSCIUTO

da Repubblica.it

Le nostre ricerche scandagliano solo una minima parte delle pagine esistenti. Oltre il 90 per cento resta nascosto. Ma alcuni progetti - Kosmix, DeepPeep e Openarchives.org - si ripromettono di renderle visibili. Con algoritmi che ragionano come la mente umana. Superando i tradizionali limiti di spider e crowler tipici di Google & C.

LA PUNTA di un iceberg. Meno del 10 per cento per cento di tutto il Web esistente. E' quanto - secondo alcune autorevoli ricerche - riescono a indicizzare in realtà i migliori motori di ricerca online. E il restante 90 per cento? Lo chiamano "Deep Web", ovvero il Web profondo, invisibile, non raggiungibile grazie agli attuali motori di ricerca. Ma che alcune nuove tecnologie promettono di poter rendere disponibili a breve.


Quanto è profondo il Web? Difficile dirlo. Secondo l'azienda Bright Planet, che nel settembre 2001 ne ha sondato le profondità, "Deep Web" sarebbe un vero e proprio pozzo di San Patrizio, un miniera d'oro, un'immensa foresta vergine a confronto del giardinetti di casa a cui ci avrebbero abituati i normali motori di ricerca. Per altri sarebbe addirittura la nuova frontiera del Web. Tanto che gli stessi numeri uno della ricerca, da Google a Yahoo!, negli ultimi anni stanno moltiplicando gli sforzi per capire come indicizzare questo immenso patrimonio altrimenti irraggiungibile, e quindi renderlo disponibile ai propri utenti. D'altra parte stiamo parlando delle informazioni archiviate e organizzate in database, dei contenuti consultabili soltanto su siti protetti da password, o delle tante pubblicazioni scientifiche e non in PDF che non hanno ancora trovato un solo lettore disposto a segnalarne la presenza con un link.

Già, perché gli attuali motori di ricerca ogni giorno perlustrano il Web alla ricerca di nuove pagine da offrire tra i risultati delle nostre ricerche, e lo fanno essenzialmente seguendo uno dopo l'altro i link presenti nel Web per mezzo di software ad hoc chiamati spider ("ragni") o crawler ("scansionatori"). Così facendo rintracciano le pagine web esistenti, ricostruendo di volta in volta un rapporto di senso fra loro, riuscendo a suggerire successivamente quale potrebbe essere il risultato più utile, sulla base del numero di link e del tipo di link che rimanda a quella determinata pagina o documento. Al contrario, se verso una pagina o un documento non esiste nessun link, quella stessa pagina o documento non verrà raggiunto, e di conseguenza sarà ignorato.


Peccato che in questo modo si perdono milioni di informazioni utili. La Bright Planet stima che il 54 per cento del Web profondo è costituito dai risultati che ottiene un utente in seguito a una richiesta effettuata consultando ad esempio un orario di volo. Ed è per questo che BigG & Co. non sono in grado di rispondere pienamente a domande come: "Qual è la tariffa più conveniente da Milano a Londra per il prossimo giovedì?", così come denuncia il New York Times che sul fenomeno "Deep Web" ha appena pubblicato una breve inchiesta.

Novità in arrivo? Recuperare questo capitale di informazioni irraggiungibile è sicuramente lo scopo di Anand Rajaraman, cofondatore di Kosmix, una start-up creata per l'appunto per la ricerca nel web profondo, fra i cui investitori c'è addirittura Jeffrey P. Bezos, amministratore delegato di Amazon.com. Ma non è il solo ad interessarsi all'argomento. La professoressa Juliana Freire, dell'Università dello Utah, ha infatti lanciato il progetto DeepPeep, che sfrutta un algoritmo apparentemente capace di simulare le modalità con cui la mente umana ragiona, così da ovviare a quel maldestro cammino che porta i vari spider o crawler a scansionare il Web link dopo link. E infine c'è il progetto Openarchives.org, promotore del protocollo OAI-PMH, con cui si cerca di indicizzare i documenti sui motori di ricerca inviando loro metadati in formato Xml, in modo da rendere più appetibili e comprensibili i contenuti anche in assenza di link. Per ora, tuttavia, l'unica cosa certa è che oltre il 90 per cento delle informazioni online non sono disponibili attraverso i normali motori di ricerca. Rimane forse da domandarsi: e se lo fosse? E' un traguardo auspicabile?


(25 febbraio 2009)