News 04.11.2008, 11:32 Uhr

Google fischt nach PDFs

Google will eingescannte PDF-Dateien im Web durchsuchbar machen. Damit will der Suchmaschinenriese einen Teil des «Deep Web» bergen.
Gehen Google auch bald PDFs ins Netz?
Mit Deep Web werden jene Teile des Internets bezeichnet, die tief vergraben in Datenbanken schlummern oder die anderweitig nicht mit Suchmaschinen durchstöbert werden können. Zu diesem verborgenen Web gehören auch eingescannte Dokumente, die als PDF-Dateien abgelegt werden. Denn bei diesen Files handelt es sich im Grunde genommen um Bilder von gedruckten Seiten, bei denen der Text nicht maschinell weiterverarbeitet werden kann.
Google plant nun eine regelrechte Texterkennungsoffensive, bei der die Abermillionen eingescannten PDF-Dokumente mithilfe von OCR-Software (Optical Character Recognition) analysiert werden. Dadurch lassen sie sich auch nach Begriffen durchsuchen und erscheinen schlussendlich in der Ergebnisliste einer Google-Suche. Durch die Massnahme werden ganze Regierungsarchive und viele wissenschaftliche Arbeiten aus den Tiefen des Webs ans Tageslicht befördert.


Kommentare

Avatar
thom45
04.11.2008
GOOGLE kriegt als wie mehr Hunger! das wird aber sehr viel rechenkapazität brauchen... vielleicht kann Goolge das ja mit seinem Chrome Botnet lösen :D So oder so, der Energieverbrauch von His Devine Grace Lord GOOGLE wird massiv zulegen. Es erschallen die Posaunen für neue Atomkraftwerke. AUTSCH! Gruss Onkel Thom