Tipps & Tricks 08.06.2000, 00:30 Uhr

Alle meine Unterlagen indexierbar einscannen

Ich würde sehr gerne meine 25 Bundesordner vor einem Zügeltermin eliminieren. Ich habe verschiedene Scan-Möglichkeiten und Dateiformate ausprobiert: Word, rtf, bmp, pdf. Das Format von Adobe gibt beim Scannen wirklich einen sehr realitätsnahen Eindruck auf dem Bildschirm. Ich will natürlich, dass die ganze Ordnersammlung mit einen Search-Engine ähnlichen Tool durchsuchbar bleibt und mir womöglich einen Suchrapport mit absteigender Relevanz liefert, wenn ich einen Begriff suche. Gibt es nach Ihrer Meinung andere Programme welche diese Aufgabe meistern? In Word gescannte Dokumente, welche ich in Pagekeeper verwalte, haben nicht die selbe Qualität wie die PDF-Dokumente. Nachdem ich ein 90seitiges Dokument gescannt habe, komme ich auf eine beachtliche Dateigrösse. PDF-Dokumente gleicher und grösserer Seitenzahl, welche ich aus Internet und Supportmanuals habe, belegen aber etwa einen Drittel weniger Speicherplatz. Gibt es mit dem Acorbat Reader Möglichkeiten, die Grösse der Dateien zu vermindern, oder brauche ich hierzu das komplette Acrobat Programm? Sollte ich statt «Image and Text» nur Text scannen? Wenn ich mit dem Reader im gescannten Dokument einen «Find Command» mache, wird aber nur ein erstes «matching» Wort dargestellt welches in der aktuellen dargestellten Seite ist und anscheinend nicht das ganze (90seitige Dokument) nach weiteren «matches» durchgesucht. Sind PDF-Dateien indexierbar? Auch fehlt beim gescannten Dokument die Möglichkeit des Indexes nach Kapitel. Ebenso erfolglos versuchte ich mit der Maus im Textbereich einzelne Stellen heraus zu kopieren (wie dies bei anderen PDF dateien möglich ist).
Ihre Anfrage sprengt eigentlich den Rahmen des Kummerkastens. Wir möchten aber trotzdem kurz darauf eingehen. Zuerst sollten Sie sich über den Inhalt Ihrer Bundesordner Gedanken machen. Wenn Sie diese als persönliche Nachschlagewerke benutzen wollen, können Sie ein Einscannen mit OCR-Erkennung in Betracht ziehen. Enthalten diese aber Dokumente, die der Beweiskraft dienen sollen, z.B. Quittungen, Verträge und dergleichen, sollten Sie die Originale aufbewahren.
Das Problem beim Scannen von Dokumenten: Wenn Sie die Seiten als Bild-Dateien speichern, haben Sie ziemlich originalgetreue Kopien Ihrer Dokumente, die als Beweismittel vielleicht eher anerkannt würden als Dateien im Textformat. Bild-Dateien sind aber erstens meist zu gross und zweitens können Sie diese nicht nach Volltext durchsuchen. Spielt die Beweiskraft keine Rolle, sondern nur der Inhalt, können Sie es mit einer OCR-Texterkennung versuchen.
Mit OCR ist eine 100prozentige Texterkennung aber bei weitem nicht gewährleistet. Es gibt Grossfirmen, die aus Platz- und Organisationsgründen eine elektronische Dokumentenverwaltung einsetzen. Jene Lösungen, die mehrere Tausend Franken kosten, sind immerhin "einigermassen" tauglich. Bei den meisten dieser Lösungen hängt aber ein leistungsfähiger Server dran, der die Dokumenten-Datenbank verwaltet.
Übrigens sind solche Dateien auch als PDF nicht zuverlässig durchsuchbar. Als PDF sehen diese Dateien zwar ziemlich originalgetreu aus. Sind aber z.B. die Zeichenabstände zu gross, kann eine PDF-Suchmaschine ein Wort nicht mehr als solches erkennen. So hat alles seine Schattenseiten. Auch mit einem Einzugsscanner, OCR-Software mit PDF-Ausgabe und einer starken Datenbank wird es in eine Monatsaufgabe ausarten, 25 Bundesordner einzuscannen.
Richtig gute PDFs bekommen Sie wohl nur mit Adobe Acrobat. Die geringe Dateigrösse der PDF-Manuals, die Sie erwähnen, stammt daher, dass die Dateien direkt aus einer Textverarbeitung in PDF umgewandelt wurden, also ohne den Umweg über ein eingescanntes Dokument.
Unter Umständen lohnt es sich aber, bei Adobe einmal anzuklopfen oder auch bei Excite oder AltaVista. Letztere bieten Search-Engines für Webseiten und haben sicher auch so etwas für die lokale Anwendung. Erschrecken Sie aber nicht über die Preise solcher Tools!



Kommentare
Es sind keine Kommentare vorhanden.