Tipps & Tricks 02.11.2019, 10:00 Uhr

Mac-Tipp: PDFScanner

OCR-Programme für PDFs sind entweder teuer oder unbrauchbar. Dieses nicht.
Zuerst ein wenig Grundlagenforschung. Wenn Sie aus einer Anwendung wie Word oder InDesign ein PDF schreiben, dann enthält dieses PDF regulären Text – denn der war ja vorher schon da. Nach diesen Texten können Sie zum Beispiel mit Spotlight suchen, weil der Inhalt des PDFs von macOS indexiert wird. Geben Sie einfach den Suchbegriff ein, und das war’s:
PDFs werden aufgrund ihres Inhaltes mit Spotlight aufgespürt
Quelle: Screenshot / ze
Ganz anders präsentiert sich die Situation bei PDFs, die mit einem Scanner erfasst werden. Zwar ist das Dateiformat dasselbe, aber der Inhalt ist nur ein Pixelhaufen. Um nach dem Text suchen zu können, muss das PDF zuerst einer OCR-Behandlung unterzogen werden, für «Optical Character Recognition» (optische Zeichenerkennung). Dabei werden die pixeligen Abbildungen in echte, durchsuchbare Texte umgewandelt.
Diese Texte werden auf einer unsichtbaren Ebene innerhalb des PDF gespeichert. Mehr noch: Auf dieser Ebene bleibt sogar die Position des Textes erhalten, sodass Sie ihn zum Beispiel in der Anwendung «Vorschau» markieren und kopieren können, selbst wenn die Vorlage ein wenig Schieflage hat:
Der Text wird an der korrekten Position im PDF hinterlegt
Quelle: Screenshot / ze
Einige bessere Scanner-Programme nehmen diese OCR-Behandlung bereits beim Einscannen vor. Andere Programme erlauben das nachträgliche Erkennen von PDFs, etwa das sündhaft teure Acrobat DC von Adobe (ab Fr. 15,10 pro Monat) oder der hochspezialisierte FineReader OCR Pro von Abbyy für einmalige 120 Franken.
Diese Anwendungen haben ihre Berechtigung in Unternehmen. Für die meisten privaten Anwender sind sie jedoch restlos überzüchtet und vor allem viel zu teuer. Aber es geht auch anders – und damit sind wir endlich beim Thema.

PDFScanner

Die Anwendung PDF-Scanner kostet gerade einmal 18 Franken (einmalig) und bietet fast alles, was das Herz des archivierenden Mac-Anwenders begehrt. Diese Software ist die erste Wahl, wenn Sie zuhause ein Archiv aus Belegen, Briefen und Verträgen anlegen möchten. Die Oberfläche ist leider nur in Englisch verfügbar; aber es braucht keine umfassenden Kenntnisse in dieser Sprache, um PDFScanner zu bedienen.
PDFScanner funktioniert auf zwei Arten: entweder als Scanner-Software, die anschliessend einen OCR-Durchgang anhängt. Oder als reine OCR-Software, die bestehende PDFs einer OCR-Behandlung unterzieht.
«Doch ist mein Scanner mit PDFScanner kompatibel?» Diese Frage ist schnell beantwortet: Wenn Sie ihn über die Software «Digitale Bilder» ansprechen können, dann klappt es auch über PDFScanner. Wenn nicht, dann kann es mit dem Treiber des Herstellers trotzdem funktionieren – aber sicher ist das nicht und es gibt auch keine Demoversion von PDFScanner.

Scannen und OCR

Um eine Vorlage zu scannen und gleichzeitig einer OCR-Behandlung zu unterziehen, klicken Sie in der Anwendung links unten auf das Zahnrad. Hier lassen sich die Einstellungen vornehmen, bis hin zur Wahl des Papiereinzuges. Wichtig ist, dass Sie das Markierungsfeld «OCR after Scan» anwählen und im Einblendmenü «OCR Language» die gewünschte Sprache einstellen:
Die Wahr der richtigen Sprache ist natürlich entscheidend
Quelle: Screenshot / ze
Klicken Sie auf die Schaltfläche «Scan», um die Seite(n) einzulesen und mit OCR maschinenlesbar zu machen. Der OCR-Vorgang ist nicht zu übersehen:
Das Symbol zeigt den OCR-Vorgang an
Quelle: Screenshot / ze
Wie lange der Vorgang dauert, hängt von der Anzahl Seiten ab und von der Textmenge, die sich darauf befindet. Das gespeicherte PDF wird nun von Spotlight indexiert und kann über die Suche gefunden werden:
Jetzt wird der Scan auch nach seinem Inhalt gefunden
Quelle: Screenshot / ze
Nächste Seite: Nachträgliches OCR bei bestehenden PDFs

Nachträgliches OCR bei bestehenden PDFs

PDFs nachträglich «OCR-len»

Doch auch Ihr bestehendes Archiv können Sie mit OCR behandeln, um es durchsuchbar zu machen. Wählen Sie dazu im Menü «PDFScanner» den Befehl «Prefences». Markieren Sie die Option «Automatically start OCR when …» und wählen Sie auch hier die gewünschte Sprache. Im Gegensatz zu den teuren Lösungen kann immer nur eine Sprache aktiv sein, aber das reicht in vielen Haushalten:
Das sind die Einstellungen, um ein PDF nachträglich einer OCR-Behandlung zu unterziehen
Quelle: Screenshot / ze
Wenn Sie jetzt ein PDF auf das Symbol von PDFScanner ziehen, wird der Text erkannt. Sie können die Einstellung aber auch ignorieren und ganz einfach im Menü «Edit» den Befehl «Recognize Text (OCR)» anwählen. Vergessen Sie nicht, das PDF anschliessend zu sichern.

Batch-Verarbeitung

Und wenn Sie 2000 PDFs hüten, deren Texte Sie erkennen möchten? Dann verwenden Sie die Software «Automator», die sich im «Programme»-Ordner auf Ihrem Mac befindet, um PDFScanner anzuschieben.
Erstellen Sie einen neuen Ablauf. Geben Sie im Suchfeld ganz oben «PDFScanner» ein (1) und doppelklicken Sie den einzigen verbleibenden Eintrag. (2) Jetzt können Sie auf der rechten Seite die Parameter einstellen:
Die Einstellungen in Automator sind viel einfacher, als es aussieht
Quelle: Screenshot / ze
Die behandelten PDFs werden standardmässig neu gesichert, wobei am Schluss der Bezeichnung der Text «_ocr» angehängt wird. (3) Wenn Sie hingegen die Option «Save in place» aktivieren, (4) wird die bestehende PDF-Datei überschrieben.
Wenn alles passt, wählen Sie in Automator im Menü «Ablage» den Befehl «Sichern» und speichern den Ablauf als «Programm» an einem beliebigen Ort:
Abfolgen lassen sich als Programm speichern
Quelle: Screenshot / ze
Um nun ein oder mehrere PDFs zu behandeln, ziehen Sie die Symbole einfach auf diese kleine Anwendung. Allerdings werden Sie nichts sehen, der Vorgang läuft im Hintergrund ab. Wenn Sie die Datei nicht überschreiben, wird einfach nach ein paar Sekunden ein weiteres PDF mit dem Anhängsel «_ocr» auftauchen.

Gemach, gemach …

Zum Schluss noch ein Hinweis. Es gibt bestimmt schnellere OCR-Programme als PDFScanner, vor allem bei gut gefüllten Textseiten. Verwenden Sie die Batch-Verarbeitung, um jeweils ein Dutzend Dateien oder so zu behandeln, während Sie sich einen Kaffee holen. Dann funktioniert das ganz entspannt.



Kommentare
Avatar
Klaus Zellweger
03.11.2019
Catalina Salü miguru Ja, die Anwendung läuft unter Catalina. Viele Grüsse Klaus