Ab in die Zelle, Tabelle! 16.02.2024, 11:30 Uhr

Tabula extrahiert PDF-Tabellen

PDFs sind praktisch, ungelogen! Aber die Extraktion von Tabellen kann schwierig sein. Das ist ein Fall für die kostenlose Software «Tabula».
Tabellen waren scheinbar zu allen Zeiten eine Herausforderung
(Quelle: Wikipedia)
Wenn Sie schon einmal versucht haben, eine Tabelle aus einem PDF zu extrahieren, sind Sie sehr wahrscheinlich auf Probleme gestossen: Es wurde zu wenig Text markiert oder zu viel, weil die Auswahl auf den angrenzenden Textblock überschwappte. Was kopiert wurde, hing vielleicht falsch zusammen, die Zeilenumbrüche verursachten ein Chaos undsoweiterundsofort.
Dieser Problematik nimmt sich die kostenlose Software an, die Sie unter der Adresse tabula.technology für Macs und Windows-PCs laden.
Tabula wird für Mac und Windows angeboten
Quelle: PCtipp.ch
Wichtig: Tabula ist keine OCR-Software. Wenn Sie also ein Blatt einscannen und als PDF ablegen, wird die Software mit diesen Pixeldaten nichts anfangen können. Es funktionieren nur PDFs, deren Texte und Tabellen direkt aus einer Anwendung herausgeschrieben wurden, also zum Beispiel aus Word, Excel oder einer anderen Software.

Tabellen extrahieren

Laden und starten Sie Tabula. Es öffnet sich ein Fenster im Standard-Browser, in diesem Fall Safari am Mac.
Wählen Sie das PDF mit einem Klick auf die Schaltfläche «Browse» (1) aus. Je nach Komplexität und Grösse des PDFs kann das einen Moment dauern. Klicken Sie auf die Schaltfläche «Import» (2) um den Inhalt der Datei anzuzeigen.
Das PDF wird in Safari geladen
Quelle: PCtipp.ch
Achtung: Drag & Drop funktioniert nicht, verwenden Sie die Schaltfläche «Import». Ausserdem funktioniert die Umwandlung nicht, wenn der Dateiname Umlaute oder Sonderzeichen enthält.
Markieren Sie die Tabelle(n), indem Sie mit der Maus ein Rechteck darüber ziehen (1) und klicken Sie auf die Schaltfläche «Preview & Export Extracted Data». (2)
Die Tabelle wird mit der Maus markiert
Quelle: PCtipp.ch
Die Voransicht wird gezeigt. Wenn die Tabelle Ihren Vorstellungen entspricht, wählen Sie im Einblendmenü «Export Format» (1) das gewünschte Format und klicken auf die Schaltfläche «Export». (2) Sollte die Darstellung hingegen nicht optimal sein, wechseln Sie am linken Rand von der Extraktionsmethode «Stream» zu «Lattice». (3)
Für Tabellen ist CSV das Format der Stunde
Quelle: PCtipp.ch
Tipp: In den meisten Fällen ist das CSV-Format (Comma-separated values) am besten geeignet, um die Daten in Excel, Numbers oder in eine andere Tabellenkalkulation zu importieren, wo sie dann weiterverarbeitet werden.
Nach dem Export öffnen Sie die CSV-Datei zum Beispiel in einer Tabellenkalkulation, in diesem Fall in Numbers:
Das Ergebnis in Apple Numbers
Quelle: PCtipp.ch
Das Resultat ist vielleicht nicht ganz perfekt, aber 99 Prozent der Arbeit sind getan. Mögliche Fehler sind in diesem Fall eine Symbolschrift mit Pfeilen in der Zeile «Schutzklasse», die auf dem System nicht installiert ist.


Kommentare
Es sind keine Kommentare vorhanden.