Tips & Tricks

So stellen Sie Text aus einem beschädigten PDF wieder her

Die einzige Kopie eines Vertrags von vor drei Jahren ist ein PDF, das jetzt mit einer Fehlermeldung geöffnet wird. Ein Forschungsbericht, der von einer inzwischen nicht mehr existierenden Website heruntergeladen wurde, zeigt nichts weiter als Seite vier an. Die unterzeichnete Vereinbarung eines Kunden wurde auf einem Laufwerk gespeichert, auf dem Fehler aufgetreten sind, und die wiederhergestellte Datei ist teilweise beschädigt. Diese Situationen sind stressig, aber nicht immer hoffnungslos. Die Wiederherstellung von Text aus beschädigten PDFs ist häufiger möglich, als man denkt – die Frage ist, welchen Ansatz man zuerst ausprobieren sollte.

How to Recover Text From a Damaged PDF

Verstehen Sie, mit welcher Art von Schaden Sie es zu tun haben

Nicht jeder PDF-Schaden ist gleich und der Wiederherstellungsansatz hängt davon ab, was schief gelaufen ist. Ein paar kurze Beobachtungen sagen Ihnen viel:

  • Datei lässt sich überhaupt nicht öffnen: der Dateikopf oder die interne Struktur ist beschädigt. Ein Reparaturtool muss die Dateistruktur rekonstruieren, bevor auf Inhalte zugegriffen werden kann.
  • Datei wird geöffnet, aber einige Seiten sind leer oder fehlen: partielle Beschädigung – die Dateistruktur ist intakt, aber einige Inhaltsobjekte sind beschädigt oder fehlen. Die Wiederherstellung kann die unbeschädigten Teile wiederherstellen.
  • Text wird als Symbole oder verstümmelte Zeichen angezeigt: Schriftartkodierungsbeschädigung. Die Textdaten sind möglicherweise intakt, aber die Zuordnung zwischen Zeichen und Glyphen ist fehlerhaft.
  • Datei ist sehr klein (ein paar KB, obwohl sie viel größer sein sollte): unvollständiger Download oder Übertragung. Die Datei wurde nie vollständig empfangen – das Erhalten einer neuen Kopie von der Quelle ist die Lösung, nicht die Reparatur.
WukongPDF

Versuchen Sie Repair PDF

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

Probieren Sie zuerst einen anderen PDF-Viewer aus

Einige Dateien, die in einem Viewer fehlschlagen, werden in einem anderen erfolgreich geöffnet. Adobe Reader, der in Chrome integrierte PDF-Viewer, Apple Preview, Foxit und Sumatra PDF verwenden alle unterschiedliche Rendering-Engines. Eine Datei, die eine Engine nicht analysieren kann, liegt möglicherweise innerhalb der Wiederherstellungstoleranz einer anderen.

Wenn ein Betrachter die Datei öffnet – auch teilweise –, versuchen Sie sofort, den gesamten sichtbaren Text zu kopieren (Strg+A, dann Strg+C) und in ein Word-Dokument einzufügen. Dadurch wird der Text erfasst, auf den im aktuellen Zustand der Datei zugegriffen werden kann, unabhängig davon, ob die Dateistruktur wiederherstellbar ist. Eine unvollständige Textextraktion ist besser als nichts und kann sogar aus einer erheblich beschädigten Datei den größten Teil des Inhalts erfassen.

Verwenden Sie ein PDF Reparaturwerkzeug

Ein spezielles Repair PDF-Tool versucht, die interne Dateistruktur zu rekonstruieren, indem es die beschädigte Datei nach wiederherstellbaren Inhaltsobjekten durchsucht – Textströme, Bilder, Seitendefinitionen – und aus allem, was es finden kann, ein gültiges PDF wiederherstellt. Dies unterscheidet sich vom einfachen Öffnen der Datei. Reparaturwerkzeuge suchen gezielt nach Strukturschäden und beheben diese.

Das Reparaturtool von WukongPDF unter www.wukongpdf.com übernimmt dies: Laden Sie die beschädigte Datei hoch, lassen Sie den Reparaturvorgang laufen und laden Sie alles herunter, was wiederhergestellt werden konnte. Bei teilweise beschädigten Dateien, bei denen der größte Teil des Inhalts intakt ist, die Dateistruktur jedoch beschädigt ist, entsteht häufig ein vollständig lesbares PDF. Bei stark beschädigten Dateien können Teile des Inhalts wiederhergestellt werden. Die Ausgabe hängt davon ab, wie viele der zugrunde liegenden Daten den Schaden überstanden haben.

Text direkt aus den Dateidaten extrahieren

PDF-Dateien speichern Text in Streams innerhalb der Dateistruktur. Selbst wenn die PDF-Struktur zu beschädigt ist, als dass ein Betrachter das Dokument rendern könnte, sind die Textströme möglicherweise immer noch intakt und mit den richtigen Werkzeugen lesbar. Für technisch versierte Benutzer kann das Öffnen des PDF in einem Texteditor (nicht in einem PDF-Viewer) lesbaren Textinhalt offenbaren, der in den Rohdaten der Datei eingebettet ist – suchen Sie nach Zeichenfolgen lesbarer Zeichen im Binärinhalt.

Befehlszeilentools wie pdftotext (Teil des Poppler-Pakets) können Text aus PDFs extrahieren, der in Standard-Viewern nicht geöffnet werden kann. Durch das Ausführen von pdftotext für eine beschädigte Datei werden manchmal erhebliche Textinhalte wiederhergestellt, selbst wenn die visuelle Darstellung vollständig fehlschlägt. Dieser Ansatz erfordert den Umgang mit Befehlszeilentools, ermöglicht aber den Zugriff auf Inhalte, die den GUI-Tools entgehen.

Sonderfall: Beschädigtes gescanntes PDFs

Gescannte PDFs speichern Inhalte als Bilder und nicht als Text. Wenn die Bilddaten in einem gescannten PDF beschädigt sind, helfen Textextraktionstools nicht weiter – es gibt keine zu extrahierende Textebene. Der wiederherstellbare Inhalt sind die Bilddaten selbst.

Bei teilweise beschädigten gescannten PDFs kann ein Reparaturtool, das die Bildobjekte wiederherstellt, ein anzeigbares Dokument erstellen, selbst wenn die Dateistruktur beschädigt ist. Nach der Reparatur wird durch die Ausführung von OCR auf dem wiederhergestellten Dokument der Bildinhalt in durchsuchbaren Text umgewandelt, sodass die wiederhergestellte Version nützlicher ist als der ursprüngliche, nicht durchsuchbare Scan.

Was eine Wiederherstellung bewirken kann und was nicht

Die Wiederherstellung von Text aus beschädigten PDFs kann nicht garantiert werden. Die Erfolgsquote hängt von der Art und dem Ausmaß des Schadens ab:

  • Strukturelle Beschädigung mit intaktem Inhalt: hohe Wiederherstellungsrate – der Inhalt ist vorhanden, die Datei kann ihn nur nicht korrekt darstellen
  • Teilweiser Inhaltsschaden: teilweise Wiederherstellung – einige Seiten oder Abschnitte können wiederhergestellt werden, andere gehen verloren
  • Überschriebene Speichersektoren: geringe bis keine Wiederherstellung – wenn die zugrunde liegenden Daten überschrieben wurden, kann kein Tool sie wiederherstellen
  • Unvollständiger Download (Datei ist nur abgeschnitten): Holen Sie sich eine neue Kopie, anstatt eine Reparatur zu versuchen

Die Lektion für die Zukunft: Bewahren Sie von jedem wichtigen Dokument mehrere Kopien an verschiedenen Orten auf. Ein Backup auf einem anderen Laufwerk, eine Kopie im Cloud-Speicher, eine E-Mail an sich selbst – all dies bietet einen Wiederherstellungspfad, der PDF-Reparaturtools überflüssig macht. Das beste Repair PDF-Szenario ist eines, das Sie nie verwenden müssen.

WukongPDF

Versuchen Sie Repair PDF

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →