/ / Wie kann ich unter Beibehaltung der Formatierung Text aus einer PDF-Datei kopieren?

Wie kann ich unter Beibehaltung der Formatierung Text aus einer PDF-Datei kopieren?

PDF, das allgegenwärtige Dokumentformat, eignet sich hervorragend fürWeitergabe von Dokumenten unter Beibehaltung von Schriftarten, Bildern und des allgemeinen Layouts auf verschiedenen Plattformen. Gibt es eine einfache Möglichkeit, diese Formatierung beim Kopieren und Einfügen von Text aus dem Dokument beizubehalten?

Die heutige Frage & Antwort-Sitzung wird von SuperUser bereitgestellt - einer Unterteilung von Stack Exchange, einer von der Community gesteuerten Gruppierung von Q & A-Websites.

Die Frage

SuperUser Reader Colen sucht nach einer Möglichkeit, Text aus PDFs zu extrahieren und dabei die Formatierung beizubehalten:

Beim Kopieren von Text aus einer PDF-Datei in eineTexteditor, es endet auf verschiedene Weise verstümmelt. Formatierungen in Fett- und Kursivschrift gehen verloren. weiche Zeilenumbrüche innerhalb eines Textabschnitts werden in harte Zeilenumbrüche umgewandelt; Bindestriche, um ein Wort über zwei Zeilen zu trennen, bleiben erhalten, auch wenn dies nicht der Fall sein sollte. und einfache und doppelte Anführungszeichen werden ersetzt durch? Zeichen.

Im Idealfall möchte ich in der Lage sein, Text aus einer PDF-Datei zu kopieren und die Formatierung in HTML-Codes, "intelligente Anführungszeichen" in "und" umzuwandeln sowie Zeilenumbrüche ordnungsgemäß auszuführen. Gibt es eine Möglichkeit, dies zu tun?

Gibt es eine schnelle und einfache Möglichkeit für Colen (und den Rest von uns), Text zu erfassen, ohne die Formatierung zu beeinträchtigen?

Die Antwort

SuperUser-Mitarbeiter Frabjous bietet eine Lösung, die mit großer Vorsicht verbunden ist:

Zunächst muss man verstehen, was ein PDF ist. PDFs sind so konzipiert, dass sie eine gedruckte Seite imitieren. Sie sind nur als Ausgabeformat und nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Satzzeichen usw.) oder Bildern enthält. In den meisten Fällen werden in einem PDF-Dokument nicht einmal Informationen darüber gespeichert, wo ein Wort endet und wo ein anderes beginnt, geschweige denn, dass die Absätze durch weiche oder harte Unterbrechungen getrennt werden.

(In einigen neueren PDF-Dateien sind Informationen zu diesem Thema gespeichert, aber das ist eine neue Technologie, und Sie können sich glücklich schätzen, solche PDF-Dateien zu finden. Selbst wenn Sie dies getan haben, weiß Ihr PDF-Viewer möglicherweise nichts davon.)

Wie auch immer, es liegt an Ihrer Software, diese zu implementiereneine Art „künstliche Intelligenz“, um lediglich aus den Positionen einzelner Zeichen zu extrahieren, was ein Wort ist, was ein Absatz ist und so weiter. Eine andere Software kann dies besser als andere und hängt auch davon ab, wie das PDF erstellt wurde. In jedem Fall sollten Sie niemals perfekte Ergebnisse erwarten. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Es ist weitaus besser zu versuchen, das zu erreichen, wenn Sie können.

Die Standardlösung für Ihre Art von Problem besteht darin, Adobe Acrobat Professional (das teure und nicht das kostenlose Lesegerät) zum Konvertieren der PDF-Datei in HTML zu verwenden. Auch das wird nicht zu perfekten Ergebnissen führen.

Es gibt freie Software, an die man sich gewöhnen kannExtrahieren Sie Text aus PDF-Dateien, wobei einige Formatierungen intakt sind. Erwarten Sie jedoch keine perfekten Ergebnisse. Siehe z. B. Kaliber (das in das RTF-Format konvertiert werden kann), pdftohtml / pdfreflow oder das AbiWord-Textverarbeitungsprogramm (mit allen aktivierten Import- / Export-Plugins). Es gibt auch ein PDF-Import-Plugin für OpenOffice.

Aber bitte erwarten Sie bei keinem dieser Ergebnisse Perfektion. Sie gehen hier gegen den Strich. PDF ist nicht als bearbeitbares Eingabeformat gedacht.

Wenn Sie Schwierigkeiten haben, zu entscheiden, welches Werkzeug verwendet werden sollZunächst einmal ist Calibre ein echtes Schweizer Taschenmesser. Sie können damit auch PDF-Dateien für die Verwendung auf Ihrem E-Book-Reader konvertieren und Ihre E-Book- / Dokumentbibliothek organisieren.


Möchten Sie der Erklärung etwas hinzufügen? Ton aus in den Kommentaren. Möchten Sie weitere Antworten von technisch versierten Stack Exchange-Benutzern lesen? Den vollständigen Diskussionsthread finden Sie hier.