Mitglied
- Beitritt
- 25.08.2004
- Beiträge
- 298
PTTGui, reine Texte aus Pdf extrahieren (Pdf2Txt).
Ein Freeware-Tool, um reine Texte (ohne Seiten- und Herstellerangaben) aus Pdf-Dateien/Pdf-EBooks zu extrahieren.
Aus der Idee heraus entstanden, EBooks per Sprachausgabe zu vertonen. Ebooks können im Internet auf vielen Seiten runtergeladen werden, meisstens als PDF-Datei.
In diesen Dateityp eingebettet sind aber oft Seitenangaben, Copyright-Meldungen und sonstige - in einem Hörbuch unerwünsche - Textstellen. Und da kommt jetzt mein Tool PTTGui ins Spiel.
Das Programm ist eine grafische Oberfläche zur Pdf2txt.exe aus dem Xpdf-Pakets (2.02) von Glyph & Cog, LLC (liegt im Programmordner als Zip-Datei vor) und extrahiert alle Texte aus Pdf-Dateien. Erweitert habe ich das Ganze um ein paar einfach zu handhabene Buttons und eine editierbare Floskel-Liste (verkraftet auch Reguläre Ausdrücke), um unerwünsche Textpassagen schnell entfernen zu können.
Zu finden auf meiner Webpage.