/ / Hvordan konvertere en PDF-fil til redigerbar tekst ved å bruke kommandolinjen i Linux

Hvordan konvertere en PDF-fil til redigerbar tekst ved å bruke kommandolinjen i Linux

00_lead_image_pdf_to_text

Det er forskjellige grunner til at du kanskje vilkonvertere en PDF-fil til redigerbar tekst. Kanskje du trenger å revidere et gammelt dokument, og alt du har er PDF-versjonen av det. Det er enkelt å konvertere PDF-filer i Windows, men hva om du bruker Linux?

I SLEKT: Konverter PDF-filer til Word-dokumenter og andre formater

Ingen bekymringer. Vi viser deg hvordan du enkelt kan konvertere PDF-filer til redigerbar tekst ved hjelp av et kommandolinjeverktøy kalt pdftotext, som er en del av pakken "poppler-utils". Dette verktøyet kan allerede være installert. For å sjekke om pdftotext er installert på systemet ditt, trykk “Ctrl + Alt + T” for å åpne et terminalvindu. Skriv inn følgende kommando med ledeteksten, og trykk “Enter”.

dpkg –s poppler-redskaper

MERKNAD: Når vi sier å skrive noe i denne artikkelen, og det er sitater rundt teksten, IKKE skriv sitatene, med mindre vi spesifiserer noe annet.

01_checking_for_poppler_utils

Hvis pdftotext ikke er installert, skriver du følgende kommando med ledeteksten og trykker "Enter".

sudo apt-get install poppler-utils

Skriv inn passordet ditt når du blir bedt om det, og trykk “Enter”.

02_installing_poppler_utils

Det er flere verktøy tilgjengelig i poppler-utils-pakken for å konvertere PDF til forskjellige formater, manipulere PDF-filer og trekke ut informasjon fra filer.

03_utilities_in_poppler_utils

Følgende er den grunnleggende kommandoen for å konvertere en PDF-fil til en redigerbar tekstfil. Trykk “Ctrl + Alt + T” for å åpne et terminalvindu, skriv kommandoen med ledeteksten, og trykk “Enter”.

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Endre banen til hver fil slik at den tilsvarerplassering og navn på den originale PDF-filen og hvor du vil lagre den resulterende tekstfilen. Endre også filnavnene slik at de tilsvarer navnene på filene dine.

04_running_pdftotext

Tekstfilen er opprettet og kan åpnes akkurat som du vil åpne en hvilken som helst annen tekstfil i Linux.

05_text_file_created

Den konverterte teksten kan ha linjeskift på steder du ikke vil ha. Linjeskift settes inn etter hver tekstlinje i PDF-filen.

06_converted_text_file_in_editor

Du kan bevare utformingen av dokumentet ditt (topptekst, bunntekst, personsøker osv.) Fra den originale PDF-filen i den konverterte tekstfilen ved å bruke "-layout" -flagget.

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

06a_converting_using_layout

Hvis du bare vil konvertere et område med sider i en PDF-fil, bruker du "-f" og "-l" (små bokstaver "L") for å spesifisere de første og siste sidene i området du vil konvertere.

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

07_converting_page_range

For å konvertere en PDF-fil som er beskyttet og kryptert med et eierpassord, bruker du "-opw" -flagget (det første tegnet i flagget er en liten bokstav "O", ikke en null).

pdftotext -opw ‘password’ /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Endre "passord" til det som brukes for å beskytte den originale PDF-filen som konverteres. Forsikre deg om at det er enkelt sitater, ikke dobbelt, rundt "passord".

08_konvertering_pdf_med_passord

Hvis PDF-filen er beskyttet og kryptert med et brukerpassord, bruk “-upw” -flagget i stedet for “-opw” -flagget. Resten av kommandoen er den samme.

09_konvertering_pdf_med_bruker_passord

Du kan også spesifisere slutten av linjentegnet som brukes på den konverterte teksten. Dette er spesielt nyttig hvis du planlegger å få tilgang til filen på et annet operativsystem som Windows eller Mac. For å gjøre dette, bruk “-eol” -flagget (mellomtegnet i flagget er små bokstaver “O”, ikke null) etterfulgt av et mellomrom og typen end-of-line-tegnet du vil bruke (“ unix ”,“ dos ”eller“ mac ”).

10_konvertering_pdf_med_eol_format

MERK: Hvis du ikke angir et filnavn for tekstfilen, bruker pdftotext automatisk basen til PDF-filnavnet og legger til ".txt" -utvidelsen. For eksempel vil "file.pdf" konverteres til "file.txt". Hvis tekstfilen er spesifisert som “-“, sendes den konverterte teksten til stdout, noe som betyr at teksten vises i terminalvinduet og ikke lagres i en fil.

For å lukke terminalvinduet, klikk på “X” -knappen øverst til venstre.

For mer informasjon om pdftotext-kommandoen, skriv “man page pdftotext” ved ledeteksten i et terminalvindu.