/ / วิธีการแปลงไฟล์ PDF เป็นข้อความที่แก้ไขได้โดยใช้ Command Line ใน Linux

วิธีแปลงไฟล์ PDF เป็นข้อความที่แก้ไขได้โดยใช้บรรทัดคำสั่งใน Linux

00_lead_image_pdf_to_text

มีสาเหตุหลายประการที่คุณอาจต้องการแปลงไฟล์ PDF เป็นข้อความที่แก้ไขได้ บางทีคุณอาจต้องแก้ไขเอกสารเก่าและทั้งหมดที่คุณมีคือเวอร์ชัน PDF การแปลงไฟล์ PDF ใน Windows เป็นเรื่องง่าย แต่ถ้าคุณใช้ Linux ล่ะ?

ที่เกี่ยวข้อง: แปลงไฟล์ PDF เป็นเอกสาร Word และรูปแบบอื่น ๆ

ไม่ต้องห่วง. เราจะแสดงวิธีการแปลงไฟล์ PDF เป็นข้อความที่แก้ไขได้อย่างง่ายดายโดยใช้เครื่องมือบรรทัดคำสั่งที่เรียกว่า pdftotext ซึ่งเป็นส่วนหนึ่งของแพ็คเกจ "poppler-utils" เครื่องมือนี้อาจได้รับการติดตั้งแล้ว หากต้องการตรวจสอบว่ามีการติดตั้ง pdftotext ในระบบของคุณหรือไม่ให้กด“ Ctrl + Alt + T” เพื่อเปิดหน้าต่างเทอร์มินัล พิมพ์คำสั่งต่อไปนี้ที่พรอมต์แล้วกด“ Enter”

dpkg –s poppler-utils

หมายเหตุ: เมื่อเราพูดเพื่อพิมพ์บางอย่างในบทความนี้และมีเครื่องหมายคำพูดล้อมรอบข้อความห้ามพิมพ์เครื่องหมายคำพูดเว้นแต่ว่าเราจะระบุเป็นอย่างอื่น

01_checking_for_poppler_utils

หากไม่ได้ติดตั้ง pdftotext ให้พิมพ์คำสั่งต่อไปนี้ที่พร้อมต์แล้วกด“ Enter”

sudo apt-get ติดตั้ง poppler-utils

พิมพ์รหัสผ่านของคุณเมื่อได้รับแจ้งแล้วกด“ Enter”

02_installing_poppler_utils

มีเครื่องมือมากมายในแพ็คเกจ poppler-utils สำหรับการแปลง PDF เป็นรูปแบบต่างๆจัดการไฟล์ PDF และแยกข้อมูลออกจากไฟล์

03_utilities_in_poppler_utils

ต่อไปนี้เป็นคำสั่งพื้นฐานสำหรับการแปลงไฟล์ PDF เป็นไฟล์ข้อความที่แก้ไขได้ กด“ Ctrl + Alt + T” เพื่อเปิดหน้าต่าง Terminal พิมพ์คำสั่งที่พร้อมต์แล้วกด“ Enter”

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

เปลี่ยนเส้นทางไปยังแต่ละไฟล์เพื่อให้สอดคล้องกับไฟล์ตำแหน่งและชื่อไฟล์ PDF ต้นฉบับของคุณและตำแหน่งที่คุณต้องการบันทึกไฟล์ข้อความที่เป็นผลลัพธ์ นอกจากนี้ให้เปลี่ยนชื่อไฟล์เพื่อให้สอดคล้องกับชื่อไฟล์ของคุณ

04_running_pdftotext

ไฟล์ข้อความถูกสร้างขึ้นและสามารถเปิดได้เช่นเดียวกับที่คุณเปิดไฟล์ข้อความอื่น ๆ ใน Linux

05_text_file_created

ข้อความที่แปลงแล้วอาจมีการแบ่งบรรทัดในที่ที่คุณไม่ต้องการ ตัวแบ่งบรรทัดจะถูกแทรกหลังข้อความทุกบรรทัดในไฟล์ PDF

06_converted_text_file_in_editor

คุณสามารถรักษาเค้าโครงของเอกสารของคุณ (ส่วนหัวส่วนท้ายการเพจ ฯลฯ ) จากไฟล์ PDF ต้นฉบับในไฟล์ข้อความที่แปลงแล้วโดยใช้แฟล็ก“ -layout”

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

06a_converting_using_layout

หากคุณต้องการแปลงเฉพาะช่วงของหน้าในไฟล์ PDF ให้ใช้แฟล็ก“ -f” และ“ -l” (ตัวพิมพ์เล็ก“ L”) เพื่อระบุหน้าแรกและหน้าสุดท้ายในช่วงที่คุณต้องการแปลง

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

07_converting_page_range

ในการแปลงไฟล์ PDF ที่ได้รับการป้องกันและเข้ารหัสด้วยรหัสผ่านของเจ้าของให้ใช้แฟล็ก“ -opw” (อักขระตัวแรกในแฟล็กคืออักษรตัวพิมพ์เล็ก“ O” ไม่ใช่ศูนย์)

pdftotext -opw "รหัสผ่าน" /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

เปลี่ยน“ รหัสผ่าน” เป็นรหัสที่ใช้ป้องกันไฟล์ PDF ต้นฉบับที่กำลังแปลง ตรวจสอบให้แน่ใจว่ามีเครื่องหมายคำพูดเดี่ยวไม่ใช่คู่รอบ“ รหัสผ่าน”

08_converting_pdf_with_password

หากไฟล์ PDF ได้รับการป้องกันและเข้ารหัสด้วยรหัสผ่านผู้ใช้ให้ใช้แฟล็ก“ -upw” แทนแฟล็ก“ -opw” ส่วนที่เหลือของคำสั่งเหมือนกัน

09_converting_pdf_with_user_password

คุณยังสามารถระบุประเภทของจุดสิ้นสุดของบรรทัดอักขระที่ใช้กับข้อความที่แปลงแล้ว สิ่งนี้มีประโยชน์อย่างยิ่งหากคุณวางแผนที่จะเข้าถึงไฟล์ในระบบปฏิบัติการอื่นเช่น Windows หรือ Mac ในการดำเนินการนี้ให้ใช้แฟล็ก“ -eol” (อักขระตรงกลางในแฟล็กคืออักษรตัวพิมพ์เล็ก“ O” ไม่ใช่ศูนย์) ตามด้วยช่องว่างและประเภทของอักขระท้ายบรรทัดที่คุณต้องการใช้ (“ unix”,“ dos” หรือ“ mac”)

10_converting_pdf_with_eol_format

บันทึก: หากคุณไม่ระบุชื่อไฟล์สำหรับไฟล์ข้อความ pdftotext จะใช้ฐานของชื่อไฟล์ PDF โดยอัตโนมัติและเพิ่มนามสกุล“ .txt” ตัวอย่างเช่น“ file.pdf” จะถูกแปลงเป็น“ file.txt” หากระบุไฟล์ข้อความเป็น“ -“ ข้อความที่แปลงแล้วจะถูกส่งไปยัง stdout ซึ่งหมายความว่าข้อความจะแสดงในหน้าต่าง Terminal และไม่ได้บันทึกลงในไฟล์

หากต้องการปิดหน้าต่าง Terminal ให้คลิกปุ่ม“ X” ที่มุมบนซ้าย

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคำสั่ง pdftotext ให้พิมพ์“ man page pdftotext” ที่พร้อมต์ในหน้าต่าง Terminal