มีสาเหตุหลายประการที่คุณอาจต้องการแปลงไฟล์ PDF เป็นข้อความที่แก้ไขได้ บางทีคุณอาจต้องแก้ไขเอกสารเก่าและทั้งหมดที่คุณมีคือเวอร์ชัน PDF การแปลงไฟล์ PDF ใน Windows เป็นเรื่องง่าย แต่ถ้าคุณใช้ Linux ล่ะ?
ที่เกี่ยวข้อง: แปลงไฟล์ PDF เป็นเอกสาร Word และรูปแบบอื่น ๆ
ไม่ต้องห่วง. เราจะแสดงวิธีการแปลงไฟล์ PDF เป็นข้อความที่แก้ไขได้อย่างง่ายดายโดยใช้เครื่องมือบรรทัดคำสั่งที่เรียกว่า pdftotext ซึ่งเป็นส่วนหนึ่งของแพ็คเกจ "poppler-utils" เครื่องมือนี้อาจได้รับการติดตั้งแล้ว หากต้องการตรวจสอบว่ามีการติดตั้ง pdftotext ในระบบของคุณหรือไม่ให้กด“ Ctrl + Alt + T” เพื่อเปิดหน้าต่างเทอร์มินัล พิมพ์คำสั่งต่อไปนี้ที่พรอมต์แล้วกด“ Enter”
dpkg –s poppler-utils
หมายเหตุ: เมื่อเราพูดเพื่อพิมพ์บางอย่างในบทความนี้และมีเครื่องหมายคำพูดล้อมรอบข้อความห้ามพิมพ์เครื่องหมายคำพูดเว้นแต่ว่าเราจะระบุเป็นอย่างอื่น
หากไม่ได้ติดตั้ง pdftotext ให้พิมพ์คำสั่งต่อไปนี้ที่พร้อมต์แล้วกด“ Enter”
sudo apt-get ติดตั้ง poppler-utils
พิมพ์รหัสผ่านของคุณเมื่อได้รับแจ้งแล้วกด“ Enter”
มีเครื่องมือมากมายในแพ็คเกจ poppler-utils สำหรับการแปลง PDF เป็นรูปแบบต่างๆจัดการไฟล์ PDF และแยกข้อมูลออกจากไฟล์
ต่อไปนี้เป็นคำสั่งพื้นฐานสำหรับการแปลงไฟล์ PDF เป็นไฟล์ข้อความที่แก้ไขได้ กด“ Ctrl + Alt + T” เพื่อเปิดหน้าต่าง Terminal พิมพ์คำสั่งที่พร้อมต์แล้วกด“ Enter”
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
เปลี่ยนเส้นทางไปยังแต่ละไฟล์เพื่อให้สอดคล้องกับไฟล์ตำแหน่งและชื่อไฟล์ PDF ต้นฉบับของคุณและตำแหน่งที่คุณต้องการบันทึกไฟล์ข้อความที่เป็นผลลัพธ์ นอกจากนี้ให้เปลี่ยนชื่อไฟล์เพื่อให้สอดคล้องกับชื่อไฟล์ของคุณ
ไฟล์ข้อความถูกสร้างขึ้นและสามารถเปิดได้เช่นเดียวกับที่คุณเปิดไฟล์ข้อความอื่น ๆ ใน Linux
ข้อความที่แปลงแล้วอาจมีการแบ่งบรรทัดในที่ที่คุณไม่ต้องการ ตัวแบ่งบรรทัดจะถูกแทรกหลังข้อความทุกบรรทัดในไฟล์ PDF
คุณสามารถรักษาเค้าโครงของเอกสารของคุณ (ส่วนหัวส่วนท้ายการเพจ ฯลฯ ) จากไฟล์ PDF ต้นฉบับในไฟล์ข้อความที่แปลงแล้วโดยใช้แฟล็ก“ -layout”
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
หากคุณต้องการแปลงเฉพาะช่วงของหน้าในไฟล์ PDF ให้ใช้แฟล็ก“ -f” และ“ -l” (ตัวพิมพ์เล็ก“ L”) เพื่อระบุหน้าแรกและหน้าสุดท้ายในช่วงที่คุณต้องการแปลง
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
ในการแปลงไฟล์ PDF ที่ได้รับการป้องกันและเข้ารหัสด้วยรหัสผ่านของเจ้าของให้ใช้แฟล็ก“ -opw” (อักขระตัวแรกในแฟล็กคืออักษรตัวพิมพ์เล็ก“ O” ไม่ใช่ศูนย์)
pdftotext -opw "รหัสผ่าน" /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
เปลี่ยน“ รหัสผ่าน” เป็นรหัสที่ใช้ป้องกันไฟล์ PDF ต้นฉบับที่กำลังแปลง ตรวจสอบให้แน่ใจว่ามีเครื่องหมายคำพูดเดี่ยวไม่ใช่คู่รอบ“ รหัสผ่าน”
หากไฟล์ PDF ได้รับการป้องกันและเข้ารหัสด้วยรหัสผ่านผู้ใช้ให้ใช้แฟล็ก“ -upw” แทนแฟล็ก“ -opw” ส่วนที่เหลือของคำสั่งเหมือนกัน
คุณยังสามารถระบุประเภทของจุดสิ้นสุดของบรรทัดอักขระที่ใช้กับข้อความที่แปลงแล้ว สิ่งนี้มีประโยชน์อย่างยิ่งหากคุณวางแผนที่จะเข้าถึงไฟล์ในระบบปฏิบัติการอื่นเช่น Windows หรือ Mac ในการดำเนินการนี้ให้ใช้แฟล็ก“ -eol” (อักขระตรงกลางในแฟล็กคืออักษรตัวพิมพ์เล็ก“ O” ไม่ใช่ศูนย์) ตามด้วยช่องว่างและประเภทของอักขระท้ายบรรทัดที่คุณต้องการใช้ (“ unix”,“ dos” หรือ“ mac”)
บันทึก: หากคุณไม่ระบุชื่อไฟล์สำหรับไฟล์ข้อความ pdftotext จะใช้ฐานของชื่อไฟล์ PDF โดยอัตโนมัติและเพิ่มนามสกุล“ .txt” ตัวอย่างเช่น“ file.pdf” จะถูกแปลงเป็น“ file.txt” หากระบุไฟล์ข้อความเป็น“ -“ ข้อความที่แปลงแล้วจะถูกส่งไปยัง stdout ซึ่งหมายความว่าข้อความจะแสดงในหน้าต่าง Terminal และไม่ได้บันทึกลงในไฟล์
หากต้องการปิดหน้าต่าง Terminal ให้คลิกปุ่ม“ X” ที่มุมบนซ้าย
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคำสั่ง pdftotext ให้พิมพ์“ man page pdftotext” ที่พร้อมต์ในหน้าต่าง Terminal