PDF (Portable Document Format) เป็นหนึ่งในรูปแบบไฟล์ที่สำคัญและใช้กันอย่างแพร่หลายซึ่งใช้ในการนำเสนอและแลกเปลี่ยนเอกสาร ในฐานะผู้พัฒนา Python มีหลายสถานการณ์ที่คุณต้องการแยกข้อความจากเอกสาร PDF และส่งออกในรูปแบบอื่นโดยใช้ Python สำหรับการวิเคราะห์ข้อความ ในโพสต์นี้ เราจะแสดงวิธีแยกข้อความจากเอกสาร PDF อย่างถูกต้องโดยใช้ GroupDocs.Conversion Cloud SDK for Python
GroupDocs.Conversion Cloud เป็นโซลูชัน REST API ที่ไม่ขึ้นกับแพลตฟอร์มสำหรับการแปลงเอกสารและรูปภาพโดยไม่ต้องพึ่งพาแอปพลิเคชันของบุคคลที่สาม มันแปลงเอกสารมากกว่า 50 ประเภทจากรูปแบบหนึ่งเป็นอีกรูปแบบหนึ่ง มี SDK สำหรับภาษาโปรแกรมยอดนิยมทั้งหมดรวมถึง Python ดังนั้นนักพัฒนาจึงสามารถใช้ API ได้โดยตรงในแอปพลิเคชันของตนโดยไม่ต้องกังวลเกี่ยวกับการเรียกใช้ REST API พื้นฐาน
ให้เราเริ่มรหัส:
ติดตั้ง GroupDocs.Conversion Cloud Package สิ่งแรก ติดตั้ง groupdocs-conversion-cloud package จาก pypi ด้วยคำสั่งต่อไปนี้
>pip ติดตั้ง groupdocs-conversion-cloud
ตัวอย่างการสกัดข้อความ Python PDF เราจะทำตามขั้นตอนเหล่านี้เพื่อแยกข้อความจากเอกสาร PDF:
ลงทะเบียนฟรีกับ groupdocs.cloud to get your AppSID and AppKey สร้างโมดูลPythonและคัดลอกวางโค้ดต่อไปนี้ในนั้น เราได้ใช้ตัวเลือกเริ่มต้นเพื่อแยกข้อความของเอกสาร PDF คุณสามารถแยกข้อความของบางหน้าได้โดยใช้ ตัวเลือกการแปลง ของรูปแบบข้อความ # นำเข้าโมดูล import groupdocs_conversion_cloud # รับ app_sid และ app_key ของคุณที่ https://dashboard.