Python แยกข้อความจากเอกสาร PDF

PDF (Portable Document Format) เป็นหนึ่งในรูปแบบไฟล์ที่สำคัญและใช้กันอย่างแพร่หลายซึ่งใช้ในการนำเสนอและแลกเปลี่ยนเอกสาร ในฐานะผู้พัฒนา Python มีหลายสถานการณ์ที่คุณต้องการแยกข้อความจากเอกสาร PDF และส่งออกในรูปแบบอื่นโดยใช้ Python สำหรับการวิเคราะห์ข้อความ ในโพสต์นี้ เราจะแสดงวิธีแยกข้อความจากเอกสาร PDF อย่างถูกต้องโดยใช้ GroupDocs.Conversion Cloud SDK for Python

GroupDocs.Conversion Cloud เป็นโซลูชัน REST API ที่ไม่ขึ้นกับแพลตฟอร์มสำหรับการแปลงเอกสารและรูปภาพโดยไม่ต้องพึ่งพาแอปพลิเคชันของบุคคลที่สาม มันแปลงเอกสารมากกว่า 50 ประเภทจากรูปแบบหนึ่งเป็นอีกรูปแบบหนึ่ง มี SDK สำหรับภาษาโปรแกรมยอดนิยมทั้งหมดรวมถึง Python ดังนั้นนักพัฒนาจึงสามารถใช้ API ได้โดยตรงในแอปพลิเคชันของตนโดยไม่ต้องกังวลเกี่ยวกับการเรียกใช้ REST API พื้นฐาน

ให้เราเริ่มรหัส:

ติดตั้ง GroupDocs.Conversion Cloud Package

สิ่งแรก ติดตั้ง groupdocs-conversion-cloud package จาก pypi ด้วยคำสั่งต่อไปนี้

>pip ติดตั้ง groupdocs-conversion-cloud

ตัวอย่างการสกัดข้อความ Python PDF

เราจะทำตามขั้นตอนเหล่านี้เพื่อแยกข้อความจากเอกสาร PDF:

  • ลงทะเบียนฟรีกับ groupdocs.cloud to get your AppSID and AppKey
  • สร้างโมดูลPythonและคัดลอกวางโค้ดต่อไปนี้ในนั้น เราได้ใช้ตัวเลือกเริ่มต้นเพื่อแยกข้อความของเอกสาร PDF คุณสามารถแยกข้อความของบางหน้าได้โดยใช้ ตัวเลือกการแปลง ของรูปแบบข้อความ
# นำเข้าโมดูล
import groupdocs_conversion_cloud

# รับ app_sid และ app_key ของคุณที่ https://dashboard.groupdocs.cloud (ต้องลงทะเบียนฟรี)
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# สร้างอินสแตนซ์ของ API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • เรียกใช้รหัสใน IDE ที่คุณชื่นชอบ คุณจะได้รับผลลัพธ์ต่อไปนี้ แค่นั้น ภารกิจสำเร็จ!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

อย่าลังเลที่จะส่งความคิดเห็นถึงเราที่ ฟอรัมสนับสนุน แบ่งปันความคิดเห็นของคุณเกี่ยวกับ GroupDocs.Conversion Cloud API หรือแจ้งให้เราทราบหากคุณมีข้อเสนอแนะหรือต้องการคุณสมบัติเฉพาะใดๆ ที่คุณคาดหวังให้ REST API ของเรามี