Python trích xuất văn bản từ tài liệu PDF

PDF (Định dạng Tài liệu Di động) là một trong những định dạng tệp quan trọng và được sử dụng rộng rãi nhất được sử dụng để trình bày và trao đổi tài liệu. Là một nhà phát triển python, có nhiều tình huống mà bạn sẽ muốn trích xuất văn bản từ tài liệu PDF và xuất nó ở định dạng khác bằng Python để phân tích văn bản. Trong bài đăng này, chúng tôi sẽ chỉ cho bạn cách trích xuất chính xác văn bản từ tài liệu PDF bằng GroupDocs.Conversion Cloud SDK for Python.

GroupDocs.Conversion Cloud là một giải pháp API REST độc lập với nền tảng để chuyển đổi tài liệu và hình ảnh mà không phụ thuộc vào bất kỳ ứng dụng bên thứ ba nào. Nó chuyển đổi hơn 50 loại tài liệu từ định dạng này sang định dạng khác. Nó cung cấp SDK cho tất cả các ngôn ngữ lập trình phổ biến bao gồm cả Python, vì vậy các nhà phát triển có thể sử dụng API trực tiếp trong các ứng dụng của họ mà không phải lo lắng về các lệnh gọi API REST cơ bản.

Hãy để chúng tôi bắt đầu mã:

Cài đặt gói GroupDocs.Conversion Cloud

Trước tiên, hãy cài đặt gói groupdocs-conversion-cloud từ pypi bằng lệnh sau.

>pip cài đặt groupdocs-conversion-cloud

Ví dụ trích xuất văn bản Python PDF

Chúng tôi sẽ làm theo các bước sau để trích xuất văn bản từ Tài liệu PDF:

  • Đăng ký miễn phí với groupdocs.cloud to get your AppSID and AppKey
  • Tạo một mô-đun python và sao chép, dán đoạn mã sau vào đó. Chúng tôi đã sử dụng các tùy chọn mặc định để trích xuất văn bản của tài liệu PDF. Bạn cũng có thể trích xuất văn bản của các trang cụ thể bằng cách sử dụng Tùy chọn Chuyển đổi của định dạng văn bản.
# Nhập mô-đun
import groupdocs_conversion_cloud

# Nhận app_sid và app_key của bạn tại https://dashboard.groupdocs.cloud (yêu cầu đăng ký miễn phí).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Tạo phiên bản của API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Chạy mã trong IDE yêu thích của bạn, bạn sẽ nhận được đầu ra sau và thế là xong. Nhiệm vụ đã hoàn thành!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

Vui lòng gửi nhận xét cho chúng tôi tại diễn đàn hỗ trợ để chia sẻ suy nghĩ của bạn về GroupDocs.Conversion Cloud API. Hoặc cho chúng tôi biết nếu bạn có bất kỳ đề xuất nào hoặc nếu bạn cần bất kỳ tính năng cụ thể nào mà bạn muốn API REST của chúng tôi có.