Trích xuất văn bản từ PDF bằng Python

Bạn có thể cần đọc và trích xuất văn bản từ tài liệu PDF trong các ứng dụng Python của mình. Vì vậy, với tư cách là nhà phát triển Python, bạn có thể dễ dàng trích xuất tất cả văn bản từ tài liệu PDF theo chương trình trên đám mây. Bài viết này sẽ giải thích cách trích xuất văn bản từ tài liệu PDF bằng API REST trong Python.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

Trình phân tích cú pháp tài liệu API REST và Python SDK

Để trích xuất văn bản từ tài liệu PDF, tôi sẽ sử dụng Python SDK của GroupDocs.Parser Cloud API. Nó cho phép python lấy văn bản từ pdf và phân tích dữ liệu từ tất cả các loại tài liệu phổ biến. Bạn có thể trích xuất văn bản, hình ảnh và phân tích cú pháp dữ liệu theo mẫu bằng cách sử dụng SDK. Nó cũng cung cấp SDK .NET, Java, PHP, Ruby và Node.js dưới dạng các thành viên trong họ trình phân tích cú pháp tài liệu cho Cloud API.

Bạn có thể cài đặt GroupDocs.Parser Cloud cho dự án Python của mình bằng pip (trình cài đặt gói cho python) bằng cách sử dụng lệnh sau trong bảng điều khiển:

pip install groupdocs_parser_cloud

Vui lòng lấy ID khách hàng và Bí mật khách hàng của bạn từ bảng điều khiển trước khi bạn bắt đầu làm theo các bước và ví dụ về mã có sẵn. Khi bạn có ID khách hàng và Bí mật, hãy thêm mã như hình bên dưới:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Trích xuất văn bản từ PDF bằng API REST trong Python

Bạn có thể trích xuất văn bản từ tài liệu PDF bằng cách thực hiện theo các bước đơn giản dưới đây:

Tải lên tài liệu

Trước hết, hãy tải lên tài liệu PDF để lấy văn bản từ pdf python bằng cách sử dụng mã ví dụ dưới đây:

# khởi tạo api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Do đó, tệp PDF đã tải lên (sample.pdf) sẽ có trong phần tệp trên trang tổng quan của bạn trên đám mây. Bây giờ bạn đã sẵn sàng trích xuất nội dung từ pdf.

Trích xuất văn bản từ tài liệu PDF bằng Python

Bạn có thể dễ dàng trích xuất văn bản từ pdf bằng python theo lập trình bằng cách thực hiện theo các bước được đề cập bên dưới.

  • Tạo một phiên bản của ParseApi
  • Xác định TextOptions
  • Đặt đường dẫn đến tệp PDF
  • Tạo văn bảnRequest
  • Nhận kết quả bằng cách gọi phương thức ParseApi.text()

Mẫu mã sau đây cho biết cách trích xuất tất cả văn bản từ tài liệu PDF bằng API REST.

# khởi tạo api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# xác định các tùy chọn văn bản
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Trích xuất văn bản từ toàn bộ tài liệu

Trích xuất văn bản từ toàn bộ tài liệu

Đọc văn bản theo số trang từ tài liệu PDF bằng Python

Bạn có thể dễ dàng trích xuất văn bản từ các trang cụ thể của tệp PDF theo chương trình bằng cách thực hiện theo các bước được đề cập bên dưới.

  • Tạo một phiên bản của ParseApi
  • Xác định TextOptions
  • Cung cấp đường dẫn đến tệp PDF
  • Đặt số trang bắt đầu
  • đặt số lượng trang để trích xuất
  • Tạo văn bảnRequest
  • Nhận kết quả bằng cách gọi phương thức ParseApi.text()

Mẫu mã sau đây cho biết cách trích xuất các từ từ pdf bằng Python theo phạm vi số trang bằng cách sử dụng API REST.

# khởi tạo api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# xác định các tùy chọn văn bản
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Trích xuất văn bản từ tệp pdf theo Phạm vi số trang

Trích xuất văn bản theo dãy số trang

Nhận văn bản từ tài liệu được đính kèm với PDF bằng Python

Bạn có thể trích xuất văn bản từ tài liệu bên trong vùng chứa, có sẵn dưới dạng tệp đính kèm trong tệp PDF theo chương trình bằng cách thực hiện theo các bước được đề cập bên dưới.

  • Tạo một phiên bản của ParseApi
  • Xác định TextOptions
  • Đặt đường dẫn đến tệp PDF
  • Xác định ContainerItemInfo
  • Cung cấp đường dẫn tương đối của tài liệu bên trong
  • Đặt số trang bắt đầu
  • đặt số lượng trang để trích xuất
  • Tạo văn bảnRequest
  • Nhận kết quả bằng cách gọi phương thức ParseApi.text()

Mẫu mã sau đây cho biết cách trích xuất văn bản từ tài liệu bên trong tài liệu PDF bằng API REST.

# khởi tạo api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# xác định các tùy chọn văn bản
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Trích xuất văn bản từ tài liệu bên trong vùng chứa

Trích xuất văn bản từ tài liệu bên trong vùng chứa

Thử trực tuyến

Làm cách nào để trích xuất văn bản từ pdf trực tuyến miễn phí? Vui lòng thử công cụ Phân tích cú pháp PDF trực tuyến miễn phí sau đây để trích xuất văn bản từ pdf miễn phí. Trình trích xuất văn bản pdf này được phát triển bằng API trên. https://products.groupdocs.app/parser/pdf

Phần kết luận

Trong bài viết này, bạn đã học cách trích xuất văn bản từ tài liệu PDF trên đám mây. Bài viết này cũng giải thích cách lập trình tải tệp PDF lên đám mây và trình trích xuất văn bản pdf trực tuyến. Hơn nữa, chúng tôi cũng đã học cách chỉ trích xuất văn bản từ pdf theo số trang và trích xuất văn bản python từ pdf từ tài liệu đính kèm.

Bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Trong trường hợp có bất kỳ sự mơ hồ nào về trích xuất văn bản pdf và trích xuất văn bản từ pdf python, vui lòng liên hệ với chúng tôi trên diễn đàn.

Xem thêm