Trình phân tích cú pháp DOCX trực tuyến miễn phí được thiết kế để trích xuất văn bản, hình ảnh và tranh ảnh từ DOCX hoặc DOC.

Phân tích tài liệu Word bằng API REST trong Python

Trong nhiều trường hợp, chúng tôi có thể cần phân tích cú pháp tài liệu Word và trích xuất hình ảnh hoặc văn bản. Trích xuất hình ảnh và văn bản từ tài liệu Word có thể hữu ích để phân tích văn bản, sử dụng lại hoặc kết hợp chúng vào các tài liệu khác. Chúng tôi có thể dễ dàng phân tích các tệp DOC hoặc DOCX và trích xuất tất cả hình ảnh/văn bản theo chương trình trên đám mây. Trong bài viết này, chúng ta sẽ tìm hiểu cách phân tích cú pháp tài liệu Word bằng API REST trong Python.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

Trình phân tích cú pháp tài liệu Word API REST và Python SDK

Để phân tích cú pháp tài liệu Word, chúng tôi sẽ sử dụng Python SDK của GroupDocs.Parser Cloud API. Vui lòng cài đặt nó bằng lệnh sau trong bảng điều khiển để phân tích tài liệu:

pip install groupdocs_parser_cloud

Vui lòng lấy Client ID và Secret của bạn từ bảng điều khiển trước khi làm theo các bước được đề cập. Khi bạn có ID và bí mật của mình, hãy thêm mã như hình bên dưới:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Phân tích tài liệu Word và trích xuất hình ảnh bằng API REST trong Python

Chúng tôi có thể phân tích cú pháp tài liệu Word và trích xuất hình ảnh theo chương trình bằng cách thực hiện theo các bước dưới đây:

Tải lên tài liệu

Đầu tiên, chúng tôi sẽ tải tài liệu Word (DOCX) lên Đám mây bằng ví dụ mã được cung cấp bên dưới:

# Tạo phiên bản của API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Tạo yêu cầu tệp tải lên
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# Cập nhật dử liệu
response = file_api.upload_file(request)

Do đó, tệp DOCX đã tải lên sẽ có sẵn trong phần tệp của trang tổng quan trên đám mây.

Trích xuất hình ảnh từ tài liệu Word bằng Python

Chúng tôi có thể dễ dàng trích xuất tất cả các hình ảnh từ tài liệu Word theo chương trình bằng cách làm theo các bước dưới đây.

  • Đầu tiên, tạo một phiên bản của ParseApi.
  • Tiếp theo, tạo một phiên bản của FileInfo.
  • Sau đó, đặt đường dẫn đến tệp DOCX đầu vào.
  • Tiếp theo, tạo một thể hiện của ImageOptions.
  • Sau đó, gán FileInfo cho ImageOptions.
  • Sau đó, tạo ImagesRequest với ImageOptions làm đối số.
  • Cuối cùng, trích xuất hình ảnh bằng cách gọi phương thức ParseApi.images() với ImageRequest.

Mẫu mã sau đây cho biết cách trích xuất hình ảnh từ tệp DOCX bằng cách sử dụng API REST phân tích cú pháp tài liệu trong Python.

# khởi tạo API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Xác định các tùy chọn hình ảnh
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Tạo yêu cầu hình ảnh
request = groupdocs_parser_cloud.ImagesRequest(options)

# Nhận hình ảnh
result = parseApi.images(request)
Phân tích cú pháp Word DOCX và trích xuất Hình ảnh bằng python

Phân tích tài liệu Word và trích xuất hình ảnh bằng Word Parser Online REST API trong Python.

Tải xuống hình ảnh được trích xuất

Mẫu mã trên sẽ lưu các hình ảnh được trích xuất với trình phân tích cú pháp tệp từ trên đám mây. Chúng tôi có thể tải xuống những hình ảnh này bằng ví dụ mã được cung cấp bên dưới:

# khởi tạo API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# Nhận danh sách tập tin
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# Tải xuống từng hình ảnh một
for data in response.value:
    # Tạo yêu cầu tệp tải xuống
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # Tải tập tin
    response = file_api.download_file(request)
    # Di chuyển tệp đã tải xuống vào thư mục làm việc của bạn
    shutil.move(response, "C:\\Files\\parser\\")

Trích xuất văn bản từ tài liệu Word bằng API REST trong Python

Chúng ta có thể dễ dàng trích xuất tất cả văn bản từ tài liệu Word theo chương trình bằng cách làm theo các bước dưới đây.

  • Đầu tiên, tạo một phiên bản của ParseApi.
  • Tiếp theo, tạo một phiên bản của FileInfo.
  • Sau đó, đặt đường dẫn đến tệp DOCX đầu vào.
  • Tiếp theo, tạo một thể hiện của TextOptions.
  • Sau đó, gán FileInfo cho TextOptions.
  • Sau đó, tạo TextRequest với TextOptions làm đối số.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() với TextRequest.

Ví dụ mã sau đây cho biết cách trích xuất văn bản từ tệp DOCX bằng cách sử dụng API REST của trình phân tích cú pháp docx.

# khởi tạo API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Xác định các tùy chọn văn bản
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Tạo văn bản yêu cầu
request = groupdocs_parser_cloud.TextRequest(options)

# Nhận văn bản
result = parseApi.text(request)
print("Text: " + result.text)
Trích xuất văn bản từ tài liệu Word DOCX bằng API REST trong Python

Trích xuất văn bản từ Tài liệu Word bằng API REST trong Python.

Thử trực tuyến

Làm thế nào để sử dụng phần mềm phân tích tài liệu trực tuyến miễn phí? Vui lòng thử công cụ Phân tích cú pháp DOCX trực tuyến miễn phí sau đây. Công cụ này được phát triển bằng cách sử dụng API python phân tích cú pháp tài liệu từ ở trên. https://products.groupdocs.app/parser/docx

Phần kết luận

Trong bài viết này, chúng ta đã học cách phân tích cú pháp tài liệu Word bằng trình phân tích cú pháp từ trên đám mây. Chúng ta cũng đã biết cách trích xuất hình ảnh và văn bản từ các tệp DOCX bằng cách sử dụng phân tích cú pháp docx Python. Bài viết này cũng giải thích cách lập trình tải tệp DOCX lên đám mây và tải xuống các hình ảnh được trích xuất từ Đám mây. Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Trong trường hợp có bất kỳ sự mơ hồ nào về phân tích cú pháp tài liệu và phân tích tệp, vui lòng liên hệ với chúng tôi trên diễn đàn.

Xem thêm