免費在線 DOCX 解析器旨在從 DOCX 或 DOC 中提取文本、圖像和圖片。

在 Python 中使用 REST API 解析 Word 文檔

在各種情況下,我們可能需要解析Word文檔並提取圖像或文本。從 Word 文檔中提取圖像和文本有助於分析文本、重複使用或將它們組合到其他文檔中。我們可以輕鬆地解析 DOCDOCX 文件,並以編程方式在雲端提取所有圖像/文本。在本文中,我們將學習如何在 Python 中使用 REST API 解析 Word 文檔。

本文應涵蓋以下主題:

Word 文檔解析器 REST API 和 Python SDK

對於解析 Word 文檔,我們將使用 GroupDocs.Parser Cloud 的 Python SDK API。請在控制台中使用以下命令安裝它以解析文檔:

pip install groupdocs_parser_cloud

在執行上述步驟之前,請從儀表板獲取您的客戶端 ID 和密碼。獲得 ID 和密碼後,添加如下所示的代碼:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

在 Python 中使用 REST API 解析 Word 文檔和提取圖像

我們可以按照以下步驟以編程方式解析 Word 文檔並提取圖像:

上傳文件

首先,我們將使用下面給出的代碼示例將 Word 文檔 (DOCX) 上傳到雲端:

# 創建 API 實例
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# 創建上傳文件請求
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# 上傳文件
response = file_api.upload_file(request)

因此,上傳的 DOCX 文件將在雲端儀表板的 文件部分 中可用。

使用 Python 從 Word 文檔中提取圖像

按照下面給出的步驟,我們可以輕鬆地以編程方式從 Word 文檔中提取所有圖像。

  • 首先,創建 ParseApi 的實例。
  • 接下來,創建 FileInfo 的一個實例。
  • 然後,設置輸入 DOCX 文件的路徑。
  • 接下來,創建 ImageOptions 的實例。
  • 然後,將 FileInfo 分配給 ImageOptions。
  • 之後,使用 ImageOptions 作為參數創建 ImagesRequest。
  • 最後,通過使用 ImageRequest 調用 ParseApi.images() 方法來提取圖像。

以下代碼示例顯示瞭如何使用 Python 中的文檔解析 REST API 從 DOCX 文件中提取圖像。

# API初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定義圖像選項
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# 創建圖像請求
request = groupdocs_parser_cloud.ImagesRequest(options)

# 獲取圖像
result = parseApi.images(request)
使用python parse word docx解析Word DOCX並提取圖像

在 Python 中使用 Word Parser Online REST API 解析 Word 文檔和提取圖像。

下載提取的圖像

上面的代碼示例將使用 word 文件解析器將提取的圖像保存在雲端。我們可以使用下面給出的代碼示例下載這些圖像:

# API初始化
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# 獲取文件列表
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# 一張一張下載圖片
for data in response.value:
    # 創建下載文件請求
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # 下載文件
    response = file_api.download_file(request)
    # 將下載的文件移動到您的工作目錄
    shutil.move(response, "C:\\Files\\parser\\")

在 Python 中使用 REST API 從 Word 文檔中提取文本

按照下面給出的步驟,我們可以輕鬆地以編程方式從 Word 文檔中提取所有文本。

  • 首先,創建 ParseApi 的實例。
  • 接下來,創建 FileInfo 的一個實例。
  • 然後,設置輸入 DOCX 文件的路徑。
  • 接下來,創建 TextOptions 的實例。
  • 然後,將 FileInfo 分配給 TextOptions。
  • 之後,使用 TextOptions 作為參數創建 TextRequest。
  • 最後,使用 TextRequest 調用 ParseApi.text() 方法獲取結果。

以下代碼示例展示瞭如何使用 docx 解析器 REST API 從 DOCX 文件中提取文本。

# API初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定義文本選項
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# 創建文本請求
request = groupdocs_parser_cloud.TextRequest(options)

# 獲取文本
result = parseApi.text(request)
print("Text: " + result.text)
在 Python 中使用 REST API 從 Word 文檔 DOCX 中提取文本

在 Python 中使用 REST API 從 Word 文檔中提取文本。

在線試用

如何免費使用在線文檔解析軟件?請試用以下免費的在線DOCX解析工具,該工具是使用上述解析word文檔python API開發的。 https://products.groupdocs.app/parser/docx

結論

在本文中,我們學習瞭如何使用雲端的Word解析器來解析Word文檔。我們還了解瞭如何使用 parse docx Python 從 DOCX 文件中提取圖像和文本。本文還介紹瞭如何以編程方式將 DOCX 文件上傳到雲端並從雲端下載提取的圖像。此外,您可以使用 文檔 了解有關 GroupDocs.Parser Cloud API 的更多信息。我們還提供了一個 API 參考 部分,讓您可以直接通過瀏覽器可視化我們的 API 並與之交互。如果對文檔解析和解析文件有任何歧義,請隨時在論壇上與我們聯繫。

也可以看看