在各種情況下,我們可能需要解析Word文檔並提取圖像或文本。從 Word 文檔中提取圖像和文本有助於分析文本、重複使用或將它們組合到其他文檔中。我們可以輕鬆地解析 DOC 或 DOCX 文件,並以編程方式在雲端提取所有圖像/文本。在本文中,我們將學習如何在 Python 中使用 REST API 解析 Word 文檔。
本文應涵蓋以下主題:
- Word 文檔解析器 REST API 和 Python SDK
- 在 Python 中使用 REST API 解析 Word 文檔和提取圖像
- 在 Python 中使用 REST API 從 Word 文檔中提取文本
Word 文檔解析器 REST API 和 Python SDK
對於解析 Word 文檔,我們將使用 GroupDocs.Parser Cloud 的 Python SDK API。請在控制台中使用以下命令安裝它以解析文檔:
pip install groupdocs_parser_cloud
在執行上述步驟之前,請從儀表板獲取您的客戶端 ID 和密碼。獲得 ID 和密碼後,添加如下所示的代碼:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
在 Python 中使用 REST API 解析 Word 文檔和提取圖像
我們可以按照以下步驟以編程方式解析 Word 文檔並提取圖像:
- 上傳DOCX文件到雲端
- 使用 Python 從 Word 文檔中提取圖像
- 下載提取的圖片
上傳文件
首先,我們將使用下面給出的代碼示例將 Word 文檔 (DOCX) 上傳到雲端:
# 創建 API 實例
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# 創建上傳文件請求
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# 上傳文件
response = file_api.upload_file(request)
因此,上傳的 DOCX 文件將在雲端儀表板的 文件部分 中可用。
使用 Python 從 Word 文檔中提取圖像
按照下面給出的步驟,我們可以輕鬆地以編程方式從 Word 文檔中提取所有圖像。
- 首先,創建 ParseApi 的實例。
- 接下來,創建 FileInfo 的一個實例。
- 然後,設置輸入 DOCX 文件的路徑。
- 接下來,創建 ImageOptions 的實例。
- 然後,將 FileInfo 分配給 ImageOptions。
- 之後,使用 ImageOptions 作為參數創建 ImagesRequest。
- 最後,通過使用 ImageRequest 調用 ParseApi.images() 方法來提取圖像。
以下代碼示例顯示瞭如何使用 Python 中的文檔解析 REST API 從 DOCX 文件中提取圖像。
# API初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 定義圖像選項
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# 創建圖像請求
request = groupdocs_parser_cloud.ImagesRequest(options)
# 獲取圖像
result = parseApi.images(request)
下載提取的圖像
上面的代碼示例將使用 word 文件解析器將提取的圖像保存在雲端。我們可以使用下面給出的代碼示例下載這些圖像:
# API初始化
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# 獲取文件列表
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# 一張一張下載圖片
for data in response.value:
# 創建下載文件請求
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# 下載文件
response = file_api.download_file(request)
# 將下載的文件移動到您的工作目錄
shutil.move(response, "C:\\Files\\parser\\")
在 Python 中使用 REST API 從 Word 文檔中提取文本
按照下面給出的步驟,我們可以輕鬆地以編程方式從 Word 文檔中提取所有文本。
- 首先,創建 ParseApi 的實例。
- 接下來,創建 FileInfo 的一個實例。
- 然後,設置輸入 DOCX 文件的路徑。
- 接下來,創建 TextOptions 的實例。
- 然後,將 FileInfo 分配給 TextOptions。
- 之後,使用 TextOptions 作為參數創建 TextRequest。
- 最後,使用 TextRequest 調用 ParseApi.text() 方法獲取結果。
以下代碼示例展示瞭如何使用 docx 解析器 REST API 從 DOCX 文件中提取文本。
# API初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 定義文本選項
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# 創建文本請求
request = groupdocs_parser_cloud.TextRequest(options)
# 獲取文本
result = parseApi.text(request)
print("Text: " + result.text)
在線試用
如何免費使用在線文檔解析軟件?請試用以下免費的在線DOCX解析工具,該工具是使用上述解析word文檔python API開發的。 https://products.groupdocs.app/parser/docx
結論
在本文中,我們學習瞭如何使用雲端的Word解析器來解析Word文檔。我們還了解瞭如何使用 parse docx Python 從 DOCX 文件中提取圖像和文本。本文還介紹瞭如何以編程方式將 DOCX 文件上傳到雲端並從雲端下載提取的圖像。此外,您可以使用 文檔 了解有關 GroupDocs.Parser Cloud API 的更多信息。我們還提供了一個 API 參考 部分,讓您可以直接通過瀏覽器可視化我們的 API 並與之交互。如果對文檔解析和解析文件有任何歧義,請隨時在論壇上與我們聯繫。