V různých případech můžeme potřebovat analyzovat dokumenty aplikace Word a extrahovat obrázky nebo text. Extrakce obrázků a textu z dokumentů aplikace Word může být užitečná při analýze textu, opětovném použití nebo zkombinování do jiných dokumentů. Můžeme snadno analyzovat soubory DOC nebo DOCX a extrahovat všechny obrázky/text programově v cloudu. V tomto článku se naučíme, jak analyzovat dokumenty Wordu pomocí REST API v Pythonu.
Tento článek bude obsahovat následující témata:
- REST API a Python SDK pro analýzu dokumentů aplikace Word
- Analyzujte dokumenty Wordu a extrahujte obrázky pomocí REST API v Pythonu
- Extrahujte text z dokumentů aplikace Word pomocí REST API v Pythonu
REST API a Python SDK pro analýzu dokumentů aplikace Word
Pro analýzu dokumentů aplikace Word budeme používat Python SDK of GroupDocs.Parser Cloud API. Nainstalujte jej pomocí následujícího příkazu v konzole pro analýzu dokumentu:
pip install groupdocs_parser_cloud
Před provedením uvedených kroků získejte své ID klienta a tajný klíč z řídicího panelu. Jakmile budete mít své ID a tajemství, přidejte kód, jak je uvedeno níže:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Analyzujte dokumenty Wordu a extrahujte obrázky pomocí REST API v Pythonu
Můžeme analyzovat dokumenty aplikace Word a extrahovat obrázky programově podle následujících kroků:
- Nahrajte soubor DOCX do cloudu
- Extrahujte obrázky z dokumentů Word pomocí Pythonu
- Stáhnout extrahované obrázky
Nahrajte dokument
Nejprve nahrajeme dokument Word (DOCX) do cloudu pomocí příkladu kódu uvedeného níže:
# Vytvořte instanci API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Vytvořit žádost o nahrání souboru
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# Nahrát soubor
response = file_api.upload_file(request)
V důsledku toho bude nahraný soubor DOCX dostupný v sekce souborů řídicího panelu v cloudu.
Extrahujte obrázky z dokumentů aplikace Word pomocí Pythonu
Všechny obrázky můžeme snadno programově extrahovat z dokumentů aplikace Word podle níže uvedených kroků.
- Nejprve vytvořte instanci ParseApi.
- Dále vytvořte instanci souboru FileInfo.
- Poté nastavte cestu ke vstupnímu souboru DOCX.
- Dále vytvořte instanci ImageOptions.
- Poté přiřaďte FileInfo k ImageOptions.
- Poté vytvořte ImagesRequest s ImageOptions jako argument.
- Nakonec extrahujte obrázky voláním metody ParseApi.images() s ImageRequest.
Následující ukázka kódu ukazuje, jak extrahovat obrázky ze souboru DOCX pomocí REST API pro analýzu dokumentů v Pythonu.
# Inicializace API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Definujte možnosti obrázku
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Vytvořit žádost o obrázky
request = groupdocs_parser_cloud.ImagesRequest(options)
# Získejte obrázky
result = parseApi.images(request)
Stáhněte si extrahované obrázky
Výše uvedená ukázka kódu uloží extrahované obrázky pomocí analyzátoru souborů aplikace Word do cloudu. Tyto obrázky si můžeme stáhnout pomocí níže uvedeného příkladu kódu:
# Inicializace API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# Získejte seznam souborů
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# Stáhněte si obrázky jeden po druhém
for data in response.value:
# Vytvořit požadavek na stažení souboru
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# Stáhnout soubor
response = file_api.download_file(request)
# Přesuňte stažený soubor do svého pracovního adresáře
shutil.move(response, "C:\\Files\\parser\\")
Extrahujte text z dokumentů aplikace Word pomocí REST API v Pythonu
Můžeme snadno extrahovat veškerý text z dokumentů aplikace Word programově podle níže uvedených kroků.
- Nejprve vytvořte instanci ParseApi.
- Dále vytvořte instanci souboru FileInfo.
- Poté nastavte cestu ke vstupnímu souboru DOCX.
- Dále vytvořte instanci TextOptions.
- Potom přiřaďte FileInfo k TextOptions.
- Poté vytvořte TextRequest s argumentem TextOptions.
- Nakonec získejte výsledky voláním metody ParseApi.text() s TextRequest.
Následující příklad kódu ukazuje, jak extrahovat text ze souboru DOCX pomocí REST API analyzátoru docx.
# Inicializace API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Definujte možnosti textu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Vytvořte textovou žádost
request = groupdocs_parser_cloud.TextRequest(options)
# Získejte text
result = parseApi.text(request)
print("Text: " + result.text)
Vyzkoušejte online
Jak používat software pro analýzu dokumentů online zdarma? Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu DOCX, který je vyvinut pomocí výše uvedeného rozhraní API pro analýzu word document python. https://products.groupdocs.app/parser/docx
Závěr
V tomto článku jsme se naučili, jak analyzovat dokumenty aplikace Word pomocí analyzátoru slov v cloudu. Také jsme viděli, jak extrahovat obrázky a text ze souborů DOCX pomocí parse docx Python. Tento článek také vysvětlil, jak programově nahrát soubor DOCX do cloudu a stáhnout extrahované obrázky z cloudu. Kromě toho se můžete dozvědět více o GroupDocs.Parser Cloud API pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností ohledně analýzy dokumentů a parsování souborů nás prosím neváhejte kontaktovat na fóru.