Zdarma online analyzátor DOCX je určen k extrahování textu, obrázků a obrázků z DOCX nebo DOC.

Analyzujte dokumenty Word pomocí REST API v Pythonu

V různých případech můžeme potřebovat analyzovat dokumenty aplikace Word a extrahovat obrázky nebo text. Extrakce obrázků a textu z dokumentů aplikace Word může být užitečná při analýze textu, opětovném použití nebo zkombinování do jiných dokumentů. Můžeme snadno analyzovat soubory DOC nebo DOCX a extrahovat všechny obrázky/text programově v cloudu. V tomto článku se naučíme, jak analyzovat dokumenty Wordu pomocí REST API v Pythonu.

Tento článek bude obsahovat následující témata:

REST API a Python SDK pro analýzu dokumentů aplikace Word

Pro analýzu dokumentů aplikace Word budeme používat Python SDK of GroupDocs.Parser Cloud API. Nainstalujte jej pomocí následujícího příkazu v konzole pro analýzu dokumentu:

pip install groupdocs_parser_cloud

Před provedením uvedených kroků získejte své ID klienta a tajný klíč z řídicího panelu. Jakmile budete mít své ID a tajemství, přidejte kód, jak je uvedeno níže:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Analyzujte dokumenty Wordu a extrahujte obrázky pomocí REST API v Pythonu

Můžeme analyzovat dokumenty aplikace Word a extrahovat obrázky programově podle následujících kroků:

Nahrajte dokument

Nejprve nahrajeme dokument Word (DOCX) do cloudu pomocí příkladu kódu uvedeného níže:

# Vytvořte instanci API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Vytvořit žádost o nahrání souboru
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# Nahrát soubor
response = file_api.upload_file(request)

V důsledku toho bude nahraný soubor DOCX dostupný v sekce souborů řídicího panelu v cloudu.

Extrahujte obrázky z dokumentů aplikace Word pomocí Pythonu

Všechny obrázky můžeme snadno programově extrahovat z dokumentů aplikace Word podle níže uvedených kroků.

  • Nejprve vytvořte instanci ParseApi.
  • Dále vytvořte instanci souboru FileInfo.
  • Poté nastavte cestu ke vstupnímu souboru DOCX.
  • Dále vytvořte instanci ImageOptions.
  • Poté přiřaďte FileInfo k ImageOptions.
  • Poté vytvořte ImagesRequest s ImageOptions jako argument.
  • Nakonec extrahujte obrázky voláním metody ParseApi.images() s ImageRequest.

Následující ukázka kódu ukazuje, jak extrahovat obrázky ze souboru DOCX pomocí REST API pro analýzu dokumentů v Pythonu.

# Inicializace API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Definujte možnosti obrázku
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Vytvořit žádost o obrázky
request = groupdocs_parser_cloud.ImagesRequest(options)

# Získejte obrázky
result = parseApi.images(request)
Analyzujte Word DOCX a extrahujte obrázky pomocí pythonu analyzujte slovo docx

Analyzujte dokumenty Wordu a extrahujte obrázky pomocí Word Parser Online REST API v Pythonu.

Stáhněte si extrahované obrázky

Výše uvedená ukázka kódu uloží extrahované obrázky pomocí analyzátoru souborů aplikace Word do cloudu. Tyto obrázky si můžeme stáhnout pomocí níže uvedeného příkladu kódu:

# Inicializace API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# Získejte seznam souborů
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# Stáhněte si obrázky jeden po druhém
for data in response.value:
    # Vytvořit požadavek na stažení souboru
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # Stáhnout soubor
    response = file_api.download_file(request)
    # Přesuňte stažený soubor do svého pracovního adresáře
    shutil.move(response, "C:\\Files\\parser\\")

Extrahujte text z dokumentů aplikace Word pomocí REST API v Pythonu

Můžeme snadno extrahovat veškerý text z dokumentů aplikace Word programově podle níže uvedených kroků.

  • Nejprve vytvořte instanci ParseApi.
  • Dále vytvořte instanci souboru FileInfo.
  • Poté nastavte cestu ke vstupnímu souboru DOCX.
  • Dále vytvořte instanci TextOptions.
  • Potom přiřaďte FileInfo k TextOptions.
  • Poté vytvořte TextRequest s argumentem TextOptions.
  • Nakonec získejte výsledky voláním metody ParseApi.text() s TextRequest.

Následující příklad kódu ukazuje, jak extrahovat text ze souboru DOCX pomocí REST API analyzátoru docx.

# Inicializace API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Definujte možnosti textu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Vytvořte textovou žádost
request = groupdocs_parser_cloud.TextRequest(options)

# Získejte text
result = parseApi.text(request)
print("Text: " + result.text)
Extrahujte text z dokumentů Word DOCX pomocí REST API v Pythonu

Extrahujte text z dokumentů aplikace Word pomocí REST API v Pythonu.

Vyzkoušejte online

Jak používat software pro analýzu dokumentů online zdarma? Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu DOCX, který je vyvinut pomocí výše uvedeného rozhraní API pro analýzu word document python. https://products.groupdocs.app/parser/docx

Závěr

V tomto článku jsme se naučili, jak analyzovat dokumenty aplikace Word pomocí analyzátoru slov v cloudu. Také jsme viděli, jak extrahovat obrázky a text ze souborů DOCX pomocí parse docx Python. Tento článek také vysvětlil, jak programově nahrát soubor DOCX do cloudu a stáhnout extrahované obrázky z cloudu. Kromě toho se můžete dozvědět více o GroupDocs.Parser Cloud API pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností ohledně analýzy dokumentů a parsování souborů nás prosím neváhejte kontaktovat na fóru.

Viz také