Free Online DOCX Parser è progettato per estrarre testo, immagini e immagini da DOCX o DOC.

Analizza i documenti di Word utilizzando l’API REST in Python

In vari casi, potremmo aver bisogno di analizzare documenti Word ed estrarre immagini o testo. L’estrazione di immagini e testo da documenti Word può essere utile per analizzare il testo, riutilizzarli o combinarli in altri documenti. Possiamo facilmente analizzare i file DOC o DOCX ed estrarre tutte le immagini/testo in modo programmatico sul cloud. In questo articolo impareremo come analizzare i documenti di Word utilizzando un’API REST in Python.

In questo articolo saranno trattati i seguenti argomenti:

API REST di Word Document Parser e Python SDK

Per l’analisi dei documenti di Word, utilizzeremo l’API Python SDK of GroupDocs.Parser Cloud. Si prega di installarlo utilizzando il seguente comando nella console per analizzare un documento:

pip install groupdocs_parser_cloud

Si prega di ottenere l’ID cliente e il segreto dalla dashboard prima di seguire i passaggi menzionati. Una volta che hai il tuo ID e segreto, aggiungi il codice come mostrato di seguito:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Analizza documenti Word ed estrai immagini utilizzando l’API REST in Python

Possiamo analizzare i documenti di Word ed estrarre le immagini a livello di codice seguendo i passaggi indicati di seguito:

Carica il documento

Innanzitutto, caricheremo il documento Word (DOCX) nel Cloud utilizzando l’esempio di codice riportato di seguito:

# Crea un'istanza dell'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Crea richiesta di caricamento file
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# Caricare un file
response = file_api.upload_file(request)

Di conseguenza, il file DOCX caricato sarà disponibile nella sezione file della dashboard sul cloud.

Estrai immagini da documenti Word usando Python

Possiamo facilmente estrarre tutte le immagini dai documenti di Word in modo programmatico seguendo i passaggi indicati di seguito.

  • Innanzitutto, crea un’istanza di ParseApi.
  • Successivamente, crea un’istanza di FileInfo.
  • Quindi, imposta il percorso del file DOCX di input.
  • Successivamente, crea un’istanza di ImageOptions.
  • Quindi, assegna FileInfo a ImageOptions.
  • Successivamente, crea ImagesRequest con ImageOptions come argomento.
  • Infine, estrai le immagini chiamando il metodo ParseApi.images() con ImageRequest.

L’esempio di codice seguente mostra come estrarre immagini da un file DOCX usando l’API REST di analisi dei documenti in Python.

# Inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Definire le opzioni dell'immagine
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Crea richiesta immagini
request = groupdocs_parser_cloud.ImagesRequest(options)

# Ottieni immagini
result = parseApi.images(request)
Analizza Word DOCX ed estrai immagini usando python parse word docx

Analizza documenti Word ed estrai immagini utilizzando l’API REST di Word Parser Online in Python.

Scarica le immagini estratte

L’esempio di codice precedente salverà le immagini estratte con il parser di file di parole sul cloud. Possiamo scaricare queste immagini utilizzando l’esempio di codice fornito di seguito:

# Inizializzazione dell'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# Ottieni l'elenco dei file
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# Scarica le immagini una per una
for data in response.value:
    # Crea richiesta di download del file
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # Download file
    response = file_api.download_file(request)
    # Sposta il file scaricato nella tua directory di lavoro
    shutil.move(response, "C:\\Files\\parser\\")

Estrai testo da documenti Word utilizzando l’API REST in Python

Possiamo facilmente estrarre tutto il testo dai documenti di Word a livello di codice seguendo i passaggi indicati di seguito.

  • Innanzitutto, crea un’istanza di ParseApi.
  • Successivamente, crea un’istanza di FileInfo.
  • Quindi, imposta il percorso del file DOCX di input.
  • Successivamente, crea un’istanza di TextOptions.
  • Quindi, assegna FileInfo a TextOptions.
  • Successivamente, crea TextRequest con TextOptions come argomento.
  • Infine, ottieni risultati chiamando il metodo ParseApi.text() con TextRequest.

L’esempio di codice seguente mostra come estrarre il testo da un file DOCX usando l’API REST del parser docx.

# Inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Definire le opzioni di testo
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Crea richiesta di testo
request = groupdocs_parser_cloud.TextRequest(options)

# Ottieni testo
result = parseApi.text(request)
print("Text: " + result.text)
Estrai testo da documenti Word DOCX utilizzando l'API REST in Python

Estrai testo da documenti Word utilizzando l’API REST in Python.

Prova in linea

Come utilizzare gratuitamente il software di analisi dei documenti online? Si prega di provare il seguente strumento di analisi DOCX online gratuito, che è stato sviluppato utilizzando l’API python del documento di parole di analisi sopra. https://products.groupdocs.app/parser/docx

Conclusione

In questo articolo, abbiamo imparato come analizzare i documenti di Word utilizzando il parser di parole sul cloud. Abbiamo anche visto come estrarre immagini e testo da file DOCX usando parse docx Python. Questo articolo spiega anche come caricare in modo programmatico un file DOCX nel cloud e scaricare le immagini estratte dal cloud. Inoltre, puoi saperne di più su GroupDocs.Parser Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser. In caso di ambiguità sull’analisi dei documenti e sull’analisi dei file, non esitate a contattarci sul forum.

Guarda anche