Analizuj dokumenty programu Word przy użyciu interfejsu API REST w języku Python

Darmowy internetowy parser DOCX jest przeznaczony do wyodrębniania tekstu, obrazów i obrazów z plików DOCX lub DOC. — *Analizuj dokumenty programu Word przy użyciu interfejsu API REST w języku Python*

W różnych przypadkach może być konieczne przeanalizowanie dokumentów programu Word i wyodrębnienie obrazów lub tekstu. Wyodrębnianie obrazów i tekstu z dokumentów programu Word może być pomocne w analizie tekstu, ponownym wykorzystaniu lub połączeniu ich w inne dokumenty. Możemy łatwo przeanalizować pliki DOC lub DOCX i programowo wyodrębnić wszystkie obrazy/tekst w chmurze. W tym artykule dowiemy się, jak analizować dokumenty Worda za pomocą REST API w Python.

W tym artykule zostaną omówione następujące tematy:

Interfejs API REST parsera dokumentów programu Word i zestaw SDK języka Python
Analizuj dokumenty programu Word i wyodrębniaj obrazy za pomocą interfejsu API REST w języku Python
Wyodrębnij tekst z dokumentów programu Word przy użyciu interfejsu API REST w języku Python

Interfejs API REST parsera dokumentów programu Word i zestaw SDK języka Python

Do analizowania dokumentów Word będziemy używać Python SDK of GroupDocs.Parser Cloud API. Zainstaluj go, używając następującego polecenia w konsoli, aby przeanalizować dokument:

pip install groupdocs_parser_cloud

Proszę uzyskaj swój identyfikator klienta i klucz tajny z pulpitu nawigacyjnego przed wykonaniem wspomnianych kroków. Po uzyskaniu identyfikatora i tajnego kodu dodaj kod, jak pokazano poniżej:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Analizuj dokumenty programu Word i wyodrębniaj obrazy za pomocą interfejsu API REST w języku Python

Możemy analizować dokumenty programu Word i wyodrębniać obrazy programowo, wykonując czynności podane poniżej:

Prześlij plik DOCX do chmury
Wyodrębnij obrazy z dokumentów programu Word za pomocą Python
Pobierz wyodrębnione obrazy

Prześlij dokument

Najpierw prześlemy dokument Word (DOCX) do chmury, korzystając z przykładowego kodu podanego poniżej:

# Utwórz instancję interfejsu API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Utwórz prośbę o przesłanie pliku
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# Przesyłanie pliku
response = file_api.upload_file(request)

W rezultacie przesłany plik DOCX będzie dostępny w sekcji plików pulpitu nawigacyjnego w chmurze.

Wyodrębnij obrazy z dokumentów programu Word za pomocą Python

Możemy łatwo programowo wyodrębnić wszystkie obrazy z dokumentów Word, wykonując czynności podane poniżej.

Najpierw utwórz instancję ParseApi.
Następnie utwórz instancję klasy FileInfo.
Następnie ustaw ścieżkę do wejściowego pliku DOCX.
Następnie utwórz wystąpienie ImageOptions.
Następnie przypisz FileInfo do ImageOptions.
Następnie utwórz ImagesRequest z ImageOptions jako argumentem.
Na koniec wyodrębnij obrazy, wywołując metodę ParseApi.images() z ImageRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z pliku DOCX przy użyciu interfejsu API REST do analizy dokumentów w języku Python.

# Inicjalizacja interfejsu API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Utwórz prośbę o obrazy
request = groupdocs_parser_cloud.ImagesRequest(options)

# Uzyskaj obrazy
result = parseApi.images(request)

Parsuj Word DOCX i wyodrębniaj obrazy za pomocą python parse word docx — Analizuj dokumenty programu Word i wyodrębniaj obrazy za pomocą interfejsu API REST programu Word Parser Online w języku Python.

Pobierz wyodrębnione obrazy

Powyższy przykładowy kod zapisze wyodrębnione obrazy za pomocą parsera pliku Word w chmurze. Możemy pobrać te obrazy, korzystając z przykładowego kodu podanego poniżej:

# Inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# Pobierz listę plików
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# Pobierz obrazy jeden po drugim
for data in response.value:
    # Utwórz żądanie pobrania pliku
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # Pobieranie pliku
    response = file_api.download_file(request)
    # Przenieś pobrany plik do katalogu roboczego
    shutil.move(response, "C:\\Files\\parser\\")

Wyodrębnij tekst z dokumentów programu Word za pomocą interfejsu API REST w języku Python

Możemy łatwo programowo wyodrębnić cały tekst z dokumentów Word, wykonując czynności podane poniżej.

Najpierw utwórz instancję ParseApi.
Następnie utwórz instancję klasy FileInfo.
Następnie ustaw ścieżkę do wejściowego pliku DOCX.
Następnie utwórz instancję TextOptions.
Następnie przypisz FileInfo do TextOptions.
Następnie utwórz TextRequest z TextOptions jako argumentem.
Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.

Poniższy przykład kodu pokazuje, jak wyodrębnić tekst z pliku DOCX przy użyciu interfejsu API REST parsera docx.

# Inicjalizacja interfejsu API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Zdefiniuj opcje tekstu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Utwórz prośbę tekstową
request = groupdocs_parser_cloud.TextRequest(options)

# Pobierz tekst
result = parseApi.text(request)
print("Text: " + result.text)

Wyodrębnij tekst z dokumentów Word DOCX za pomocą REST API w Python — Wyodrębnij tekst z dokumentów programu Word przy użyciu interfejsu API REST w języku Python.

Wypróbuj online

Jak bezpłatnie korzystać z oprogramowania do analizowania dokumentów online? Wypróbuj następujące bezpłatne narzędzie online DOCX Parsing, które zostało opracowane przy użyciu powyższego interfejsu API Python do analizowania dokumentów tekstowych. https://products.groupdocs.app/parser/docx

Wniosek

W tym artykule nauczyliśmy się, jak analizować dokumenty Worda za pomocą parsera słów w chmurze. Widzieliśmy również, jak wyodrębnić obrazy i tekst z plików DOCX za pomocą parse docx Python. W tym artykule wyjaśniono również, jak programowo przesłać plik DOCX do chmury i pobrać wyodrębnione obrazy z chmury. Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności dotyczących analizowania dokumentów i analizowania plików, prosimy o kontakt na forum.

Interfejs API REST parsera dokumentów programu Word i zestaw SDK języka Python#

Analizuj dokumenty programu Word i wyodrębniaj obrazy za pomocą interfejsu API REST w języku Python#

Prześlij dokument#

Wyodrębnij obrazy z dokumentów programu Word za pomocą Python#

Pobierz wyodrębnione obrazy#

Wyodrębnij tekst z dokumentów programu Word za pomocą interfejsu API REST w języku Python#

Wypróbuj online#

Wniosek#

Zobacz też#