
Analizuj dokumenty programu Word przy użyciu interfejsu API REST w języku Python
W różnych przypadkach może być konieczne przeanalizowanie dokumentów programu Word i wyodrębnienie obrazów lub tekstu. Wyodrębnianie obrazów i tekstu z dokumentów programu Word może być pomocne w analizie tekstu, ponownym wykorzystaniu lub połączeniu ich w inne dokumenty. Możemy łatwo przeanalizować pliki DOC lub DOCX i programowo wyodrębnić wszystkie obrazy/tekst w chmurze. W tym artykule dowiemy się, jak analizować dokumenty Worda za pomocą REST API w Python.
W tym artykule zostaną omówione następujące tematy:
- Interfejs API REST parsera dokumentów programu Word i zestaw SDK języka Python
- Analizuj dokumenty programu Word i wyodrębniaj obrazy za pomocą interfejsu API REST w języku Python
- Wyodrębnij tekst z dokumentów programu Word przy użyciu interfejsu API REST w języku Python
Interfejs API REST parsera dokumentów programu Word i zestaw SDK języka Python
Do analizowania dokumentów Word będziemy używać Python SDK of GroupDocs.Parser Cloud API. Zainstaluj go, używając następującego polecenia w konsoli, aby przeanalizować dokument:
pip install groupdocs_parser_cloud
Proszę uzyskaj swój identyfikator klienta i klucz tajny z pulpitu nawigacyjnego przed wykonaniem wspomnianych kroków. Po uzyskaniu identyfikatora i tajnego kodu dodaj kod, jak pokazano poniżej:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Analizuj dokumenty programu Word i wyodrębniaj obrazy za pomocą interfejsu API REST w języku Python
Możemy analizować dokumenty programu Word i wyodrębniać obrazy programowo, wykonując czynności podane poniżej:
- Prześlij plik DOCX do chmury
- Wyodrębnij obrazy z dokumentów programu Word za pomocą Python
- Pobierz wyodrębnione obrazy
Prześlij dokument
Najpierw prześlemy dokument Word (DOCX) do chmury, korzystając z przykładowego kodu podanego poniżej:
# Utwórz instancję interfejsu API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Utwórz prośbę o przesłanie pliku
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# Przesyłanie pliku
response = file_api.upload_file(request)
W rezultacie przesłany plik DOCX będzie dostępny w sekcji plików pulpitu nawigacyjnego w chmurze.
Wyodrębnij obrazy z dokumentów programu Word za pomocą Python
Możemy łatwo programowo wyodrębnić wszystkie obrazy z dokumentów Word, wykonując czynności podane poniżej.
- Najpierw utwórz instancję ParseApi.
- Następnie utwórz instancję klasy FileInfo.
- Następnie ustaw ścieżkę do wejściowego pliku DOCX.
- Następnie utwórz wystąpienie ImageOptions.
- Następnie przypisz FileInfo do ImageOptions.
- Następnie utwórz ImagesRequest z ImageOptions jako argumentem.
- Na koniec wyodrębnij obrazy, wywołując metodę ParseApi.images() z ImageRequest.
Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z pliku DOCX przy użyciu interfejsu API REST do analizy dokumentów w języku Python.
# Inicjalizacja interfejsu API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Utwórz prośbę o obrazy
request = groupdocs_parser_cloud.ImagesRequest(options)
# Uzyskaj obrazy
result = parseApi.images(request)

Analizuj dokumenty programu Word i wyodrębniaj obrazy za pomocą interfejsu API REST programu Word Parser Online w języku Python.
Pobierz wyodrębnione obrazy
Powyższy przykładowy kod zapisze wyodrębnione obrazy za pomocą parsera pliku Word w chmurze. Możemy pobrać te obrazy, korzystając z przykładowego kodu podanego poniżej:
# Inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# Pobierz listę plików
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# Pobierz obrazy jeden po drugim
for data in response.value:
# Utwórz żądanie pobrania pliku
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# Pobieranie pliku
response = file_api.download_file(request)
# Przenieś pobrany plik do katalogu roboczego
shutil.move(response, "C:\\Files\\parser\\")
Wyodrębnij tekst z dokumentów programu Word za pomocą interfejsu API REST w języku Python
Możemy łatwo programowo wyodrębnić cały tekst z dokumentów Word, wykonując czynności podane poniżej.
- Najpierw utwórz instancję ParseApi.
- Następnie utwórz instancję klasy FileInfo.
- Następnie ustaw ścieżkę do wejściowego pliku DOCX.
- Następnie utwórz instancję TextOptions.
- Następnie przypisz FileInfo do TextOptions.
- Następnie utwórz TextRequest z TextOptions jako argumentem.
- Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.
Poniższy przykład kodu pokazuje, jak wyodrębnić tekst z pliku DOCX przy użyciu interfejsu API REST parsera docx.
# Inicjalizacja interfejsu API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Zdefiniuj opcje tekstu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Utwórz prośbę tekstową
request = groupdocs_parser_cloud.TextRequest(options)
# Pobierz tekst
result = parseApi.text(request)
print("Text: " + result.text)

Wyodrębnij tekst z dokumentów programu Word przy użyciu interfejsu API REST w języku Python.
Wypróbuj online
Jak bezpłatnie korzystać z oprogramowania do analizowania dokumentów online? Wypróbuj następujące bezpłatne narzędzie online DOCX Parsing, które zostało opracowane przy użyciu powyższego interfejsu API Python do analizowania dokumentów tekstowych. https://products.groupdocs.app/parser/docx
Wniosek
W tym artykule nauczyliśmy się, jak analizować dokumenty Worda za pomocą parsera słów w chmurze. Widzieliśmy również, jak wyodrębnić obrazy i tekst z plików DOCX za pomocą parse docx Python. W tym artykule wyjaśniono również, jak programowo przesłać plik DOCX do chmury i pobrać wyodrębnione obrazy z chmury. Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności dotyczących analizowania dokumentów i analizowania plików, prosimy o kontakt na forum.