Darmowy internetowy parser DOCX jest przeznaczony do wyodrębniania tekstu, obrazów i obrazów z plików DOCX lub DOC.

Analizuj dokumenty programu Word przy użyciu interfejsu API REST w języku Python

W różnych przypadkach może być konieczne przeanalizowanie dokumentów programu Word i wyodrębnienie obrazów lub tekstu. Wyodrębnianie obrazów i tekstu z dokumentów programu Word może być pomocne w analizie tekstu, ponownym wykorzystaniu lub połączeniu ich w inne dokumenty. Możemy łatwo przeanalizować pliki DOC lub DOCX i programowo wyodrębnić wszystkie obrazy/tekst w chmurze. W tym artykule dowiemy się, jak analizować dokumenty Worda za pomocą REST API w Python.

W tym artykule zostaną omówione następujące tematy:

Interfejs API REST parsera dokumentów programu Word i zestaw SDK języka Python

Do analizowania dokumentów Word będziemy używać Python SDK of GroupDocs.Parser Cloud API. Zainstaluj go, używając następującego polecenia w konsoli, aby przeanalizować dokument:

pip install groupdocs_parser_cloud

Proszę uzyskaj swój identyfikator klienta i klucz tajny z pulpitu nawigacyjnego przed wykonaniem wspomnianych kroków. Po uzyskaniu identyfikatora i tajnego kodu dodaj kod, jak pokazano poniżej:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Analizuj dokumenty programu Word i wyodrębniaj obrazy za pomocą interfejsu API REST w języku Python

Możemy analizować dokumenty programu Word i wyodrębniać obrazy programowo, wykonując czynności podane poniżej:

Prześlij dokument

Najpierw prześlemy dokument Word (DOCX) do chmury, korzystając z przykładowego kodu podanego poniżej:

# Utwórz instancję interfejsu API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Utwórz prośbę o przesłanie pliku
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# Przesyłanie pliku
response = file_api.upload_file(request)

W rezultacie przesłany plik DOCX będzie dostępny w sekcji plików pulpitu nawigacyjnego w chmurze.

Wyodrębnij obrazy z dokumentów programu Word za pomocą Python

Możemy łatwo programowo wyodrębnić wszystkie obrazy z dokumentów Word, wykonując czynności podane poniżej.

  • Najpierw utwórz instancję ParseApi.
  • Następnie utwórz instancję klasy FileInfo.
  • Następnie ustaw ścieżkę do wejściowego pliku DOCX.
  • Następnie utwórz wystąpienie ImageOptions.
  • Następnie przypisz FileInfo do ImageOptions.
  • Następnie utwórz ImagesRequest z ImageOptions jako argumentem.
  • Na koniec wyodrębnij obrazy, wywołując metodę ParseApi.images() z ImageRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z pliku DOCX przy użyciu interfejsu API REST do analizy dokumentów w języku Python.

# Inicjalizacja interfejsu API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Utwórz prośbę o obrazy
request = groupdocs_parser_cloud.ImagesRequest(options)

# Uzyskaj obrazy
result = parseApi.images(request)
Parsuj Word DOCX i wyodrębniaj obrazy za pomocą python parse word docx

Analizuj dokumenty programu Word i wyodrębniaj obrazy za pomocą interfejsu API REST programu Word Parser Online w języku Python.

Pobierz wyodrębnione obrazy

Powyższy przykładowy kod zapisze wyodrębnione obrazy za pomocą parsera pliku Word w chmurze. Możemy pobrać te obrazy, korzystając z przykładowego kodu podanego poniżej:

# Inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# Pobierz listę plików
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# Pobierz obrazy jeden po drugim
for data in response.value:
    # Utwórz żądanie pobrania pliku
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # Pobieranie pliku
    response = file_api.download_file(request)
    # Przenieś pobrany plik do katalogu roboczego
    shutil.move(response, "C:\\Files\\parser\\")

Wyodrębnij tekst z dokumentów programu Word za pomocą interfejsu API REST w języku Python

Możemy łatwo programowo wyodrębnić cały tekst z dokumentów Word, wykonując czynności podane poniżej.

  • Najpierw utwórz instancję ParseApi.
  • Następnie utwórz instancję klasy FileInfo.
  • Następnie ustaw ścieżkę do wejściowego pliku DOCX.
  • Następnie utwórz instancję TextOptions.
  • Następnie przypisz FileInfo do TextOptions.
  • Następnie utwórz TextRequest z TextOptions jako argumentem.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.

Poniższy przykład kodu pokazuje, jak wyodrębnić tekst z pliku DOCX przy użyciu interfejsu API REST parsera docx.

# Inicjalizacja interfejsu API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Zdefiniuj opcje tekstu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Utwórz prośbę tekstową
request = groupdocs_parser_cloud.TextRequest(options)

# Pobierz tekst
result = parseApi.text(request)
print("Text: " + result.text)
Wyodrębnij tekst z dokumentów Word DOCX za pomocą REST API w Python

Wyodrębnij tekst z dokumentów programu Word przy użyciu interfejsu API REST w języku Python.

Wypróbuj online

Jak bezpłatnie korzystać z oprogramowania do analizowania dokumentów online? Wypróbuj następujące bezpłatne narzędzie online DOCX Parsing, które zostało opracowane przy użyciu powyższego interfejsu API Python do analizowania dokumentów tekstowych. https://products.groupdocs.app/parser/docx

Wniosek

W tym artykule nauczyliśmy się, jak analizować dokumenty Worda za pomocą parsera słów w chmurze. Widzieliśmy również, jak wyodrębnić obrazy i tekst z plików DOCX za pomocą parse docx Python. W tym artykule wyjaśniono również, jak programowo przesłać plik DOCX do chmury i pobrać wyodrębnione obrazy z chmury. Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności dotyczących analizowania dokumentów i analizowania plików, prosimy o kontakt na forum.

Zobacz też