Бесплатный онлайн-парсер DOCX предназначен для извлечения текста, изображений и изображений из DOCX или DOC.

Анализ документов Word с использованием REST API в Python

В различных случаях нам может понадобиться проанализировать документы Word и извлечь изображения или текст. Извлечение изображений и текста из документов Word может быть полезно для анализа текста, повторного использования или объединения их в другие документы. Мы можем легко анализировать файлы DOC или DOCX и программно извлекать все изображения/текст в облаке. В этой статье мы узнаем, как анализировать документы Word с помощью REST API в Python.

В этой статье должны быть раскрыты следующие темы:

REST API синтаксического анализа документов Word и Python SDK

Для анализа документов Word мы будем использовать Python SDK of GroupDocs.Parser Cloud API. Пожалуйста, установите его, используя следующую команду в консоли для анализа документа:

pip install groupdocs_parser_cloud

Пожалуйста, получите свой идентификатор клиента и секрет из панели инструментов, прежде чем выполнять указанные шаги. Получив свой идентификатор и секрет, добавьте код, как показано ниже:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Анализ документов Word и извлечение изображений с помощью REST API в Python

Мы можем программно анализировать документы Word и извлекать изображения, выполнив следующие шаги:

Загрузить документ

Во-первых, мы загрузим документ Word (DOCX) в облако, используя приведенный ниже пример кода:

# Создать экземпляр API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Создать запрос на загрузку файла
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# Загрузить файл
response = file_api.upload_file(request)

В результате загруженный файл DOCX будет доступен в разделе файлов панели инструментов в облаке.

Извлечение изображений из документов Word с помощью Python

Мы можем легко извлечь все изображения из документов Word программно, выполнив шаги, указанные ниже.

  • Во-первых, создайте экземпляр ParseApi.
  • Затем создайте экземпляр FileInfo.
  • Затем укажите путь к входному файлу DOCX.
  • Затем создайте экземпляр ImageOptions.
  • Затем назначьте FileInfo свойству ImageOptions.
  • После этого создайте ImagesRequest с ImageOptions в качестве аргумента.
  • Наконец, извлеките изображения, вызвав метод ParseApi.images() с ImageRequest.

В следующем примере кода показано, как извлекать изображения из файла DOCX с помощью REST API синтаксического анализа документов в Python.

# Инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Определить параметры изображения
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Запрос на создание изображений
request = groupdocs_parser_cloud.ImagesRequest(options)

# Получить изображения
result = parseApi.images(request)
Разобрать Word DOCX и извлечь изображения, используя python parse word docx

Разбирайте документы Word и извлекайте изображения с помощью Word Parser Online REST API на Python.

Скачать извлеченные изображения

Приведенный выше пример кода сохранит извлеченные изображения с помощью анализатора файлов Word в облаке. Мы можем загрузить эти изображения, используя приведенный ниже пример кода:

# Инициализация API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# Получить список файлов
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# Загрузка изображений по одному
for data in response.value:
    # Создать запрос на скачивание файла
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # Загрузить файл
    response = file_api.download_file(request)
    # Переместите загруженный файл в свой рабочий каталог
    shutil.move(response, "C:\\Files\\parser\\")

Извлечение текста из документов Word с помощью REST API в Python

Мы можем легко извлечь весь текст из документов Word программно, выполнив шаги, указанные ниже.

  • Во-первых, создайте экземпляр ParseApi.
  • Затем создайте экземпляр FileInfo.
  • Затем укажите путь к входному файлу DOCX.
  • Затем создайте экземпляр TextOptions.
  • Затем назначьте FileInfo свойству TextOptions.
  • После этого создайте TextRequest с TextOptions в качестве аргумента.
  • Наконец, получите результаты, вызвав метод ParseApi.text() с TextRequest.

В следующем примере кода показано, как извлечь текст из файла DOCX с помощью REST API анализатора docx.

# Инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Определить параметры текста
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Создать текстовый запрос
request = groupdocs_parser_cloud.TextRequest(options)

# Получить текст
result = parseApi.text(request)
print("Text: " + result.text)
Извлечение текста из документов Word DOCX с использованием REST API в Python

Извлечение текста из документов Word с помощью REST API в Python.

Попробуйте онлайн

Как использовать программу для парсинга документов онлайн бесплатно? Пожалуйста, попробуйте следующий бесплатный онлайн-инструмент для синтаксического анализа DOCX, разработанный с использованием вышеуказанного API Python для синтаксического анализа документа Word. https://products.groupdocs.app/parser/docx

Заключение

В этой статье мы узнали, как анализировать документы Word с помощью анализатора слов в облаке. Мы также видели, как извлекать изображения и текст из файлов DOCX с помощью parse docx Python. В этой статье также объясняется, как программно загрузить файл DOCX в облако и загрузить извлеченные изображения из облака. Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, воспользовавшись документацией. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. В случае возникновения каких-либо неясностей в отношении анализа документов и файлов, пожалуйста, свяжитесь с нами на форуме.

Смотрите также