В различных случаях нам может понадобиться проанализировать документы Word и извлечь изображения или текст. Извлечение изображений и текста из документов Word может быть полезно для анализа текста, повторного использования или объединения их в другие документы. Мы можем легко анализировать файлы DOC или DOCX и программно извлекать все изображения/текст в облаке. В этой статье мы узнаем, как анализировать документы Word с помощью REST API в Python.
В этой статье должны быть раскрыты следующие темы:
- REST API синтаксического анализа документов Word и Python SDK
- Анализ документов Word и извлечение изображений с помощью REST API в Python
- Извлечение текста из документов Word с помощью REST API в Python
REST API синтаксического анализа документов Word и Python SDK
Для анализа документов Word мы будем использовать Python SDK of GroupDocs.Parser Cloud API. Пожалуйста, установите его, используя следующую команду в консоли для анализа документа:
pip install groupdocs_parser_cloud
Пожалуйста, получите свой идентификатор клиента и секрет из панели инструментов, прежде чем выполнять указанные шаги. Получив свой идентификатор и секрет, добавьте код, как показано ниже:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Анализ документов Word и извлечение изображений с помощью REST API в Python
Мы можем программно анализировать документы Word и извлекать изображения, выполнив следующие шаги:
- Загрузить файл DOCX в облако
- Извлечение изображений из документов Word с помощью Python
- Скачать извлеченные изображения
Загрузить документ
Во-первых, мы загрузим документ Word (DOCX) в облако, используя приведенный ниже пример кода:
# Создать экземпляр API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Создать запрос на загрузку файла
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# Загрузить файл
response = file_api.upload_file(request)
В результате загруженный файл DOCX будет доступен в разделе файлов панели инструментов в облаке.
Извлечение изображений из документов Word с помощью Python
Мы можем легко извлечь все изображения из документов Word программно, выполнив шаги, указанные ниже.
- Во-первых, создайте экземпляр ParseApi.
- Затем создайте экземпляр FileInfo.
- Затем укажите путь к входному файлу DOCX.
- Затем создайте экземпляр ImageOptions.
- Затем назначьте FileInfo свойству ImageOptions.
- После этого создайте ImagesRequest с ImageOptions в качестве аргумента.
- Наконец, извлеките изображения, вызвав метод ParseApi.images() с ImageRequest.
В следующем примере кода показано, как извлекать изображения из файла DOCX с помощью REST API синтаксического анализа документов в Python.
# Инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Определить параметры изображения
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Запрос на создание изображений
request = groupdocs_parser_cloud.ImagesRequest(options)
# Получить изображения
result = parseApi.images(request)
Скачать извлеченные изображения
Приведенный выше пример кода сохранит извлеченные изображения с помощью анализатора файлов Word в облаке. Мы можем загрузить эти изображения, используя приведенный ниже пример кода:
# Инициализация API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# Получить список файлов
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# Загрузка изображений по одному
for data in response.value:
# Создать запрос на скачивание файла
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# Загрузить файл
response = file_api.download_file(request)
# Переместите загруженный файл в свой рабочий каталог
shutil.move(response, "C:\\Files\\parser\\")
Извлечение текста из документов Word с помощью REST API в Python
Мы можем легко извлечь весь текст из документов Word программно, выполнив шаги, указанные ниже.
- Во-первых, создайте экземпляр ParseApi.
- Затем создайте экземпляр FileInfo.
- Затем укажите путь к входному файлу DOCX.
- Затем создайте экземпляр TextOptions.
- Затем назначьте FileInfo свойству TextOptions.
- После этого создайте TextRequest с TextOptions в качестве аргумента.
- Наконец, получите результаты, вызвав метод ParseApi.text() с TextRequest.
В следующем примере кода показано, как извлечь текст из файла DOCX с помощью REST API анализатора docx.
# Инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Определить параметры текста
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Создать текстовый запрос
request = groupdocs_parser_cloud.TextRequest(options)
# Получить текст
result = parseApi.text(request)
print("Text: " + result.text)
Попробуйте онлайн
Как использовать программу для парсинга документов онлайн бесплатно? Пожалуйста, попробуйте следующий бесплатный онлайн-инструмент для синтаксического анализа DOCX, разработанный с использованием вышеуказанного API Python для синтаксического анализа документа Word. https://products.groupdocs.app/parser/docx
Заключение
В этой статье мы узнали, как анализировать документы Word с помощью анализатора слов в облаке. Мы также видели, как извлекать изображения и текст из файлов DOCX с помощью parse docx Python. В этой статье также объясняется, как программно загрузить файл DOCX в облако и загрузить извлеченные изображения из облака. Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, воспользовавшись документацией. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. В случае возникновения каких-либо неясностей в отношении анализа документов и файлов, пожалуйста, свяжитесь с нами на форуме.