Безкоштовний онлайн-аналізатор DOCX призначений для вилучення тексту, зображень і малюнків із форматів DOCX або DOC.

Аналізуйте документи Word за допомогою REST API у Python

У різних випадках нам може знадобитися розібрати документи Word і витягти зображення або текст. Вилучення зображень і тексту з документів Word може бути корисним для аналізу тексту, повторного використання або поєднання їх в інші документи. Ми можемо легко проаналізувати файли DOC або DOCX і видобути всі зображення/текст програмним шляхом у хмарі. У цій статті ми дізнаємося, як аналізувати документи Word за допомогою REST API у Python.

У цій статті будуть розглянуті такі теми:

REST API аналізатора документів Word і SDK для Python

Для аналізу документів Word ми будемо використовувати API Python SDK GroupDocs.Parser Cloud. Будь ласка, встановіть його за допомогою такої команди в консолі, щоб проаналізувати документ:

pip install groupdocs_parser_cloud

Будь ласка, отримайте свій ідентифікатор клієнта та секрет із інформаційної панелі, перш ніж виконувати вказані дії. Отримавши ідентифікатор і секрет, додайте код, як показано нижче:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Розбирайте документи Word і витягуйте зображення за допомогою REST API у Python

Ми можемо аналізувати документи Word і видобувати зображення програмним шляхом, виконавши наведені нижче кроки:

Завантажте документ

По-перше, ми завантажимо документ Word (DOCX) у хмару за допомогою наведеного нижче прикладу коду:

# Створіть екземпляр API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Створити запит на завантаження файлу
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# Завантажити файл
response = file_api.upload_file(request)

У результаті завантажений файл DOCX буде доступний у розділі файлів інформаційної панелі в хмарі.

Видобувайте зображення з документів Word за допомогою Python

Ми можемо легко отримати всі зображення з документів Word програмним шляхом, виконавши кроки, наведені нижче.

  • По-перше, створіть екземпляр ParseApi.
  • Далі створіть екземпляр FileInfo.
  • Потім встановіть шлях до вхідного файлу DOCX.
  • Далі створіть екземпляр ImageOptions.
  • Потім призначте FileInfo параметрам ImageOptions.
  • Після цього створіть ImagesRequest з ImageOptions як аргумент.
  • Нарешті, витягніть зображення, викликавши метод ParseApi.images() за допомогою ImageRequest.

У наведеному нижче прикладі коду показано, як видобувати зображення з файлу DOCX за допомогою REST API аналізу документів у Python.

# Ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Визначте параметри зображення
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Створення запиту на зображення
request = groupdocs_parser_cloud.ImagesRequest(options)

# Отримати зображення
result = parseApi.images(request)
Проаналізуйте Word DOCX і витягніть зображення за допомогою аналізу слова docx Python

Розбирайте документи Word і витягуйте зображення за допомогою REST API онлайн-аналізатора Word у Python.

Завантажте витягнуті зображення

Наведений вище зразок коду збереже витягнуті зображення за допомогою аналізатора файлів Word у хмарі. Ми можемо завантажити ці зображення за допомогою наведеного нижче прикладу коду:

# Ініціалізації API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# Отримати список файлів
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# Завантажуйте зображення одне за одним
for data in response.value:
    # Створити запит на завантаження файлу
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # Завантажити файл
    response = file_api.download_file(request)
    # Перемістіть завантажений файл у свій робочий каталог
    shutil.move(response, "C:\\Files\\parser\\")

Витягніть текст із документів Word за допомогою REST API у Python

Ми можемо легко витягти весь текст із документів Word програмним шляхом, дотримуючись наведених нижче кроків.

  • По-перше, створіть екземпляр ParseApi.
  • Далі створіть екземпляр FileInfo.
  • Потім встановіть шлях до вхідного файлу DOCX.
  • Далі створіть екземпляр TextOptions.
  • Потім призначте FileInfo TextOptions.
  • Після цього створіть TextRequest з TextOptions як аргумент.
  • Нарешті, отримуйте результати, викликаючи метод ParseApi.text() за допомогою TextRequest.

У наведеному нижче прикладі коду показано, як отримати текст із файлу DOCX за допомогою REST API аналізатора docx.

# Ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Визначте варіанти тексту
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Створити текстовий запит
request = groupdocs_parser_cloud.TextRequest(options)

# Отримати текст
result = parseApi.text(request)
print("Text: " + result.text)
Витягніть текст із документів Word DOCX за допомогою REST API у Python

Витягніть текст із документів Word за допомогою REST API у Python.

Спробуйте онлайн

Як безкоштовно користуватися програмним забезпеченням аналізу документів онлайн? Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент синтаксичного аналізу DOCX, який розроблено за допомогою API Python для аналізу документа word. https://products.groupdocs.app/parser/docx

Висновок

У цій статті ми навчилися аналізувати документи Word за допомогою аналізатора Word у хмарі. Ми також бачили, як видобувати зображення та текст із файлів DOCX за допомогою аналізу docx Python. У цій статті також пояснюється, як програмно завантажити файл DOCX у хмару та завантажити витягнуті зображення з хмари. Крім того, ви можете дізнатися більше про GroupDocs.Parser Cloud API за допомогою документації. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей щодо аналізу документів і файлів, будь ласка, зв’яжіться з нами на форумі.

Дивись також