У різних випадках нам може знадобитися розібрати документи Word і витягти зображення або текст. Вилучення зображень і тексту з документів Word може бути корисним для аналізу тексту, повторного використання або поєднання їх в інші документи. Ми можемо легко проаналізувати файли DOC або DOCX і видобути всі зображення/текст програмним шляхом у хмарі. У цій статті ми дізнаємося, як аналізувати документи Word за допомогою REST API у Python.
У цій статті будуть розглянуті такі теми:
- REST API аналізатора документів Word і SDK для Python
- Розбирайте документи Word і витягуйте зображення за допомогою REST API у Python
- Витягніть текст із документів Word за допомогою REST API у Python
REST API аналізатора документів Word і SDK для Python
Для аналізу документів Word ми будемо використовувати API Python SDK GroupDocs.Parser Cloud. Будь ласка, встановіть його за допомогою такої команди в консолі, щоб проаналізувати документ:
pip install groupdocs_parser_cloud
Будь ласка, отримайте свій ідентифікатор клієнта та секрет із інформаційної панелі, перш ніж виконувати вказані дії. Отримавши ідентифікатор і секрет, додайте код, як показано нижче:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Розбирайте документи Word і витягуйте зображення за допомогою REST API у Python
Ми можемо аналізувати документи Word і видобувати зображення програмним шляхом, виконавши наведені нижче кроки:
- Завантажте файл DOCX у хмару
- Вилучення зображень із документів Word за допомогою Python
- Завантажити витягнуті зображення
Завантажте документ
По-перше, ми завантажимо документ Word (DOCX) у хмару за допомогою наведеного нижче прикладу коду:
# Створіть екземпляр API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Створити запит на завантаження файлу
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# Завантажити файл
response = file_api.upload_file(request)
У результаті завантажений файл DOCX буде доступний у розділі файлів інформаційної панелі в хмарі.
Видобувайте зображення з документів Word за допомогою Python
Ми можемо легко отримати всі зображення з документів Word програмним шляхом, виконавши кроки, наведені нижче.
- По-перше, створіть екземпляр ParseApi.
- Далі створіть екземпляр FileInfo.
- Потім встановіть шлях до вхідного файлу DOCX.
- Далі створіть екземпляр ImageOptions.
- Потім призначте FileInfo параметрам ImageOptions.
- Після цього створіть ImagesRequest з ImageOptions як аргумент.
- Нарешті, витягніть зображення, викликавши метод ParseApi.images() за допомогою ImageRequest.
У наведеному нижче прикладі коду показано, як видобувати зображення з файлу DOCX за допомогою REST API аналізу документів у Python.
# Ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Визначте параметри зображення
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Створення запиту на зображення
request = groupdocs_parser_cloud.ImagesRequest(options)
# Отримати зображення
result = parseApi.images(request)
Завантажте витягнуті зображення
Наведений вище зразок коду збереже витягнуті зображення за допомогою аналізатора файлів Word у хмарі. Ми можемо завантажити ці зображення за допомогою наведеного нижче прикладу коду:
# Ініціалізації API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# Отримати список файлів
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# Завантажуйте зображення одне за одним
for data in response.value:
# Створити запит на завантаження файлу
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# Завантажити файл
response = file_api.download_file(request)
# Перемістіть завантажений файл у свій робочий каталог
shutil.move(response, "C:\\Files\\parser\\")
Витягніть текст із документів Word за допомогою REST API у Python
Ми можемо легко витягти весь текст із документів Word програмним шляхом, дотримуючись наведених нижче кроків.
- По-перше, створіть екземпляр ParseApi.
- Далі створіть екземпляр FileInfo.
- Потім встановіть шлях до вхідного файлу DOCX.
- Далі створіть екземпляр TextOptions.
- Потім призначте FileInfo TextOptions.
- Після цього створіть TextRequest з TextOptions як аргумент.
- Нарешті, отримуйте результати, викликаючи метод ParseApi.text() за допомогою TextRequest.
У наведеному нижче прикладі коду показано, як отримати текст із файлу DOCX за допомогою REST API аналізатора docx.
# Ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Визначте варіанти тексту
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Створити текстовий запит
request = groupdocs_parser_cloud.TextRequest(options)
# Отримати текст
result = parseApi.text(request)
print("Text: " + result.text)
Спробуйте онлайн
Як безкоштовно користуватися програмним забезпеченням аналізу документів онлайн? Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент синтаксичного аналізу DOCX, який розроблено за допомогою API Python для аналізу документа word. https://products.groupdocs.app/parser/docx
Висновок
У цій статті ми навчилися аналізувати документи Word за допомогою аналізатора Word у хмарі. Ми також бачили, як видобувати зображення та текст із файлів DOCX за допомогою аналізу docx Python. У цій статті також пояснюється, як програмно завантажити файл DOCX у хмару та завантажити витягнуті зображення з хмари. Крім того, ви можете дізнатися більше про GroupDocs.Parser Cloud API за допомогою документації. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей щодо аналізу документів і файлів, будь ласка, зв’яжіться з нами на форумі.