
Парсинг документів є важливим завданням у багатьох галузях, де потрібна витягування даних з різних форм документів. Коли ви працюєте з Word документами, витягування зображень може бути особливо корисним у таких випадках, як аналіз контенту, розпізнавання зображень або візуалізація даних. Витягування зображень вручну з великих документів Word може займати багато часу. Т therefore, автоматизація процесу витягування зображень може заощадити ваш час і зусилля. У цій статті ми демонтруємо, як витягувати зображення з документів Word програмно на Java.
У цій статті будуть розглянуті такі теми:
- Java REST API to Extract Images from Word Documents and SDK Installation
- Як витягти всі зображення з документів Word в Java, використовуючи REST API
- Витягти специфічні зображення з файлу Word за допомогою номера сторінки
Java REST API to Extract Images from Word Documents and SDK Installation
GroupDocs.Parser Cloud SDK for Java є потужною бібліотекою Java, яка надає простий і ефективний спосіб аналізу та вилучення даних з різних форматів документів, включаючи документи Word. Вона пропонує широкий спектр можливостей для аналізу документів, дозволяючи розробникам вилучати зображення, текст, метадані та інше. GroupDocs.Parser також надає C#.NET, Java, PHP, Ruby та Python SDK як своїх членів сім’ї парсерів документів для Cloud API.
Щоб почати, вам потрібно включити GroupDocs.Parser Cloud SDK у ваш проект Java. Ви можете або download файл JAR API, або встановити його за допомогою Maven, додавши наступний репозиторій і залежність у файл pom.xml вашого проекту:
Maven Repository:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven Dependency:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Далі вам потрібно sign up для безкоштовного пробного акаунту або purchase a subscription plan на веб-сайті GroupDocs та get your API key. Як тільки у вас будуть Client Id та Client Secret, додайте наведену нижче частину коду до програми на Java:
# Отримайте ваш clientid та clientsecret з https://dashboard.groupdocs.cloud після реєстрації.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Як витягти всі зображення з документів Word в Java, використовуючи REST API
Щоб вилучити зображення з документів Word у Java за допомогою GroupDocs.Parser Cloud SDK, дотримуйтесь цих кроків і прикладу коду:
- По-перше, імпортуйте необхідні класи у ваш файл Java.
- По-друге, створіть екземпляр класу ParseApi.
- По-третє, створіть екземпляр класу FileInfo.
- Далі встановіть шлях до вхідного документа Word.
- Тоді створіть екземпляр класу ImagesOptions().
- Наступним кроком призначте fileInfo параметру setFileInfo для зображення.
- Тепер створіть екземпляр класу ImagesRequest() і передайте параметр ImagesOptions.
- Нарешті, отримайте результати, викликавши метод ParseApi.images() і передавши параметр ImagesRequest.
Наступний приклад коду показує, як витягти всі зображення з документа Word онлайн на Java, використовуючи REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// How to extract images from a Word document in Java.
public class App {
public static void main(String[] args) {
// Створіть екземпляр API Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// Підготуйте налаштування
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Отримати шлях до вихідного файлу
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Витяг специфічних зображень з файлу Word в Java за допомогою номера сторінки
У цьому розділі ми напишемо кроки та приклад коду для програмного витягування специфічних зображень з документа Word за допомогою Java:
- По-перше, імпортуйте необхідні класи у ваш файл Java.
- По-друге, створіть екземпляр класу ParseApi.
- По-третє, створіть екземпляр класу FileInfo.
- Далі вкажіть шлях до файлу Word як вхідний.
- Тоді створіть екземпляр класу ImagesOptions().
- Наступним кроком призначте fileInfo параметру setFileInfo для зображення.
- Тоді надайте значення setStartPageNumber і setCountPagesToExtract.
- Тепер створіть екземпляр класу ImagesRequest() і передайте параметр ImagesOptions.
- Нарешті, отримайте результати, викликавши метод ParseApi.images() і передавши параметр ImagesRequest.
Наведений нижче приклад коду показує, як витягти конкретні зображення з файлу Word за діапазоном сторінок у Java, використовуючи REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Extract images from a Word file online by page range in Java.
public class App {
public static void main(String[] args) {
// Створіть екземпляр API Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// Підготуйте налаштування
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setStartPageNumber(1);
options.setCountPagesToExtract(2);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Отримати шлях до вихідного файлу
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Безкоштовний онлайн-екстрактор зображень
What is the best way to extract images from Word online for free? Please try an онлайн Word document parser to extract images from Word. This Word Parser tool is developed using the above-mentioned Java parser library.
Висновок
На завершення, GroupDocs.Parser Cloud SDK є відмінним рішенням для вилучення зображень з документів Word, економлячи час і зусилля, забезпечуючи при цьому точні результати. Ось що ви дізналися з цієї статті:
- how to extract all images from Word DOCX programmatically in Java using REST API;
- how to extract specific images from Word documents in Java using REST API;
- і онлайн-інструмент для витягання зображень для витягання зображень з документів Word.
Крім того, ви можете дізнатися більше про GroupDocs.Parser Cloud API, використовуючи documentation . Ми також надаємо розділ API Reference , який дозволяє вам візуалізувати та взаємодіяти з нашими API безпосередньо через браузер. Повний вихідний код Java SDK безкоштовно доступний на Github .
Finally, we keep writing new blog articles on different file formats and parsing them using REST API. So, please get in touch for the latest updates.
Ask a question
У разі, якщо у вас є будь-які запитання щодо того, як витягувати зображення з документів, будь ласка, не соромтеся звертатися до нас через наш forum.
Поширені запитання
How do I parse Word documents in Java?
Щоб витягти зображення або текст, спочатку потрібно завантажити та розібрати документ Word за допомогою GroupDocs.Parser Cloud SDK. Цей процес передбачає вказання шляху до файлу та виклик методу Parse для розбору документів.
Може чи Cloud SDK GroupDocs.Parser витягувати зображення з інших форматів документів?
Так, GroupDocs.Parser Cloud SDK for Java підтримує вилучення зображень з різних форматів документів, включаючи Word, PDF, Excel, PowerPoint та багато інших.
Can the GroupDocs.Parser Cloud SDK extract multiple images from a single Word document?
Так, SDK може витягнути кілька зображень з одного документа Word, надаючи вам всі зображення, що містяться в документі.
Does the GroupDocs.Parser Cloud SDK preserve the original image quality during the extraction process?
Так, GroupDocs.Parser Cloud SDK для Java зберігає оригінальну якість зображень під час витягування зображень з документів Word.
Див. також
Ось кілька пов’язаних статей, які можуть виявитися корисними: