Ви коли-небудь стикалися з ситуацією, коли вам потрібно було витягти текст із файлу PDF програмним шляхом? Програмне видобування тексту з PDF-файлів може бути складним завданням, особливо під час роботи з великими документами. Якщо ви розробник Java і шукаєте надійне рішення, GroupDocs.Parser Cloud SDK для Java надає ефективний спосіб вилучення тексту з файлів PDF. У цій статті ми розглянемо, як отримати текст із PDF-файлу в Java за допомогою REST API.
У цій статті будуть розглянуті такі теми:
- API Java REST для вилучення тексту з PDF-файлів і встановлення SDK
- Як витягти весь текст із PDF-файлів у Java за допомогою REST API
- Витяг певного тексту з PDF-файлу в Java за діапазоном номерів сторінок
Java REST API для вилучення тексту з PDF-файлів і встановлення SDK
GroupDocs.Parser Cloud SDK для Java — це потужний, зручний і багатофункціональний набір для розробки програмного забезпечення, який надає комплексні можливості аналізу PDF. Завдяки повному набору API ви можете легко видобувати текст, метадані, зображення та аналізувати дані з понад 50 типів форматів документів. Він також надає пакети SDK C# .NET, Java, PHP, Ruby та Python як члени сімейства парсерів документів для Cloud API. SDK можна інтегрувати в програму на основі Java, щоб спростити процес розробки та підвищити продуктивність.
Ви можете завантажити JAR-файл API або встановити його за допомогою Maven, додавши таке сховище та залежність у файл pom.xml вашого проекту:
Репозиторій Maven:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Залежність Maven:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Далі зареєструйтесь, щоб отримати безкоштовний пробний обліковий запис або придбайте план підписки на веб-сайті GroupDocs і отримайте ключ API. Отримавши ідентифікатор клієнта та секрет клієнта, додайте наведений нижче фрагмент коду до програми на основі Java:
# Отримайте свій client_id і client_secret на https://dashboard.groupdocs.cloud після реєстрації.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Як витягти весь текст із PDF-файлів у Java за допомогою REST API
Вилучення тексту з PDF-файлів у Java за допомогою GroupDocs.Parser Cloud SDK є простим процесом. Ось як це зробити:
- Завантажте файл PDF у хмару
- Витягніть текст із PDF за допомогою Java
Завантажте файл
По-перше, завантажте PDF-документ у хмару, використовуючи наведений нижче приклад коду:
package com.groupdocsdev.classes;
import java.io.File;
import java.nio.file.Paths;
import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;
// Завантажте файл у хмарне сховище за допомогою Java
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
У результаті завантажений PDF-файл буде доступний у розділі файлів вашої інформаційної панелі в хмарі.
Вилучення тексту з PDF-документа в Java
Виконайте кроки та приклад фрагмента коду, щоб отримати весь текст із PDF-файлів програмним шляхом у Java за допомогою GroupDocs.Parser Cloud SDK для Java:
- По-перше, імпортуйте необхідні класи у свій файл Java.
- По-друге, створіть екземпляр класу ParseApi.
- По-третє, створіть екземпляр класу FileInfo.
- Далі встановіть шлях до файлу PDF як вхідні дані.
- Потім створіть екземпляр класу TextOptions().
- Далі призначте fileInfo методу setFileInfo.
- Тепер створіть екземпляр класу TextRequest() і передайте параметр TextOptions.
- Нарешті, отримуйте результати, викликавши метод ParseApi.text() і передавши параметр TextRequest.
У наведеному нижче прикладі коду показано, як витягти весь текст із PDF-файлу за допомогою REST API у Java:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// Як витягти текст із PDF-документа на Java.
public class App {
public static void main(String[] args) {
// Створіть екземпляр Parse API
ParseApi apiInstance = new ParseApi(configuration);
try {
// Підготуйте налаштування
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Отримати вихідний шлях до файлу
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Ви можете побачити результат на зображенні нижче:
Витяг певного тексту з PDF-файлу в Java за діапазоном номерів сторінок
У цьому розділі наведено покрокові інструкції та приклад фрагмента коду для програмного вилучення певного тексту з PDF-файлу в Java:
- По-перше, імпортуйте необхідні класи у свій файл Java.
- По-друге, створіть екземпляр класу ParseApi.
- По-третє, створіть екземпляр класу FileInfo.
- Далі встановіть шлях до файлу PDF як вхідні дані.
- Потім створіть екземпляр класу TextOptions().
- Тепер укажіть значення setStartPageNumber і setCountPagesToExtract.
- Потім призначте fileInfo методу setFileInfo.
- Тепер створіть екземпляр класу TextRequest() і передайте параметр TextOptions.
- Нарешті, отримуйте результати, викликавши метод ParseApi.text() і передавши параметр TextRequest.
У наведеному нижче прикладі коду показано, як витягти певний текст із PDF-файлу за номером діапазону сторінок у Java за допомогою REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// Як витягти текст із PDF-файлу за номером діапазону сторінок у Java.
public class App {
public static void main(String[] args) {
// Створіть екземпляр Parse API
ParseApi apiInstance = new ParseApi(configuration);
try {
// Підготуйте налаштування
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setStartPageNumber(1);
options.setCountPagesToExtract(1);
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Отримати вихідний шлях до файлу
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Безкоштовний аналізатор документів онлайн
Який найкращий спосіб безкоштовно витягти текст із PDF-файлу онлайн? Спробуйте онлайн-програмне забезпечення аналізатора PDF-документів, щоб витягнути текст із PDF-файлу. Цей інструмент PDF Parser розроблено з використанням згаданої вище бібліотеки аналізатора Java.
Висновок
Підсумовуючи, GroupDocs.Parser Cloud SDK для Java є цінним інструментом для розробників Java, який дозволяє ефективно отримувати текст, метадані та зображення. Ось що ви дізналися з цієї статті:
- як витягти весь текст із файлів PDF за допомогою REST API в Java;
- програмно завантажити PDF-файл у хмару за допомогою Java;
- як витягти вміст із PDF-файлу в Java за допомогою REST API;
- та онлайн-інструмент вилучення тексту PDF для аналізу PDF-документів.
Крім того, ви можете дізнатися більше про GroupDocs.Parser Cloud API за допомогою документації. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. Повний вихідний код Java SDK є у вільному доступі на Github.
Нарешті, ми продовжуємо писати нові статті в блозі про різні формати файлів і аналіз за допомогою REST API. Тому, будь ласка, зв’яжіться з нами, щоб отримати останні оновлення.
Задайте питання
Якщо у вас виникнуть запитання чи непорозуміння щодо того, як отримати текст із PDF-файлів, зв’яжіться з нами через наш форум.
поширені запитання
Як отримати весь текст із PDF-файлу за допомогою Java?
Ви можете витягнути весь текст із PDF-файлу за допомогою GroupDocs.Parser Cloud SDK для Java у своїх програмах Java. Цей потужний пакет SDK забезпечує ефективний і простий спосіб вилучення тексту з файлів PDF за допомогою Java.
Чи можу я отримати текст із захищених паролем PDF-файлів за допомогою GroupDocs.Parser Cloud SDK для Java?
Так, SDK підтримує вилучення тексту із PDF-файлів, захищених паролем. Ви можете надати пароль як варіант під час процесу вилучення.
Чи можна витягти текст із певних сторінок у файлі PDF?
Так, GroupDocs.Parser Cloud SDK for Java дозволяє вказати номер діапазону сторінок, з якого потрібно витягти текст. Таким чином ви можете легко витягти текст із певних розділів документа PDF.
Дивись також
Ось деякі пов’язані статті, які можуть бути вам корисними:
- Видобувайте зображення з PDF-файлів за допомогою Node.js
- Видобувайте дані з PDF за допомогою REST API у Node.js
- Аналізуйте документи Word за допомогою REST API у Python
- Витягніть певні дані з PDF за допомогою Python
- Видобувайте зображення з PDF-документів за допомогою Python
- Як витягти текст із PDF за допомогою Python