
Вы когда-либо сталкивались с ситуацией, когда вам нужно было программно извлечь текст из PDF файла? Извлечение текста из PDF файлов программным путем может быть сложной задачей, особенно при работе с большими документами. Если вы разработчик на Java и ищете надежное решение, облачный SDK GroupDocs.Parser для Java предоставляет эффективный способ извлечения текста из PDF файлов. В этой статье мы исследуем, как извлекать текст из PDF файла на Java, используя REST API.
В следующей статье будут рассмотрены следующие темы:
- Java REST API to Extract Text from PDF Files and SDK Installation
- Как извлечь весь текст из PDF файлов в Java с использованием REST API
- Извлечение конкретного текста из PDF в Java по диапазону номеров страниц
Java REST API to Extract Text from PDF Files and SDK Installation
GroupDocs.Parser Cloud SDK for Java — это мощный, удобный и многофункциональный комплект для разработки программного обеспечения, который предоставляет обширные возможности парсинга PDF. С его обширным набором API вы можете легко извлекать текст, метаданные, изображения и парсить данные более чем из 50 типов document formats. Он также предоставляет SDK для C# .NET, Java, PHP, Ruby и Python в качестве document parser family members для Cloud API. SDK можно интегрировать в приложение на основе Java, чтобы упростить ваш процесс разработки и повысить продуктивность.
Вы можете либо download JAR-файл API, либо установить его с помощью Maven, добавив следующий репозиторий и зависимость в файл pom.xml вашего проекта:
Maven Repository:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Зависимость Maven:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Сначала, sign up для бесплатной пробной учетной записи или purchase a subscription plan на сайте GroupDocs и get your API key. После того как у вас будет Client Id и Client Secret, добавьте следующий фрагмент кода в приложение на Java:
# Получите ваш clientid и clientsecret с https://dashboard.groupdocs.cloud после регистрации.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Как извлечь весь текст из PDF-файлов в Java, используя REST API
Извлечение текста из PDF файлов в Java с использованием GroupDocs.Parser Cloud SDK — это простой процесс. Вот как это сделать:
- Загрузить PDF файл в облако.
- Извлечение текста из PDF с использованием Java.
Загрузите файл
Во-первых, загрузите PDF-документ в облако, используя приведенный ниже пример кода:
package com.groupdocsdev.classes;
import java.io.File;
import java.nio.file.Paths;
import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;
// Загрузите файл в облачное хранилище с использованием Java
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
В результате загруженный PDF-файл будет доступен в [files section][https://dashboard.groupdocs.cloud/files] вашего облачного интерфейса.
Извлечение текста из PDF-документа в Java
Следуйте шагам и примером кода, чтобы программно извлечь весь текст из PDF-файлов на Java, используя GroupDocs.Parser Cloud SDK для Java:
- Прежде всего, импортируйте необходимые классы в ваш файл Java.
- Во-вторых, создайте экземпляр класса ParseApi.
- В-третьих, создайте экземпляр класса FileInfo.
- Далее укажите путь к PDF файлу в качестве входных данных.
- Затем создайте экземпляр класса TextOptions().
- Далее присвойте fileInfo методу setFileInfo.
- Теперь создайте экземпляр класса TextRequest() и передайте параметр TextOptions.
- Наконец, получите результаты, вызвав метод ParseApi.text() и передав параметр TextRequest.
Следующий образец кода показывает, как извлечь весь текст из PDF-файла, используя REST API на Java:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// Как извлечь текст из PDF документа на Java.
public class App {
public static void main(String[] args) {
// Создайте экземпляр Parse API
ParseApi apiInstance = new ParseApi(configuration);
try {
// Подготовьте настройки
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Получить путь к выходному файлу
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Вы можете увидеть результат на изображении ниже:

Извлечение текста из PDF-документа на Java
Вытянуть определенный текст из PDF в Java по диапазону номеров страниц
Этот раздел предоставляет пошаговые инструкции и пример кода для программного извлечения специфического текста из PDF-файла на Java:
- Прежде всего, импортируйте необходимые классы в ваш файл Java.
- Во-вторых, создайте экземпляр класса ParseApi.
- В-третьих, создайте экземпляр класса FileInfo.
- Далее укажите путь к PDF файлу в качестве входных данных.
- Затем создайте экземпляр класса TextOptions().
- Теперь укажите значения setStartPageNumber и setCountPagesToExtract.
- Затем присвойте fileInfo методу setFileInfo.
- Теперь создайте экземпляр класса TextRequest() и передайте параметр TextOptions.
- Наконец, получите результаты, вызвав метод ParseApi.text() и передав параметр TextRequest.
Следующий образец кода показывает, как извлечь определенный текст из PDF-файла по номеру диапазона страниц на Java, используя REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// How to extract text from a PDF file by page range number in Java.
public class App {
public static void main(String[] args) {
// Создайте экземпляр API Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// Подготовьте настройки
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setStartPageNumber(1);
options.setCountPagesToExtract(1);
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Получить путь к выходному файлу
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Бесплатный онлайн парсер документов
Каков лучший способ извлечения текста из PDF онлайн бесплатно? Пожалуйста, попробуйте online PDF document parser software для извлечения текста из PDF. Этот инструмент PDF Parser разработан с использованием упомянутой выше библиотеки парсера на Java.
Заключение
В заключение, GroupDocs.Parser Cloud SDK для Java является ценным инструментом для Java-разработчиков, который позволяет эффективно извлекать текст, метаданные и изображения. Следующее - то, что вы узнали из этой статьи:
- How to extract all text from PDF files using REST API in Java.
- Programmatically upload a PDF file to the cloud using Java.
- How to extract content from PDF in Java using REST API.
- Онлайн инструмент извлечения текста из PDF для анализа PDF-документов.
Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, используя документацию. Мы также предоставляем раздел API Reference, который позволяет вам визуализировать и взаимодействовать с нашими API напрямую через браузер. Полный исходный код Java SDK доступен бесплатно на Github.
Наконец, мы продолжаем писать новые статьи в блоге о различных форматах файлов и парсинге с использованием REST API. Пожалуйста, свяжитесь с нами для получения последних обновлений.
Спросите вопрос
В случае, если у вас возникнут вопросы или неопределенности по поводу того, как извлекать текст из PDF-файлов, пожалуйста, не стесняйтесь обращаться к нам через наш forum.
Часто задаваемые вопросы
How do I extract all text from a PDF file using Java?
Вы можете извлечь весь текст из файла PDF с помощью GroupDocs.Parser Cloud SDK for Java в ваших Java приложениях. Этот мощный SDK предоставляет эффективный и простой способ извлечения текста из файлов PDF с использованием Java.
Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?
Да, SDK поддерживает извлечение текста из PDF-файлов с защитой паролем. Вы можете указать пароль в качестве опции во время процесса извлечения.
Можно ли извлечь текст с определённых страниц в PDF-файле?
Да, GroupDocs.Parser Cloud SDK для Java позволяет вам указать диапазон страниц, из которого вы хотите извлечь текст. Таким образом, вы можете легко извлекать текст из конкретных разделов PDF-документа.
См. также
Вот несколько статей, которые могут оказаться полезными: