Анализ документов — извлечение текста из PDF-файла в Java

Вы когда-нибудь сталкивались с ситуацией, когда вам нужно было программно извлечь текст из файла PDF? Программное извлечение текста из файлов PDF может быть сложной задачей, особенно при работе с большими документами. Если вы разработчик Java и ищете надежное решение, GroupDocs.Parser Cloud SDK для Java предоставляет эффективный способ извлечения текста из файлов PDF. В этой статье мы рассмотрим, как извлечь текст из PDF-файла на Java с помощью REST API.

В этой статье должны быть раскрыты следующие темы:

Java REST API для извлечения текста из PDF-файлов и установки SDK

GroupDocs.Parser Cloud SDK для Java — это мощный, удобный и многофункциональный комплект для разработки программного обеспечения, обеспечивающий всесторонние возможности анализа PDF-файлов. Благодаря обширному набору API-интерфейсов вы можете легко извлекать текст, метаданные, изображения и анализировать данные из более чем 50 типов форматов документов. Он также предоставляет SDK для C# .NET, Java, PHP, Ruby и Python в качестве членов семейства парсеров документов для Cloud API. SDK можно интегрировать в приложение на основе Java, чтобы упростить процесс разработки и повысить производительность.

Вы можете либо скачать файл JAR API, либо установить его с помощью Maven, добавив следующий репозиторий и зависимость в файл pom.xml вашего проекта:

Репозиторий Мавена:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Зависимость Мейвена:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Затем зарегистрируйтесь для получения бесплатной пробной учетной записи или приобретите план подписки на веб-сайте GroupDocs и получите ключ API. Получив идентификатор клиента и секрет клиента, добавьте приведенный ниже фрагмент кода в приложение на основе Java:

# Получите свой client_id и client_secret с https://dashboard.groupdocs.cloud после регистрации.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Как извлечь весь текст из файлов PDF в Java с помощью REST API

Извлечение текста из PDF-файлов на Java с помощью GroupDocs.Parser Cloud SDK — простой процесс. Вот как это сделать:

Загрузить файл

Во-первых, загрузите документ PDF в облако, используя приведенный ниже пример кода:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Загрузить файл в облачное хранилище с помощью Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

В результате загруженный PDF-файл будет доступен в разделе файлов вашей панели управления в облаке.

Извлечение текста из PDF-документа в Java

Следуйте инструкциям и фрагменту кода примера, чтобы программно извлечь весь текст из PDF-файлов на Java с помощью GroupDocs.Parser Cloud SDK для Java:

  • Во-первых, импортируйте необходимые классы в ваш файл Java.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Затем установите путь к файлу PDF в качестве входных данных.
  • Затем создайте экземпляр класса TextOptions().
  • Затем назначьте fileInfo методу setFileInfo.
  • Теперь создайте экземпляр класса TextRequest() и передайте параметр TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() и передав параметр TextRequest.

В следующем примере кода показано, как извлечь весь текст из файла PDF с помощью REST API в Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Как извлечь текст из документа PDF в Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Вы можете увидеть результат на изображении ниже:

Java Извлечение текста из PDF-документа

Извлечь текст из PDF-документа в Java

Извлечение определенного текста из PDF в Java по диапазону номеров страниц

В этом разделе представлены пошаговые инструкции и пример фрагмента кода для извлечения определенного текста из файла PDF программным способом на Java:

  • Во-первых, импортируйте необходимые классы в ваш файл Java.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Затем установите путь к файлу PDF в качестве входных данных.
  • Затем создайте экземпляр класса TextOptions().
  • Теперь укажите значения setStartPageNumber и setCountPagesToExtract.
  • Затем назначьте fileInfo методу setFileInfo.
  • Теперь создайте экземпляр класса TextRequest() и передайте параметр TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() и передав параметр TextRequest.

В следующем примере кода показано, как извлечь конкретный текст из файла PDF по номеру диапазона страниц в Java с помощью REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Как извлечь текст из файла PDF по номеру диапазона страниц в Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Бесплатный онлайн-парсер документов

Как лучше всего бесплатно извлечь текст из PDF онлайн? Пожалуйста, попробуйте онлайн-программу для анализа PDF-документов, чтобы извлечь текст из PDF. Этот инструмент PDF Parser разработан с использованием вышеупомянутой библиотеки парсера Java.

Заключение

В заключение следует отметить, что GroupDocs.Parser Cloud SDK для Java — ценный инструмент для разработчиков Java, позволяющий эффективно извлекать текст, метаданные и изображения. Вот что вы узнали из этой статьи:

  • как извлечь весь текст из файлов PDF с помощью REST API в Java;
  • программно загрузить файл PDF в облако с помощью Java;
  • как извлечь контент из PDF на Java с помощью REST API;
  • и онлайн-инструмент для извлечения текста PDF для анализа документов PDF.

Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, воспользовавшись документацией. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. Полный исходный код Java SDK находится в свободном доступе на Github.

Наконец, мы продолжаем писать новые статьи в блогах о различных форматах файлов и парсинге с помощью REST API. Поэтому, пожалуйста, свяжитесь с нами для получения последних обновлений.

Задайте вопрос

Если у вас возникнут какие-либо вопросы или сомнения по поводу извлечения текста из PDF-файлов, свяжитесь с нами через наш форум.

Часто задаваемые вопросы

Как извлечь весь текст из файла PDF с помощью Java?

Вы можете извлечь весь текст из файла PDF, используя GroupDocs.Parser Cloud SDK для Java в своих приложениях Java. Этот мощный SDK предоставляет эффективный и простой способ извлечения текста из файлов PDF с помощью Java.

Можно ли извлечь текст из PDF-файлов, защищенных паролем, с помощью GroupDocs.Parser Cloud SDK для Java?

Да, SDK поддерживает извлечение текста из PDF-файлов, защищенных паролем. Вы можете указать пароль в качестве опции во время процесса извлечения.

Можно ли извлечь текст с определенных страниц в файле PDF?

Да, GroupDocs.Parser Cloud SDK для Java позволяет вам указать номер диапазона страниц, из которого вы хотите извлечь текст. Таким образом, вы можете легко извлекать текст из определенных разделов PDF-документа.

Смотрите также

Вот несколько связанных статей, которые могут оказаться полезными: