Парсинг документов – Извлечение текста из PDF файла на Java

Вы когда-либо сталкивались с ситуацией, когда вам нужно было программно извлечь текст из PDF файла? Извлечение текста из PDF файлов программным путем может быть сложной задачей, особенно при работе с большими документами. Если вы разработчик на Java и ищете надежное решение, облачный SDK GroupDocs.Parser для Java предоставляет эффективный способ извлечения текста из PDF файлов. В этой статье мы исследуем, как извлекать текст из PDF файла на Java, используя REST API.

В следующей статье будут рассмотрены следующие темы:

Java REST API to Extract Text from PDF Files and SDK Installation

GroupDocs.Parser Cloud SDK for Java — это мощный, удобный и многофункциональный комплект для разработки программного обеспечения, который предоставляет обширные возможности парсинга PDF. С его обширным набором API вы можете легко извлекать текст, метаданные, изображения и парсить данные более чем из 50 типов document formats. Он также предоставляет SDK для C# .NET, Java, PHP, Ruby и Python в качестве document parser family members для Cloud API. SDK можно интегрировать в приложение на основе Java, чтобы упростить ваш процесс разработки и повысить продуктивность.

Вы можете либо download JAR-файл API, либо установить его с помощью Maven, добавив следующий репозиторий и зависимость в файл pom.xml вашего проекта:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Зависимость Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Сначала, sign up для бесплатной пробной учетной записи или purchase a subscription plan на сайте GroupDocs и get your API key. После того как у вас будет Client Id и Client Secret, добавьте следующий фрагмент кода в приложение на Java:

# Получите ваш clientid и clientsecret с https://dashboard.groupdocs.cloud после регистрации.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Как извлечь весь текст из PDF-файлов в Java, используя REST API

Извлечение текста из PDF файлов в Java с использованием GroupDocs.Parser Cloud SDK — это простой процесс. Вот как это сделать:

Загрузите файл

Во-первых, загрузите PDF-документ в облако, используя приведенный ниже пример кода:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Загрузите файл в облачное хранилище с использованием Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

В результате загруженный PDF-файл будет доступен в [files section][https://dashboard.groupdocs.cloud/files] вашего облачного интерфейса.

Извлечение текста из PDF-документа в Java

Следуйте шагам и примером кода, чтобы программно извлечь весь текст из PDF-файлов на Java, используя GroupDocs.Parser Cloud SDK для Java:

  • Прежде всего, импортируйте необходимые классы в ваш файл Java.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Далее укажите путь к PDF файлу в качестве входных данных.
  • Затем создайте экземпляр класса TextOptions().
  • Далее присвойте fileInfo методу setFileInfo.
  • Теперь создайте экземпляр класса TextRequest() и передайте параметр TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() и передав параметр TextRequest.

Следующий образец кода показывает, как извлечь весь текст из PDF-файла, используя REST API на Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Как извлечь текст из PDF документа на Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Вы можете увидеть результат на изображении ниже:

Java Извлечение текста из PDF-документа

Извлечение текста из PDF-документа на Java

Вытянуть определенный текст из PDF в Java по диапазону номеров страниц

Этот раздел предоставляет пошаговые инструкции и пример кода для программного извлечения специфического текста из PDF-файла на Java:

  • Прежде всего, импортируйте необходимые классы в ваш файл Java.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Далее укажите путь к PDF файлу в качестве входных данных.
  • Затем создайте экземпляр класса TextOptions().
  • Теперь укажите значения setStartPageNumber и setCountPagesToExtract.
  • Затем присвойте fileInfo методу setFileInfo.
  • Теперь создайте экземпляр класса TextRequest() и передайте параметр TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() и передав параметр TextRequest.

Следующий образец кода показывает, как извлечь определенный текст из PDF-файла по номеру диапазона страниц на Java, используя REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF file by page range number in Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Бесплатный онлайн парсер документов

Каков лучший способ извлечения текста из PDF онлайн бесплатно? Пожалуйста, попробуйте online PDF document parser software для извлечения текста из PDF. Этот инструмент PDF Parser разработан с использованием упомянутой выше библиотеки парсера на Java.

Заключение

В заключение, GroupDocs.Parser Cloud SDK для Java является ценным инструментом для Java-разработчиков, который позволяет эффективно извлекать текст, метаданные и изображения. Следующее - то, что вы узнали из этой статьи:

  • How to extract all text from PDF files using REST API in Java.
  • Programmatically upload a PDF file to the cloud using Java.
  • How to extract content from PDF in Java using REST API.
  • Онлайн инструмент извлечения текста из PDF для анализа PDF-документов.

Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, используя документацию. Мы также предоставляем раздел API Reference, который позволяет вам визуализировать и взаимодействовать с нашими API напрямую через браузер. Полный исходный код Java SDK доступен бесплатно на Github.

Наконец, мы продолжаем писать новые статьи в блоге о различных форматах файлов и парсинге с использованием REST API. Пожалуйста, свяжитесь с нами для получения последних обновлений.

Спросите вопрос

В случае, если у вас возникнут вопросы или неопределенности по поводу того, как извлекать текст из PDF-файлов, пожалуйста, не стесняйтесь обращаться к нам через наш forum.

Часто задаваемые вопросы

How do I extract all text from a PDF file using Java?

Вы можете извлечь весь текст из файла PDF с помощью GroupDocs.Parser Cloud SDK for Java в ваших Java приложениях. Этот мощный SDK предоставляет эффективный и простой способ извлечения текста из файлов PDF с использованием Java.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Да, SDK поддерживает извлечение текста из PDF-файлов с защитой паролем. Вы можете указать пароль в качестве опции во время процесса извлечения.

Можно ли извлечь текст с определённых страниц в PDF-файле?

Да, GroupDocs.Parser Cloud SDK для Java позволяет вам указать диапазон страниц, из которого вы хотите извлечь текст. Таким образом, вы можете легко извлекать текст из конкретных разделов PDF-документа.

См. также

Вот несколько статей, которые могут оказаться полезными: