Синтаксичний аналіз документа – вилучення тексту з PDF-файлу в Java

Ви коли-небудь стикалися з ситуацією, коли вам потрібно було витягти текст із файлу PDF програмним шляхом? Програмне видобування тексту з PDF-файлів може бути складним завданням, особливо під час роботи з великими документами. Якщо ви розробник Java і шукаєте надійне рішення, GroupDocs.Parser Cloud SDK для Java надає ефективний спосіб вилучення тексту з файлів PDF. У цій статті ми розглянемо, як отримати текст із PDF-файлу в Java за допомогою REST API.

У цій статті будуть розглянуті такі теми:

Java REST API для вилучення тексту з PDF-файлів і встановлення SDK

GroupDocs.Parser Cloud SDK для Java — це потужний, зручний і багатофункціональний набір для розробки програмного забезпечення, який надає комплексні можливості аналізу PDF. Завдяки повному набору API ви можете легко видобувати текст, метадані, зображення та аналізувати дані з понад 50 типів форматів документів. Він також надає пакети SDK C# .NET, Java, PHP, Ruby та Python як члени сімейства парсерів документів для Cloud API. SDK можна інтегрувати в програму на основі Java, щоб спростити процес розробки та підвищити продуктивність.

Ви можете завантажити JAR-файл API або встановити його за допомогою Maven, додавши таке сховище та залежність у файл pom.xml вашого проекту:

Репозиторій Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Залежність Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Далі зареєструйтесь, щоб отримати безкоштовний пробний обліковий запис або придбайте план підписки на веб-сайті GroupDocs і отримайте ключ API. Отримавши ідентифікатор клієнта та секрет клієнта, додайте наведений нижче фрагмент коду до програми на основі Java:

# Отримайте свій client_id і client_secret на https://dashboard.groupdocs.cloud після реєстрації.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Як витягти весь текст із PDF-файлів у Java за допомогою REST API

Вилучення тексту з PDF-файлів у Java за допомогою GroupDocs.Parser Cloud SDK є простим процесом. Ось як це зробити:

Завантажте файл

По-перше, завантажте PDF-документ у хмару, використовуючи наведений нижче приклад коду:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Завантажте файл у хмарне сховище за допомогою Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

У результаті завантажений PDF-файл буде доступний у розділі файлів вашої інформаційної панелі в хмарі.

Вилучення тексту з PDF-документа в Java

Виконайте кроки та приклад фрагмента коду, щоб отримати весь текст із PDF-файлів програмним шляхом у Java за допомогою GroupDocs.Parser Cloud SDK для Java:

  • По-перше, імпортуйте необхідні класи у свій файл Java.
  • По-друге, створіть екземпляр класу ParseApi.
  • По-третє, створіть екземпляр класу FileInfo.
  • Далі встановіть шлях до файлу PDF як вхідні дані.
  • Потім створіть екземпляр класу TextOptions().
  • Далі призначте fileInfo методу setFileInfo.
  • Тепер створіть екземпляр класу TextRequest() і передайте параметр TextOptions.
  • Нарешті, отримуйте результати, викликавши метод ParseApi.text() і передавши параметр TextRequest.

У наведеному нижче прикладі коду показано, як витягти весь текст із PDF-файлу за допомогою REST API у Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Як витягти текст із PDF-документа на Java.
public class App {

	public static void main(String[] args) {
		
		// Створіть екземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Підготуйте налаштування
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Отримати вихідний шлях до файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Ви можете побачити результат на зображенні нижче:

Java витягує текст із PDF-документа

Витягніть текст із PDF-документа в Java

Витяг певного тексту з PDF-файлу в Java за діапазоном номерів сторінок

У цьому розділі наведено покрокові інструкції та приклад фрагмента коду для програмного вилучення певного тексту з PDF-файлу в Java:

  • По-перше, імпортуйте необхідні класи у свій файл Java.
  • По-друге, створіть екземпляр класу ParseApi.
  • По-третє, створіть екземпляр класу FileInfo.
  • Далі встановіть шлях до файлу PDF як вхідні дані.
  • Потім створіть екземпляр класу TextOptions().
  • Тепер укажіть значення setStartPageNumber і setCountPagesToExtract.
  • Потім призначте fileInfo методу setFileInfo.
  • Тепер створіть екземпляр класу TextRequest() і передайте параметр TextOptions.
  • Нарешті, отримуйте результати, викликавши метод ParseApi.text() і передавши параметр TextRequest.

У наведеному нижче прикладі коду показано, як витягти певний текст із PDF-файлу за номером діапазону сторінок у Java за допомогою REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Як витягти текст із PDF-файлу за номером діапазону сторінок у Java.
public class App {

	public static void main(String[] args) {
		
		// Створіть екземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Підготуйте налаштування
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Отримати вихідний шлях до файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Безкоштовний аналізатор документів онлайн

Який найкращий спосіб безкоштовно витягти текст із PDF-файлу онлайн? Спробуйте онлайн-програмне забезпечення аналізатора PDF-документів, щоб витягнути текст із PDF-файлу. Цей інструмент PDF Parser розроблено з використанням згаданої вище бібліотеки аналізатора Java.

Висновок

Підсумовуючи, GroupDocs.Parser Cloud SDK для Java є цінним інструментом для розробників Java, який дозволяє ефективно отримувати текст, метадані та зображення. Ось що ви дізналися з цієї статті:

  • як витягти весь текст із файлів PDF за допомогою REST API в Java;
  • програмно завантажити PDF-файл у хмару за допомогою Java;
  • як витягти вміст із PDF-файлу в Java за допомогою REST API;
  • та онлайн-інструмент вилучення тексту PDF для аналізу PDF-документів.

Крім того, ви можете дізнатися більше про GroupDocs.Parser Cloud API за допомогою документації. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. Повний вихідний код Java SDK є у вільному доступі на Github.

Нарешті, ми продовжуємо писати нові статті в блозі про різні формати файлів і аналіз за допомогою REST API. Тому, будь ласка, зв’яжіться з нами, щоб отримати останні оновлення.

Задайте питання

Якщо у вас виникнуть запитання чи непорозуміння щодо того, як отримати текст із PDF-файлів, зв’яжіться з нами через наш форум.

поширені запитання

Як отримати весь текст із PDF-файлу за допомогою Java?

Ви можете витягнути весь текст із PDF-файлу за допомогою GroupDocs.Parser Cloud SDK для Java у своїх програмах Java. Цей потужний пакет SDK забезпечує ефективний і простий спосіб вилучення тексту з файлів PDF за допомогою Java.

Чи можу я отримати текст із захищених паролем PDF-файлів за допомогою GroupDocs.Parser Cloud SDK для Java?

Так, SDK підтримує вилучення тексту із PDF-файлів, захищених паролем. Ви можете надати пароль як варіант під час процесу вилучення.

Чи можна витягти текст із певних сторінок у файлі PDF?

Так, GroupDocs.Parser Cloud SDK for Java дозволяє вказати номер діапазону сторінок, з якого потрібно витягти текст. Таким чином ви можете легко витягти текст із певних розділів документа PDF.

Дивись також

Ось деякі пов’язані статті, які можуть бути вам корисними: