Витягти текст з PDF за допомогою Java

Документний парсинг – витяг тексту з PDF-файлу в Java

Ви коли-небудь стикалися з ситуацією, коли вам потрібно було програмно отримати текст з PDF файлу? Отримання тексту з PDF файлів програмно може бути складним завданням, особливо при роботі з великими документами. Якщо ви розробник на Java і шукаєте надійне рішення, GroupDocs.Parser Cloud SDK для Java пропонує ефективний спосіб отримання тексту з PDF файлів. У цій статті ми розглянемо, як отримати текст з PDF файлу на Java за допомогою REST API.

Наступні теми будуть висвітлені в цій статті:

Java REST API to Extract Text from PDF Files and SDK Installation
Як витягнути весь текст з PDF файлів у Java за допомогою REST API
Витягти конкретний текст з PDF в Java за діапазоном номерів сторінок

Java REST API to Extract Text from PDF Files and SDK Installation

GroupDocs.Parser Cloud SDK for Java є потужним, зручним та багатофункціональним програмним комплектом для розробки, який надає всебічні можливості для парсингу PDF. Завдяки своєму широкому набору API ви можете без зусиль витягувати текст, метадані, зображення та парсити дані з понад 50 типів форматів документів. Він також надає SDK для C# .NET, Java, PHP, Ruby та Python як своїх членів родини парсерів документів для Cloud API. SDK можна інтегрувати в додаток на базі Java, щоб спростити ваш процес розробки та підвищити продуктивність.

Ви можете або download файл JAR API, або встановити його за допомогою Maven, додавши наступний репозиторій і залежність у файл pom.xml вашого проєкту:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Залежність:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Далі, sign up для безкоштовного пробного акаунту або purchase a subscription plan на сайті GroupDocs і get your API key. Коли у вас буде Client Id та Client Secret, додайте наступний фрагмент коду до застосунку на базі Java:

# Отримайте ваш clientid та clientsecret з https://dashboard.groupdocs.cloud після реєстрації.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Як витягнути весь текст з PDF-файлів у Java за допомогою REST API

Отримання тексту з PDF файлів на Java за допомогою GroupDocs.Parser Cloud SDK - це простий процес. Ось як це зробити:

Завантажити PDF файл на хмару.
Extract текст з PDF за допомогою Java.

Завантажте файл

По-перше, завантажте PDF-документ в хмару, використовуючи наведену нижче кодову приклад:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Завантажити файл у Cloud Storage за допомогою Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

В результаті завантажений PDF файл буде доступний у [files section][https://dashboard.groupdocs.cloud/files] вашої панелі керування в хмарі.

Extract Text from PDF Document in Java

Слідкуйте за кроками та прикладом коду, щоб програмно вилучити весь текст з PDF-файлів у Java, використовуючи GroupDocs.Parser Cloud SDK для Java:

По-перше, імпортуйте необхідні класи у ваш файл Java.
По-друге, створіть екземпляр класу ParseApi.
По-третє, створіть екземпляр класу FileInfo.
Далі встановіть шлях до PDF-файлу як вхідний.
Тоді створіть екземпляр класу TextOptions().
Далі призначте fileInfo методу setFileInfo.
Тепер створіть екземпляр класу TextRequest() і передайте параметр TextOptions.
Нарешті, отримайте результати, викликавши метод ParseApi.text() і передавши параметр TextRequest.

Наступний приклад коду показує, як витягти весь текст з PDF файлу за допомогою REST API на Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Як витягти текст з PDF документа в Java.
public class App {

	public static void main(String[] args) {
		
		// Створіть екземпляр API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Підготуйте налаштування
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Отримати шлях до вихідного файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Ви можете побачити вихід на зображенні нижче:

Java витяг тексту з PDF документа — Витягти текст з PDF-документа в Java

Extract Specific Text from PDF in Java by Page Number Range

Цей розділ надає покрокові інструкції та приклад коду для програмного видобування конкретного тексту з PDF-файлу на Java:

По-перше, імпортуйте необхідні класи у ваш файл Java.
По-друге, створіть екземпляр класу ParseApi.
По-третє, створіть екземпляр класу FileInfo.
Далі встановіть шлях до PDF-файлу як вхідний.
Тоді створіть екземпляр класу TextOptions().
Тепер надайте значення setStartPageNumber та setCountPagesToExtract.
Тоді призначьте fileInfo методу setFileInfo.
Тепер створіть екземпляр класу TextRequest() і передайте параметр TextOptions.
Нарешті, отримайте результати, викликавши метод ParseApi.text() та передавши параметр TextRequest.

Приклад коду нижче демонструє, як витягнути специфічний текст з PDF файлу за допомогою діапазону номерів сторінок у Java, використовуючи REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF file by page range number in Java.
public class App {

	public static void main(String[] args) {
		
		// Створіть екземпляр API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Підготуйте налаштування
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Отримати шлях вихідного файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Безкоштовний онлайн парсер документів

What is the best way to extract text from PDF online for free? Please try an online PDF document parser software to extract text out of PDF. This PDF Parser tool is developed using the above-mentioned Java parser library.

Висновок

На завершення, GroupDocs.Parser Cloud SDK для Java є цінним інструментом для розробників Java, який дозволяє ефективно витягувати текст, метадані та зображення. Нижче наведено, що ви дізналися з цієї статті:

How to extract all text from PDF files using REST API in Java.
Programmatically upload a PDF file to the cloud using Java.
How to extract content from PDF in Java using REST API.
Онлайн інструмент для витягування тексту з PDF для аналізу PDF-документів.

Крім того, ви можете дізнатися більше про GroupDocs.Parser Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє вам візуалізувати та взаємодіяти з нашими API безпосередньо через браузер. Повний вихідний код Java SDK доступний на Github.

Нарешті, ми продовжуємо писати нові блоги на різні формати файлів та парсинг, використовуючи REST API. Тому, будь ласка, зв’яжіться з нами для отримання останніх оновлень.

Ask a question

У разі, якщо у вас виникнуть питання чи непорозуміння щодо того, як витягувати текст із PDF-файлів, будь ласка, не соромтеся звертатися до нас через наш forum.

Часто задавані питання

How do I extract all text from a PDF file using Java?

Ви можете витягувати весь текст з PDF файлу, використовуючи GroupDocs.Parser Cloud SDK for Java у ваших Java-додатках. Цей потужний SDK забезпечує ефективний і простий спосіб витягування тексту з PDF файлів, використовуючи Java.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Так, SDK підтримує витягування тексту з PDF файлів, захищених паролем. Ви можете вказати пароль як параметр під час процесу витягування.

Is it possible to extract text from specific pages within a PDF file?

Так, GroupDocs.Parser Cloud SDK for Java дозволяє вам вказати номер діапазону сторінок, з яких ви хочете витягнути текст. Таким чином, ви можете легко витягувати текст із конкретних розділів PDF-документа.

Дивіться також

Ось кілька пов’язаних статей, які можуть бути для вас корисними:

Java REST API to Extract Text from PDF Files and SDK Installation#

Як витягнути весь текст з PDF-файлів у Java за допомогою REST API#

Завантажте файл#

Extract Text from PDF Document in Java#

Extract Specific Text from PDF in Java by Page Number Range#

Безкоштовний онлайн парсер документів#

Висновок#

Ask a question#

Часто задавані питання#

Дивіться також#