Phân tích Tài liệu – Trích xuất Văn bản từ Tệp PDF trong Java

Bạn đã bao giờ gặp phải tình huống mà bạn cần trích xuất văn bản từ một PDF file một cách lập trình chưa? Trích xuất văn bản từ các file PDF một cách lập trình có thể là một nhiệm vụ phức tạp, đặc biệt là khi làm việc với các tài liệu lớn. Nếu bạn là một nhà phát triển Java và đang tìm kiếm một giải pháp đáng tin cậy, SDK Cloud GroupDocs.Parser cho Java cung cấp một cách hiệu quả để trích xuất văn bản từ các file PDF. Trong bài viết này, chúng ta sẽ khám phá cách trích xuất văn bản từ file PDF trong Java sử dụng REST API.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

Java REST API để Trích xuất Văn bản từ Các tệp PDF và Cài đặt SDK

GroupDocs.Parser Cloud SDK for Java là một bộ công cụ phát triển phần mềm mạnh mẽ, thân thiện với người dùng và đầy đủ tính năng, cung cấp khả năng phân tích PDF toàn diện. Với bộ API toàn diện của nó, bạn có thể dễ dàng trích xuất văn bản, siêu dữ liệu, hình ảnh và phân tích dữ liệu từ hơn 50 loại định dạng tài liệu. Nó cũng cung cấp C# .NET, Java, PHP, Ruby và Python SDK như là các thành viên trong gia đình phân tích tài liệu cho Cloud API. SDK có thể được tích hợp vào một ứng dụng dựa trên Java để đơn giản hóa quy trình phát triển của bạn và nâng cao năng suất.

Bạn có thể download tệp JAR của API hoặc cài đặt nó bằng cách sử dụng Maven bằng cách thêm kho lưu trữ và phụ thuộc sau vào tệp pom.xml của dự án của bạn:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Tiếp theo, đăng ký tài khoản dùng thử miễn phí hoặc mua một gói đăng ký trên trang web GroupDocs và lấy khóa API của bạn. Khi bạn đã có Client Id và Client Secret, hãy thêm đoạn mã bên dưới vào một ứng dụng Java:

# Lấy clientid và clientsecret của bạn từ https://dashboard.groupdocs.cloud sau khi đăng ký.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cách trích xuất tất cả văn bản từ tệp PDF trong Java sử dụng REST API

Việc trích xuất văn bản từ các tệp PDF trong Java bằng cách sử dụng GroupDocs.Parser Cloud SDK là một quy trình đơn giản. Dưới đây là cách thực hiện:

  • Upload tệp tin PDF lên đám mây.
  • Extract văn bản từ PDF bằng Java.

Tải lên tệp

Đầu tiên, hãy tải tài liệu PDF lên đám mây bằng cách sử dụng ví dụ mã được đưa ra dưới đây:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Tải lên tệp lên Cloud Storage bằng Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Do đó, tập tin PDF đã tải lên sẽ có sẵn trong phần [files section][https://dashboard.groupdocs.cloud/files] của bảng điều khiển của bạn trên đám mây.

Extract Text from PDF Document in Java

Làm theo các bước và một đoạn mã ví dụ để trích xuất tất cả văn bản từ các tệp PDF theo cách lập trình trong Java sử dụng GroupDocs.Parser Cloud SDK cho Java:

  • Trước tiên, hãy nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một instance của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, đặt đường dẫn tới tệp PDF làm đầu vào.
  • Sau đó, tạo một thể hiện của lớp TextOptions().
  • Tiếp theo, gán fileInfo cho phương thức setFileInfo.
  • Bây giờ, tạo một phiên bản của lớp TextRequest() và truyền tham số TextOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() và truyền tham số TextRequest.

Mẫu mã sau đây cho thấy cách trích xuất tất cả văn bản từ tệp PDF bằng cách sử dụng REST API trong Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Cách trích xuất văn bản từ tài liệu PDF trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị các cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Lấy đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Bạn có thể xem đầu ra trong hình dưới đây:

Java Trích Xuất Văn Bản Từ Tài Liệu PDF

Trích xuất văn bản từ tài liệu PDF trong Java

Trích xuất văn bản cụ thể từ PDF trong Java theo phạm vi số trang

Phần này cung cấp hướng dẫn từng bước và một đoạn mã ví dụ để trích xuất văn bản cụ thể từ tệp PDF một cách lập trình trong Java:

  • Trước tiên, hãy nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một实例 của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, đặt đường dẫn tới tệp PDF làm đầu vào.
  • Sau đó, tạo một thể hiện của lớp TextOptions().
  • Bây giờ, cung cấp giá trị cho setStartPageNumber và setCountPagesToExtract.
  • Sau đó, gán fileInfo cho phương thức setFileInfo.
  • Bây giờ, tạo một phiên bản của lớp TextRequest() và truyền tham số TextOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() và truyền tham số TextRequest.

Mẫu mã dưới đây cho thấy cách trích xuất văn bản cụ thể từ tệp PDF theo số khoảng trang trong Java sử dụng API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Cách trích xuất văn bản từ tệp PDF theo khoảng số trang trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một thể hiện của API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Lấy đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Bộ phân tích tài liệu trực tuyến miễn phí

Cách tốt nhất để trích xuất văn bản từ PDF trực tuyến miễn phí là gì? Vui lòng thử một online PDF document parser software để trích xuất văn bản từ PDF. Công cụ PDF Parser này được phát triển bằng cách sử dụng thư viện parser Java đã đề cập ở trên.

Kết luận

Trong phần kết luận, GroupDocs.Parser Cloud SDK cho Java là một công cụ quý giá cho các nhà phát triển Java giúp bạn trích xuất văn bản, siêu dữ liệu và hình ảnh một cách hiệu quả. Những điều sau đây là những gì bạn đã học được từ bài viết này:

  • Cách trích xuất tất cả văn bản từ tệp PDF bằng cách sử dụng REST API trong Java.
  • Chương trình tải lên một tệp PDF lên đám mây bằng Java.
  • Làm thế nào để trích xuất nội dung từ PDF trong Java sử dụng REST API.
  • Công cụ trích xuất văn bản PDF trực tuyến để phân tích các tài liệu PDF.

Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng documentation. Chúng tôi cũng cung cấp một phần API Reference cho phép bạn hình dung và tương tác với các API của chúng tôi trực tiếp qua trình duyệt. Mã nguồn hoàn chỉnh của SDK Java có sẵn miễn phí trên Github.

Cuối cùng, chúng tôi tiếp tục viết các bài viết trên blog mới về các định dạng tệp khác nhau và phân tích cú pháp sử dụng REST API. Vì vậy, xin vui lòng liên hệ để nhận thông tin cập nhật mới nhất.

Hãy đặt một câu hỏi

Trong trường hợp bạn có bất kỳ thắc mắc hoặc bối rối nào về cách trích xuất văn bản từ các tệp PDF, xin vui lòng liên hệ với chúng tôi qua forum.

Câu hỏi thường gặp

How do I extract all text from a PDF file using Java?

Bạn có thể trích xuất toàn bộ văn bản từ một tệp PDF bằng cách sử dụng GroupDocs.Parser Cloud SDK for Java trong các ứng dụng Java của bạn. SDK mạnh mẽ này cung cấp một cách hiệu quả và đơn giản để trích xuất văn bản từ các tệp PDF bằng Java.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Có, SDK hỗ trợ trích xuất văn bản từ các tệp PDF có bảo vệ bằng mật khẩu. Bạn có thể cung cấp mật khẩu như một tùy chọn trong quá trình trích xuất.

Có thể trích xuất văn bản từ các trang cụ thể trong một tệp PDF không?

Có, GroupDocs.Parser Cloud SDK for Java cho phép bạn xác định khoảng số trang từ đó bạn muốn trích xuất văn bản. Bằng cách này, bạn có thể dễ dàng trích xuất văn bản từ các phần cụ thể của tài liệu PDF.

Xem thêm

Dưới đây là một số bài viết liên quan mà bạn có thể thấy hữu ích: