Phân tích cú pháp tài liệu – Trích xuất văn bản từ tệp PDF trong Java

Bạn đã bao giờ gặp phải tình huống cần trích xuất văn bản từ tệp PDF theo chương trình chưa? Trích xuất văn bản từ tệp PDF theo chương trình có thể là một nhiệm vụ phức tạp, đặc biệt là khi xử lý các tài liệu lớn. Nếu bạn là nhà phát triển Java và đang tìm kiếm một giải pháp đáng tin cậy, GroupDocs.Parser Cloud SDK dành cho Java cung cấp một cách hiệu quả để trích xuất văn bản từ tệp PDF. Trong bài viết này, chúng ta sẽ khám phá cách trích xuất văn bản từ tệp PDF trong Java bằng API REST.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

Java REST API để trích xuất văn bản từ tệp PDF và cài đặt SDK

GroupDocs.Parser Cloud SDK for Java là bộ công cụ phát triển phần mềm mạnh mẽ, thân thiện với người dùng và giàu tính năng, cung cấp khả năng phân tích cú pháp PDF toàn diện. Với bộ API toàn diện, bạn có thể dễ dàng trích xuất văn bản, siêu dữ liệu, hình ảnh và phân tích cú pháp dữ liệu từ hơn 50 loại định dạng tài liệu. Nó cũng cung cấp SDK C# .NET, Java, PHP, Ruby và Python dưới dạng các thành viên họ trình phân tích cú pháp tài liệu cho Cloud API. SDK có thể được tích hợp vào ứng dụng dựa trên Java để đơn giản hóa quy trình phát triển của bạn và nâng cao năng suất.

Bạn có thể tải xuống tệp JAR của API hoặc cài đặt nó bằng Maven bằng cách thêm kho lưu trữ và phần phụ thuộc sau vào tệp pom.xml của dự án:

Kho lưu trữ Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Phụ thuộc Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Tiếp theo, đăng ký để có tài khoản dùng thử miễn phí hoặc mua gói đăng ký trên trang web GroupDocs và lấy khóa API của bạn. Sau khi bạn có Id ứng dụng khách và Bí mật ứng dụng khách, hãy thêm đoạn mã bên dưới vào ứng dụng dựa trên Java:

# Nhận client_id và client_secret của bạn từ https://dashboard.groupdocs.cloud sau khi đăng ký.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cách trích xuất tất cả văn bản từ tệp PDF trong Java bằng API REST

Trích xuất văn bản từ tệp PDF trong Java bằng GroupDocs.Parser Cloud SDK là một quy trình đơn giản. Đây là cách để làm điều đó:

Tải tệp lên

Đầu tiên, tải tài liệu PDF lên đám mây bằng ví dụ mã được cung cấp bên dưới:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Tải tệp lên Cloud Storage bằng Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Do đó, tệp PDF đã tải lên sẽ có trong phần tệp trên trang tổng quan của bạn trên đám mây.

Trích xuất văn bản từ tài liệu PDF bằng Java

Làm theo các bước và đoạn mã ví dụ để trích xuất tất cả văn bản từ tệp PDF theo cách lập trình trong Java bằng cách sử dụng GroupDocs.Parser Cloud SDK cho Java:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, đặt đường dẫn đến tệp PDF làm đầu vào.
  • Sau đó, tạo một thể hiện của lớp TextOptions().
  • Tiếp theo, gán fileInfo cho phương thức setFileInfo.
  • Bây giờ, hãy tạo một thể hiện của lớp TextRequest() và truyền tham số TextOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() và truyền tham số TextRequest.

Mẫu mã sau đây cho biết cách trích xuất tất cả văn bản từ tệp PDF bằng API REST trong Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Cách trích xuất văn bản từ tài liệu PDF trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Nhận đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Bạn có thể thấy đầu ra trong hình dưới đây:

Java Trích xuất văn bản từ tài liệu PDF

Trích xuất văn bản từ tài liệu PDF trong Java

Trích xuất văn bản cụ thể từ PDF trong Java theo dãy số trang

Phần này cung cấp các hướng dẫn từng bước và một đoạn mã ví dụ để trích xuất văn bản cụ thể từ tệp PDF theo cách lập trình trong Java:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, đặt đường dẫn đến tệp PDF làm đầu vào.
  • Sau đó, tạo một thể hiện của lớp TextOptions().
  • Bây giờ, hãy cung cấp các giá trị setStartPageNumber và setCountPagesToExtract.
  • Sau đó, gán fileInfo cho phương thức setFileInfo.
  • Bây giờ, hãy tạo một thể hiện của lớp TextRequest() và truyền tham số TextOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() và truyền tham số TextRequest.

Mẫu mã sau đây cho biết cách trích xuất văn bản cụ thể từ tệp PDF theo số phạm vi trang trong Java bằng API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Cách trích xuất văn bản từ tệp PDF theo số phạm vi trang trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Nhận đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Trình phân tích cú pháp tài liệu trực tuyến miễn phí

Cách tốt nhất để trích xuất văn bản từ PDF trực tuyến miễn phí là gì? Vui lòng dùng thử phần mềm phân tích cú pháp tài liệu PDF trực tuyến để trích xuất văn bản ra khỏi PDF. Công cụ Trình phân tích cú pháp PDF này được phát triển bằng cách sử dụng thư viện trình phân tích cú pháp Java đã đề cập ở trên.

Phần kết luận

Tóm lại, GroupDocs.Parser Cloud SDK dành cho Java là một công cụ có giá trị dành cho các nhà phát triển Java cho phép bạn trích xuất văn bản, siêu dữ liệu và hình ảnh một cách hiệu quả. Sau đây là những gì bạn đã học được từ bài viết này:

  • cách trích xuất tất cả văn bản từ tệp PDF bằng API REST trong Java;
  • lập trình tải tệp PDF lên đám mây bằng Java;
  • cách trích xuất nội dung từ PDF trong Java bằng API REST;
  • và công cụ trích xuất văn bản PDF trực tuyến để phân tích tài liệu PDF.

Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Mã nguồn hoàn chỉnh của Java SDK có sẵn miễn phí trên Github.

Cuối cùng, chúng tôi tiếp tục viết các bài blog mới trên các định dạng tệp khác nhau và phân tích cú pháp bằng API REST. Vì vậy, vui lòng liên hệ để cập nhật thông tin mới nhất.

Đặt một câu hỏi

Trong trường hợp bạn có bất kỳ thắc mắc hoặc nhầm lẫn nào về cách trích xuất văn bản từ tệp PDF, vui lòng liên hệ với chúng tôi qua diễn đàn của chúng tôi.

câu hỏi thường gặp

Làm cách nào để trích xuất tất cả văn bản từ tệp PDF bằng Java?

Bạn có thể trích xuất tất cả văn bản từ tệp PDF bằng cách sử dụng GroupDocs.Parser Cloud SDK for Java trong các ứng dụng Java của mình. SDK mạnh mẽ này cung cấp một cách hiệu quả và đơn giản để trích xuất văn bản từ các tệp PDF bằng Java.

Tôi có thể trích xuất văn bản từ các tệp PDF được bảo vệ bằng mật khẩu bằng GroupDocs.Parser Cloud SDK cho Java không?

Có, SDK hỗ trợ trích xuất văn bản từ tệp PDF được bảo vệ bằng mật khẩu. Bạn có thể cung cấp mật khẩu dưới dạng tùy chọn trong quá trình giải nén.

Có thể trích xuất văn bản từ các trang cụ thể trong tệp PDF không?

Có, GroupDocs.Parser Cloud SDK for Java cho phép bạn chỉ định số phạm vi trang mà bạn muốn trích xuất văn bản từ đó. Bằng cách này, bạn có thể dễ dàng trích xuất văn bản từ các phần cụ thể của tài liệu PDF.

Xem thêm

Dưới đây là một số bài viết liên quan mà bạn có thể thấy hữu ích: