Chuyển đổi PDF thành văn bản trong Java bằng GroupDocs.Conversion Cloud REST API.

Cách chuyển đổi PDF thành tệp văn bản theo lập trình trong Java

PDF hay Định dạng Tài liệu Di động là định dạng phổ biến để chia sẻ tài liệu, nhưng có thể khó làm việc với PDF khi chỉnh sửa hoặc trích xuất văn bản. Đây là lúc bạn cần chuyển đổi tài liệu PDF thành tệp text. Chuyển đổi PDF thành tệp văn bản có thể làm cho văn bản dễ truy cập, chỉnh sửa và tìm kiếm hơn. Trong bài đăng trên blog này, chúng tôi sẽ giới thiệu cách chuyển đổi PDF thành tệp văn bản theo lập trình trong Java bằng API REST.

Các chủ đề sau sẽ được đề cập trong hướng dẫn này:

API Java PDF chuyển đổi thành văn bản REST API - Cài đặt SDK

Để chuyển đổi tài liệu PDF thành tệp văn bản, tôi sẽ sử dụng GroupDocs.Conversion Cloud SDK cho Java. Đây là giải pháp API REST độc lập với nền tảng để chuyển đổi tài liệu và hình ảnh mà không phụ thuộc vào bất kỳ phần mềm bên thứ 3 nào. Nó cũng cho phép bạn chuyển đổi hơn 50 loại tài liệu và hình ảnh của bất kỳ định dạng tệp được hỗ trợ nào sang bất kỳ định dạng nào bạn cần. Bạn có thể nhanh chóng chuyển đổi tài liệu từ định dạng này sang định dạng khác như Word, PDF, PowerPoint, Excel, HTML, CAD, hình ảnh raster, v.v.

Bạn có thể tải xuống tệp JAR của API hoặc cài đặt bằng cấu hình Maven. Thêm kho lưu trữ và phần phụ thuộc vào tệp POM.xml của dự án của bạn. Dưới đây là hướng dẫn cho Maven:

Kho lưu trữ Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Phụ thuộc Maven:

 <dependency>
    <groupId>com.groupdocs</groupId
    <artifactId>groupdocs-conversion-cloud</artifactId>
    <version>23.4</version>
    <scope>compile</scope>
</dependency>

Sau khi tích hợp GroupDocs.Conversion Cloud SDK vào dự án Java của bạn, hãy Đăng ký để tạo tài khoản. Thu thập ID khách hàng và Bí mật khách hàng của bạn từ bảng điều khiển trước khi bạn bắt đầu làm theo các bước và ví dụ mã có sẵn. Ngoài ra, điều quan trọng là phải kiểm tra tài liệu API và giới hạn sử dụng trước khi sử dụng. Vui lòng nhập mã hiển thị bên dưới khi bạn có ID và bí mật của mình:

# Nhận client_id và client_secret của bạn từ https://dashboard.groupdocs.cloud sau khi đăng ký miễn phí.

String ClientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cách chuyển đổi tài liệu PDF thành tệp TXT trong Java bằng API REST

Sau đây là các bước để chuyển đổi PDF thành tài liệu văn bản như được đề cập bên dưới:

Tải tệp lên

Đầu tiên, tải tài liệu PDF lên bộ nhớ đám mây bằng đoạn mã dưới đây:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.conversion.api.*;
import com.groupdocs.cloud.conversion.model.*;
import com.groupdocs.cloud.conversion.model.requests.*;
import com.groupdocs.cloud.conversion.client.Configuration;
import com.groupdocs.cloud.conversion.client.ApiException;

import java.io.File;

// Tải tệp lên bộ nhớ đám mây bằng Java
public class App {

  public static void main(String[] args) {
        
    // Tạo một phiên bản của API chuyển đổi          
    FileApi apiInstance = new FileApi(configuration);
    try {
      File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
      UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
      FilesUploadResult response = apiInstance.uploadFile(request);
      System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
    } catch (ApiException e) {
      System.err.println("Exception while calling FileApi:");
      e.printStackTrace();
    }
    
  }
}

Do đó, tệp PDF đã tải lên sẽ có sẵn trong phần tệp trên trang tổng quan của bạn trên đám mây.

Chuyển đổi PDF thành định dạng văn bản trong Java

Phần này nói về cách chuyển đổi tài liệu PDF thành tệp văn bản theo lập trình trong Java bằng cách thực hiện theo các bước bên dưới:

  • Đầu tiên, tạo một thể hiện của lớp ConvertApi.
  • Thứ hai, tạo một thể hiện của lớp ConvertSettings.
  • Tiếp theo, cung cấp tên lưu trữ đám mây.
  • Đặt đường dẫn tệp PDF đầu vào và định dạng tệp đầu ra là “txt”.
  • Sau đó, tạo một phiên bản của lớp TxtConvertOptions.
  • Tùy chọn, đặt các tùy chọn chuyển đổi khác nhau như setFromPage, setPagesCount, v.v.
  • Bây giờ, hãy đặt các tùy chọn chuyển đổi và đường dẫn tệp đầu ra bằng cách sử dụng phiên bản ConvertSettings.
  • Sau đó, tạo thể hiện của lớp ConvertDocumentRequest và chuyển tham số ConvertSettings.
  • Cuối cùng, gọi phương thức convert\document() và truyền tham số ConvertDocumentRequest.

Đoạn mã sau cho biết cách chuyển đổi tệp PDF thành tệp văn bản trong Java bằng API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.conversion.api.*;
import com.groupdocs.cloud.conversion.model.*;
import com.groupdocs.cloud.conversion.model.requests.*;
import com.groupdocs.cloud.conversion.client.Configuration;
import com.groupdocs.cloud.conversion.client.ApiException;
import java.util.List;

// Cách chuyển đổi tài liệu PDF thành tệp TXT trong Java bằng API REST
public class App {

  public static void main(String[] args) {
    
    // Tạo một phiên bản của API chuyển đổi
    ConvertApi apiInstance = new ConvertApi(configuration);
          
    try {
       
      // Chuẩn bị cài đặt chuyển đổi
      ConvertSettings settings = new ConvertSettings();
      settings.setStorageName(MyStorage);
      settings.setFilePath("java-testing/input-sample-file.pdf");
      settings.setFormat("txt");
      
      TxtConvertOptions convertOptions = new TxtConvertOptions();
      convertOptions.setFromPage(3);
      convertOptions.setPagesCount(5);
        
      settings.setConvertOptions(convertOptions);
      settings.setOutputPath("java-testing/output-sample-file.txt");
    
      // chuyển đổi sang định dạng được chỉ định
      List<StoredConvertedResult> response = apiInstance.convertDocument(new ConvertDocumentRequest(settings));
      System.out.println("Document converted successfully: " + response);
      
    } catch (ApiException e) {
      System.err.println("Exception while calling Java API: ");
      e.printStackTrace();
    }
  }
}
Java chuyển đổi PDF thành tệp văn bản theo chương trình trong

Chuyển đổi PDF thành tệp văn bản theo lập trình trong Java.

Tải xuống tệp đã chuyển đổi

Mẫu mã trên sẽ lưu tệp văn bản đã chuyển đổi vào đám mây. Bạn có thể tải xuống bằng đoạn mã sau:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.conversion.api.*;
import com.groupdocs.cloud.conversion.model.requests.*;
import com.groupdocs.cloud.conversion.client.Configuration;
import com.groupdocs.cloud.conversion.client.ApiException;

import java.io.File;

// Tải xuống tệp từ Bộ lưu trữ đám mây trong Java
public class App {

  public static void main(String[] args) {
        
    // Tạo một phiên bản của API chuyển đổi          
    FileApi apiInstance = new FileApi(configuration);
    try {
      DownloadFileRequest request = new DownloadFileRequest("java-testing\\output-sample-file.txt", MyStorage, null);
      File response = apiInstance.downloadFile(request);
      System.err.println("Expected response type is File: " + response.length());
    } catch (ApiException e) {
      System.err.println("Exception while calling FileApi:");
      e.printStackTrace();
    }
    
  }
}

Trình chuyển đổi PDF sang văn bản trực tuyến miễn phí

Làm cách nào để chuyển đổi PDF sang tệp văn bản trực tuyến miễn phí? Vui lòng thử trình chuyển đổi PDF sang văn bản trực tuyến để tạo tệp văn bản từ tài liệu PDF miễn phí. Trình chuyển đổi này được phát triển bằng cách sử dụng API định dạng PDF thành văn bản đã đề cập ở trên.

convert pdf to text online

Phần kết luận

Điều này đưa chúng ta đến cuối bài đăng trên blog này. Sau đây là những gì bạn đã học được từ bài viết này:

  • cách lập trình chuyển đổi PDF thành tệp văn bản trong Java bằng GroupDocs.Conversion Cloud REST API;
  • tải tệp PDF lên đám mây theo chương trình rồi tải xuống tệp văn bản đã chuyển đổi từ đám mây;
  • và chuyển đổi trực tuyến PDF thành văn bản bằng trình chuyển đổi văn bản PDF miễn phí.

Ngoài ra, GroupDocs.Conversion Cloud REST API là một công cụ mạnh mẽ và dễ sử dụng để chuyển đổi PDF thành tệp văn bản trong Java. Nó cũng cung cấp phần Tham khảo API cho phép bạn trực quan hóa và giao tiếp với các API của chúng tôi thông qua trình duyệt. Mã nguồn hoàn chỉnh của Java SDK có sẵn miễn phí trên Github. Vui lòng kiểm tra GroupDocs.Conversion Cloud SDK dành cho Java Ví dụ tại đây.

Ngoài ra, chúng tôi khuyến khích bạn tham khảo Hướng dẫn bắt đầu của chúng tôi.

Cuối cùng, chúng tôi tiếp tục viết các bài blog mới về các chuyển đổi định dạng tệp khác nhau bằng API REST. Vì vậy, xin vui lòng liên lạc để cập nhật thường xuyên.

Đặt một câu hỏi

Đối với bất kỳ câu hỏi nào về trình chuyển đổi PDF sang văn bản, vui lòng liên hệ với chúng tôi trên [diễn đàn] hỗ trợ miễn phí 22.

câu hỏi thường gặp

Làm cách nào để thiết lập GroupDocs.Conversion Cloud REST API trong Java?

Để thiết lập GroupDocs.Conversion Cloud REST API trong Java, bạn cần đăng ký tài khoản, lấy khóa API, sau đó tích hợp API vào dự án Java của bạn bằng cách sử dụng SDK được cung cấp .

Tôi có thể chuyển đổi nhiều tài liệu PDF thành tệp văn bản cùng một lúc không?

Có, bạn có thể chuyển đổi nhiều tệp PDF thành tệp văn bản cùng một lúc bằng cách sử dụng GroupDocs.Conversion Cloud REST API bằng cách chuyển vào một mảng đường dẫn tệp hoặc URL.

Tôi có thể chuyển đổi tệp PDF được bảo vệ bằng mật khẩu thành tệp văn bản không?

Có, bạn có thể chuyển đổi tệp PDF được bảo vệ bằng mật khẩu thành tệp văn bản bằng cách sử dụng GroupDocs.Conversion Cloud REST API bằng cách chuyển mật khẩu dưới dạng tham số trong yêu cầu API.

Làm cách nào để chuyển đổi PDF thành văn bản trực tuyến miễn phí?

Trình chuyển đổi tài liệu PDF thành văn bản trực tuyến cho phép bạn chuyển đổi PDF thành văn bản miễn phí. Vui lòng làm theo hướng dẫn từng bước dưới đây để chuyển đổi:

  • Mở Trực tuyến trình chuyển đổi tệp PDF sang văn bản miễn phí
  • Nhấp vào bên trong khu vực thả tệp để tải tệp PDF lên hoặc kéo và thả tệp PDF.
  • Nhấp vào nút Chuyển đổi ngay bây giờ, trình chuyển đổi PDF sang văn bản trực tuyến miễn phí sẽ chuyển đổi PDF thành tệp văn bản.
  • Liên kết tải xuống của tệp văn bản đầu ra sẽ khả dụng ngay lập tức sau khi chuyển đổi tệp PDF thành văn bản.

Cách tốt nhất để chuyển đổi PDF thành tệp văn bản trong Java là gì?

Cách tốt nhất để chuyển đổi PDF thành tệp văn bản trong Java là sử dụng thư viện hoặc API được thiết kế riêng cho mục đích này, chẳng hạn như API REST của GroupDocs.Conversion Cloud.

Làm cách nào để chuyển đổi PDF thành văn bản trên Windows?

Vui lòng truy cập liên kết này để tải xuống trình chuyển đổi tệp PDF thành tệp văn bản ngoại tuyến cho Windows. Trình chuyển đổi tài liệu PDF thành tệp văn bản này có thể được sử dụng để chuyển đổi PDF thành văn bản trên Windows một cách nhanh chóng chỉ bằng một cú nhấp chuột.

Xem thêm

Nếu bạn muốn tìm hiểu về các chủ đề liên quan, chúng tôi khuyên bạn nên truy cập các bài viết sau: