Trích xuất hình ảnh từ PDF trong Node.js - Trình trích xuất hình ảnh

Trong bài viết này, bạn sẽ học cách trích xuất hình ảnh từ PDF một cách lập trình bằng Node.js và API GroupDocs.Parser Cloud REST mạnh mẽ. Dù bạn đang xây dựng một trình phân tích nội dung, công cụ trích xuất dữ liệu, hoặc hệ thống tự động hóa tài liệu, việc trích xuất hình ảnh nhúng từ PDF là một yêu cầu phổ biến. Hướng dẫn này bao gồm cài đặt, cách sử dụng và đoạn mã cho việc trích xuất hình ảnh dễ dàng.

Tại sao trích xuất hình ảnh từ PDF?

  • Trích xuất logo, đồ họa thông tin và hình ảnh nhúng từ các tệp PDF.
  • Tự động hóa số hóa tài liệu để lưu trữ và xử lý dữ liệu.
  • Xây dựng các bộ phân tích PDF tùy chỉnh hoặc các quy trình nhận diện hình ảnh.
  • REST API-based workflow — Không cần phần mềm máy tính để bàn.

Trong bài viết này, chúng tôi sẽ đề cập đến các chủ đề sau:

API Xử Lý PDF

GroupDocs.Parser Cloud SDK for Node.js là một lớp API nhẹ và dễ tích hợp cho phép các nhà phát triển trích xuất nội dung có cấu trúc—chẳng hạn như văn bản, hình ảnh, siêu dữ liệu và các trường tài liệu—từ nhiều định dạng tệp khác nhau bao gồm PDF, Word, Excel và nhiều hơn nữa.

Các yêu cầu cần thiết Cài đặt GroupDocs.Parser Cloud SDK cho Node.js:

npm install groupdocs-parser-cloud

Tạo một tài khoản tại GroupDocs.Cloud Dashboard để nhận Client ID và Client Secret của bạn cho việc xác thực. Để biết thêm thông tin, vui lòng truy cập bài viết này article.

Trích xuất hình ảnh từ PDF bằng Node.js

Làm theo các bước sau để phát triển trình trích xuất hình ảnh của riêng bạn từ PDF bằng cách sử dụng API Node.js:

Bước 1: Thiết lập cấu hình.

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Bước 2: Định nghĩa thông tin tệp PDF và các tùy chọn trích xuất hình ảnh. Khởi tạo một đối tượng của lớp ImagesRequest và truyền thể hiện của lớp ImagesOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new ImagesOptions();
options.fileInfo = fileInfo;

const request = new ImagesRequest(options);

Bước 3: Trích xuất hình ảnh. Gọi phương thức images để trích xuất hình ảnh từ tệp PDF.

parserApi.images(request).then((response) => {
    console.log("Images extracted successfully.");
    console.log(response.images);
}).catch((err) => {
    console.error("Failed to extract images:", err);
});
// Để xem thêm ví dụ, xin vui lòng truy cập https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new ImagesOptions();
options.fileInfo = fileInfo;

const request = new ImagesRequest(options);

parserApi.images(request).then((response) => {
    console.log("Images extracted successfully.");
    console.log(response.images);
}).catch((err) => {
    console.error("Failed to extract images:", err);
});

Bạn có thể xem đầu ra của mẫu mã ở trên trong hình dưới đây:

image file extractor

Trích xuất hình ảnh từ PDF qua cURL

Bạn cũng có thể trích xuất hình ảnh bằng cách sử dụng GroupDocs.Parser REST API và cURL.

Bước 1 – Tạo Mã Truy Cập:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Bước 2 - Trích xuất hình ảnh qua REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/images" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"Binder1.pdf\",    \"StorageName\": \"internal\"  },  \"OutputPath\": \"internal\",  \"StartPageNumber\": 1,  \"CountPagesToExtract\": 2}"
  • Thay bằng cái mà bạn đã tạo.

Trình trích xuất hình ảnh trực tuyến

Nếu bạn đang tìm kiếm một giải pháp không cần mã, bạn có thể sử dụng công cụ trực tuyến miễn phí PDF Image Extractor được hỗ trợ bởi GroupDocs.Parser Cloud .

Trình trích xuất hình ảnh trực tuyến

Kết luận

SDK đám mây GroupDocs.Parser cho Node.js giúp việc trích xuất hình ảnh từ tài liệu PDF nhanh chóng, có khả năng mở rộng và thân thiện với mã nguồn. Dù bạn đang xây dựng các script tự động, công cụ thu thập nội dung, hay công cụ phân tích dựa trên hình ảnh, API REST này cung cấp mọi thứ bạn cần để tách biệt và xuất hình ảnh một cách tự động.

Sẵn sàng tích hợp nó vào quy trình làm việc của bạn? Bắt đầu với cuộc gọi API đầu tiên của bạn hôm nay!

📚 Tài nguyên bổ sung

Câu hỏi thường gặp – FAQs

Cách tôi lấy hình ảnh từ Word?

Bạn có thể sử dụng GroupDocs.Parser Cloud SDKs để trích xuất hình ảnh từ các tệp PDF một cách lập trình. Vui lòng truy cập link này để biết thêm chi tiết.

Mô hình định giá là gì?

Chúng tôi cung cấp một mô hình giá trả khi sử dụng duy nhất. Để biết thêm thông tin, vui lòng truy cập pricing guide.

Bài viết liên quan