从 PDF 中提取图像的 Node.js - 图像提取器

在本文中,您将学习如何通过编程方式从 PDF 文件中提取图像,使用 Node.js 和强大的 GroupDocs.Parser Cloud REST API。无论您是在构建内容解析器、数据提取工具还是文档自动化系统,从 PDF 中提取嵌入的图像都是一个常见的需求。本指南涵盖了安装、使用和代码片段,以便轻松提取图像。

为什么从PDF中提取图像?

  • 从PDF中提取logo、信息图和嵌入的照片。
  • 自动化文档数字化以便归档和数据处理。
  • 构建自定义 PDF 分析器或图像识别管道。
  • 基于 REST API 的工作流 — 无需桌面软件。

在这篇文章中,我们将讨论以下主题:

PDF 处理 API

GroupDocs.Parser Cloud SDK for Node.js 是一个轻量级且易于集成的 API 包装器,允许开发人员从多种文件格式中提取结构化内容,例如文本、图像、元数据和文档字段,包括 PDF、Word、Excel 等等。

先决条件 安装 GroupDocs.Parser Cloud SDK for Node.js:

npm install groupdocs-parser-cloud

GroupDocs.Cloud Dashboard 创建一个帐户,以获取您的客户端 ID 和客户端密钥以进行身份验证。有关更多信息,请访问这 article

从 PDF 中提取图像使用 Node.js

按以下步骤使用 Node.js API 开发自己的 PDF 图像提取器:

步骤 1:设置配置。

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

步骤 2:定义 PDF 文件信息和图像提取选项。 初始化一个 ImagesRequest 类的对象,并传递 ImagesOptions 类的实例。

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new ImagesOptions();
options.fileInfo = fileInfo;

const request = new ImagesRequest(options);

步骤 3:提取图像。 调用 images 方法从 PDF 文件中提取图像。

parserApi.images(request).then((response) => {
    console.log("Images extracted successfully.");
    console.log(response.images);
}).catch((err) => {
    console.error("Failed to extract images:", err);
});
// 有关更多示例,请访问 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new ImagesOptions();
options.fileInfo = fileInfo;

const request = new ImagesRequest(options);

parserApi.images(request).then((response) => {
    console.log("Images extracted successfully.");
    console.log(response.images);
}).catch((err) => {
    console.error("Failed to extract images:", err);
});

您可以在下面的图像中看到上述代码示例的输出:

图像文件提取器

从 PDF 中提取图像通过 cURL

您还可以使用 GroupDocs.Parser REST API 和 cURL 提取图像。

步骤 1 – 生成访问令牌:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步骤 2 – 通过 REST API 提取图像:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/images" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"Binder1.pdf\",    \"StorageName\": \"internal\"  },  \"OutputPath\": \"internal\",  \"StartPageNumber\": 1,  \"CountPagesToExtract\": 2}"
  • 将 替换为您生成的那个。

在线图像提取器

如果你在寻找无代码解决方案,可以使用由 GroupDocs.Parser Cloud 提供的免费在线 PDF Image Extractor

在线图像提取器

结论

GroupDocs.Parser Cloud SDK for Node.js 使从 PDF 文档中提取图像变得快速、可扩展且易于编码。无论您是在构建自动化脚本、内容爬虫,还是基于图像的分析工具,这个 REST API 都提供了您所需的一切,以便以编程方式隔离和导出图像。

准备好将其集成到您的工作流程中吗?今天就开始您的第一次 API 调用吧!

📚 附加资源

常见问题解答 – FAQs

如何从Word中提取图像?

您可以使用 GroupDocs.Parser Cloud SDKs 以编程方式从 PDF 文件中提取图像。请访问此 link 以获取更多详细信息。

定价模型是什么?

我们提供单一的按需付费定价模式。如需更多信息,请访问 pricing guide

相关的文章