Извлечение изображений из PDF в Node.js - Извлекатель изображений

В этой статье вы узнаете, как программно извлекать изображения из PDF файлов, используя Node.js и мощный API REST GroupDocs.Parser Cloud. Независимо от того, создаете ли вы анализатор контента, инструмент для извлечения данных или систему автоматизации документов, извлечение встроенных изображений из PDF является распространенной задачей. Этот гид охватывает установку, использование и фрагменты кода для легкого извлечения изображений.

Почему извлекать изображения из PDF?

  • Извлеките логотипы, инфографику и встроенные фотографии из PDF-файлов.
  • Автоматизируйте цифровизацию документов для архивирования и обработки данных.
  • Создайте пользовательские анализаторы PDF или конвейеры распознавания изображений.
  • REST API-ориентированный рабочий процесс — Нет необходимости в программном обеспечении для настольных ПК.

В этой статье мы собираемся осветить следующие темы:

API для обработки PDF

GroupDocs.Parser Cloud SDK for Node.js является легковесной и простой в интеграции оболочкой API, которая позволяет разработчикам извлекать структурированные данные — такие как текст, изображения, метаданные и поля документа — из множества файловых форматов, включая PDF, Word, Excel и другие.

Предварительные требования Установите облачный SDK GroupDocs.Parser для Node.js:

npm install groupdocs-parser-cloud

Создайте аккаунт на GroupDocs.Cloud Dashboard, чтобы получить ваш Client ID и Client Secret для аутентификации. Для получения дополнительной информации, пожалуйста, посетите эту статью.

Извлечение изображений из PDF с использованием Node.js

Следуйте этим шагам, чтобы разработать свой собственный извлекатель изображений из PDF с использованием API Node.js:

Шаг 1: Настройка конфигурации.

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Шаг 2: Определите информацию о PDF-файле и параметры извлечения изображений. Инициализируйте объект класса ImagesRequest и передайте экземпляр класса ImagesOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new ImagesOptions();
options.fileInfo = fileInfo;

const request = new ImagesRequest(options);

Шаг 3: Извлечь изображения. Вызовите метод images для извлечения изображений из PDF файла.

parserApi.images(request).then((response) => {
    console.log("Images extracted successfully.");
    console.log(response.images);
}).catch((err) => {
    console.error("Failed to extract images:", err);
});
// Для получения дополнительных примеров, пожалуйста, посетите https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new ImagesOptions();
options.fileInfo = fileInfo;

const request = new ImagesRequest(options);

parserApi.images(request).then((response) => {
    console.log("Images extracted successfully.");
    console.log(response.images);
}).catch((err) => {
    console.error("Failed to extract images:", err);
});

Вы можете увидеть вывод вышеуказанного образца кода на изображении ниже:

image file extractor

Извлечение изображений из PDF с помощью cURL

Вы также можете извлекать изображения с помощью GroupDocs.Parser REST API и cURL.

Шаг 1 – Сгенерировать токен доступа:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Шаг 2 – Извлечение изображений через REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/images" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"Binder1.pdf\",    \"StorageName\": \"internal\"  },  \"OutputPath\": \"internal\",  \"StartPageNumber\": 1,  \"CountPagesToExtract\": 2}"
  • Замените на тот, который вы создали.

Онлайн Извлекатель Изображений

Если вы ищете решение без кода, вы можете использовать бесплатный онлайн PDF Image Extractor, поддерживаемый GroupDocs.Parser Cloud.

Онлайн Извлекатель Изображений

Заключение

SDK для облачного преобразования GroupDocs.Parser для Node.js делает извлечение изображений из PDF-документов быстрым, масштабируемым и удобным для разработчиков. Независимо от того, создаете ли вы автоматические скрипты, пауков для контента или инструменты аналитики на основе изображений, этот REST API предоставляет все, что вам нужно, чтобы изолировать и экспортировать изображения программно.

Готовы интегрировать это в ваш рабочий процесс? Начните с вашего первого API вызова сегодня!

📚 Дополнительные ресурсы

Часто задаваемые вопросы – FAQs

Как мне извлечь изображения из Word?

Вы можете использовать GroupDocs.Parser Cloud SDKs для извлечения изображений из PDF-файлов программным образом. Пожалуйста, посетите эту link для получения дополнительных сведений.

Какова модель ценообразования?

Мы предлагаем единую модель оплаты по принципу “плати по мере использования”. Для получения дополнительной информации, пожалуйста, посетите pricing guide.

Связанные статьи