Extrair Texto de PDF usando Node.js - Extrator de Texto

Desbloquear texto de PDF arquivos é essencial para indexação de conteúdo, automação e análise de dados. Com o GroupDocs.Parser Cloud SDK para Node.js, você pode extrair programaticamente texto simples ou estruturado de PDFs através de uma API RESTful simples — sem depender de ferramentas pesadas ou parsing manual.

Why to Extract Text from PDF??

Extrair texto de PDFs é vital para:

  • Construindo sistemas de gerenciamento de documentos ou pipelines de OCR.
  • Automatizando a coleta de dados de contratos, faturas e relatórios.
  • Habilitando a busca de texto completo para arquivos digitais.
  • Limpeza e estruturação de conteúdo para modelos de IA/ML.

Vamos tratar dos seguintes tópicos com mais detalhes:

Extração de Texto API REST

O GroupDocs.Parser Cloud SDK for Node.js é um wrapper leve e de alto desempenho para interagir com a API REST do GroupDocs.Parser Cloud. Ele permite que os desenvolvedores extraíam conteúdo estruturado ou não estruturado, como:

  • Texto (documento inteiro, páginas específicas ou áreas selecionadas)
  • Imagens
  • Metadata
  • Campos do documento
  • Dados estruturados de tabelas ou formulários

Suporta numerosos formatos — incluindo PDF, Word, Excel, PowerPoint, MSG, ZIP, e mais.

Pré-requisitos Instale o SDK do GroupDocs.Parser Cloud para Node.js:

npm install groupdocs-parser-cloud

Crie uma conta no GroupDocs.Cloud Dashboard para obter seu Client ID e Client Secret para autenticação. Para mais informações, visite este article.

Como Extrair Texto de PDF usando Node.js

Siga estes passos para extrair texto de um PDF usando o SDK do Node.js.

Passo 1: Configurar a Configuração:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Passo 2: Configurar Entrada de Arquivo PDF: Inicialize um objeto da classe TextRequest e passe a instância da classe TextOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Passo 3: Extrair Texto do PDF: Invocar o text método, e ele retornará o conteúdo de texto simples do seu PDF.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// Para mais exemplos, por favor visite https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Você pode ver a saída do código acima no imagem abaixo:

extrator de texto pdf

Extrair texto de PDF via cURL

Se você prefere operações na linha de comando ou deseja integrar em um script? Você pode extrair texto usando cURL com a API REST do GroupDocs.Parser.

Passo 1 – Gerar Token de Acesso:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Passo 2 – Extrair Imagens via REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • Substitua pelo que você gerou.

Benefícios de Usar cURL com a API GroupDocs.Parser

  • Não é necessário SDK: Use REST diretamente para uma integração rápida.
  • Plataforma Agnóstica: Funciona com qualquer sistema operacional ou linguagem.
  • Ideal para pipelines de CI/CD: Automatize a extração de texto em ambientes DevOps.
  • Leve: Nenhuma instalação além do cURL.

Extraidor de Texto Online

Se você está procurando uma solução sem código, então use nosso PDF Text Extractor Gratuito alimentado pelo GroupDocs.Parser Cloud.

Extrator de Imagem Online

Conclusão

O GroupDocs.Parser Cloud SDK para Node.js torna fácil a extração de texto de PDFs, seja para análise completa de conteúdo, mineração de dados ou automação de documentos. Com suporte para chamadas RESTful e integração cURL, esta API é ideal para construir aplicativos modernos e escaláveis de processamento de documentos em Node.js ou outros ambientes.

📚 Recursos Adicionais

Perguntas Frequentes – FAQs

Como extrair imagens do Word?

Você pode usar GroupDocs.Parser Cloud SDKs para extrair texto de arquivos PDF programaticamente. Por favor, visite este link para mais detalhes.

Qual é o modelo de precificação?

Oferecemos um modelo de preços único de pagamento conforme o uso. Para mais informações, visite pricing guide.

Artigos Recomendados