Extraer texto de PDF usando Node.js - Extractor de texto

Desbloquear texto de PDF archivos es esencial para la indexación de contenido, la automatización y el análisis de datos. Con el GroupDocs.Parser Cloud SDK para Node.js, puedes extraer programáticamente texto plano o estructurado de PDFs a través de una simple API RESTful, sin depender de herramientas pesadas o de análisis manual.

Why to Extract Text from PDF??

Extraer texto de PDFs es vital para:

  • Construyendo documentos de gestión o tuberías de OCR.
  • Automatizando la recolección de datos de contratos, facturas e informes.
  • Habilitando la búsqueda de texto completo para archivos digitales.
  • Limpieza y estructuración de contenido para modelos de IA/ML.

Vamos a cubrir los siguientes temas con más detalles:

Extracción de Texto REST API

El GroupDocs.Parser Cloud SDK for Node.js es un envoltorio ligero y de alto rendimiento para interactuar con la API REST de GroupDocs.Parser Cloud. Permite a los desarrolladores extraer contenido estructurado o no estructurado, como:

  • Texto (documento completo, páginas específicas o áreas seleccionadas)
  • Imágenes
  • Metadata
  • Campos del documento
  • Datos estructurados de tablas o formularios

Soporta numerosos formatos — incluyendo PDF, Word, Excel, PowerPoint, MSG, ZIP, y más.

Requisitos previos Instalar el SDK de GroupDocs.Parser Cloud para Node.js:

npm install groupdocs-parser-cloud

Crea una cuenta en el GroupDocs.Cloud Dashboard para obtener tu Client ID y Client Secret para la autenticación. Para más información, visita este article.

Cómo extraer texto de un PDF usando Node.js

Sigue estos pasos para extraer texto de un PDF utilizando el SDK de Node.js.

Paso 1: Configurar la configuración:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Paso 2: Configurar la entrada del archivo PDF: Inicializa un objeto de la clase TextRequest y pasa la instancia de la clase TextOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Paso 3: Extraer texto del PDF: Invoca el text método, y devolverá el contenido de texto plano de tu PDF.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// Para más ejemplos, por favor visita https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Puede ver la salida del ejemplo de código anterior en la imagen a continuación:

pdf text extractor

Extraer texto de PDF a través de cURL

¿Prefieres operaciones de línea de comandos o quieres integrarlo en un script? Puedes extraer texto usando cURL con la API REST de GroupDocs.Parser.

Paso 1 – Generar Token de Acceso:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Paso 2 – Extraer imágenes a través de la API REST:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • Reemplace con el que generó.

Beneficios de usar cURL con la API de GroupDocs.Parser

  • No se requiere SDK: Utilice REST directamente para una integración rápida.
  • Plataforma Agnóstica: Funciona con cualquier SO o lenguaje.
  • Ideal para CI/CD Pipelines: Automatizar la extracción de texto en entornos DevOps.
  • Ligero: Sin instalaciones más allá de cURL.

Extractor de Texto en Línea

Si estás buscando una solución sin código, entonces utiliza nuestro Free Online PDF Text Extractor impulsado por GroupDocs.Parser Cloud.

Extractor de Imágenes en Línea

Conclusión

GroupDocs.Parser Cloud SDK para Node.js facilita la extracción de texto de PDFs, ya sea que necesite un análisis completo del contenido, minería de datos o automatización de documentos. Con soporte para llamadas RESTful e integración de cURL, esta API es ideal para construir aplicaciones modernas y escalables de procesamiento de documentos en Node.js u otros entornos.

📚 Recursos Adicionales

Preguntas Frecuentes – FAQs

How do I extract images from Word?

Puedes usar GroupDocs.Parser Cloud SDKs para extraer texto de archivos PDF programáticamente. Por favor visita este link para más detalles.

¿Cuál es el modelo de precios?

Ofrecemos un modelo de precios de pago por uso. Para más información, por favor visita pricing guide.

Artículos Recomendados