Extraiga texto de PDF usando REST API en Node.js

Puede analizar fácilmente sus documentos PDF y extraer todo el texto mediante programación en la nube. En este artículo, aprenderá cómo extraer texto de documentos PDF utilizando una API REST en Node.js.

En este artículo se tratarán los siguientes temas:

PDF Parser REST API y Node.js SDK para extraer texto

Para analizar los documentos PDF, usaré la API Node.js SDK de GroupDocs.Parser Cloud. Le permite analizar datos de más de 50 tipos de formatos de documentos compatibles. También es compatible con el análisis de contenedores como archivos ZIP, archivos de datos de correo OST, libros electrónicos, marcas y carteras PDF en sus aplicaciones Node.js. Puede extraer texto, imágenes y analizar datos mediante una plantilla utilizando el SDK. También proporciona los SDK de .NET, Java, PHP, Ruby y Python como sus miembros de la familia de analizadores de documentos para la API de la nube.

Puede instalar GroupDocs.Parser Cloud en su aplicación Node.js usando el siguiente comando en la consola:

npm install groupdocs-parser-cloud

Por favor, obtenga su ID de cliente y secreto del tablero antes de seguir los pasos mencionados. Una vez que tenga su ID y secreto, agregue el código como se muestra a continuación:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Extraiga texto de PDF utilizando una API REST en Node.js

Puede extraer texto de documentos PDF siguiendo los sencillos pasos que se mencionan a continuación:

Sube el documento

En primer lugar, cargue el documento PDF en la nube utilizando el ejemplo de código que se muestra a continuación:

// Construir FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Crear solicitud de carga de archivos
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Subir archivo
  fileApi.uploadFile(request);
});

Como resultado, el archivo PDF cargado estará disponible en la sección de archivos de su tablero en la nube.

Extraiga texto de documentos PDF usando Node.js

Puede extraer fácilmente todo el texto de los documentos PDF mediante programación siguiendo los pasos que se detallan a continuación:

  • Cree una instancia de ParseApi.
  • Cree una instancia de FileInfo.
  • Luego, establezca la ruta al archivo PDF.
  • Cree una instancia de TextOptions.
  • Luego, asigne FileInfo a TextOptions.
  • Ahora, cree una instancia de TextRequest con TextOptions.
  • Finalmente, obtenga resultados llamando al método ParseApi.text() con TextRequest.

El siguiente ejemplo de código muestra cómo extraer todo el texto de un documento PDF mediante una API REST en Node.js.

// Inicialización de la API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Fichero de entrada
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Definir opciones de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Crear solicitud de texto
let request = new groupdocs_parser_cloud.TextRequest(options);

// Extraer texto
let result = await parseApi.text(request);
console.log(result.text);
Extraiga texto de PDF utilizando una API REST en Node.js

Extraiga texto de PDF utilizando una API REST en Node.js

Obtenga texto por números de página de documentos PDF usando Node.js

Puede extraer el texto de páginas específicas de un archivo PDF mediante programación siguiendo los pasos que se detallan a continuación:

  • Cree una instancia de ParseApi.
  • Cree una instancia de FileInfo.
  • Luego, establezca la ruta al archivo PDF.
  • Cree una instancia de TextOptions.
  • Luego, asigne FileInfo a TextOptions.
  • Establezca el número de página de inicio y el número total de páginas para extraer.
  • Ahora, cree una instancia de TextRequest con TextOptions.
  • Finalmente, obtenga resultados llamando al método ParseApi.text() con TextRequest.

El siguiente ejemplo de código muestra cómo extraer el texto por números de página de un documento PDF mediante una API REST.

// Inicialización de la API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Ruta del archivo de entrada
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Definir opciones de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Crear solicitud de texto
let request = new groupdocs_parser_cloud.TextRequest(options);

// Extraer texto
let result = await parseApi.text(request);

// Mostrar resultados
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Obtenga texto por números de página de documentos PDF usando Node.js

Obtenga texto por números de página de documentos PDF usando Node.js

Extraiga texto de documentos adjuntos con PDF usando Node.js

Puede extraer el texto de un documento dentro de un contenedor, disponible como archivo adjunto en un archivo PDF mediante programación, siguiendo los pasos que se mencionan a continuación.

  • Cree una instancia de ParseApi.
  • Cree una instancia de FileInfo.
  • Luego, establezca la ruta al archivo PDF.
  • Opcionalmente, proporcione la contraseña del archivo.
  • Ahora, cree una instancia de ContainerItemInfo
  • Luego, establezca la ruta relativa para el archivo adjunto
  • Cree una instancia de TextOptions.
  • Luego, asigne FileInfo y ContainerItemInfo a TextOptions.
  • Ahora, cree una instancia de TextRequest con TextOptions
  • Finalmente, obtenga resultados llamando al método ParseApi.text() con TextRequest

El siguiente ejemplo de código muestra cómo extraer el texto de un documento dentro de un documento PDF mediante una API REST.

// Inicialización de la API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Fichero de entrada
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Elemento contenedor de entrada
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Definir opciones de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Crear solicitud de texto
let request = new groupdocs_parser_cloud.TextRequest(options);

// Extraer texto
let result = await parseApi.text(request);
console.log(result.text);
Extraiga texto de documentos adjuntos con PDF usando Node.js

Extraiga texto de documentos adjuntos con PDF usando Node.js

Prueba en línea

Pruebe la siguiente herramienta gratuita de análisis de PDF en línea, que se desarrolla utilizando la API anterior. https://products.groupdocs.app/parser/pdf

Conclusión

En este artículo, ha aprendido a analizar documentos PDF en la nube. Además, ha visto cómo extraer texto por números de página y desde elementos contenedores de archivos PDF utilizando una API REST en Node.js. Este artículo también explicó cómo cargar mediante programación un archivo PDF a la nube. Además, puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad, no dude en contactarnos en el foro.

Ver también