Analizar documentos de Word utilizando la API REST en Node.js

Es posible que necesite extraer texto o imágenes de sus documentos de Word para diversos fines. Puede analizar fácilmente documentos de Word y leer el texto mediante programación en sus aplicaciones Node.js. Como desarrollador de Node.js, puede extraer todo el texto y las imágenes de los archivos DOCX mediante programación en la nube. Este artículo se centrará en cómo analizar documentos de Word usando una API REST en Node.js.

En este artículo se tratarán los siguientes temas:

Document Parser REST API y Node.js SDK

Para analizar los documentos DOCX, usaré la API Node.js SDK de GroupDocs.Parser Cloud. Le permite analizar datos de más de 50 tipos de documentos. También admite el análisis de contenedores como archivos ZIP, archivos de datos de correo OST/PST, libros electrónicos, marcas y carteras PDF en sus aplicaciones Node.js. Puede extraer texto, imágenes y analizar datos mediante una plantilla utilizando el SDK. También proporciona SDK de .NET, Java, PHP, Ruby y Python como sus miembros de la familia de analizadores de documentos para la API de Cloud.

Puede instalar GroupDocs.Parser Cloud en su aplicación Node.js usando el siguiente comando en la consola:

npm install groupdocs-parser-cloud 

Obtenga su ID de cliente y secreto del panel de control antes de seguir los pasos mencionados. Una vez que tenga su ID y secreto, agregue el código como se muestra a continuación:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Analice documentos de Word y extraiga imágenes utilizando la API REST en Node.js

Puede analizar sus documentos de Word y extraer imágenes mediante programación siguiendo los pasos que se mencionan a continuación:

Sube el documento

En primer lugar, cargue el documento de Word (DOCX) en la nube utilizando el ejemplo de código que se muestra a continuación:

// inicializar API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// leer archivo
fs.readFile(resourcesFolder, (err, fileStream) => {
  // crear solicitud de carga de archivo
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // subir archivo
  fileApi.uploadFile(request);
});

Como resultado, el archivo DOCX cargado estará disponible en la sección de archivos de su tablero en la nube.

Extraiga imágenes de documentos de Word usando Node.js

Puede extraer fácilmente todas las imágenes de los documentos de Word siguiendo los pasos que se mencionan a continuación.

  • Crear una instancia de ParseApi
  • Crear una instancia de FileInfo
  • Establecer ruta al archivo DOCX
  • Crear una instancia de ImageOptions
  • Asigne FileInfo a ImageOptions
  • Crear solicitud de imágenes
  • Obtenga resultados llamando al método ParseApi.images()

El siguiente ejemplo de código muestra cómo extraer imágenes de un archivo DOCX mediante una API REST.

// inicialización de la API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// información del archivo de muestra
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// definir opciones de imagen
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// crear solicitud de imagen
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// obtener imágenes
let result = await parseApi.images(request);

// mostrar ruta de descarga de imágenes
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Extraiga imágenes de documentos de Word usando Node.js

Extraiga imágenes de documentos de Word usando Node.js

Descargar imágenes extraídas

El ejemplo de código anterior guardará las imágenes extraídas en la nube. Puede descargar estas imágenes utilizando el ejemplo de código que se proporciona a continuación:

// inicializar API
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// crear solicitud de descarga de archivo
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// descargar archivo
let response = await fileApi.downloadFile(request);

// guardar el archivo de imagen en el directorio de trabajo
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Extraiga texto de documentos de Word usando Node.js

Puede extraer fácilmente todo el texto de los documentos de Word siguiendo los pasos que se mencionan a continuación.

  • Crear una instancia de ParseApi
  • Crear una instancia de FileInfo
  • Establecer ruta al archivo DOCX
  • Crear una instancia de TextOptions
  • Asignar FileInfo a TextOptions
  • Establecer el número de la página de inicio
  • Definir opciones de texto formateado
  • Crear solicitud de texto
  • Obtenga resultados llamando al método ParseApi.text()

El siguiente ejemplo de código muestra cómo extraer texto de un archivo DOCX mediante una API REST.

// inicialización de la API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// información del archivo de muestra
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// definir opciones de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// crear solicitud de texto
let request = new groupdocs_parser_cloud.TextRequest(options);

// obtener texto
let result = await parseApi.text(request);

// mostrar texto extraído
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Extraiga texto de documentos de Word usando Node.js

Extraiga texto de documentos de Word usando Node.js

Prueba en línea

Pruebe la siguiente herramienta gratuita de análisis DOCX en línea, que se desarrolla utilizando la API anterior. https://products.groupdocs.app/parser/docx

Conclusión

En este artículo, ha aprendido a analizar documentos de Word en la nube. También aprendió cómo extraer imágenes y texto de archivos DOCX usando una API REST en Node.js. Este artículo también explicó cómo cargar mediante programación un archivo DOCX en la nube y descargar los archivos de imagen de la nube. Puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad, no dude en contactarnos en el foro.

Ver también