PPTX en Node.js

Extraiga texto de PowerPoint PPT/PPTX en Node.js

En ciertos escenarios, el texto formateado se extrae de los documentos para su posterior procesamiento, como análisis de texto, clasificación, etc. Entre otros formatos de archivo como PDF y Word, PowerPoint Presentation también se usa en la extracción de texto. Por lo tanto, este artículo demuestra cómo extraer texto de PowerPoint PPT/PPTX en Node.js. Puede analizar fácilmente sus presentaciones de PowerPoint PPT/PPTX y el texto de una diapositiva específica o extraer todo el texto mediante programación en la nube.

En este artículo se tratarán los siguientes temas:

Biblioteca Node.js para extraer texto de PowerPoint PPT

Para analizar los documentos de PowerPoint, utilizaré Node.js SDK de GroupDocs.Parser Cloud API. Le permite analizar datos de más de 50 tipos de [formatos de documento] compatibles 4. También es compatible con el análisis de contenedores como archivos ZIP, archivos de datos de correo OST, libros electrónicos, marcas, portafolios de PowerPoint y PDF en sus aplicaciones Node.js. Puede extraer texto, imágenes y analizar datos mediante una plantilla utilizando el SDK. También proporciona los SDK de .NET, Java, PHP, Ruby y Python como sus miembros de la familia de analizadores de documentos para la API de la nube.

Puede instalar GroupDocs.Parser Cloud en su aplicación Node.js usando el siguiente comando en la consola:

npm install groupdocs-parser-cloud

Por favor, obtenga su ID de cliente y secreto del tablero antes de seguir los pasos mencionados. Una vez que tenga su ID y secreto, agregue el código como se muestra a continuación:

# Importe el SDK de Node.js en su aplicación de nodo desde http://api.groupdocs.cloud
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");

// obtenga clientId y clientSecret de https://dashboard.groupdocs.cloud (se requiere registro gratuito).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";

Extraiga todo el texto de PowerPoint PPT/PPTX en Node.js usando REST API

Puede extraer texto de presentaciones de PowerPoint siguiendo los sencillos pasos que se mencionan a continuación:

  • Subir el archivo de PowerPoint a la Nube
  • Extraer texto de una presentación de PowerPoint con Node.js

Subir el archivo

En primer lugar, suba el documento de PowerPoint a la nube usando el ejemplo de código que se muestra a continuación:

// abra el archivo en IOStream desde la unidad de su sistema.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// leer archivo
fs.readFile(resourcesFolder, (err, fileStream) => {
  // construir FileApi
  var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
  // crear solicitud de carga de archivo
  var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
  // subir archivo
  fileApi.uploadFile(request)
    .then(function (response) {
      console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
    })
    .catch(function (error) {
      console.log("Error: " + error.message);
    });
});

Como resultado, el archivo de PowerPoint cargado estará disponible en la sección de archivos de su tablero en la nube.

Extraiga texto de una presentación de PowerPoint usando Node.js

Puede extraer fácilmente todo el texto de los archivos de PowerPoint mediante programación siguiendo los pasos que se detallan a continuación:

  • En primer lugar, cree una instancia de ParseApi.
  • En segundo lugar, cree una instancia de FileInfo.
  • Luego, establezca la ruta al archivo de PowerPoint.
  • Cree una instancia de TextOptions.
  • Luego, asigne FileInfo a TextOptions.
  • Cree una instancia de FormattedTextOptions.
  • Establecer el modo formattedTextOptions como texto sin formato
  • A continuación, asigne el valor FormattedTextOptions
  • Ahora, cree una instancia de TextRequest con TextOptions.
  • Finalmente, obtenga resultados llamando al método ParseApi.text() con TextRequest.

El siguiente ejemplo de código muestra cómo extraer todo el texto del archivo de PowerPoint usando una API REST en Node.js:

// Cómo extraer todo el texto de PowerPoint PPT/PPTX en Node.js usando REST API
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // Crear solicitud de documento de análisis
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // Mostrar resultados
    console.log(response.text);
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
Cómo extraer texto de una presentación de PowerPoint usando Node.js

Extraiga texto de una presentación de PowerPoint con Node.js

Extraer texto de PowerPoint PPT por rango de números de página en Node.js

Puede extraer el texto de páginas específicas de un archivo PDF mediante programación siguiendo los pasos que se detallan a continuación:

  • En primer lugar, cree una instancia de ParseApi.
  • A continuación, cree una instancia de FileInfo.
  • Luego, establezca la ruta al archivo PPTX de PowerPoint.
  • Cree una instancia de TextOptions.
  • Luego, asigne FileInfo a TextOptions.
  • Establezca los valores startPageNumber y countPagesToExtract
  • Cree una instancia de FormattedTextOptions.
  • Establecer el modo formattedTextOptions como texto sin formato
  • A continuación, asigne el valor FormattedTextOptions.
  • Establezca el número de página de inicio y el número total de páginas para extraer.
  • Ahora, cree una instancia de TextRequest con TextOptions.
  • Por último, obtenga resultados llamando al método ParseApi.text() con TextRequest.

El siguiente ejemplo de código muestra cómo extraer texto específico del archivo PPTX de PowerPoint por números de página en Node.js usando la API REST:

// Cómo extraer texto de PowerPoint PPT por rango de número de página en Node.js
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;
  options.startPageNumber = 0;
  options.countPagesToExtract = 2;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // Crear solicitud de documento de análisis
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // Mostrar resultados
    let pages = response.pages;
    pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint file:", err);
})
Cómo extraer texto de PowerPoint PPT por rango de número de página en Node.js

Extraiga texto de PowerPoint PPT por rango de número de página en Node.js

Prueba en línea

Pruebe la siguiente herramienta gratuita de análisis de PowerPoint en línea, que se desarrolla utilizando la API anterior.

Conclusión

En este artículo, ha aprendido a analizar y extraer texto de PowerPoint PPT en Nodejs. Usted ha visto:

  • cómo extraer texto de diapositivas específicas en Node.js usando REST API;
  • cómo extraer texto de todas las diapositivas de una presentación de PowerPoint en Node.js;
  • cargar mediante programación un archivo de PowerPoint a la nube;

Además, puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad, no dude en contactarnos en el foro.

Hacer una pregunta

En caso de que tenga alguna duda o confusión sobre Online Text Extractor, infórmenos a través de nuestro foro.

preguntas frecuentes

¿Cómo extraigo texto de PowerPoint en Node.js?

Siga [este enlace](https://blog.groupdocs.cloud/es/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API) para conocer el fragmento de código de Node.js sobre cómo extraer texto de archivos PPT en Node.js.

¿Cómo extraer texto de documentos PPT en línea usando REST API?

En primer lugar, cree una instancia de ParseApi, establezca los valores de TextOptions y ahora llame a [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) con TextRequest para extraer texto seleccionado de archivos PPT en línea.

¿Cómo instalar una biblioteca de descarga gratuita de extractor de texto PPT?

Puede instalar el extractor de texto PPT biblioteca Node.js para extraer texto de archivos PPT mediante programación.

¿Cómo extraigo texto de PPT sin conexión en Windows?

Visite este enlace para descargar el software de extracción de texto para Windows. Esta herramienta de extracción de texto extraerá el texto de las ventanas al instante, con un solo clic.

Ver también