En ciertos escenarios, el texto formateado se extrae de los documentos para su posterior procesamiento, como análisis de texto, clasificación, etc. Entre otros formatos de archivo como PDF y Word, PowerPoint Presentation también se usa en la extracción de texto. Por lo tanto, este artículo demuestra cómo extraer texto de PowerPoint PPT/PPTX en Node.js. Puede analizar fácilmente sus presentaciones de PowerPoint PPT/PPTX y el texto de una diapositiva específica o extraer todo el texto mediante programación en la nube.
En este artículo se tratarán los siguientes temas:
- Biblioteca Node.js para extraer texto de PowerPoint PPT
- Extraiga todo el texto de PowerPoint PPT/PPTX en Node.js usando REST API
- Extraer texto de PowerPoint PPT por rango de número de página en Node.js
Biblioteca Node.js para extraer texto de PowerPoint PPT
Para analizar los documentos de PowerPoint, utilizaré Node.js SDK de GroupDocs.Parser Cloud API. Le permite analizar datos de más de 50 tipos de [formatos de documento] compatibles 4. También es compatible con el análisis de contenedores como archivos ZIP, archivos de datos de correo OST, libros electrónicos, marcas, portafolios de PowerPoint y PDF en sus aplicaciones Node.js. Puede extraer texto, imágenes y analizar datos mediante una plantilla utilizando el SDK. También proporciona los SDK de .NET, Java, PHP, Ruby y Python como sus miembros de la familia de analizadores de documentos para la API de la nube.
Puede instalar GroupDocs.Parser Cloud en su aplicación Node.js usando el siguiente comando en la consola:
npm install groupdocs-parser-cloud
Por favor, obtenga su ID de cliente y secreto del tablero antes de seguir los pasos mencionados. Una vez que tenga su ID y secreto, agregue el código como se muestra a continuación:
# Importe el SDK de Node.js en su aplicación de nodo desde http://api.groupdocs.cloud
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");
// obtenga clientId y clientSecret de https://dashboard.groupdocs.cloud (se requiere registro gratuito).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";
Extraiga todo el texto de PowerPoint PPT/PPTX en Node.js usando REST API
Puede extraer texto de presentaciones de PowerPoint siguiendo los sencillos pasos que se mencionan a continuación:
- Subir el archivo de PowerPoint a la Nube
- Extraer texto de una presentación de PowerPoint con Node.js
Subir el archivo
En primer lugar, suba el documento de PowerPoint a la nube usando el ejemplo de código que se muestra a continuación:
// abra el archivo en IOStream desde la unidad de su sistema.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// leer archivo
fs.readFile(resourcesFolder, (err, fileStream) => {
// construir FileApi
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
// crear solicitud de carga de archivo
var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
// subir archivo
fileApi.uploadFile(request)
.then(function (response) {
console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
})
.catch(function (error) {
console.log("Error: " + error.message);
});
});
Como resultado, el archivo de PowerPoint cargado estará disponible en la sección de archivos de su tablero en la nube.
Extraiga texto de una presentación de PowerPoint usando Node.js
Puede extraer fácilmente todo el texto de los archivos de PowerPoint mediante programación siguiendo los pasos que se detallan a continuación:
- En primer lugar, cree una instancia de ParseApi.
- En segundo lugar, cree una instancia de FileInfo.
- Luego, establezca la ruta al archivo de PowerPoint.
- Cree una instancia de TextOptions.
- Luego, asigne FileInfo a TextOptions.
- Cree una instancia de FormattedTextOptions.
- Establecer el modo formattedTextOptions como texto sin formato
- A continuación, asigne el valor FormattedTextOptions
- Ahora, cree una instancia de TextRequest con TextOptions.
- Finalmente, obtenga resultados llamando al método ParseApi.text() con TextRequest.
El siguiente ejemplo de código muestra cómo extraer todo el texto del archivo de PowerPoint usando una API REST en Node.js:
// Cómo extraer todo el texto de PowerPoint PPT/PPTX en Node.js usando REST API
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// Crear solicitud de documento de análisis
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// Mostrar resultados
console.log(response.text);
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
Extraer texto de PowerPoint PPT por rango de números de página en Node.js
Puede extraer el texto de páginas específicas de un archivo PDF mediante programación siguiendo los pasos que se detallan a continuación:
- En primer lugar, cree una instancia de ParseApi.
- A continuación, cree una instancia de FileInfo.
- Luego, establezca la ruta al archivo PPTX de PowerPoint.
- Cree una instancia de TextOptions.
- Luego, asigne FileInfo a TextOptions.
- Establezca los valores startPageNumber y countPagesToExtract
- Cree una instancia de FormattedTextOptions.
- Establecer el modo formattedTextOptions como texto sin formato
- A continuación, asigne el valor FormattedTextOptions.
- Establezca el número de página de inicio y el número total de páginas para extraer.
- Ahora, cree una instancia de TextRequest con TextOptions.
- Por último, obtenga resultados llamando al método ParseApi.text() con TextRequest.
El siguiente ejemplo de código muestra cómo extraer texto específico del archivo PPTX de PowerPoint por números de página en Node.js usando la API REST:
// Cómo extraer texto de PowerPoint PPT por rango de número de página en Node.js
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 2;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// Crear solicitud de documento de análisis
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// Mostrar resultados
let pages = response.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint file:", err);
})
Prueba en línea
Pruebe la siguiente herramienta gratuita de análisis de PowerPoint en línea, que se desarrolla utilizando la API anterior.
Conclusión
En este artículo, ha aprendido a analizar y extraer texto de PowerPoint PPT en Nodejs. Usted ha visto:
- cómo extraer texto de diapositivas específicas en Node.js usando REST API;
- cómo extraer texto de todas las diapositivas de una presentación de PowerPoint en Node.js;
- cargar mediante programación un archivo de PowerPoint a la nube;
Además, puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad, no dude en contactarnos en el foro.
Hacer una pregunta
En caso de que tenga alguna duda o confusión sobre Online Text Extractor, infórmenos a través de nuestro foro.
preguntas frecuentes
¿Cómo extraigo texto de PowerPoint en Node.js?
Siga [este enlace](https://blog.groupdocs.cloud/es/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API) para conocer el fragmento de código de Node.js sobre cómo extraer texto de archivos PPT en Node.js.
¿Cómo extraer texto de documentos PPT en línea usando REST API?
En primer lugar, cree una instancia de ParseApi, establezca los valores de TextOptions y ahora llame a [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) con TextRequest para extraer texto seleccionado de archivos PPT en línea.
¿Cómo instalar una biblioteca de descarga gratuita de extractor de texto PPT?
Puede instalar el extractor de texto PPT biblioteca Node.js para extraer texto de archivos PPT mediante programación.
¿Cómo extraigo texto de PPT sin conexión en Windows?
Visite este enlace para descargar el software de extracción de texto para Windows. Esta herramienta de extracción de texto extraerá el texto de las ventanas al instante, con un solo clic.
Ver también
- Extraiga imágenes de archivos PDF usando Node.js
- Extraiga datos de PDF usando REST API en Node.js
- Analizar documentos de Word usando REST API en Python
- Extraiga texto de PDF usando REST API en Node.js
- Analizar documentos de Word utilizando la API REST en Node.js
- Extraiga datos específicos de PDF usando Python
- Extraiga imágenes de documentos PDF usando Python
- Cómo extraer texto de PDF usando Python
- Extraiga imágenes de PDF, hojas de cálculo, presentaciones y documentos de Word usando Python