Em determinados cenários, o texto formatado é extraído dos documentos para processamento posterior, como análise de texto, classificação etc. Entre outros formatos de arquivo, como PDF e Word, a apresentação PowerPoint também é usada na extração de texto. Portanto, este artigo demonstra como extrair texto do PowerPoint PPT/PPTX em Node.js. Você pode analisar facilmente suas apresentações PowerPoint PPT/PPTX e o texto de um slide específico ou extrair todo o texto programaticamente na nuvem.
Os seguintes tópicos serão discutidos neste artigo:
- Biblioteca Node.js para extrair texto do PowerPoint PPT
- Extraia todo o texto do PowerPoint PPT/PPTX em Node.js usando a API REST
- Extrair texto do PowerPoint PPT por intervalo de número de página em Node.js
Biblioteca Node.js para extrair texto do PowerPoint PPT
Para analisar os documentos do PowerPoint, usarei o Node.js SDK da GroupDocs.Parser Cloud API. Ele permite que você analise dados de mais de 50 tipos de [formatos de documento] suportados 4. Ele também suporta a análise de contêineres como ZIP arquivos, OST arquivos de dados de e-mail, e-books, marcações, portfólios PowerPoint e PDF em seus aplicativos Node.js. Você pode extrair texto, imagens e analisar dados por um modelo usando o SDK. Ele também fornece SDKs .NET, Java, PHP, Ruby e Python como seus membros da família de analisadores de documentos para a Cloud API.
Você pode instalar o GroupDocs.Parser Cloud em seu aplicativo Node.js usando o seguinte comando no console:
npm install groupdocs-parser-cloud
Por favor, obtenha seu ID e Segredo do cliente no painel antes de seguir as etapas mencionadas. Depois de ter seu ID e segredo, adicione o código conforme mostrado abaixo:
# Importe o SDK do Node.js em seu aplicativo de nó de http://api.groupdocs.cloud
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");
// obtenha clientId e clientSecret em https://dashboard.groupdocs.cloud (é necessário registro gratuito).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";
Extraia todo o texto do PowerPoint PPT/PPTX em Node.js usando a API REST
Você pode extrair texto de apresentações do PowerPoint seguindo as etapas simples mencionadas abaixo:
- Upload o arquivo PowerPoint para a nuvem
- Extrair texto da apresentação do PowerPoint usando Node.js
Carregar o arquivo
Em primeiro lugar, carregue o documento do PowerPoint para a nuvem usando o exemplo de código abaixo:
// abra o arquivo no IOStream da unidade do sistema.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// ler arquivo
fs.readFile(resourcesFolder, (err, fileStream) => {
// construir FileApi
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
// criar solicitação de upload de arquivo
var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
// subir arquivo
fileApi.uploadFile(request)
.then(function (response) {
console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
})
.catch(function (error) {
console.log("Error: " + error.message);
});
});
Como resultado, o arquivo PowerPoint carregado estará disponível na seção de arquivos do seu painel na nuvem.
Extrair texto da apresentação do PowerPoint usando Node.js
Você pode extrair facilmente todo o texto dos arquivos do PowerPoint programaticamente seguindo as etapas abaixo:
- Em primeiro lugar, crie uma instância do ParseApi.
- Em segundo lugar, crie uma instância do FileInfo.
- Em seguida, defina o caminho para o arquivo do PowerPoint.
- Crie uma instância do TextOptions.
- Em seguida, atribua FileInfo a TextOptions.
- Crie uma instância do FormattedTextOptions.
- Defina o modo formattedTextOptions como PlainText
- Em seguida, atribua o valor formattedTextOptions
- Agora, crie uma instância do TextRequest com TextOptions.
- Por fim, obtenha os resultados chamando o método ParseApi.text() com o TextRequest.
O exemplo de código a seguir mostra como extrair todo o texto do arquivo PowerPoint usando uma API REST no Node.js:
// Como extrair todo o texto do PowerPoint PPT/PPTX em Node.js usando a API REST
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// Criar solicitação de documento de análise
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// Exibir resultados
console.log(response.text);
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
Extrair texto do PowerPoint PPT por intervalo de número de página em Node.js
Você pode extrair o texto de páginas específicas de um arquivo PDF programaticamente seguindo as etapas abaixo:
- Em primeiro lugar, crie uma instância do ParseApi.
- Em seguida, crie uma instância do FileInfo.
- Em seguida, defina o caminho para o arquivo PPTX do PowerPoint.
- Crie uma instância do TextOptions.
- Em seguida, atribua FileInfo a TextOptions.
- Defina os valores startPageNumber e countPagesToExtract
- Crie uma instância do FormattedTextOptions.
- Defina o modo formattedTextOptions como PlainText
- Em seguida, atribua o valor formattedTextOptions.
- Defina o número da página inicial e o número total de páginas a serem extraídas.
- Agora, crie uma instância do TextRequest com TextOptions.
- Por fim, obtenha os resultados chamando o método ParseApi.text() com o TextRequest.
O exemplo de código a seguir mostra como extrair um texto específico do arquivo PPTX do PowerPoint por números de página em Node.js usando a API REST:
// Como extrair texto do PowerPoint PPT por intervalo de número de página em Node.js
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 2;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// Criar solicitação de documento de análise
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// Exibir resultados
let pages = response.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint file:", err);
})
Experimente on-line
Tente a seguinte ferramenta on-line gratuita de análise do PowerPoint, desenvolvida usando a API acima.
Conclusão
Neste artigo, você aprendeu como analisar e extrair texto do PowerPoint PPT no Nodejs. Você tem visto:
- como extrair texto de slides específicos em Node.js usando REST API;
- como extrair texto de todos os slides de uma apresentação do PowerPoint em Node.js;
- carregar programaticamente um arquivo do PowerPoint para a nuvem;
Além disso, você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. Em caso de ambiguidade, sinta-se à vontade para nos contatar no fórum.
Faça uma pergunta
Caso você tenha alguma dúvida ou confusão sobre o Online Text Extractor, informe-nos através do nosso fórum.
perguntas frequentes
Como faço para extrair texto do PowerPoint em Node.js?
Siga [este link](https://blog.groupdocs.cloud/pt/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API) para aprender o snippet de código Node.js sobre como extrair texto de arquivos PPT em Node.js.
Como extrair texto de documentos PPT online usando a API REST?
Em primeiro lugar, crie uma instância de ParseApi, defina os valores de TextOptions e agora chame o [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) com TextRequest para extrair o texto selecionado de arquivos PPT online.
Como instalar uma biblioteca de download gratuito do extrator de texto PPT?
Você pode instalar o extrator de texto PPT biblioteca Node.js para extrair texto de arquivos PPT programaticamente.
Como faço para extrair texto do PPT offline no Windows?
Visite este link para baixar o software extrator de texto para Windows. Esta ferramenta de extração de texto extrairá o texto no Windows instantaneamente, com um único clique.
Veja também
- Extrair imagens de arquivos PDF usando Node.js
- Extrair dados de PDF usando API REST em Node.js
- Analisar documentos do Word usando a API REST em Python
- Extrair texto de PDF usando API REST em Node.js
- Analisar documentos do Word usando a API REST no Node.js
- Extrair dados específicos de PDF usando Python
- Extrair imagens de documentos PDF usando Python
- Como extrair texto de PDF usando Python
- Extraia imagens de PDF, planilhas, apresentações e documentos do Word usando Python