PPTX em Node.js

Extrair texto do PowerPoint PPT/PPTX em Node.js

Em determinados cenários, o texto formatado é extraído dos documentos para processamento posterior, como análise de texto, classificação etc. Entre outros formatos de arquivo, como PDF e Word, a apresentação PowerPoint também é usada na extração de texto. Portanto, este artigo demonstra como extrair texto do PowerPoint PPT/PPTX em Node.js. Você pode analisar facilmente suas apresentações PowerPoint PPT/PPTX e o texto de um slide específico ou extrair todo o texto programaticamente na nuvem.

Os seguintes tópicos serão discutidos neste artigo:

Biblioteca Node.js para extrair texto do PowerPoint PPT

Para analisar os documentos do PowerPoint, usarei o Node.js SDK da GroupDocs.Parser Cloud API. Ele permite que você analise dados de mais de 50 tipos de [formatos de documento] suportados 4. Ele também suporta a análise de contêineres como ZIP arquivos, OST arquivos de dados de e-mail, e-books, marcações, portfólios PowerPoint e PDF em seus aplicativos Node.js. Você pode extrair texto, imagens e analisar dados por um modelo usando o SDK. Ele também fornece SDKs .NET, Java, PHP, Ruby e Python como seus membros da família de analisadores de documentos para a Cloud API.

Você pode instalar o GroupDocs.Parser Cloud em seu aplicativo Node.js usando o seguinte comando no console:

npm install groupdocs-parser-cloud

Por favor, obtenha seu ID e Segredo do cliente no painel antes de seguir as etapas mencionadas. Depois de ter seu ID e segredo, adicione o código conforme mostrado abaixo:

# Importe o SDK do Node.js em seu aplicativo de nó de http://api.groupdocs.cloud
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");

// obtenha clientId e clientSecret em https://dashboard.groupdocs.cloud (é necessário registro gratuito).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";

Extraia todo o texto do PowerPoint PPT/PPTX em Node.js usando a API REST

Você pode extrair texto de apresentações do PowerPoint seguindo as etapas simples mencionadas abaixo:

  • Upload o arquivo PowerPoint para a nuvem
  • Extrair texto da apresentação do PowerPoint usando Node.js

Carregar o arquivo

Em primeiro lugar, carregue o documento do PowerPoint para a nuvem usando o exemplo de código abaixo:

// abra o arquivo no IOStream da unidade do sistema.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// ler arquivo
fs.readFile(resourcesFolder, (err, fileStream) => {
  // construir FileApi
  var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
  // criar solicitação de upload de arquivo
  var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
  // subir arquivo
  fileApi.uploadFile(request)
    .then(function (response) {
      console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
    })
    .catch(function (error) {
      console.log("Error: " + error.message);
    });
});

Como resultado, o arquivo PowerPoint carregado estará disponível na seção de arquivos do seu painel na nuvem.

Extrair texto da apresentação do PowerPoint usando Node.js

Você pode extrair facilmente todo o texto dos arquivos do PowerPoint programaticamente seguindo as etapas abaixo:

  • Em primeiro lugar, crie uma instância do ParseApi.
  • Em segundo lugar, crie uma instância do FileInfo.
  • Em seguida, defina o caminho para o arquivo do PowerPoint.
  • Crie uma instância do TextOptions.
  • Em seguida, atribua FileInfo a TextOptions.
  • Crie uma instância do FormattedTextOptions.
  • Defina o modo formattedTextOptions como PlainText
  • Em seguida, atribua o valor formattedTextOptions
  • Agora, crie uma instância do TextRequest com TextOptions.
  • Por fim, obtenha os resultados chamando o método ParseApi.text() com o TextRequest.

O exemplo de código a seguir mostra como extrair todo o texto do arquivo PowerPoint usando uma API REST no Node.js:

// Como extrair todo o texto do PowerPoint PPT/PPTX em Node.js usando a API REST
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // Criar solicitação de documento de análise
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // Exibir resultados
    console.log(response.text);
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
Como extrair texto da apresentação do PowerPoint usando Node.js

Extrair texto da apresentação do PowerPoint usando Node.js

Extrair texto do PowerPoint PPT por intervalo de número de página em Node.js

Você pode extrair o texto de páginas específicas de um arquivo PDF programaticamente seguindo as etapas abaixo:

  • Em primeiro lugar, crie uma instância do ParseApi.
  • Em seguida, crie uma instância do FileInfo.
  • Em seguida, defina o caminho para o arquivo PPTX do PowerPoint.
  • Crie uma instância do TextOptions.
  • Em seguida, atribua FileInfo a TextOptions.
  • Defina os valores startPageNumber e countPagesToExtract
  • Crie uma instância do FormattedTextOptions.
  • Defina o modo formattedTextOptions como PlainText
  • Em seguida, atribua o valor formattedTextOptions.
  • Defina o número da página inicial e o número total de páginas a serem extraídas.
  • Agora, crie uma instância do TextRequest com TextOptions.
  • Por fim, obtenha os resultados chamando o método ParseApi.text() com o TextRequest.

O exemplo de código a seguir mostra como extrair um texto específico do arquivo PPTX do PowerPoint por números de página em Node.js usando a API REST:

// Como extrair texto do PowerPoint PPT por intervalo de número de página em Node.js
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;
  options.startPageNumber = 0;
  options.countPagesToExtract = 2;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // Criar solicitação de documento de análise
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // Exibir resultados
    let pages = response.pages;
    pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint file:", err);
})
Como extrair texto do PowerPoint PPT por intervalo de número de página em Node.js

Extrair texto do PowerPoint PPT por intervalo de número de página em Node.js

Experimente on-line

Tente a seguinte ferramenta on-line gratuita de análise do PowerPoint, desenvolvida usando a API acima.

Conclusão

Neste artigo, você aprendeu como analisar e extrair texto do PowerPoint PPT no Nodejs. Você tem visto:

  • como extrair texto de slides específicos em Node.js usando REST API;
  • como extrair texto de todos os slides de uma apresentação do PowerPoint em Node.js;
  • carregar programaticamente um arquivo do PowerPoint para a nuvem;

Além disso, você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. Em caso de ambiguidade, sinta-se à vontade para nos contatar no fórum.

Faça uma pergunta

Caso você tenha alguma dúvida ou confusão sobre o Online Text Extractor, informe-nos através do nosso fórum.

perguntas frequentes

Como faço para extrair texto do PowerPoint em Node.js?

Siga [este link](https://blog.groupdocs.cloud/pt/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API) para aprender o snippet de código Node.js sobre como extrair texto de arquivos PPT em Node.js.

Como extrair texto de documentos PPT online usando a API REST?

Em primeiro lugar, crie uma instância de ParseApi, defina os valores de TextOptions e agora chame o [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) com TextRequest para extrair o texto selecionado de arquivos PPT online.

Como instalar uma biblioteca de download gratuito do extrator de texto PPT?

Você pode instalar o extrator de texto PPT biblioteca Node.js para extrair texto de arquivos PPT programaticamente.

Como faço para extrair texto do PPT offline no Windows?

Visite este link para baixar o software extrator de texto para Windows. Esta ferramenta de extração de texto extrairá o texto no Windows instantaneamente, com um único clique.

Veja também