Extrair texto de PDF usando API REST em Node.js

Você pode facilmente analisar seus documentos PDF e extrair todo o texto programaticamente na nuvem. Neste artigo, você aprenderá como extrair texto de documentos PDF usando uma API REST no Node.js.

Os seguintes tópicos serão abordados neste artigo:

API REST do analisador de PDF e SDK Node.js para extrair texto

Para analisar os documentos PDF, usarei a API Node.js SDK of GroupDocs.Parser Cloud. Ele permite que você analise dados de mais de 50 tipos de formatos de documento suportados. Ele também suporta a análise de contêineres como ZIP arquivos, OST arquivos de dados de e-mail, e-books, marcações e portfólios PDF em seus aplicativos Node.js. Você pode extrair texto, imagens e analisar dados por um modelo usando o SDK. Ele também fornece SDKs .NET, Java, PHP, Ruby e Python como seus membros da família de analisadores de documentos para a Cloud API.

Você pode instalar o GroupDocs.Parser Cloud em seu aplicativo Node.js usando o seguinte comando no console:

npm install groupdocs-parser-cloud

Por favor, obtenha seu ID e Segredo do cliente no painel antes de seguir as etapas mencionadas. Depois de ter seu ID e segredo, adicione o código conforme mostrado abaixo:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Extrair texto de PDF usando uma API REST em Node.js

Você pode extrair texto de documentos PDF seguindo as etapas simples mencionadas abaixo:

Carregue o Documento

Em primeiro lugar, carregue o documento PDF para a nuvem usando o exemplo de código abaixo:

// Construir FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Criar solicitação de upload de arquivo
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Subir arquivo
  fileApi.uploadFile(request);
});

Como resultado, o arquivo PDF carregado estará disponível na seção de arquivos do seu painel na nuvem.

Extrair texto de documentos PDF usando Node.js

Você pode extrair facilmente todo o texto dos documentos PDF programaticamente seguindo as etapas abaixo:

  • Crie uma instância do ParseApi.
  • Crie uma instância do FileInfo.
  • Em seguida, defina o caminho para o arquivo PDF.
  • Crie uma instância do TextOptions.
  • Em seguida, atribua FileInfo a TextOptions.
  • Agora, crie uma instância do TextRequest com TextOptions.
  • Por fim, obtenha os resultados chamando o método ParseApi.text() com o TextRequest.

O exemplo de código a seguir mostra como extrair todo o texto de um documento PDF usando uma API REST em Node.js.

// Inicialização da API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Arquivo de entrada
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Definir opções de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Criar solicitação de texto
let request = new groupdocs_parser_cloud.TextRequest(options);

// Extrair texto
let result = await parseApi.text(request);
console.log(result.text);
Extrair texto de PDF usando uma API REST em Node.js

Extrair texto de PDF usando uma API REST em Node.js

Obter texto por números de página de documentos PDF usando Node.js

Você pode extrair o texto de páginas específicas de um arquivo PDF programaticamente seguindo as etapas abaixo:

  • Crie uma instância do ParseApi.
  • Crie uma instância do FileInfo.
  • Em seguida, defina o caminho para o arquivo PDF.
  • Crie uma instância do TextOptions.
  • Em seguida, atribua FileInfo a TextOptions.
  • Defina o número da página inicial e o número total de páginas a serem extraídas.
  • Agora, crie uma instância do TextRequest com TextOptions.
  • Por fim, obtenha os resultados chamando o método ParseApi.text() com o TextRequest.

O exemplo de código a seguir mostra como extrair o texto por números de página de um documento PDF usando uma API REST.

// Inicialização da API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Caminho do arquivo de entrada
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Definir opções de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Criar solicitação de texto
let request = new groupdocs_parser_cloud.TextRequest(options);

// Extrair texto
let result = await parseApi.text(request);

// Mostrar resultados
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Obter texto por números de página de documentos PDF usando Node.js

Obter texto por números de página de documentos PDF usando Node.js

Extrair texto de documentos anexados com PDF usando Node.js

Você pode extrair o texto de um documento dentro de um contêiner, disponível como anexo em um arquivo PDF de forma programática, seguindo as etapas mencionadas abaixo.

  • Crie uma instância do ParseApi.
  • Crie uma instância do FileInfo.
  • Em seguida, defina o caminho para o arquivo PDF.
  • Opcionalmente, forneça a senha do arquivo.
  • Agora, crie uma instância do ContainerItemInfo
  • Em seguida, defina o caminho relativo para o arquivo anexado
  • Crie uma instância do TextOptions.
  • Em seguida, atribua FileInfo e ContainerItemInfo ao TextOptions.
  • Agora, crie uma instância do TextRequest com TextOptions
  • Finalmente, obtenha resultados chamando o método ParseApi.text() com o TextRequest

O exemplo de código a seguir mostra como extrair o texto de um documento dentro de um documento PDF usando uma API REST.

// Inicialização da API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Arquivo de entrada
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Item do contêiner de entrada
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Definir opções de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Criar solicitação de texto
let request = new groupdocs_parser_cloud.TextRequest(options);

// Extrair texto
let result = await parseApi.text(request);
console.log(result.text);
Extrair texto de documentos anexados com PDF usando Node.js

Extrair texto de documentos anexados com PDF usando Node.js

Experimente on-line

Experimente a seguinte ferramenta de análise de PDF on-line gratuita, desenvolvida usando a API acima. https://products.groupdocs.app/parser/pdf

Conclusão

Neste artigo, você aprendeu como analisar documentos PDF na nuvem. Além disso, você viu como extrair texto por números de página e de itens de contêiner de arquivos PDF usando uma API REST em Node.js. Este artigo também explicou como carregar programaticamente um arquivo PDF para a nuvem. Além disso, você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. Em caso de ambiguidade, sinta-se à vontade para nos contatar no fórum.

Veja também