Você pode facilmente analisar seus documentos PDF e extrair todo o texto programaticamente na nuvem. Neste artigo, você aprenderá como extrair texto de documentos PDF usando uma API REST no Node.js.
Os seguintes tópicos serão abordados neste artigo:
- API REST do analisador de PDF e SDK Node.js para extrair texto
- Extrair texto de PDF usando uma API REST em Node.js
- Obter texto por números de página de documentos PDF usando Node.js
- Extrair texto de documentos anexados com PDF usando Node.js
API REST do analisador de PDF e SDK Node.js para extrair texto
Para analisar os documentos PDF, usarei a API Node.js SDK of GroupDocs.Parser Cloud. Ele permite que você analise dados de mais de 50 tipos de formatos de documento suportados. Ele também suporta a análise de contêineres como ZIP arquivos, OST arquivos de dados de e-mail, e-books, marcações e portfólios PDF em seus aplicativos Node.js. Você pode extrair texto, imagens e analisar dados por um modelo usando o SDK. Ele também fornece SDKs .NET, Java, PHP, Ruby e Python como seus membros da família de analisadores de documentos para a Cloud API.
Você pode instalar o GroupDocs.Parser Cloud em seu aplicativo Node.js usando o seguinte comando no console:
npm install groupdocs-parser-cloud
Por favor, obtenha seu ID e Segredo do cliente no painel antes de seguir as etapas mencionadas. Depois de ter seu ID e segredo, adicione o código conforme mostrado abaixo:
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Extrair texto de PDF usando uma API REST em Node.js
Você pode extrair texto de documentos PDF seguindo as etapas simples mencionadas abaixo:
- Carregar o arquivo PDF para a nuvem
- Extrair texto de documentos PDF usando Node.js
Carregue o Documento
Em primeiro lugar, carregue o documento PDF para a nuvem usando o exemplo de código abaixo:
// Construir FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';
fs.readFile(filePath, (err, fileStream) => {
// Criar solicitação de upload de arquivo
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
// Subir arquivo
fileApi.uploadFile(request);
});
Como resultado, o arquivo PDF carregado estará disponível na seção de arquivos do seu painel na nuvem.
Extrair texto de documentos PDF usando Node.js
Você pode extrair facilmente todo o texto dos documentos PDF programaticamente seguindo as etapas abaixo:
- Crie uma instância do ParseApi.
- Crie uma instância do FileInfo.
- Em seguida, defina o caminho para o arquivo PDF.
- Crie uma instância do TextOptions.
- Em seguida, atribua FileInfo a TextOptions.
- Agora, crie uma instância do TextRequest com TextOptions.
- Por fim, obtenha os resultados chamando o método ParseApi.text() com o TextRequest.
O exemplo de código a seguir mostra como extrair todo o texto de um documento PDF usando uma API REST em Node.js.
// Inicialização da API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Arquivo de entrada
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Definir opções de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
// Criar solicitação de texto
let request = new groupdocs_parser_cloud.TextRequest(options);
// Extrair texto
let result = await parseApi.text(request);
console.log(result.text);
Obter texto por números de página de documentos PDF usando Node.js
Você pode extrair o texto de páginas específicas de um arquivo PDF programaticamente seguindo as etapas abaixo:
- Crie uma instância do ParseApi.
- Crie uma instância do FileInfo.
- Em seguida, defina o caminho para o arquivo PDF.
- Crie uma instância do TextOptions.
- Em seguida, atribua FileInfo a TextOptions.
- Defina o número da página inicial e o número total de páginas a serem extraídas.
- Agora, crie uma instância do TextRequest com TextOptions.
- Por fim, obtenha os resultados chamando o método ParseApi.text() com o TextRequest.
O exemplo de código a seguir mostra como extrair o texto por números de página de um documento PDF usando uma API REST.
// Inicialização da API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Caminho do arquivo de entrada
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Definir opções de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
// Criar solicitação de texto
let request = new groupdocs_parser_cloud.TextRequest(options);
// Extrair texto
let result = await parseApi.text(request);
// Mostrar resultados
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Extrair texto de documentos anexados com PDF usando Node.js
Você pode extrair o texto de um documento dentro de um contêiner, disponível como anexo em um arquivo PDF de forma programática, seguindo as etapas mencionadas abaixo.
- Crie uma instância do ParseApi.
- Crie uma instância do FileInfo.
- Em seguida, defina o caminho para o arquivo PDF.
- Opcionalmente, forneça a senha do arquivo.
- Agora, crie uma instância do ContainerItemInfo
- Em seguida, defina o caminho relativo para o arquivo anexado
- Crie uma instância do TextOptions.
- Em seguida, atribua FileInfo e ContainerItemInfo ao TextOptions.
- Agora, crie uma instância do TextRequest com TextOptions
- Finalmente, obtenha resultados chamando o método ParseApi.text() com o TextRequest
O exemplo de código a seguir mostra como extrair o texto de um documento dentro de um documento PDF usando uma API REST.
// Inicialização da API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Arquivo de entrada
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";
// Item do contêiner de entrada
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";
// Definir opções de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;
// Criar solicitação de texto
let request = new groupdocs_parser_cloud.TextRequest(options);
// Extrair texto
let result = await parseApi.text(request);
console.log(result.text);
Experimente on-line
Experimente a seguinte ferramenta de análise de PDF on-line gratuita, desenvolvida usando a API acima. https://products.groupdocs.app/parser/pdf
Conclusão
Neste artigo, você aprendeu como analisar documentos PDF na nuvem. Além disso, você viu como extrair texto por números de página e de itens de contêiner de arquivos PDF usando uma API REST em Node.js. Este artigo também explicou como carregar programaticamente um arquivo PDF para a nuvem. Além disso, você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. Em caso de ambiguidade, sinta-se à vontade para nos contatar no fórum.