Você pode precisar extrair texto ou imagens de seus documentos do Word para várias finalidades. Você pode facilmente analisar documentos do Word e ler o texto programaticamente em seus aplicativos Node.js. Como desenvolvedor Node.js, você pode extrair todos os textos e imagens de arquivos DOCX programaticamente na nuvem. Este artigo se concentrará em como analisar documentos do Word usando uma API REST no Node.js.
Os seguintes tópicos serão abordados neste artigo:
- API REST do analisador de documentos e SDK Node.js
- Analisar documentos do Word e extrair imagens usando a API REST no Node.js
- Extrair texto de documentos do Word usando uma API REST
API REST do analisador de documentos e SDK Node.js
Para analisar os documentos DOCX, usarei a API Node.js SDK do GroupDocs.Parser Cloud. Ele permite analisar dados de mais de 50 tipos de documentos. Ele também oferece suporte à análise de contêineres como arquivos ZIP, arquivos de dados de e-mail OST/PST, eBooks, marcações e portfólios PDF em seus aplicativos Node.js. Você pode extrair texto, imagens e analisar dados por um modelo usando o SDK. Ele também fornece SDKs .NET, Java, PHP, Ruby e Python como seus membros da família de analisadores de documentos para a Cloud API.
Você pode instalar o GroupDocs.Parser Cloud em seu aplicativo Node.js usando o seguinte comando no console:
npm install groupdocs-parser-cloud
Obtenha seu ID e Segredo do cliente no painel antes de seguir as etapas mencionadas. Depois de ter seu ID e segredo, adicione o código conforme mostrado abaixo:
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Analisar documentos do Word e extrair imagens usando a API REST no Node.js
Você pode analisar seus documentos do Word e extrair imagens programaticamente seguindo as etapas mencionadas abaixo:
- Carregar o arquivo do Word para a nuvem
- Extrair imagens de documentos do Word usando Node.js
- Baixe as imagens extraídas
Carregue o Documento
Em primeiro lugar, carregue o documento do Word (DOCX) para a nuvem usando o exemplo de código abaixo:
// inicializar API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';
// ler arquivo
fs.readFile(resourcesFolder, (err, fileStream) => {
// criar solicitação de upload de arquivo
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
// subir arquivo
fileApi.uploadFile(request);
});
Como resultado, o arquivo DOCX carregado estará disponível na seção de arquivos do seu painel na nuvem.
Extrair imagens de documentos do Word usando Node.js
Você pode extrair facilmente todas as imagens dos documentos do Word seguindo as etapas mencionadas abaixo.
- Crie uma instância do ParseApi
- Crie uma instância do FileInfo
- Defina o caminho para o arquivo DOCX
- Crie uma instância do ImageOptions
- Atribuir FileInfo a ImageOptions
- Criar Solicitação de Imagens
- Obtenha resultados chamando o método ParseApi.images()
O exemplo de código a seguir mostra como extrair imagens de um arquivo DOCX usando uma API REST.
// inicialização da API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// informações do arquivo de amostra
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";
// definir opções de imagem
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;
// criar solicitação de imagem
let request = new groupdocs_parser_cloud.ImagesRequest(options);
// obter imagens
let result = await parseApi.images(request);
// mostrar caminho de download de imagens
let images = result.images;
images.forEach(image => {
console.log("Image path in storage: " + image.path);
console.log("Download url: " + image.downloadUrl);
console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Baixar imagens extraídas
O exemplo de código acima salvará as imagens extraídas na nuvem. Você pode baixar essas imagens usando o exemplo de código abaixo:
// inicializar API
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
// criar solicitação de download de arquivo
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);
// ⇬ Fazer download do arquivo
let response = await fileApi.downloadFile(request);
// salvar arquivo de imagem no diretório de trabalho
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);
Extrair texto de documentos do Word usando Node.js
Você pode extrair facilmente todo o texto dos documentos do Word seguindo as etapas mencionadas abaixo.
- Crie uma instância do ParseApi
- Crie uma instância do FileInfo
- Defina o caminho para o arquivo DOCX
- Crie uma instância do TextOptions
- Atribuir FileInfo ao TextOptions
- Definir o número da página inicial
- Definir opções de texto formatado
- Criar TextRequest
- Obtenha resultados chamando o método ParseApi.text()
O exemplo de código a seguir mostra como extrair texto de um arquivo DOCX usando uma API REST.
// inicialização da API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// informações do arquivo de amostra
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";
// definir opções de texto
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
mode: "Html" // extract text in HTML
});
// criar solicitação de texto
let request = new groupdocs_parser_cloud.TextRequest(options);
// obter texto
let result = await parseApi.text(request);
// mostrar texto extraído
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Experimente on-line
Tente a seguinte ferramenta de análise DOCX on-line gratuita, que é desenvolvida usando a API acima. https://products.groupdocs.app/parser/docx
Conclusão
Neste artigo, você aprendeu como analisar documentos do Word na nuvem. Você também aprendeu como extrair imagens e texto de arquivos DOCX usando uma API REST em Node.js. Este artigo também explicou como carregar programaticamente um arquivo DOCX na nuvem e baixar os arquivos de imagem da nuvem. Você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. Em caso de ambiguidade, sinta-se à vontade para nos contatar no fórum.