Analisador de documentos do Word - Extraia imagens do arquivo do Word online em Java

A análise de documentos é uma tarefa crucial em muitos setores em que é necessária a extração de dados de vários formatos de documentos. Ao trabalhar com documentos Word, a extração de imagens pode ser particularmente útil em casos como análise de conteúdo, reconhecimento de imagem ou visualização de dados. A extração manual de imagens de grandes documentos do Word pode ser demorada. Portanto, automatizar o processo de extração de imagens pode economizar tempo e esforço. Neste artigo, demonstraremos como extrair imagens de documentos do Word programaticamente em Java.

Os seguintes tópicos serão abordados neste artigo:

API Java REST para extrair imagens de documentos do Word e instalação do SDK

GroupDocs.Parser Cloud SDK for Java é uma poderosa biblioteca Java que fornece uma maneira simples e eficiente de analisar e extrair dados de vários formatos de documento, incluindo documentos do Word. Ele oferece uma ampla gama de recursos para análise de documentos, permitindo que os desenvolvedores extraiam imagens, texto, metadados e muito mais. GroupDocs.Parser também fornece SDKs C#.NET, Java, PHP, Ruby e Python como seus membros da família do analisador de documentos para APIs de nuvem.

Para começar, você precisa incluir o GroupDocs.Parser Cloud SDK em seu projeto Java. Você pode baixar o arquivo JAR da API ou instalá-lo usando o Maven adicionando o seguinte repositório e dependência ao arquivo pom.xml do seu projeto:

Repositório Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dependência do Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Em seguida, você precisa inscrever-se para uma conta de avaliação gratuita ou comprar um plano de assinatura no site do GroupDocs e obter sua chave de API. Depois de obter o ID do cliente e o segredo do cliente, adicione o trecho de código abaixo a um aplicativo baseado em Java:

# Obtenha seu client_id e client_secret em https://dashboard.groupdocs.cloud após o registro.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Como extrair todas as imagens de documentos do Word em Java usando a API REST

Para extrair imagens de documentos do Word em Java usando GroupDocs.Parser Cloud SDK, siga estas etapas e um trecho de código de exemplo:

  • Em primeiro lugar, importe as classes necessárias para o seu arquivo Java.
  • Em segundo lugar, crie uma instância da classe ParseApi.
  • Em terceiro lugar, crie uma instância da classe FileInfo.
  • Em seguida, defina o caminho para o documento do Word de entrada.
  • Em seguida, crie uma instância da classe ImagesOptions().
  • Em seguida, atribua fileInfo à opção de imagem setFileInfo.
  • Agora, crie uma instância da classe ImagesRequest() e passe o parâmetro ImagesOptions.
  • Por fim, obtenha os resultados chamando o método ParseApi.images() e passando o parâmetro ImagesRequest.

O exemplo de código a seguir mostra como extrair todas as imagens de um documento do Word online em Java usando a API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Como extrair imagens de um documento do Word em Java.
public class App {

	public static void main(String[] args) {
		
		// Crie uma instância da API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare as configurações
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Obter caminho do arquivo de saída
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extraia imagens específicas do arquivo do Word em Java usando o número da página

Nesta seção, escreveremos as etapas e um trecho de código de exemplo para extrair imagens específicas de um documento do Word programaticamente em Java:

  • Em primeiro lugar, importe as classes necessárias para o seu arquivo Java.
  • Em segundo lugar, crie uma instância da classe ParseApi.
  • Em terceiro lugar, crie uma instância da classe FileInfo.
  • Em seguida, defina o caminho para o arquivo do Word como entrada.
  • Em seguida, crie uma instância da classe ImagesOptions().
  • Em seguida, atribua fileInfo à opção de imagem setFileInfo.
  • Em seguida, forneça os valores setStartPageNumber e setCountPagesToExtract.
  • Agora, crie uma instância da classe ImagesRequest() e passe o parâmetro ImagesOptions.
  • Por fim, obtenha os resultados chamando o método ParseApi.images() e passando o parâmetro ImagesRequest.

O exemplo de código a seguir mostra como extrair imagens específicas de um arquivo do Word por intervalo de páginas em Java usando a API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Extraia imagens de um arquivo do Word online por intervalo de páginas em Java.
public class App {

	public static void main(String[] args) {
		
		// Crie uma instância da API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare as configurações
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Obter caminho do arquivo de saída
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extrator de imagens on-line gratuito

Qual é a melhor maneira de extrair imagens do Word online gratuitamente? Por favor, tente um analisador online de documentos do Word para extrair imagens do Word. Esta ferramenta Word Parser é desenvolvida usando a biblioteca de analisador Java mencionada acima.

Conclusão

Em conclusão, GroupDocs.Parser Cloud SDK é uma excelente solução para extrair imagens de documentos do Word, economizando tempo e esforço e garantindo resultados precisos. O seguinte é o que você aprendeu com este artigo:

  • como extrair todas as imagens do Word DOCX programaticamente em Java usando a API REST;
  • como extrair imagens específicas de documentos do Word em Java usando a API REST;
  • e ferramenta de extração de imagens online para extrair imagens de documentos do Word.

Além disso, você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. O código-fonte completo do Java SDK está disponível gratuitamente no Github.

Por fim, continuamos escrevendo novos artigos de blog em diferentes formatos de arquivo e analisando-os usando a API REST. Portanto, entre em contato para obter as atualizações mais recentes.

Faça uma pergunta

Caso você tenha alguma dúvida sobre como extrair imagens de documentos, sinta-se à vontade para nos contatar através do nosso fórum.

perguntas frequentes

Como faço para analisar documentos do Word em Java?

Para extrair imagens ou texto, primeiro você precisa carregar e analisar o documento do Word usando GroupDocs.Parser Cloud SDK. Esse processo envolve especificar o caminho do arquivo e chamar o método Parse para analisar documentos.

O GroupDocs.Parser Cloud SDK pode extrair imagens de outros formatos de documento?

Sim, GroupDocs.Parser Cloud SDK para Java suporta a extração de imagens de vários formatos de documento, incluindo Word, PDF, Excel, PowerPoint e muitos mais.

O GroupDocs.Parser Cloud SDK pode extrair várias imagens de um único documento do Word?

Sim, o SDK pode extrair várias imagens de um único documento do Word, fornecendo a você todas as imagens contidas no documento.

O GroupDocs.Parser Cloud SDK preserva a qualidade da imagem original durante o processo de extração?

Sim, o GroupDocs.Parser Cloud SDK para Java preserva a qualidade da imagem original ao extrair imagens de documentos do Word.

Veja também

Aqui estão alguns artigos relacionados que podem ser úteis: