A análise de documentos é uma tarefa crucial em muitos setores em que é necessária a extração de dados de vários formatos de documentos. Ao trabalhar com documentos Word, a extração de imagens pode ser particularmente útil em casos como análise de conteúdo, reconhecimento de imagem ou visualização de dados. A extração manual de imagens de grandes documentos do Word pode ser demorada. Portanto, automatizar o processo de extração de imagens pode economizar tempo e esforço. Neste artigo, demonstraremos como extrair imagens de documentos do Word programaticamente em Java.
Os seguintes tópicos serão abordados neste artigo:
- Java REST API para extrair imagens de documentos do Word e instalação do SDK
- Como extrair todas as imagens de documentos do Word em Java usando a API REST
- Extrair imagens específicas do arquivo do Word em Java usando o número da página
API Java REST para extrair imagens de documentos do Word e instalação do SDK
GroupDocs.Parser Cloud SDK for Java é uma poderosa biblioteca Java que fornece uma maneira simples e eficiente de analisar e extrair dados de vários formatos de documento, incluindo documentos do Word. Ele oferece uma ampla gama de recursos para análise de documentos, permitindo que os desenvolvedores extraiam imagens, texto, metadados e muito mais. GroupDocs.Parser também fornece SDKs C#.NET, Java, PHP, Ruby e Python como seus membros da família do analisador de documentos para APIs de nuvem.
Para começar, você precisa incluir o GroupDocs.Parser Cloud SDK em seu projeto Java. Você pode baixar o arquivo JAR da API ou instalá-lo usando o Maven adicionando o seguinte repositório e dependência ao arquivo pom.xml do seu projeto:
Repositório Maven:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Dependência do Maven:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Em seguida, você precisa inscrever-se para uma conta de avaliação gratuita ou comprar um plano de assinatura no site do GroupDocs e obter sua chave de API. Depois de obter o ID do cliente e o segredo do cliente, adicione o trecho de código abaixo a um aplicativo baseado em Java:
# Obtenha seu client_id e client_secret em https://dashboard.groupdocs.cloud após o registro.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Como extrair todas as imagens de documentos do Word em Java usando a API REST
Para extrair imagens de documentos do Word em Java usando GroupDocs.Parser Cloud SDK, siga estas etapas e um trecho de código de exemplo:
- Em primeiro lugar, importe as classes necessárias para o seu arquivo Java.
- Em segundo lugar, crie uma instância da classe ParseApi.
- Em terceiro lugar, crie uma instância da classe FileInfo.
- Em seguida, defina o caminho para o documento do Word de entrada.
- Em seguida, crie uma instância da classe ImagesOptions().
- Em seguida, atribua fileInfo à opção de imagem setFileInfo.
- Agora, crie uma instância da classe ImagesRequest() e passe o parâmetro ImagesOptions.
- Por fim, obtenha os resultados chamando o método ParseApi.images() e passando o parâmetro ImagesRequest.
O exemplo de código a seguir mostra como extrair todas as imagens de um documento do Word online em Java usando a API REST:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Como extrair imagens de um documento do Word em Java.
public class App {
public static void main(String[] args) {
// Crie uma instância da API Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// Prepare as configurações
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Obter caminho do arquivo de saída
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Extraia imagens específicas do arquivo do Word em Java usando o número da página
Nesta seção, escreveremos as etapas e um trecho de código de exemplo para extrair imagens específicas de um documento do Word programaticamente em Java:
- Em primeiro lugar, importe as classes necessárias para o seu arquivo Java.
- Em segundo lugar, crie uma instância da classe ParseApi.
- Em terceiro lugar, crie uma instância da classe FileInfo.
- Em seguida, defina o caminho para o arquivo do Word como entrada.
- Em seguida, crie uma instância da classe ImagesOptions().
- Em seguida, atribua fileInfo à opção de imagem setFileInfo.
- Em seguida, forneça os valores setStartPageNumber e setCountPagesToExtract.
- Agora, crie uma instância da classe ImagesRequest() e passe o parâmetro ImagesOptions.
- Por fim, obtenha os resultados chamando o método ParseApi.images() e passando o parâmetro ImagesRequest.
O exemplo de código a seguir mostra como extrair imagens específicas de um arquivo do Word por intervalo de páginas em Java usando a API REST:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Extraia imagens de um arquivo do Word online por intervalo de páginas em Java.
public class App {
public static void main(String[] args) {
// Crie uma instância da API Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// Prepare as configurações
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setStartPageNumber(1);
options.setCountPagesToExtract(2);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Obter caminho do arquivo de saída
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Extrator de imagens on-line gratuito
Qual é a melhor maneira de extrair imagens do Word online gratuitamente? Por favor, tente um analisador online de documentos do Word para extrair imagens do Word. Esta ferramenta Word Parser é desenvolvida usando a biblioteca de analisador Java mencionada acima.
Conclusão
Em conclusão, GroupDocs.Parser Cloud SDK é uma excelente solução para extrair imagens de documentos do Word, economizando tempo e esforço e garantindo resultados precisos. O seguinte é o que você aprendeu com este artigo:
- como extrair todas as imagens do Word DOCX programaticamente em Java usando a API REST;
- como extrair imagens específicas de documentos do Word em Java usando a API REST;
- e ferramenta de extração de imagens online para extrair imagens de documentos do Word.
Além disso, você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. O código-fonte completo do Java SDK está disponível gratuitamente no Github.
Por fim, continuamos escrevendo novos artigos de blog em diferentes formatos de arquivo e analisando-os usando a API REST. Portanto, entre em contato para obter as atualizações mais recentes.
Faça uma pergunta
Caso você tenha alguma dúvida sobre como extrair imagens de documentos, sinta-se à vontade para nos contatar através do nosso fórum.
perguntas frequentes
Como faço para analisar documentos do Word em Java?
Para extrair imagens ou texto, primeiro você precisa carregar e analisar o documento do Word usando GroupDocs.Parser Cloud SDK. Esse processo envolve especificar o caminho do arquivo e chamar o método Parse para analisar documentos.
O GroupDocs.Parser Cloud SDK pode extrair imagens de outros formatos de documento?
Sim, GroupDocs.Parser Cloud SDK para Java suporta a extração de imagens de vários formatos de documento, incluindo Word, PDF, Excel, PowerPoint e muitos mais.
O GroupDocs.Parser Cloud SDK pode extrair várias imagens de um único documento do Word?
Sim, o SDK pode extrair várias imagens de um único documento do Word, fornecendo a você todas as imagens contidas no documento.
O GroupDocs.Parser Cloud SDK preserva a qualidade da imagem original durante o processo de extração?
Sim, o GroupDocs.Parser Cloud SDK para Java preserva a qualidade da imagem original ao extrair imagens de documentos do Word.
Veja também
Aqui estão alguns artigos relacionados que podem ser úteis: