Extrair imagens de documentos usando Python

Se você é um desenvolvedor Python e deseja extrair dados de documentos, este artigo irá orientá-lo a extrair imagens de vários documentos de processamento de texto, planilhas, apresentações e documentos PDF usando exemplos simples de Python.

Os seguintes tópicos serão abordados hoje:

API REST de extração de imagens e SDK do Python

SDK do Python de análise de documento

Desta vez, usaremos o Python SDK da GroupDocs.Parser Cloud API para a extração de imagens de diferentes tipos de documentos. No entanto, atualmente, ele também fornece SDKs .NET, Java, PHP, Ruby e Node.js como seus membros da família de análise de documentos para a API do Cloud.

A API também oferece suporte à extração de texto e metadados, juntamente com a extração de imagens de vários tipos de documentos, como documentos de processamento de texto, planilhas, apresentações, e-mails, arquivos, marcações e documentos PDF.

Chegando ao objetivo, primeiro, obtenha sua APP KEY e APP SID no dashboard antes de começar a seguir as etapas e os exemplos de código disponíveis.

Extrair imagens de PDF usando Python

Documento PDF para extrair imagens, obter imagens de pdf ou extrair imagem de pdf

Como exemplo, primeiro extrairei as imagens de um documento PDF. Seguindo apenas etapas simples, todas as imagens podem ser extraídas facilmente.

  • Carregue o documento PDF para a nuvem.
  • Extraia as imagens do documento carregado.
  • Baixe as imagens extraídas.

Carregar o documento PDF

Em primeiro lugar, carregue o documento PDF na nuvem usando qualquer um dos seguintes métodos:

Como resultado, o arquivo PDF será carregado no Cloud Storage

Arquivo PDF carregado no painel

Arquivo PDF carregado em dashboard.groupdocs.cloud/#/files

Extrair imagens do documento PDF carregado

Agora você concluiu a parte difícil de extrair todas as fotos do pdf. Seguir o código Python permitirá que você extraia rapidamente todas as imagens do documento PDF carregado.

# Como extrair imagens de documentos do Word, planilhas do Excel, apresentações ou documento PDF em Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Obtenha o APP SID e a APP Key em https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Exibir propriedades de imagens extraídas
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Baixe as imagens extraídas

Depois de extrair as imagens, você pode baixar as imagens da nuvem no painel ou programaticamente. As imagens mostradas aqui são extraídas do documento PDF mostrado acima.

Imagens extraídas de um arquivo PDF

Imagens extraídas do documento PDF

Imagens extraídas do documento usando Python

Extraia imagens de alta qualidade de arquivos pdf, xlsx, pptx ou docx

Extração de imagens do Excel, PPT ou Word Docs usando Python

Da mesma forma, você pode extrair todas as imagens dos documentos do Word, planilhas e apresentações com o código python mencionado acima para o documento PDF. Você só precisa alterar o caminho do arquivo com o nome do documento correto com a extensão.

# Extraia imagens de documentos do Word, planilhas do Excel, apresentações em Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Basta alterar o caminho do documento de acordo com o requisito (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Extrair imagens do documento online

Como extrair imagens de um arquivo ou documento online grátis? Groupdocs.Parser fornece uma ferramenta on-line gratuita para extrair imagens do word online, extrair todas as imagens do pdf, salvar todas as imagens em um powerpoint ou extrair imagens do xlsx python. Basta selecionar o documento que deseja extrair imagens jpg, png, jpeg ou gif.

As ferramentas Extrair imagens do pdf online grátis, extrair imagens do excel online, extrair imagem do word online e extrair imagens do pptx online foram desenvolvidas usando o Groupdocs.Parser Python API.

Conclusão

Neste artigo, aprendemos como extrair programaticamente imagens do Word, Excel, PowerPoint, PDF e outros documentos usando Python. Nenhuma diferença no código, basta alterar o caminho e o tipo do documento de origem.

Para obter mais recursos e saber mais sobre a API de análise de documentos, visite a documentação para ver os artigos que também contêm os exemplos. A melhor maneira de testar os recursos destacados é experimentar os exemplos de execução de código aberto do GitHub. Em caso de confusão, a Equipe de Suporte do GroupDocs terá prazer em auxiliá-lo. Obrigado

Faça uma pergunta

Se você tiver alguma dúvida sobre como extrair imagens de PDF, XLSX, PPTX ou Word DOCX usando Python, sinta-se à vontade para nos perguntar no Fórum de suporte gratuito

Veja também