Se você é um desenvolvedor Python e deseja extrair dados de documentos, este artigo irá orientá-lo a extrair imagens de vários documentos de processamento de texto, planilhas, apresentações e documentos PDF usando exemplos simples de Python.
Os seguintes tópicos serão abordados hoje:
- API REST de extração de imagens e SDK do Python
- Extrair imagens do documento PDF usando Python
- Extração de imagens do Excel, PPT ou Word Docs usando Python
API REST de extração de imagens e SDK do Python
Desta vez, usaremos o Python SDK da GroupDocs.Parser Cloud API para a extração de imagens de diferentes tipos de documentos. No entanto, atualmente, ele também fornece SDKs .NET, Java, PHP, Ruby e Node.js como seus membros da família de análise de documentos para a API do Cloud.
A API também oferece suporte à extração de texto e metadados, juntamente com a extração de imagens de vários tipos de documentos, como documentos de processamento de texto, planilhas, apresentações, e-mails, arquivos, marcações e documentos PDF.
Chegando ao objetivo, primeiro, obtenha sua APP KEY e APP SID no dashboard antes de começar a seguir as etapas e os exemplos de código disponíveis.
Extrair imagens de PDF usando Python
Como exemplo, primeiro extrairei as imagens de um documento PDF. Seguindo apenas etapas simples, todas as imagens podem ser extraídas facilmente.
- Carregue o documento PDF para a nuvem.
- Extraia as imagens do documento carregado.
- Baixe as imagens extraídas.
Carregar o documento PDF
Em primeiro lugar, carregue o documento PDF na nuvem usando qualquer um dos seguintes métodos:
- Usando o painel.
- Usando Upload File API do navegador.
- Programaticamente conforme mencionado na documentação.
Como resultado, o arquivo PDF será carregado no Cloud Storage
Extrair imagens do documento PDF carregado
Agora você concluiu a parte difícil de extrair todas as fotos do pdf. Seguir o código Python permitirá que você extraia rapidamente todas as imagens do documento PDF carregado.
# Como extrair imagens de documentos do Word, planilhas do Excel, apresentações ou documento PDF em Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# Obtenha o APP SID e a APP Key em https://dashboard.groupdocs.cloud/
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Exibir propriedades de imagens extraídas
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Baixe as imagens extraídas
Depois de extrair as imagens, você pode baixar as imagens da nuvem no painel ou programaticamente. As imagens mostradas aqui são extraídas do documento PDF mostrado acima.
Extração de imagens do Excel, PPT ou Word Docs usando Python
Da mesma forma, você pode extrair todas as imagens dos documentos do Word, planilhas e apresentações com o código python mencionado acima para o documento PDF. Você só precisa alterar o caminho do arquivo com o nome do documento correto com a extensão.
# Extraia imagens de documentos do Word, planilhas do Excel, apresentações em Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Basta alterar o caminho do documento de acordo com o requisito (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Extrair imagens do documento online
Como extrair imagens de um arquivo ou documento online grátis? Groupdocs.Parser fornece uma ferramenta on-line gratuita para extrair imagens do word online, extrair todas as imagens do pdf, salvar todas as imagens em um powerpoint ou extrair imagens do xlsx python. Basta selecionar o documento que deseja extrair imagens jpg, png, jpeg ou gif.
As ferramentas Extrair imagens do pdf online grátis, extrair imagens do excel online, extrair imagem do word online e extrair imagens do pptx online foram desenvolvidas usando o Groupdocs.Parser Python API.
Conclusão
Neste artigo, aprendemos como extrair programaticamente imagens do Word, Excel, PowerPoint, PDF e outros documentos usando Python. Nenhuma diferença no código, basta alterar o caminho e o tipo do documento de origem.
Para obter mais recursos e saber mais sobre a API de análise de documentos, visite a documentação para ver os artigos que também contêm os exemplos. A melhor maneira de testar os recursos destacados é experimentar os exemplos de execução de código aberto do GitHub. Em caso de confusão, a Equipe de Suporte do GroupDocs terá prazer em auxiliá-lo. Obrigado
Faça uma pergunta
Se você tiver alguma dúvida sobre como extrair imagens de PDF, XLSX, PPTX ou Word DOCX usando Python, sinta-se à vontade para nos perguntar no Fórum de suporte gratuito
Veja também
- Extraia todas as imagens de PDF e extraia imagens de PDF online usando Node.js
- Extração automatizada de dados de PDF e extração de dados de PDF python online
- Extraia imagens de PDF python e extraia imagens de PDF acrobat usando Python
- Como extrair dados específicos do documento do Word usando a API REST no Node.js
- Extrair dados de PDF javascript e melhor linguagem de programação para extrair dados de PDF
- Extraia tabelas do python do documento do Word usando a API REST em Python