Extraer imágenes de documentos usando Python

Si es un desarrollador de Python y desea extraer datos de documentos, este artículo lo guiará para extraer imágenes de varios documentos de procesamiento de texto, hojas de cálculo, presentaciones y documentos PDF utilizando ejemplos simples de Python.

Hoy se tratarán los siguientes temas:

API REST de extracción de imágenes y SDK de Python

Análisis de documentos Python SDK

Esta vez, usaremos el Python SDK de GroupDocs.Parser Cloud API para la extracción de imágenes de diferentes tipos de documentos. Sin embargo, actualmente, también proporciona SDK de .NET, Java, PHP, Ruby y Node.js como sus miembros de la familia de análisis de documentos para la API de la nube.

La API también admite la extracción de texto y metadatos junto con la extracción de imágenes de varios tipos de documentos, como documentos de procesamiento de texto, hojas de cálculo, presentaciones, correos electrónicos, archivos, marcas y documentos PDF.

Llegando al objetivo, primero, obtenga su CLAVE DE APLICACIÓN y SID DE APLICACIÓN del panel de control antes de comenzar a seguir los pasos y los ejemplos de código disponibles.

Extraer imágenes de PDF usando Python

Documento PDF para extraer imágenes, obtener imágenes de pdf o extraer imágenes de pdf

Como ejemplo, primero extraeré las imágenes de un documento PDF. Con solo seguir unos sencillos pasos, todas las imágenes se pueden extraer fácilmente.

  • Sube el documento PDF a la Nube.
  • Extraiga las imágenes del documento cargado.
  • Descarga las imágenes extraídas.

Sube el documento PDF

En primer lugar, cargue el documento PDF en la nube utilizando cualquiera de los siguientes métodos:

Como resultado, el archivo PDF se cargará en Cloud Storage

Archivo PDF cargado en el tablero

Archivo PDF cargado en dashboard.groupdocs.cloud/#/files

Extraiga imágenes del documento PDF cargado

Ahora ha terminado con la parte difícil de extraer todas las fotos del pdf. Seguir el código de Python le permitirá extraer rápidamente todas las imágenes del documento PDF cargado.

# Cómo extraer imágenes de documentos de Word, hojas de cálculo de Excel, presentaciones o documentos PDF en Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Obtenga el SID de la aplicación y la clave de la aplicación de https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Mostrar propiedades de las imágenes extraídas
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Descargar las imágenes extraídas

Una vez que haya extraído las imágenes, puede descargarlas de la nube, ya sea desde el tablero o mediante programación. Las imágenes que se muestran aquí se extraen del documento PDF que se muestra arriba.

Imágenes extraídas de un archivo PDF

Imágenes extraídas del documento PDF

Imágenes extraídas del documento usando Python

Extraiga imágenes de alta calidad de archivos pdf, xlsx, pptx o docx

Extracción de imágenes de Excel, PPT o Word Docs usando Python

Del mismo modo, puede extraer todas las imágenes de los documentos de Word, hojas de cálculo, presentaciones con el código python exacto mencionado anteriormente para documentos PDF. Solo tiene que cambiar la ruta del archivo con el nombre correcto del documento con extensión.

# Extraiga imágenes de documentos de Word, hojas de cálculo de Excel, presentaciones en Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Simplemente cambie la ruta del documento según los requisitos (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Extraer imágenes de un documento en línea

¿Cómo extraer imágenes de un archivo o documento en línea gratis? Groupdocs.Parser proporciona una herramienta en línea gratuita para extraer imágenes de Word en línea, extraer todas las imágenes de PDF, guardar todas las imágenes en un PowerPoint o extraer imágenes de xlsx python. Simplemente seleccione el documento del que desea extraer imágenes jpg, png, jpeg o gif.

Las herramientas Extraer imágenes de pdf en línea gratis, Extraer imágenes de Excel en línea, Extraer imágenes de Word en línea y Extraer imágenes de pptx en línea se han desarrollado utilizando la API de Groupdocs.Parser Python.

Conclusión

En este artículo, hemos aprendido cómo extraer imágenes mediante programación de Word, Excel, PowerPoint, PDF y otros documentos usando Python. No hay diferencia en el código, solo tenemos que cambiar la ruta y el tipo del documento fuente.

Para obtener más funciones y obtener más información sobre la API de análisis de documentos, visite la documentación para ver artículos que también contienen ejemplos. La mejor manera de probar las características destacadas es experimentar los ejemplos en ejecución de código abierto de GitHub. En caso de confusión, el Equipo de soporte de GroupDocs se complace en facilitarle la tarea. Gracias

Hacer una pregunta

Si tiene alguna consulta sobre cómo extraer imágenes de PDF, XLSX, PPTX o Word DOCX usando Python, no dude en consultarnos en Foro de soporte gratuito

Ver también