Extraer imágenes de documentos PDF

Es posible que deba extraer imágenes de sus documentos PDF o Word para reutilizarlas. Puede extraer fácilmente imágenes de documentos PDF mediante programación en la nube. Este artículo explicará cómo extraer imágenes de documentos PDF utilizando una API REST en Python.

En este artículo se tratarán los siguientes temas:

API REST del analizador de documentos y SDK de Python

Para extraer imágenes de un documento PDF, usaré la API Python SDK de GroupDocs.Parser Cloud. Le permite analizar datos de todos los tipos de documentos populares. Puede extraer texto, imágenes y analizar datos mediante una plantilla utilizando el SDK. También proporciona SDK de .NET, Java, PHP, Ruby y Node.js como sus miembros de la familia de analizadores de documentos para la API de Cloud.

Puede instalar GroupDocs.Parser Cloud en su proyecto de Python con pip (instalador de paquetes para python) usando el siguiente comando en la consola:

pip install groupdocs_parser_cloud

Obtenga su ID de cliente y Secreto de cliente del panel de control antes de comenzar a seguir los pasos y los ejemplos de código disponibles. Una vez que tenga su ID de cliente y secreto, agregue el código como se muestra a continuación:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extraiga imágenes de PDF utilizando una API REST en Python

Puede extraer imágenes de documentos PDF siguiendo los sencillos pasos que se mencionan a continuación:

Sube el documento

En primer lugar, cargue el documento PDF en la nube utilizando el ejemplo de código que se muestra a continuación:

# inicialización de la API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Como resultado, el archivo PDF cargado (sample.pdf) estará disponible en la sección de archivos de su tablero en la nube.

Extraiga todas las imágenes de un documento PDF usando Python

Puede extraer fácilmente todas las imágenes del archivo PDF mediante programación siguiendo los pasos que se mencionan a continuación.

  • Crear una instancia de ParseApi
  • Definir opciones de imagen
  • Establecer ruta al archivo PDF
  • Crear solicitud de imágenes
  • Obtenga resultados llamando al método ParseApi.images()

El siguiente ejemplo de código muestra cómo extraer todas las imágenes de un documento PDF mediante una API REST.

# inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definir opciones de imagen
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# Crear solicitud
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Extraiga todas las imágenes del documento PDF.

Extraiga todas las imágenes del documento PDF.

Descargar imágenes extraídas

El ejemplo de código anterior guardará las imágenes extraídas en la nube. Puede descargar estas imágenes utilizando el ejemplo de código que se proporciona a continuación:

# inicialización de la API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Descargar imagen 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Mueva el archivo descargado a su directorio de trabajo
shutil.move(response, "C:\\Files\\Images")

Guarde imágenes por números de página de documentos PDF usando Python

Puede extraer fácilmente las imágenes de páginas específicas de un archivo PDF mediante programación siguiendo los pasos que se mencionan a continuación.

  • Crear una instancia de ParseApi
  • Definir opciones de imagen
  • Proporcione la ruta al archivo PDF
  • Establecer el número de la página de inicio
  • Establecer el recuento de páginas para extraer
  • Crear solicitud de imágenes
  • Obtenga resultados llamando al método ParseApi.images()

El siguiente ejemplo de código muestra cómo extraer las imágenes por rango de números de página de un documento PDF mediante una API REST. Siga los pasos mencionados anteriormente para descargar las imágenes extraídas.

# inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definir opciones de imagen
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# definir el rango de páginas
options.start_page_number = 1
options.count_pages_to_extract = 1

# Crear solicitud
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Extraiga imágenes por rango de número de página del documento PDF.

Extraiga imágenes por rango de número de página del documento PDF.

Obtenga imágenes del documento adjunto con PDF usando Python

Puede extraer las imágenes de un documento dentro de un contenedor, disponible como archivo adjunto en un archivo PDF mediante programación, siguiendo los pasos que se mencionan a continuación.

  • Crear una instancia de ParseApi
  • Definir opciones de imagen
  • Establecer ruta al archivo PDF
  • Definir ContainerItemInfo
  • Proporcione la ruta relativa del documento interno
  • Establecer el número de la página de inicio
  • Establecer el recuento de páginas para extraer
  • Crear solicitud de imágenes
  • Obtenga resultados llamando al método ParseApi.images()

El siguiente ejemplo de código muestra cómo extraer las imágenes de un documento dentro de un documento PDF mediante una API REST. Siga los pasos mencionados anteriormente para descargar las imágenes extraídas.

# inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opciones de imagen
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# establecer elemento contenedor
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# definir el rango de páginas
options.start_page_number = 2
options.count_pages_to_extract = 1

# Crear solicitud
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Extraiga imágenes del documento adjunto en un documento PDF

Extraiga imágenes del documento adjunto en un documento PDF.

Prueba en línea

Pruebe la siguiente herramienta gratuita de análisis de PDF en línea, que se desarrolla utilizando la API anterior. https://products.groupdocs.app/parser/pdf

Conclusión

En este artículo, ha aprendido a extraer imágenes de documentos PDF en la nube. Este artículo también explicó cómo cargar mediante programación un archivo PDF en la nube. También aprendió cómo descargar las imágenes extraídas usando el SDK. Puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad, no dude en contactarnos en el foro.

Ver también