Extraer páginas específicas de PDF

Es posible que necesite extraer páginas específicas de documentos PDF o dividir documentos PDF grandes en partes más pequeñas. Como desarrollador de Python, puede extraer fácilmente páginas específicas de documentos PDF por números de página o por un rango de páginas mediante programación. En este artículo, aprenderá cómo extraer páginas específicas de documentos PDF utilizando una API REST en Python.

En este artículo se tratarán los siguientes temas:

API REST del divisor de documentos y SDK de Python

Para extraer páginas de documentos PDF, usaré la API Python SDK of GroupDocs.Merger Cloud. Es un SDK de la nube rico en funciones y de alto rendimiento que se utiliza para fusionar varios documentos en un solo documento. También le permite dividir un solo documento en varios documentos. El SDK ofrece funcionalidad para eliminar, intercambiar, rotar o cambiar la orientación de la página para un rango de páginas completo o preferido y realizar otras manipulaciones fácilmente para cualquier formato de archivo compatible, como PDF, Word, Powerpoint y hojas de cálculo de Excel. Actualmente, también proporciona SDK de .NET, Java, PHP, Ruby, Android y Node.js como sus miembros de la familia de fusión de documentos para la API de la nube.

Puede instalar GroupDocs.Merger-Cloud en su proyecto Python usando el siguiente comando en la consola:

pip install groupdocs_merger_cloud

Obtenga su ID de cliente y Secreto de cliente del panel de control antes de comenzar a seguir los pasos y los ejemplos de código disponibles. Una vez que tenga su ID y secreto, agregue el código como se muestra a continuación:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extraiga páginas específicas de PDF usando REST API en Python

Puede extraer páginas específicas de documentos PDF siguiendo los sencillos pasos que se mencionan a continuación:

  1. Subir el archivo PDF a la Nube
  2. Extraer páginas específicas por número de página del archivo PDF cargado
  3. Descargar los archivos extraídos

Sube el documento

En primer lugar, cargue el documento PDF de varias páginas en la nube utilizando el ejemplo de código que se muestra a continuación:

# crear instancia de la API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# subir archivos de muestra
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)

Como resultado, el archivo PDF se cargará en Cloud Storage y estará disponible en la sección de archivos de su tablero.

Extraiga páginas específicas por números de página usando Python

Siga los pasos que se mencionan a continuación para extraer una página específica o varias páginas de un documento PDF mediante programación.

  • Cree una instancia de Document API
  • Proporcionar opciones divididas
  • Establecer la ruta del archivo de entrada
  • Establecer la ruta del directorio de salida
  • Proporcione números de página separados por comas para extraer
  • Establecer el modo en Páginas
  • Crear solicitud dividida
  • Obtenga resultados llamando al método DocumentApi.split()

El siguiente ejemplo de código muestra cómo extraer páginas al proporcionar números de página específicos de un documento PDF mediante una API REST.

# inicialización de la API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)

# definir opciones de división
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"

# crear solicitud dividida
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)        

print("Documents count = " + str(len(result.documents)))
Extraiga páginas específicas de PDF usando Python

Extraiga páginas específicas de PDF usando Python

Descargar los archivos de página extraídos

El ejemplo de código anterior guardará las páginas extraídas en archivos PDF separados en la nube. Puede descargarlos utilizando el siguiente ejemplo de código:

# inicialización de la API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# solicitud de descarga de archivo
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)

# mover el archivo descargado a su directorio de trabajo
shutil.move(response, "C:\\Files\\")

Extraer páginas por rango de páginas usando Python

Siga los pasos que se mencionan a continuación para extraer páginas de un documento PDF proporcionando un rango de páginas mediante programación.

  • Cree una instancia de Document API
  • Proporcionar opciones divididas
  • Establecer la ruta del archivo de entrada
  • Establecer la ruta del directorio de salida
  • Proporcione el rango de páginas configurando el número de la página de inicio y el número de la página final para extraer
  • Establecer el modo en Páginas
  • Crear solicitud dividida
  • Obtenga resultados llamando al método DocumentApi.split()
  • Crear solicitud de archivo de descarga
  • Descargue el archivo llamando al método FileApi.download\file()

El siguiente ejemplo de código muestra cómo extraer páginas proporcionando un intervalo de páginas de un documento PDF mediante una API REST. Siga los pasos mencionados anteriormente para cargar los archivos.

# inicialización de la API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# definir opciones de división
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"

# crear solicitud dividida
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)   

print("Documents count = " + str(len(result.documents)))

# mostrar resultados y descargar archivos uno por uno
for data in result.documents:
    print("Document Url = " + str(data))
    
    # crear solicitud de archivo de descarga
    request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
    response = file_api.download_file(request)
    
    # Mueva el archivo descargado a su directorio de trabajo
    shutil.move(response, "C:\\Files\\")
Extraer páginas por rango de páginas usando Python

Extraer páginas por rango de páginas usando Python

Prueba en línea

Pruebe la siguiente herramienta gratuita de división de PDF en línea, que se desarrolla utilizando la API anterior. https://products.groupdocs.app/splitter/pdf

Conclusión

En este artículo, ha aprendido cómo extraer páginas específicas de documentos PDF en la nube usando Python. También aprendió cómo cargar mediante programación el archivo PDF en la nube y luego descargar los archivos extraídos de la nube. Puede obtener más información sobre GroupDocs.Merger Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad, no dude en contactarnos en el foro.

Ver también