Cómo extraer páginas de un archivo PDF en línea en Python

Extraiga páginas de un archivo PDF en línea en Python

En ciertos casos, es posible que deba extraer páginas PDF de documentos PDF o separar documentos PDF grandes en archivos PDF más pequeños. Como desarrollador de Python, puede extraer fácilmente páginas específicas de archivos PDF en línea o extraer páginas PDF por rango de páginas mediante programación. En este artículo, aprenderá cómo extraer páginas de un archivo PDF en línea en Python usando la API REST.

En este artículo se tratarán los siguientes temas:

Extractor de documentos REST API y Python SDK

Para extraer páginas PDF de archivos PDF en línea, usaré el SDK de Python de GroupDocs.Merger Cloud API. Es un SDK de la nube rico en funciones y de alto rendimiento. Esta API de Python le permite extraer páginas PDF de un solo documento en varios archivos. El SDK ofrece funcionalidad para reorganizar, eliminar, intercambiar, rotar o cambiar la orientación de la página para un rango de páginas completo o preferido. También admite otras manipulaciones para cualquier formato de archivo compatible, como PDF, Word, PowerPoint, hojas de cálculo de Excel, etc. Actualmente, admite SDK de .NET, Java, PHP, Ruby, Android y Node.js como documento fusión miembros de la familia para la API de Cloud.

Puede instalar GroupDocs.Merger-Cloud en su proyecto Python usando el siguiente comando en la consola:

pip install groupdocs_merger_cloud

Obtenga su ID de cliente y Secreto de cliente del panel de control antes de comenzar a seguir los pasos y los ejemplos de código disponibles. Una vez que tenga su ID y secreto, agregue el código como se muestra a continuación:

# Importar SDK de fusión de groupdocs
import groupdocs_merger_cloud

# Obtenga app_sid y app_key de https://dashboard.groupdocs.cloud después del registro gratuito.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Obtener configuraciones de la API de archivos 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Cómo extraer páginas específicas de un PDF en Python usando la API REST

Nuestra API de división de PDF le permite obtener una vista previa de las páginas que desea dividir. Puede seleccionar páginas simplemente proporcionando la cantidad de páginas que desea extraer. Divide instantáneamente tu PDF en páginas individuales o extrae páginas específicas de un nuevo documento PDF. Extraiga páginas PDF de archivos PDF en línea siguiendo los sencillos pasos que se mencionan a continuación:

  1. Subir el archivo PDF a la Nube.
  2. Extracto Páginas PDF por número de página en Python.
  3. Descargar los archivos extraídos.

Sube el documento

En primer lugar, cargue el documento PDF de varias páginas en la nube utilizando el fragmento de código que se proporciona a continuación:

# Subir archivo PDF al almacenamiento en la nube
# Crear una instancia de la API de archivo
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Solicitud de archivo de carga de llamadas
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# Subir archivo PDF a la nube
response = file_api.upload_file(request)
print(response.uploaded)

Como resultado, el archivo PDF se cargará en Cloud Storage y estará disponible en la sección de archivos de su tablero. Eliminamos todos sus archivos de forma permanente de la nube en 24 horas después de la carga.

Extraiga páginas específicas por números de página usando Python

Para extraer una página específica o varias páginas de un documento PDF mediante programación, siga los pasos que se mencionan a continuación:

  • En primer lugar, cree una instancia de PagesApi
  • En segundo lugar, proporcione la instancia de ExtractOptions
  • Ahora, configure la ruta del archivo de entrada con la instancia de FileInfo
  • A continuación, establezca la ruta del directorio de salida
  • Luego, proporcione números de página separados por comas para extraer
  • A continuación, establezca el modo en Páginas
  • A continuación, cree una instancia de ExtractRequest
  • Por último, obtenga resultados llamando a la clase pagesApi.extract()

El siguiente ejemplo de código muestra cómo extraer páginas al proporcionar números de página específicos del documento PDF mediante la API REST:

# Cómo extraer páginas específicas de un PDF en Python usando la API REST
try:
    # Crear una instancia de la API de páginas
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Descargue el archivo de páginas PDF extraídas

El ejemplo de código anterior guardará las páginas extraídas en archivos PDF separados en la nube. Puede descargarlos utilizando el siguiente ejemplo de código:

# Inicialización de la API para descargar el archivo convertido
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Crear solicitud de archivo de descarga
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# Descargar archivo convertido
response = file_api.download_file(request)

# Mueva el archivo descargado a su directorio
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Extraiga páginas de PDF por rango de páginas en Python usando la API REST

Siga los pasos que se mencionan a continuación para extraer páginas de un documento PDF proporcionando un rango de páginas mediante programación.

  • En primer lugar, cree una instancia de PagesApi
  • A continuación, establezca ExtractOptions
  • Establecer la ruta del archivo de entrada con la instancia de FileInfo
  • A continuación, establezca la ruta del directorio de salida
  • Proporcione un rango de páginas configurando el número de la página de inicio y el número de la página final para extraer
  • Ahora, establezca el intervalo de modo en Páginas
  • Establezca el modo de rango en EvenPages o OddPages
  • A continuación, cree una instancia de ExtractRequest
  • Finalmente, obtenga resultados llamando al método pagesApi.extract()

El siguiente ejemplo de código muestra cómo extraer páginas al proporcionar un rango de páginas de un documento PDF mediante la API REST. Siga los pasos mencionados anteriormente para cargar los archivos.

# Cómo extraer páginas de PDF por rango de páginas en Python usando la API REST
try:
    # Crear una instancia de Document API
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Extractor de páginas PDF en línea gratis

¿Cómo extraer páginas de pdf gratis? Pruebe la siguiente herramienta gratuita de extracción de PDF en línea, que se desarrolla utilizando la API anterior.

Resumiendo

Esto nos lleva a la conclusión de la publicación del blog. Espero que hayas aprendido:

  • cómo extraer páginas específicas de documentos PDF en Python;
  • cargue el archivo PDF mediante programación y luego descargue los archivos extraídos de la nube;
  • cómo extraer páginas de archivos PDF usando el rango de páginas usando Python;

Puede obtener más información sobre GroupDocs.Merger Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador.

En nuestra página de introducción, puede descubrir más detalles.

Además, Groupdocs.cloud se actualiza continuamente con nuevos temas. Como resultado, manténgase actualizado con la información más reciente de las API.

Hacer una pregunta

Puede hacer sus consultas sobre la API del software de extracción de páginas PDF a través de nuestro [Foro] de soporte gratuito (https://forum.groupdocs.cloud/c/conversion/11)

preguntas frecuentes

¿Cómo extraer páginas de un archivo PDF en Python?

Siga este enlace para conocer el fragmento de código de Python sobre cómo extraer páginas de archivos PDF en Python.

¿Cómo extraer páginas de documentos PDF en línea usando REST API?

Cree una instancia de PagesApi, establezca los valores de ExtractOptions e invoque el método pagesApi.extract() con ExtractRequest para guardar las páginas seleccionadas del archivo PDF en línea.

¿Cómo instalar una biblioteca de descarga gratuita de extractor de páginas PDF?

Una manera fácil de extraer páginas de un PDF es usando el Python SDK. Puede instalar la biblioteca Python del extractor de PDF para extraer varias páginas de archivos PDF mediante programación.

¿Cómo extraigo páginas PDF sin conexión en Windows?

Visite este enlace para descargar el software de extracción de PDF para Windows. Este software de descarga gratuita de extractor de PDF dividirá páginas PDF en Windows rápidamente, con un solo clic.

Ver también