Como extrair páginas de um arquivo PDF online em Python

Extraia páginas de um arquivo PDF online em Python

Em certos casos, pode ser necessário extrair PDF páginas de documentos PDF ou separar documentos PDF grandes em arquivos PDF menores. Como desenvolvedor Python, você pode facilmente extrair páginas específicas de arquivos PDF online ou extrair páginas PDF por intervalo de páginas programaticamente. Neste artigo, você aprenderá como extrair páginas de um arquivo PDF online em Python usando a API REST.

Os seguintes tópicos serão abordados neste artigo:

API REST do extrator de documentos e SDK do Python

Para extrair páginas PDF de arquivos PDF online, usarei o Python SDK do GroupDocs.Merger Cloud API. É um Cloud SDK rico em recursos e de alto desempenho. Essa API Python permite extrair páginas PDF de um único documento em vários arquivos. O SDK oferece funcionalidade para reorganizar, excluir, trocar, girar ou alterar a orientação da página para um intervalo inteiro ou preferencial de páginas. Ele também oferece suporte a outras manipulações para quaisquer formatos de arquivo suportados, como PDF, Word, PowerPoint, planilhas do Excel, etc. Atualmente, ele suporta SDKs .NET, Java, PHP, Ruby, Android e Node.js como seu documento [fusão] 5] membros da família para a Cloud API.

Você pode instalar GroupDocs.Merger-Cloud em seu projeto Python usando o seguinte comando no console:

pip install groupdocs_merger_cloud

Obtenha seu ID de cliente e Segredo do cliente no painel antes de começar a seguir as etapas e os exemplos de código disponíveis. Depois de ter seu ID e segredo, adicione o código conforme demonstrado abaixo:

# Importar SDK de fusão do groupdocs
import groupdocs_merger_cloud

# Obtenha app_sid e app_key em https://dashboard.groupdocs.cloud após o registro gratuito.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Obter configurações de API de arquivo 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Como extrair páginas específicas de PDF em Python usando a API REST

Nossa API de divisão de PDF permite que você visualize as páginas que deseja dividir. Você pode selecionar páginas apenas fornecendo o número de páginas que deseja extrair. Divida instantaneamente seu PDF em páginas individuais ou extraia páginas específicas de um novo documento PDF. Extraia páginas PDF de arquivos PDF online seguindo as etapas simples mencionadas abaixo:

  1. Carregue o arquivo PDF para a nuvem.
  2. Extrair Páginas PDF por números de página em Python.
  3. Baixe os arquivos extraídos.

Carregue o Documento

Em primeiro lugar, carregue o documento PDF de várias páginas na nuvem usando o trecho de código fornecido abaixo:

# Carregar arquivo PDF para armazenamento em nuvem
# Crie uma instância da API de arquivo
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Solicitação de arquivo de upload de chamada
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# Carregar arquivo PDF para a nuvem
response = file_api.upload_file(request)
print(response.uploaded)

Como resultado, o arquivo PDF será carregado no Cloud Storage e estará disponível na seção de arquivos do seu painel. Excluímos todos os seus arquivos permanentemente da nuvem em 24 horas após o upload.

Extrair páginas específicas por números de página usando Python

Para extrair uma página específica ou várias páginas de um documento PDF programaticamente, siga as etapas mencionadas abaixo:

  • Em primeiro lugar, crie uma instância PagesApi
  • Em segundo lugar, forneça a instância ExtractOptions
  • Agora, defina o caminho do arquivo de entrada com a instância FileInfo
  • Em seguida, defina o caminho do diretório de saída
  • Em seguida, forneça números de página separados por vírgula para extrair
  • Em seguida, defina o modo para Páginas
  • Em seguida, crie a instância ExtractRequest
  • Por fim, obtenha resultados chamando a classe pagesApi.extract()

O exemplo de código a seguir mostra como extrair páginas fornecendo números de página específicos do documento PDF usando a API REST:

# Como extrair páginas específicas de PDF em Python usando a API REST
try:
    # Crie uma instância da API de páginas
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Faça o download do arquivo de páginas PDF extraídas

O exemplo de código acima salvará as páginas extraídas em arquivos PDF separados na nuvem. Você pode baixá-los usando o seguinte exemplo de código:

# Inicialização da API para baixar o arquivo convertido
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Criar solicitação de arquivo de download
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# Baixar arquivo convertido
response = file_api.download_file(request)

# Mova o arquivo baixado para o seu diretório
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Extraia páginas de PDF por intervalo de páginas em Python usando a API REST

Siga as etapas mencionadas abaixo para extrair páginas de um documento PDF fornecendo um intervalo de páginas programaticamente.

  • Em primeiro lugar, crie uma instância PagesApi
  • Em seguida, defina ExtractOptions
  • Defina o caminho do arquivo de entrada com a instância FileInfo
  • Em seguida, defina o caminho do diretório de saída
  • Forneça um intervalo de páginas definindo o número da página inicial e o número da página final para extrair
  • Agora, defina o intervalo de modo para Páginas
  • Defina rangemode como EvenPages ou OddPages
  • Em seguida, crie a instância ExtractRequest
  • Finalmente, obtenha resultados chamando o método pagesApi.extract()

O exemplo de código a seguir mostra como extrair páginas fornecendo o intervalo de páginas do documento PDF usando a API REST. Siga as etapas mencionadas anteriormente para fazer o upload dos arquivos.

# Como extrair páginas de PDF por intervalo de páginas em Python usando a API REST
try:
    # Crie uma instância da API de documento
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Extrator de página de PDF online grátis

Como extrair páginas de pdf grátis? Por favor, tente a seguinte ferramenta online gratuita de extração de PDF, que é desenvolvida usando a API acima.

Resumindo

Isso nos leva à conclusão do post do blog. Espero que você tenha aprendido:

  • como extrair páginas específicas de documentos PDF em Python;
  • carregue programaticamente o arquivo PDF e, em seguida, baixe os arquivos extraídos da nuvem;
  • como extrair páginas de arquivo PDF usando intervalo de páginas usando Python;

Você pode aprender mais sobre GroupDocs.Merger Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador.

Em nossa página de introdução, você pode descobrir mais detalhes.

Além disso, Groupdocs.cloud é continuamente atualizado com novos tópicos. Como resultado, mantenha-se atualizado com as informações mais recentes sobre APIs.

Faça uma pergunta

Você pode fazer suas perguntas sobre a API do software extrator de página PDF, através do nosso suporte gratuito Fórum

perguntas frequentes

Como extrair páginas do arquivo PDF em Python?

Siga este link para aprender o trecho de código Python sobre como extrair páginas de arquivos PDF em Python.

Como extrair páginas de documentos PDF online usando a API REST?

Crie uma instância de PagesApi, defina os valores de ExtractOptions e invoque o método pagesApi.extract() com ExtractRequest para salvar as páginas selecionadas do arquivo PDF online.

Como instalar uma biblioteca de download gratuito do extrator de página PDF?

Uma maneira fácil de extrair páginas de PDF é usando o Python SDK. Você pode instalar a biblioteca Python do extrator de PDF para extrair várias páginas de arquivos PDF programaticamente.

Como faço para extrair páginas PDF offline no Windows?

Visite este link para baixar o software extrator de PDF para Windows. Este software de download gratuito extrator de PDF dividirá páginas PDF em janelas rapidamente, com um único clique.

Veja também