Extrahieren Sie bestimmte Seiten aus PDF

Möglicherweise müssen Sie bestimmte Seiten aus PDF Dokumenten extrahieren oder große PDF Dokumente in kleinere Teile aufteilen. Als Python-Entwickler können Sie ganz einfach bestimmte Seiten aus PDF Dokumenten nach Seitenzahlen oder nach einem Seitenbereich programmgesteuert extrahieren. In diesem Artikel erfahren Sie, wie Sie mithilfe einer REST-API in Python bestimmte Seiten aus PDF Dokumenten extrahieren.

Die folgenden Themen sollen in diesem Artikel behandelt werden:

Document Splitter REST API und Python SDK

Zum Extrahieren von Seiten aus PDF Dokumenten verwende ich die Python SDK of GroupDocs.Merger Cloud API. Es handelt sich um ein funktionsreiches und leistungsstarkes Cloud SDK, mit dem mehrere Dokumente in einem einzigen Dokument zusammengeführt werden. Außerdem können Sie ein einzelnes Dokument in mehrere Dokumente aufteilen. Das SDK bietet Funktionen zum Löschen, Austauschen, Drehen oder Ändern der Seitenausrichtung für einen ganzen oder bevorzugten Bereich von Seiten und zur einfachen Durchführung anderer Manipulationen für alle unterstützten Dateiformate wie PDF-, Word-, Powerpoint und Excel-Arbeitsblätter. Derzeit werden auch .NET-, Java-, PHP-, Ruby-, Android und Node.js-SDKs als Mitglieder der Document Merger-Familie für die Cloud-API bereitgestellt.

Sie können GroupDocs.Merger-Cloud mit dem folgenden Befehl in der Konsole in Ihrem Python-Projekt installieren:

pip install groupdocs_merger_cloud

Bitte rufen Sie Ihre Client-ID und Ihr Client-Geheimnis vom Dashboard ab, bevor Sie mit dem Befolgen der Schritte und verfügbaren Codebeispiele beginnen. Sobald Sie Ihre ID und Ihr Geheimnis haben, fügen Sie den Code wie unten gezeigt ein:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extrahieren Sie bestimmte Seiten aus PDF mithilfe der REST-API in Python

Sie können bestimmte Seiten aus PDF Dokumenten extrahieren, indem Sie die folgenden einfachen Schritte ausführen:

  1. Hochladen der PDF-Datei in die Cloud
  2. Bestimmte Seiten nach Seitenzahlen extrahieren aus der hochgeladenen PDF-Datei
  3. Herunterladen der extrahierten Datei(en)

Laden Sie das Dokument hoch

Laden Sie zunächst das mehrseitige PDF Dokument mithilfe des folgenden Codebeispiels in die Cloud hoch:

# Erstellen Sie eine Instanz der API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# Beispieldateien hochladen
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)

Als Ergebnis wird die PDF-Datei in den Cloud-Speicher hochgeladen und ist im Dateienbereich Ihres Dashboards verfügbar.

Extrahieren Sie bestimmte Seiten nach Seitenzahlen mit Python

Bitte befolgen Sie die unten aufgeführten Schritte, um eine bestimmte Seite oder mehrere Seiten programmgesteuert aus einem PDF Dokument zu extrahieren.

  • Erstellen Sie eine Document API-Instanz
  • Stellen Sie SplitOptions bereit
  • Legen Sie den Pfad der Eingabedatei fest
  • Legen Sie den Ausgabeverzeichnispfad fest
  • Geben Sie durch Kommas getrennte Seitenzahlen zum Extrahieren an
  • Stellen Sie den Modus auf Seiten ein
  • SplitRequest erstellen
  • Erhalten Sie Ergebnisse, indem Sie die Methode DocumentApi.split() aufrufen

Das folgende Codebeispiel zeigt, wie Seiten extrahiert werden, indem mithilfe einer REST-API bestimmte Seitenzahlen aus einem PDF Dokument bereitgestellt werden.

# API-Initialisierung
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)

# Definieren Sie Aufteilungsoptionen
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"

# Split-Anfrage erstellen
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)        

print("Documents count = " + str(len(result.documents)))
Extrahieren Sie bestimmte Seiten aus PDF mit Python

Extrahieren Sie bestimmte Seiten aus PDF mit Python

Laden Sie die extrahierten Seitendateien herunter

Das obige Codebeispiel speichert die extrahierten Seiten in separaten PDF Dateien in der Cloud. Sie können sie mit dem folgenden Codebeispiel herunterladen:

# API-Initialisierung
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# Datei-Download-Anfrage
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)

# Verschieben Sie die heruntergeladene Datei in Ihr Arbeitsverzeichnis
shutil.move(response, "C:\\Files\\")

Extrahieren Sie Seiten nach Seitenbereich mit Python

Bitte befolgen Sie die unten aufgeführten Schritte, um Seiten aus einem PDF Dokument zu extrahieren, indem Sie programmgesteuert einen Seitenbereich angeben.

  • Erstellen Sie eine Document API-Instanz
  • Stellen Sie SplitOptions bereit
  • Legen Sie den Pfad der Eingabedatei fest
  • Legen Sie den Ausgabeverzeichnispfad fest
  • Geben Sie den Seitenbereich an, indem Sie die zu extrahierende Startseitennummer und Endseitennummer festlegen
  • Stellen Sie den Modus auf Seiten ein
  • SplitRequest erstellen
  • Erhalten Sie Ergebnisse, indem Sie die Methode DocumentApi.split() aufrufen
  • Erstellen Sie DownloadFileRequest
  • Laden Sie die Datei herunter, indem Sie die Methode FileApi.download\file() aufrufen

Das folgende Codebeispiel zeigt, wie Seiten extrahiert werden, indem mithilfe einer REST-API ein Seitenbereich aus einem PDF Dokument bereitgestellt wird. Bitte befolgen Sie die zuvor genannten Schritte, um die Dateien hochzuladen.

# API-Initialisierung
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# Definieren Sie Aufteilungsoptionen
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"

# Split-Anfrage erstellen
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)   

print("Documents count = " + str(len(result.documents)))

# Ergebnisse anzeigen und Dateien einzeln herunterladen
for data in result.documents:
    print("Document Url = " + str(data))
    
    # Download-Dateianfrage erstellen
    request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
    response = file_api.download_file(request)
    
    # Verschieben Sie die heruntergeladene Datei in Ihr Arbeitsverzeichnis
    shutil.move(response, "C:\\Files\\")
Extrahieren Sie Seiten nach Seitenbereich mit Python

Extrahieren Sie Seiten nach Seitenbereich mit Python

Versuchen Sie es online

Bitte probieren Sie das folgende kostenlose Online-PDF-Splitter-Tool aus, das mit der oben genannten API entwickelt wurde. https://products.groupdocs.app/splitter/pdf

Abschluss

In diesem Artikel haben Sie erfahren, wie Sie mit Python bestimmte Seiten aus PDF Dokumenten in der Cloud extrahieren. Sie haben außerdem gelernt, wie Sie die PDF-Datei programmgesteuert in die Cloud hochladen und dann die extrahierten Dateien aus der Cloud herunterladen. Weitere Informationen zur GroupDocs.Merger Cloud API finden Sie in der Dokumentation. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Bei Unklarheiten können Sie uns gerne im Forum kontaktieren.

Siehe auch