So extrahieren Sie Seiten aus einer PDF-Datei online in Python

Extrahieren Sie Seiten aus einer PDF-Datei online in Python

In bestimmten Fällen müssen Sie möglicherweise PDF-Seiten aus PDF Dokumenten extrahieren oder große PDF Dokumente in kleinere PDF Dateien aufteilen. Als Python-Entwickler können Sie bestimmte Seiten ganz einfach online aus PDF Dateien extrahieren oder PDF-Seiten programmgesteuert nach Seitenbereich extrahieren. In diesem Artikel erfahren Sie, wie Sie mithilfe der REST-API Seiten aus einer PDF-Datei online in Python extrahieren.

Die folgenden Themen werden in diesem Artikel behandelt:

Document Extractor REST API und Python SDK

Um PDF-Seiten online aus PDF Dateien zu extrahieren, verwende ich das Python SDK der GroupDocs.Merger Cloud API. Es handelt sich um ein funktionsreiches und leistungsstarkes Cloud SDK. Mit dieser Python-API können Sie PDF-Seiten aus einem einzelnen Dokument in mehrere Dateien extrahieren. Das SDK bietet Funktionen zum Neuanordnen, Löschen, Austauschen, Drehen oder Ändern der Seitenausrichtung für einen gesamten oder bevorzugten Seitenbereich. Es unterstützt auch andere Manipulationen für alle unterstützten Dateiformate wie PDF, Word, PowerPoint, Excel-Arbeitsblätter usw. Derzeit unterstützt es .NET-, Java-, PHP-, Ruby-, Android und Node.js-SDKs als Dokument Zusammenführung Familienmitglieder für die Cloud API.

Sie können GroupDocs.Merger-Cloud mit dem folgenden Befehl in der Konsole in Ihrem Python-Projekt installieren:

pip install groupdocs_merger_cloud

Bitte rufen Sie Ihre Client-ID und Ihr Client-Geheimnis vom Dashboard ab, bevor Sie mit dem Befolgen der Schritte und verfügbaren Codebeispiele beginnen. Sobald Sie Ihre ID und Ihr Geheimnis haben, fügen Sie den Code wie unten gezeigt ein:

# Importieren Sie das GroupDocs Merger SDK
import groupdocs_merger_cloud

# Holen Sie sich nach der kostenlosen Registrierung app_sid und app_key von https://dashboard.groupdocs.cloud.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Datei-API-Konfigurationen abrufen 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

So extrahieren Sie bestimmte Seiten aus PDF in Python mithilfe der REST-API

Mit unserer PDF-Splitter-API können Sie eine Vorschau der Seiten anzeigen, die Sie teilen möchten. Sie können Seiten auswählen, indem Sie einfach die Anzahl der Seiten angeben, die Sie extrahieren möchten. Teilen Sie Ihr PDF sofort in einzelne Seiten auf oder extrahieren Sie bestimmte Seiten aus einem neuen PDF Dokument. Extrahieren Sie PDF-Seiten online aus PDF Dateien, indem Sie die folgenden einfachen Schritte ausführen:

  1. Hochladen der PDF-Datei in die Cloud.
  2. Extrahieren PDF-Seiten nach Seitenzahlen in Python.
  3. Herunterladen der extrahierten Dateien.

Laden Sie das Dokument hoch

Laden Sie zunächst das mehrseitige PDF Dokument mit dem unten angegebenen Code-Snippet in die Cloud hoch:

# Laden Sie die PDF-Datei in den Cloud-Speicher hoch
# Erstellen Sie eine Instanz der Datei-API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Rufen Sie die Dateianfrage zum Hochladen an
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# Laden Sie die PDF-Datei in die Cloud hoch
response = file_api.upload_file(request)
print(response.uploaded)

Als Ergebnis wird die PDF-Datei in den Cloud-Speicher hochgeladen und ist im Dateienbereich Ihres Dashboards verfügbar. Wir löschen alle Ihre Dateien innerhalb von 24 Stunden nach dem Hochladen dauerhaft aus der Cloud.

Extrahieren Sie bestimmte Seiten nach Seitenzahlen mit Python

Um eine bestimmte Seite oder mehrere Seiten programmgesteuert aus einem PDF Dokument zu extrahieren, führen Sie die folgenden Schritte aus:

  • Erstellen Sie zunächst eine PagesApi-Instanz
  • Zweitens stellen Sie eine ExtractOptions-Instanz bereit
  • Legen Sie nun den Eingabedateipfad mit der FileInfo-Instanz fest
  • Als nächstes legen Sie den Ausgabeverzeichnispfad fest
  • Geben Sie dann durch Kommas getrennte Seitenzahlen zum Extrahieren an
  • Stellen Sie als Nächstes den Modus auf „Seiten“ ein
  • Als nächstes erstellen Sie eine ExtractRequest-Instanz
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Klasse pagesApi.extract() aufrufen

Das folgende Codebeispiel zeigt, wie Seiten extrahiert werden, indem mithilfe der REST-API bestimmte Seitenzahlen aus einem PDF Dokument bereitgestellt werden:

# So extrahieren Sie bestimmte Seiten aus PDF in Python mithilfe der REST-API
try:
    # Erstellen Sie eine Instanz der Pages-API
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Laden Sie die extrahierte PDF-Seitendatei herunter

Das obige Codebeispiel speichert die extrahierten Seiten in separaten PDF Dateien in der Cloud. Sie können sie mit dem folgenden Codebeispiel herunterladen:

# API-Initialisierung zum Herunterladen der konvertierten Datei
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Erstellen Sie eine Download-Dateianfrage
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# Laden Sie die konvertierte Datei herunter
response = file_api.download_file(request)

# Verschieben Sie die heruntergeladene Datei in Ihr Verzeichnis
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Extrahieren Sie Seiten aus PDF nach Seitenbereich in Python mithilfe der REST-API

Bitte befolgen Sie die unten aufgeführten Schritte, um Seiten aus einem PDF Dokument zu extrahieren, indem Sie programmgesteuert einen Seitenbereich angeben.

  • Erstellen Sie zunächst eine PagesApi-Instanz
  • Als nächstes legen Sie ExtractOptions fest
  • Legen Sie den Eingabedateipfad mit der FileInfo-Instanz fest
  • Als nächstes legen Sie den Ausgabeverzeichnispfad fest
  • Geben Sie einen Seitenbereich an, indem Sie die zu extrahierende Startseiten und Endseitennummer festlegen
  • Stellen Sie nun das Modusintervall auf Seiten ein
  • Stellen Sie den Bereichsmodus auf EvenPages oder OddPages ein
  • Als nächstes erstellen Sie eine ExtractRequest-Instanz
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Methode pagesApi.extract() aufrufen

Das folgende Codebeispiel zeigt, wie Seiten extrahiert werden, indem der Seitenbereich aus einem PDF Dokument mithilfe der REST-API bereitgestellt wird. Bitte befolgen Sie die zuvor genannten Schritte, um die Dateien hochzuladen.

# So extrahieren Sie Seiten aus PDF nach Seitenbereich in Python mithilfe der REST-API
try:
    # Erstellen Sie eine Instanz der Document API
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Kostenloser Online-PDF-Seitenextraktor

Wie extrahiere ich Seiten kostenlos aus PDF? Bitte probieren Sie das folgende kostenlose Online-PDF-Extraktionstool aus, das mit der oben genannten API entwickelt wurde.

Zusammenfassen

Dies bringt uns zum Abschluss des Blogbeitrags. Ich hoffe, Sie haben gelernt:

  • wie man bestimmte Seiten aus PDF Dokumenten in Python extrahiert;
  • Laden Sie die PDF-Datei programmgesteuert hoch und laden Sie dann die extrahierten Dateien aus der Cloud herunter.
  • wie man PDF-Dateiseiten mithilfe des Seitenbereichs mit Python extrahiert;

Weitere Informationen zur GroupDocs.Merger Cloud API finden Sie in der Dokumentation. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können.

Auf unserer Seite „Erste Schritte“18 erfahren Sie möglicherweise weitere Details.

Darüber hinaus wird Groupdocs.cloud kontinuierlich mit neuen Themen aktualisiert. So bleiben Sie über die aktuellsten API-Informationen auf dem Laufenden.

Stelle eine Frage

Sie können Ihre Fragen zur PDF-Seitenextraktionssoftware-API über unser kostenloses Support-Forum stellen (https://forum.groupdocs.cloud/c/conversion/11).

FAQs

Wie extrahiere ich Seiten aus einer PDF-Datei in Python?

Bitte folgen Sie diesem Link, um das Python-Code-Snippet zum Extrahieren von Seiten aus PDF Dateien in Python zu erfahren.

Wie extrahiere ich Seiten aus PDF Dokumenten online mithilfe der REST-API?

Erstellen Sie eine Instanz von PagesApi, legen Sie die Werte der ExtractOptions fest und rufen Sie die Methode pagesApi.extract() mit ExtractRequest auf, um ausgewählte Seiten der PDF-Datei online zu speichern.

Wie installiere ich eine kostenlose Download-Bibliothek für den PDF-Seitenextraktor?

Eine einfache Möglichkeit, Seiten aus PDF zu extrahieren, ist die Verwendung des Python SDK. Sie können die PDF-Extraktor- Python Bibliothek installieren, um mehrere Seiten programmgesteuert aus PDF Dateien zu extrahieren.

Wie extrahiere ich PDF-Seiten offline in Windows?

Bitte besuchen Sie diesen Link, um die PDF-Extraktionssoftware für Windows herunterzuladen. Diese kostenlose Download-Software zum Extrahieren von PDF Dateien teilt PDF-Seiten schnell und mit einem einzigen Klick in Windows auf.

Siehe auch