Sind Sie jemals auf eine Situation gestoßen, in der Sie Text programmgesteuert aus einer PDF-Datei extrahieren mussten? Das programmgesteuerte Extrahieren von Text aus PDF Dateien kann eine komplexe Aufgabe sein, insbesondere wenn es um große Dokumente geht. Wenn Sie Java-Entwickler sind und nach einer zuverlässigen Lösung suchen, bietet das GroupDocs.Parser Cloud SDK für Java eine effiziente Möglichkeit, Text aus PDF Dateien zu extrahieren. In diesem Artikel erfahren Sie, wie Sie mithilfe der REST-API Text aus einer PDF-Datei in Java extrahieren.
Die folgenden Themen sollen in diesem Artikel behandelt werden:
- Java REST API zum Extrahieren von Text aus PDF Dateien und SDK-Installation
- So extrahieren Sie den gesamten Text aus PDF Dateien in Java mithilfe der REST-API
- Spezifischen Text aus PDF in Java nach Seitenzahlbereich extrahieren
Java REST API zum Extrahieren von Text aus PDF Dateien und SDK-Installation
GroupDocs.Parser Cloud SDK für Java ist ein leistungsstarkes, benutzerfreundliches und funktionsreiches Software-Entwicklungskit, das umfassende PDF-Parsing funktionen bietet. Mit seinem umfassenden Satz an APIs können Sie mühelos Text, Metadaten, Bilder extrahieren und Daten aus über 50 Arten von Dokumentformaten analysieren. Es stellt außerdem C# .NET-, Java-, PHP-, Ruby und Python-SDKs als Mitglieder der Dokumentparser-Familie für die Cloud-API bereit. Das SDK kann in eine Java-basierte Anwendung integriert werden, um Ihren Entwicklungsprozess zu vereinfachen und die Produktivität zu steigern.
Sie können entweder die JAR-Datei der API herunterladen oder sie mit Maven installieren, indem Sie das folgende Repository und die folgende Abhängigkeit zur pom.xml-Datei Ihres Projekts hinzufügen:
Maven-Repository:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven-Dependency:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Als Nächstes melden Sie sich für ein kostenloses Testkonto an oder kaufen Sie ein Abonnement auf der GroupDocs-Website und holen Sie sich Ihren API-Schlüssel. Sobald Sie die Client-ID und das Client-Geheimnis haben, fügen Sie den folgenden Codeausschnitt zu einer Java-basierten Anwendung hinzu:
# Holen Sie sich nach der Registrierung Ihre client_id und client_secret von https://dashboard.groupdocs.cloud.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
So extrahieren Sie den gesamten Text aus PDF Dateien in Java mithilfe der REST-API
Das Extrahieren von Text aus PDF Dateien in Java mit dem GroupDocs.Parser Cloud SDK ist ein unkomplizierter Vorgang. So geht’s:
- Hochladen der PDF-Datei in die Cloud
- Extrahieren Text aus PDF mit Java
Laden Sie die Datei hoch
Laden Sie zunächst das PDF Dokument mithilfe des unten angegebenen Codebeispiels in die Cloud hoch:
package com.groupdocsdev.classes;
import java.io.File;
import java.nio.file.Paths;
import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;
// Laden Sie die Datei mit Java in den Cloud-Speicher hoch
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Dadurch ist die hochgeladene PDF-Datei im Dateienbereich Ihres Dashboards in der Cloud verfügbar.
Extrahieren Sie Text aus einem PDF Dokument in Java
Befolgen Sie die Schritte und ein Beispielcode-Snippet, um den gesamten Text aus den PDF Dateien programmgesteuert in Java mit GroupDocs.Parser Cloud SDK für Java zu extrahieren:
- Importieren Sie zunächst die erforderlichen Klassen in Ihre Java-Datei.
- Zweitens erstellen Sie eine Instanz der Klasse ParseApi.
- Drittens erstellen Sie eine Instanz der Klasse FileInfo.
- Als nächstes legen Sie den Pfad zur PDF-Datei als Eingabe fest.
- Erstellen Sie dann eine Instanz der TextOptions() Klasse.
- Als nächstes weisen Sie fileInfo der setFileInfo-Methode zu.
- Erstellen Sie nun eine Instanz der TextRequest() Klasse und übergeben Sie den TextOptions-Parameter.
- Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() aufrufen und den Parameter TextRequest übergeben.
Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API in Java den gesamten Text aus einer PDF-Datei extrahieren:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// So extrahieren Sie Text aus einem PDF Dokument in Java.
public class App {
public static void main(String[] args) {
// Erstellen Sie eine Instanz der Parse-API
ParseApi apiInstance = new ParseApi(configuration);
try {
// Bereiten Sie die Einstellungen vor
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Ausgabedateipfad abrufen
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Sie können die Ausgabe im Bild unten sehen:
Extrahieren Sie bestimmten Text aus PDF in Java nach Seitenzahlenbereich
Dieser Abschnitt enthält Schritt-für-Schritt-Anleitungen und ein Beispielcode-Snippet zum programmgesteuerten Extrahieren von bestimmtem Text aus einer PDF-Datei in Java:
- Importieren Sie zunächst die erforderlichen Klassen in Ihre Java-Datei.
- Zweitens erstellen Sie eine Instanz der Klasse ParseApi.
- Drittens erstellen Sie eine Instanz der Klasse FileInfo.
- Als nächstes legen Sie den Pfad zur PDF-Datei als Eingabe fest.
- Erstellen Sie dann eine Instanz der TextOptions() Klasse.
- Geben Sie nun die Werte setStartPageNumber und setCountPagesToExtract an.
- Weisen Sie dann fileInfo der setFileInfo-Methode zu.
- Erstellen Sie nun eine Instanz der TextRequest() Klasse und übergeben Sie den TextOptions-Parameter.
- Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() aufrufen und den Parameter TextRequest übergeben.
Das folgende Codebeispiel zeigt, wie man in Java mithilfe der REST-API bestimmten Text aus einer PDF-Datei anhand der Seitenbereichsnummer extrahiert:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// So extrahieren Sie Text aus einer PDF-Datei anhand der Seitenbereichsnummer in Java.
public class App {
public static void main(String[] args) {
// Erstellen Sie eine Instanz der Parse-API
ParseApi apiInstance = new ParseApi(configuration);
try {
// Bereiten Sie die Einstellungen vor
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setStartPageNumber(1);
options.setCountPagesToExtract(1);
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Ausgabedateipfad abrufen
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Kostenloser Online Dokumentparser
Was ist der beste Weg, Text kostenlos online aus PDFs zu extrahieren? Bitte versuchen Sie es mit einer Online-Software zum Parsen von PDF Dokumenten, um Text aus PDF zu extrahieren. Dieses PDF-Parser-Tool wurde unter Verwendung der oben genannten Java-Parser-Bibliothek entwickelt.
Abschluss
Zusammenfassend lässt sich sagen, dass GroupDocs.Parser Cloud SDK für Java ein wertvolles Tool für Java-Entwickler ist, mit dem Sie Texte, Metadaten und Bilder effizient extrahieren können. Folgendes haben Sie aus diesem Artikel gelernt:
- wie man den gesamten Text aus PDF Dateien mithilfe der REST-API in Java extrahiert;
- Laden Sie eine PDF-Datei mithilfe von Java programmgesteuert in die Cloud hoch.
- wie man Inhalte aus PDF in Java mithilfe der REST-API extrahiert;
- und Online-PDF-Textextraktionstool zum Parsen von PDF Dokumenten.
Außerdem können Sie mithilfe der Dokumentation mehr über die GroupDocs.Parser Cloud API erfahren. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Der vollständige Quellcode des Java SDK ist auf Github frei verfügbar.
Schließlich schreiben wir weiterhin neue Blog-Artikel zu verschiedenen Dateiformaten und analysieren sie mithilfe der REST-API. Bitte kontaktieren Sie uns für die neuesten Updates.
Stelle eine Frage
Falls Sie Fragen oder Unklarheiten zum Extrahieren von Text aus PDF Dateien haben, können Sie uns gerne über unser Forum kontaktieren.
FAQs
Wie extrahiere ich mit Java den gesamten Text aus einer PDF-Datei?
Sie können den gesamten Text aus einer PDF-Datei mit GroupDocs.Parser Cloud SDK for Java in Ihren Java-Anwendungen extrahieren. Dieses leistungsstarke SDK bietet eine effiziente und unkomplizierte Möglichkeit, Text aus PDF Dateien mit Java zu extrahieren.
Kann ich mit dem GroupDocs.Parser Cloud SDK für Java Text aus passwortgeschützten PDF Dateien extrahieren?
Ja, das SDK unterstützt die Textextraktion aus passwortgeschützten PDF Dateien. Sie können das Passwort während des Extraktionsvorgangs optional angeben.
Ist es möglich, Text aus bestimmten Seiten einer PDF-Datei zu extrahieren?
Ja, mit GroupDocs.Parser Cloud SDK für Java können Sie die Seitenbereichsnummer angeben, aus der Sie Text extrahieren möchten. Auf diese Weise können Sie ganz einfach Text aus bestimmten Abschnitten eines PDF Dokuments extrahieren.
Siehe auch
Hier sind einige verwandte Artikel, die für Sie hilfreich sein könnten:
- Extrahieren Sie Bilder aus PDF Dateien mit Node.js
- Extrahieren Sie Daten aus PDF mithilfe der REST-API in Node.js
- Analysieren Sie Word Dokumente mithilfe der REST-API in Python
- Extrahieren Sie bestimmte Daten aus PDF mit Python
- Extrahieren Sie Bilder aus PDF Dokumenten mit Python
- So extrahieren Sie Text aus PDF mit Python