Dokumentparsing – Extrahieren Sie Text aus einer PDF-Datei in Java

Sind Sie jemals auf eine Situation gestoßen, in der Sie Text programmgesteuert aus einer PDF-Datei extrahieren mussten? Das programmgesteuerte Extrahieren von Text aus PDF Dateien kann eine komplexe Aufgabe sein, insbesondere wenn es um große Dokumente geht. Wenn Sie Java-Entwickler sind und nach einer zuverlässigen Lösung suchen, bietet das GroupDocs.Parser Cloud SDK für Java eine effiziente Möglichkeit, Text aus PDF Dateien zu extrahieren. In diesem Artikel erfahren Sie, wie Sie mithilfe der REST-API Text aus einer PDF-Datei in Java extrahieren.

Die folgenden Themen sollen in diesem Artikel behandelt werden:

Java REST API zum Extrahieren von Text aus PDF Dateien und SDK-Installation

GroupDocs.Parser Cloud SDK für Java ist ein leistungsstarkes, benutzerfreundliches und funktionsreiches Software-Entwicklungskit, das umfassende PDF-Parsing funktionen bietet. Mit seinem umfassenden Satz an APIs können Sie mühelos Text, Metadaten, Bilder extrahieren und Daten aus über 50 Arten von Dokumentformaten analysieren. Es stellt außerdem C# .NET-, Java-, PHP-, Ruby und Python-SDKs als Mitglieder der Dokumentparser-Familie für die Cloud-API bereit. Das SDK kann in eine Java-basierte Anwendung integriert werden, um Ihren Entwicklungsprozess zu vereinfachen und die Produktivität zu steigern.

Sie können entweder die JAR-Datei der API herunterladen oder sie mit Maven installieren, indem Sie das folgende Repository und die folgende Abhängigkeit zur pom.xml-Datei Ihres Projekts hinzufügen:

Maven-Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven-Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Als Nächstes melden Sie sich für ein kostenloses Testkonto an oder kaufen Sie ein Abonnement auf der GroupDocs-Website und holen Sie sich Ihren API-Schlüssel. Sobald Sie die Client-ID und das Client-Geheimnis haben, fügen Sie den folgenden Codeausschnitt zu einer Java-basierten Anwendung hinzu:

# Holen Sie sich nach der Registrierung Ihre client_id und client_secret von https://dashboard.groupdocs.cloud.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

So extrahieren Sie den gesamten Text aus PDF Dateien in Java mithilfe der REST-API

Das Extrahieren von Text aus PDF Dateien in Java mit dem GroupDocs.Parser Cloud SDK ist ein unkomplizierter Vorgang. So geht’s:

Laden Sie die Datei hoch

Laden Sie zunächst das PDF Dokument mithilfe des unten angegebenen Codebeispiels in die Cloud hoch:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Laden Sie die Datei mit Java in den Cloud-Speicher hoch
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Dadurch ist die hochgeladene PDF-Datei im Dateienbereich Ihres Dashboards in der Cloud verfügbar.

Extrahieren Sie Text aus einem PDF Dokument in Java

Befolgen Sie die Schritte und ein Beispielcode-Snippet, um den gesamten Text aus den PDF Dateien programmgesteuert in Java mit GroupDocs.Parser Cloud SDK für Java zu extrahieren:

  • Importieren Sie zunächst die erforderlichen Klassen in Ihre Java-Datei.
  • Zweitens erstellen Sie eine Instanz der Klasse ParseApi.
  • Drittens erstellen Sie eine Instanz der Klasse FileInfo.
  • Als nächstes legen Sie den Pfad zur PDF-Datei als Eingabe fest.
  • Erstellen Sie dann eine Instanz der TextOptions() Klasse.
  • Als nächstes weisen Sie fileInfo der setFileInfo-Methode zu.
  • Erstellen Sie nun eine Instanz der TextRequest() Klasse und übergeben Sie den TextOptions-Parameter.
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() aufrufen und den Parameter TextRequest übergeben.

Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API in Java den gesamten Text aus einer PDF-Datei extrahieren:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// So extrahieren Sie Text aus einem PDF Dokument in Java.
public class App {

	public static void main(String[] args) {
		
		// Erstellen Sie eine Instanz der Parse-API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Bereiten Sie die Einstellungen vor
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Ausgabedateipfad abrufen
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Sie können die Ausgabe im Bild unten sehen:

Java-Text aus PDF Dokument extrahieren

Extrahieren Sie Text aus einem PDF Dokument in Java

Extrahieren Sie bestimmten Text aus PDF in Java nach Seitenzahlenbereich

Dieser Abschnitt enthält Schritt-für-Schritt-Anleitungen und ein Beispielcode-Snippet zum programmgesteuerten Extrahieren von bestimmtem Text aus einer PDF-Datei in Java:

  • Importieren Sie zunächst die erforderlichen Klassen in Ihre Java-Datei.
  • Zweitens erstellen Sie eine Instanz der Klasse ParseApi.
  • Drittens erstellen Sie eine Instanz der Klasse FileInfo.
  • Als nächstes legen Sie den Pfad zur PDF-Datei als Eingabe fest.
  • Erstellen Sie dann eine Instanz der TextOptions() Klasse.
  • Geben Sie nun die Werte setStartPageNumber und setCountPagesToExtract an.
  • Weisen Sie dann fileInfo der setFileInfo-Methode zu.
  • Erstellen Sie nun eine Instanz der TextRequest() Klasse und übergeben Sie den TextOptions-Parameter.
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() aufrufen und den Parameter TextRequest übergeben.

Das folgende Codebeispiel zeigt, wie man in Java mithilfe der REST-API bestimmten Text aus einer PDF-Datei anhand der Seitenbereichsnummer extrahiert:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// So extrahieren Sie Text aus einer PDF-Datei anhand der Seitenbereichsnummer in Java.
public class App {

	public static void main(String[] args) {
		
		// Erstellen Sie eine Instanz der Parse-API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Bereiten Sie die Einstellungen vor
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Ausgabedateipfad abrufen
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Kostenloser Online Dokumentparser

Was ist der beste Weg, Text kostenlos online aus PDFs zu extrahieren? Bitte versuchen Sie es mit einer Online-Software zum Parsen von PDF Dokumenten, um Text aus PDF zu extrahieren. Dieses PDF-Parser-Tool wurde unter Verwendung der oben genannten Java-Parser-Bibliothek entwickelt.

Abschluss

Zusammenfassend lässt sich sagen, dass GroupDocs.Parser Cloud SDK für Java ein wertvolles Tool für Java-Entwickler ist, mit dem Sie Texte, Metadaten und Bilder effizient extrahieren können. Folgendes haben Sie aus diesem Artikel gelernt:

  • wie man den gesamten Text aus PDF Dateien mithilfe der REST-API in Java extrahiert;
  • Laden Sie eine PDF-Datei mithilfe von Java programmgesteuert in die Cloud hoch.
  • wie man Inhalte aus PDF in Java mithilfe der REST-API extrahiert;
  • und Online-PDF-Textextraktionstool zum Parsen von PDF Dokumenten.

Außerdem können Sie mithilfe der Dokumentation mehr über die GroupDocs.Parser Cloud API erfahren. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Der vollständige Quellcode des Java SDK ist auf Github frei verfügbar.

Schließlich schreiben wir weiterhin neue Blog-Artikel zu verschiedenen Dateiformaten und analysieren sie mithilfe der REST-API. Bitte kontaktieren Sie uns für die neuesten Updates.

Stelle eine Frage

Falls Sie Fragen oder Unklarheiten zum Extrahieren von Text aus PDF Dateien haben, können Sie uns gerne über unser Forum kontaktieren.

FAQs

Wie extrahiere ich mit Java den gesamten Text aus einer PDF-Datei?

Sie können den gesamten Text aus einer PDF-Datei mit GroupDocs.Parser Cloud SDK for Java in Ihren Java-Anwendungen extrahieren. Dieses leistungsstarke SDK bietet eine effiziente und unkomplizierte Möglichkeit, Text aus PDF Dateien mit Java zu extrahieren.

Kann ich mit dem GroupDocs.Parser Cloud SDK für Java Text aus passwortgeschützten PDF Dateien extrahieren?

Ja, das SDK unterstützt die Textextraktion aus passwortgeschützten PDF Dateien. Sie können das Passwort während des Extraktionsvorgangs optional angeben.

Ist es möglich, Text aus bestimmten Seiten einer PDF-Datei zu extrahieren?

Ja, mit GroupDocs.Parser Cloud SDK für Java können Sie die Seitenbereichsnummer angeben, aus der Sie Text extrahieren möchten. Auf diese Weise können Sie ganz einfach Text aus bestimmten Abschnitten eines PDF Dokuments extrahieren.

Siehe auch

Hier sind einige verwandte Artikel, die für Sie hilfreich sein könnten: