Dokumentenparser – Text aus PDF-Datei in Java extrahieren

Haben Sie jemals eine Situation erlebt, in der Sie Text aus einer PDF Datei programmatisch extrahieren mussten? Das Extrahieren von Text aus PDF Dateien programmatisch kann eine komplexe Aufgabe sein, insbesondere beim Umgang mit großen Dokumenten. Wenn Sie ein Java-Entwickler sind und nach einer zuverlässigen Lösung suchen, bietet das GroupDocs.Parser Cloud SDK für Java eine effiziente Möglichkeit, Text aus PDF Dateien zu extrahieren. In diesem Artikel werden wir untersuchen, wie man Text aus einer PDF-Datei in Java mithilfe der REST-API extrahiert.

Die folgenden Themen sollen in diesem Artikel behandelt werden:

Java REST API zum Extrahieren von Text aus PDF Dateien und SDK-Installation

GroupDocs.Parser Cloud SDK für Java ist ein leistungsstarkes, benutzerfreundliches und funktionsreiches Software-Entwicklungskit, das umfassende PDF-Parsing funktionen bietet. Mit seinem umfassenden Satz von APIs können Sie mühelos Text, Metadaten, Bilder extrahieren und Daten aus über 50 Arten von Dokumentenformaten analysieren. Es bietet auch C# .NET, Java, PHP, Ruby und Python SDKs als seine Dokumentenparser-Familienmitglieder für die Cloud-API. Das SDK kann in eine auf Java basierende Anwendung integriert werden, um Ihren Entwicklungsprozess zu vereinfachen und die Produktivität zu steigern.

Sie können entweder download die JAR-Datei der API oder sie mit Maven installieren, indem Sie das folgende Repository und die Abhängigkeit in die pom.xml-Datei Ihres Projekts einfügen:

Maven-Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven-Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Als Nächstes sign up für ein kostenloses Testkonto oder purchase a subscription plan auf der GroupDocs-Website und get your API key. Sobald Sie die Client-ID und das Client-Geheimnis haben, fügen Sie den folgenden Code-Snippet zu einer Java-basierten Anwendung hinzu:

# Holen Sie sich Ihre clientid und clientsecret von https://dashboard.groupdocs.cloud nach der Registrierung.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Wie man gesamten Text aus PDF Dateien in Java mithilfe von REST API extrahiert

Das Extrahieren von Text aus PDF Dateien in Java mit dem GroupDocs.Parser Cloud SDK ist ein unkomplizierter Prozess. So geht’s:

  • Upload die PDF-Datei in die Cloud.
  • Extract Text aus PDF mit Java extrahieren.

Upload the File

Zuerst laden Sie das PDF Dokument mit dem unten angegebenen Codebeispiel in die Cloud hoch:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Laden Sie die Datei in den Cloud-Speicher mit Java hoch
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Als Ergebnis wird die hochgeladene PDF-Datei im [files section][https://dashboard.groupdocs.cloud/files] Ihres Dashboards in der Cloud verfügbar sein.

Text aus einer PDF Dokument in Java extrahieren

Befolgen Sie die Schritte und ein Beispielcode-Snippet, um programmgesteuert allen Text aus den PDF Dateien in Java mit dem GroupDocs.Parser Cloud SDK für Java zu extrahieren:

  • Zuerst importieren Sie die erforderlichen Klassen in Ihre Java-Datei.
  • Zweitens, erstellen Sie eine Instanz der ParseApi Klasse.
  • Drittens, erstellen Sie eine Instanz der FileInfo Klasse.
  • Als nächstes legen Sie den Pfad zur PDF-Datei als Eingabe fest.
  • Dann erstellen Sie eine Instanz der Klasse TextOptions().
  • Next, assign fileInfo to setFileInfo Methode.
  • Jetzt erstellen Sie eine Instanz der TextRequest() Klasse und übergeben Sie den TextOptions Parameter.
  • Schließlich erhalten Sie Ergebnisse, indem Sie die ParseApi.text() Methode aufrufen und den TextRequest-Parameter übergeben.

Der folgende Codeausschnitt zeigt, wie man gesamten Text aus einer PDF-Datei mithilfe einer REST-API in Java extrahiert:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF document in Java.
public class App {

	public static void main(String[] args) {
		
		// Erstellen Sie eine Instanz der Parse-API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Bereiten Sie die Einstellungen vor
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Sie können die Ausgabe im Bild unten sehen:

Java Text aus PDF Dokument extrahieren

Text aus PDF Dokument in Java extrahieren

Extract Specific Text from PDF in Java by Page Number Range

Dieser Abschnitt bietet schrittweise Anleitungen und ein Beispielcode-Schnipsel zum programmgesteuerten Extrahieren spezifischer Texte aus einer PDF-Datei in Java:

  • Zuerst importieren Sie die erforderlichen Klassen in Ihre Java-Datei.
  • Zweitens, erstellen Sie eine Instanz der ParseApi Klasse.
  • Drittens, erstellen Sie eine Instanz der FileInfo Klasse.
  • Als nächstes legen Sie den Pfad zur PDF-Datei als Eingabe fest.
  • Dann erstellen Sie eine Instanz der Klasse TextOptions().
  • Jetzt geben Sie die Werte für setStartPageNumber und setCountPagesToExtract an.
  • Dann weisen Sie fileInfo der Methode setFileInfo zu.
  • Jetzt erstellen Sie eine Instanz der TextRequest() Klasse und übergeben Sie den TextOptions Parameter.
  • Schließlich erhalten Sie Ergebnisse, indem Sie die ParseApi.text() Methode aufrufen und den TextRequest-Parameter übergeben.

Der folgende Codeausschnitt zeigt, wie man bestimmten Text aus einer PDF-Datei mithilfe einer Seitenbereichsnummer in Java über eine REST-API extrahiert:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF file by page range number in Java.
public class App {

	public static void main(String[] args) {
		
		// Erstellen Sie eine Instanz der Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Bereiten Sie die Einstellungen vor
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Kostenloser Online Dokumentenparser

Was ist der beste Weg, um Text kostenlos online aus PDFs zu extrahieren? Bitte versuchen Sie ein online PDF Dokumentenparser-Software, um Text aus PDF zu extrahieren. Dieses PDF-Parser-Tool wurde mit der oben genannten Java-Parser-Bibliothek entwickelt.

Fazit

Zusammenfassend lässt sich sagen, dass das GroupDocs.Parser Cloud SDK für Java ein wertvolles Tool für Java-Entwickler ist, das es Ihnen ermöglicht, Texte, Metadaten und Bilder effizient zu extrahieren. Folgendes haben Sie aus diesem Artikel gelernt:

  • How to extract all text from PDF files using REST API in Java.
  • Programmatically upload a PDF file to the cloud using Java.
  • How to extract content from PDF in Java using REST API.
  • Online-Tool zur Textextraktion aus PDF, um PDF Dokumente zu analysieren.

Außerdem können Sie mehr über die GroupDocs.Parser Cloud API in der Dokumentation erfahren. Wir bieten auch einen API-Referenz Abschnitt an, der es Ihnen ermöglicht, unsere APIs direkt im Browser zu visualisieren und zu interagieren. Der gesamte Quellcode des Java SDK ist kostenlos auf Github verfügbar.

Finally, we keep writing new blog articles on different file formats and parsing using REST API. So, please get in touch for the latest updates.

Ask a question

Falls Sie Fragen oder Verwirrung darüber haben, wie man Texte aus PDF Dateien extrahiert, wenden Sie sich bitte über unser forum an uns.

FAQs

How do I extract all text from a PDF file using Java?

Sie können allen Text aus einer PDF-Datei mit GroupDocs.Parser Cloud SDK für Java in Ihren Java-Anwendungen extrahieren. Dieses leistungsstarke SDK bietet eine effiziente und unkomplizierte Möglichkeit, Text aus PDF Dateien mit Java zu extrahieren.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Ja, das SDK unterstützt die Textextraktion aus passwortgeschützten PDF Dateien. Sie können das Passwort als Option während des Extraktionsprozesses angeben.

Is it possible to extract text from specific pages within a PDF file?

Ja, GroupDocs.Parser Cloud SDK für Java ermöglicht es Ihnen, den Seitenbereich anzugeben, aus dem Sie Text extrahieren möchten. Auf diese Weise können Sie ganz einfach Text aus bestimmten Abschnitten eines PDF Dokuments extrahieren.

Siehe auch

Hier sind einige verwandte Artikel, die Sie hilfreich finden könnten: