
Text aus PDF Dateien freizuschalten, ist entscheidend für die Inhaltindizierung, Automatisierung und Datenanalyse. Mit dem GroupDocs.Parser Cloud SDK für Node.js können Sie programmgesteuert einfachen oder strukturierten Text aus PDFs über eine einfache RESTful API extrahieren — ohne auf schwere Werkzeuge oder manuelles Parsen angewiesen zu sein.
Warum Text aus PDF extrahieren?
Das Extrahieren von Text aus PDFs ist entscheidend für:
- Building document management or OCR pipelines.
- Automatisierung der Datensammlung aus Verträgen, Rechnungen und Berichten.
- Aktivieren der Volltextsuche für digitale Archive.
- Reinigung und Strukturierung von Inhalten für KI/ML-Modelle.
Lass uns die folgenden Themen ausführlicher behandeln:
- Text Extraction REST API
- Wie man Text aus PDF mit Node.js extrahiert
- Text aus PDF mit cURL extrahieren
- Online Text Extractor
Text Extraction REST API
Das GroupDocs.Parser Cloud SDK für Node.js ist ein leichtgewichtiges, hochleistungsfähiges Wrapper für die Interaktion mit der GroupDocs.Parser Cloud REST API. Es ermöglicht Entwicklern, strukturierte oder unstrukturierte Inhalte zu extrahieren, wie zum Beispiel:
- Text ( gesamtes Dokument, bestimmte Seiten oder ausgewählte Bereiche )
- Images
- Metadata
- Dokumentenfelder
- Strukturierte Daten aus Tabellen oder Formularen
Es unterstützt zahlreiche Formate – einschließlich PDF, Word, Excel, PowerPoint, MSG, ZIP und mehr.
Voraussetzungen Installiere das GroupDocs.Parser Cloud SDK für Node.js:
npm install groupdocs-parser-cloud
Erstellen Sie ein Konto im GroupDocs.Cloud Dashboard, um Ihre Client-ID und Client-Secret für die Authentifizierung zu erhalten. Für weitere Informationen besuchen Sie bitte diesen Artikel.
Wie man Text aus PDF mit Node.js extrahiert
Befolgen Sie diese Schritte, um Text aus einem PDF mithilfe des Node.js SDK zu extrahieren.
Schritt 1: Konfiguration einrichten:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
Schritt 2: Konfigurieren Sie die PDF-Datei Eingabe: Initialisieren Sie ein Objekt der TextRequest Klasse und übergeben Sie die Instanz der TextOptions Klasse.
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
Schritt 3: Text aus PDF extrahieren: Rufen Sie die text Methode auf, und sie gibt den einfachen Textinhalt Ihres PDFs zurück.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// Für weitere Beispiele, besuchen Sie bitte https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
Sie können die Ausgabe des obigen Codesamples im folgenden Bild sehen:

Extract Text from PDF via cURL
Wenn Sie Befehlszeilenoperationen bevorzugen oder in ein Skript integrieren möchten? Sie können Text mit cURL über die GroupDocs.Parser REST-API extrahieren.
Schritt 1 – Zugriffstoken generieren:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Schritt 2 – Bilder über die REST-API extrahieren:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- Ersetzen Sie mit dem, den Sie generiert haben.
Vorteile der Verwendung von cURL mit der GroupDocs.Parser-API
- Kein SDK erforderlich: Verwenden Sie REST direkt für eine schnelle Integration.
- Plattformunabhängig: Funktioniert mit jedem Betriebssystem oder jeder Sprache.
- Ideal für CI/CD-Pipelines: Automatisieren Sie die Textextraktion in DevOps-Umgebungen.
- Leichtgewichtig: Keine Installationen über cURL hinaus.
Online Text Extractor
Wenn Sie nach einer No-Code-Lösung suchen, verwenden Sie unseren kostenlosen Online- PDF Text Extractor, der von GroupDocs.Parser Cloud unterstützt wird.

Fazit
GroupDocs.Parser Cloud SDK für Node.js macht es mühelos, Text aus PDFs zu extrahieren, egal ob Sie eine vollständige Inhaltsanalyse, Datenextraktion oder Dokumentautomatisierung benötigen. Mit Unterstützung für RESTful-Aufrufe und cURL-Integration ist diese API ideal zum Erstellen moderner, skalierbarer Dokumentverarbeitungs-Apps in Node.js oder anderen Umgebungen.
📚 Zusätzliche Ressourcen
Häufig gestellte Fragen – FAQs
How do I extract images from Word?
Sie können GroupDocs.Parser Cloud SDKs verwenden, um programmgesteuert Text aus PDF Dateien zu extrahieren. Bitte besuchen Sie diesen link für weitere Details.
Was ist das Preismodell?
Wir bieten ein Modell mit einmaliger Bezahlung pro Nutzung an. Für weitere Informationen besuchen Sie bitte preiskatalog.