Text aus PDF in Node.js extrahieren | Text Extraktions-REST-API

Text aus PDF mit Node.js extrahieren - Text Extraktor

Text aus PDF Dateien freizuschalten, ist entscheidend für die Inhaltindizierung, Automatisierung und Datenanalyse. Mit dem GroupDocs.Parser Cloud SDK für Node.js können Sie programmgesteuert einfachen oder strukturierten Text aus PDFs über eine einfache RESTful API extrahieren — ohne auf schwere Werkzeuge oder manuelles Parsen angewiesen zu sein.

Warum Text aus PDF extrahieren?

Das Extrahieren von Text aus PDFs ist entscheidend für:

Building document management or OCR pipelines.
Automatisierung der Datensammlung aus Verträgen, Rechnungen und Berichten.
Aktivieren der Volltextsuche für digitale Archive.
Reinigung und Strukturierung von Inhalten für KI/ML-Modelle.

Lass uns die folgenden Themen ausführlicher behandeln:

Text Extraction REST API
Wie man Text aus PDF mit Node.js extrahiert
Text aus PDF mit cURL extrahieren
Online Text Extractor

Text Extraction REST API

Das GroupDocs.Parser Cloud SDK für Node.js ist ein leichtgewichtiges, hochleistungsfähiges Wrapper für die Interaktion mit der GroupDocs.Parser Cloud REST API. Es ermöglicht Entwicklern, strukturierte oder unstrukturierte Inhalte zu extrahieren, wie zum Beispiel:

Text ( gesamtes Dokument, bestimmte Seiten oder ausgewählte Bereiche )
Images
Metadata
Dokumentenfelder
Strukturierte Daten aus Tabellen oder Formularen

Es unterstützt zahlreiche Formate – einschließlich PDF, Word, Excel, PowerPoint, MSG, ZIP und mehr.

Voraussetzungen Installiere das GroupDocs.Parser Cloud SDK für Node.js:

npm install groupdocs-parser-cloud

Erstellen Sie ein Konto im GroupDocs.Cloud Dashboard, um Ihre Client-ID und Client-Secret für die Authentifizierung zu erhalten. Für weitere Informationen besuchen Sie bitte diesen Artikel.

Wie man Text aus PDF mit Node.js extrahiert

Befolgen Sie diese Schritte, um Text aus einem PDF mithilfe des Node.js SDK zu extrahieren.

Schritt 1: Konfiguration einrichten:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Schritt 2: Konfigurieren Sie die PDF-Datei Eingabe: Initialisieren Sie ein Objekt der TextRequest Klasse und übergeben Sie die Instanz der TextOptions Klasse.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Schritt 3: Text aus PDF extrahieren: Rufen Sie die text Methode auf, und sie gibt den einfachen Textinhalt Ihres PDFs zurück.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

// Für weitere Beispiele, besuchen Sie bitte https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Sie können die Ausgabe des obigen Codesamples im folgenden Bild sehen:

Extract Text from PDF via cURL

Wenn Sie Befehlszeilenoperationen bevorzugen oder in ein Skript integrieren möchten? Sie können Text mit cURL über die GroupDocs.Parser REST-API extrahieren.

Schritt 1 – Zugriffstoken generieren:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Schritt 2 – Bilder über die REST-API extrahieren:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"

Ersetzen Sie mit dem, den Sie generiert haben.

Vorteile der Verwendung von cURL mit der GroupDocs.Parser-API

Kein SDK erforderlich: Verwenden Sie REST direkt für eine schnelle Integration.
Plattformunabhängig: Funktioniert mit jedem Betriebssystem oder jeder Sprache.
Ideal für CI/CD-Pipelines: Automatisieren Sie die Textextraktion in DevOps-Umgebungen.
Leichtgewichtig: Keine Installationen über cURL hinaus.

Online Text Extractor

Wenn Sie nach einer No-Code-Lösung suchen, verwenden Sie unseren kostenlosen Online- PDF Text Extractor, der von GroupDocs.Parser Cloud unterstützt wird.

Fazit

GroupDocs.Parser Cloud SDK für Node.js macht es mühelos, Text aus PDFs zu extrahieren, egal ob Sie eine vollständige Inhaltsanalyse, Datenextraktion oder Dokumentautomatisierung benötigen. Mit Unterstützung für RESTful-Aufrufe und cURL-Integration ist diese API ideal zum Erstellen moderner, skalierbarer Dokumentverarbeitungs-Apps in Node.js oder anderen Umgebungen.

📚 Zusätzliche Ressourcen

GroupDocs.Parser Dokumentation
API Referenz
GitHub SDK Repository
Support Forum
Preise & Pläne

Häufig gestellte Fragen – FAQs

How do I extract images from Word?

Sie können GroupDocs.Parser Cloud SDKs verwenden, um programmgesteuert Text aus PDF Dateien zu extrahieren. Bitte besuchen Sie diesen link für weitere Details.

Was ist das Preismodell?

Wir bieten ein Modell mit einmaliger Bezahlung pro Nutzung an. Für weitere Informationen besuchen Sie bitte preiskatalog.

Text aus PDF in Node.js extrahieren | Textextraktions-API mit REST

Warum Text aus PDF extrahieren?

Text Extraction REST API

Wie man Text aus PDF mit Node.js extrahiert

Extract Text from PDF via cURL

Vorteile der Verwendung von cURL mit der GroupDocs.Parser-API

Online Text Extractor

Fazit

📚 Zusätzliche Ressourcen

Häufig gestellte Fragen – FAQs

Empfohlene Artikel

Warum Text aus PDF extrahieren?#

Text Extraction REST API#

Wie man Text aus PDF mit Node.js extrahiert#

Extract Text from PDF via cURL#

Vorteile der Verwendung von cURL mit der GroupDocs.Parser-API#

Online Text Extractor#

Fazit#

📚 Zusätzliche Ressourcen#

Häufig gestellte Fragen – FAQs#

Empfohlene Artikel#

Warum Text aus PDF extrahieren?

Text Extraction REST API

Wie man Text aus PDF mit Node.js extrahiert

Extract Text from PDF via cURL

Vorteile der Verwendung von cURL mit der GroupDocs.Parser-API

Online Text Extractor

Fazit

📚 Zusätzliche Ressourcen

Häufig gestellte Fragen – FAQs

Empfohlene Artikel