Extrahieren Sie Text aus PDF mithilfe der REST-API in Node.js

Sie können Ihre PDF Dokumente ganz einfach analysieren und den gesamten Text programmgesteuert in der Cloud extrahieren. In diesem Artikel erfahren Sie, wie Sie mithilfe einer REST-API in Node.js Text aus PDF Dokumenten extrahieren.

Die folgenden Themen sollen in diesem Artikel behandelt werden:

PDF Parser REST API und Node.js SDK zum Extrahieren von Text

Zum Parsen der PDF Dokumente verwende ich das Node.js SDK der GroupDocs.Parser Cloud API. Es ermöglicht Ihnen, Daten aus über 50 Arten von unterstützten Dokumentformaten zu analysieren. Es unterstützt auch das Parsen von Containern wie ZIP-Archiven, OST-Mail-Datendateien, E-Books, Markups und PDF-Portfolios in Ihren Node.js-Anwendungen. Mit dem SDK können Sie Text und Bilder extrahieren und Daten anhand einer Vorlage analysieren. Es stellt außerdem .NET-, Java-, PHP-, Ruby und Python-SDKs als Mitglieder der Dokumentparser-Familie für die Cloud-API bereit.

Sie können GroupDocs.Parser Cloud mit dem folgenden Befehl in der Konsole in Ihrer Node.js-Anwendung installieren:

npm install groupdocs-parser-cloud

Bitte holen Sie sich Ihre Kunden-ID und Ihr Geheimnis aus dem Dashboard, bevor Sie die genannten Schritte ausführen. Sobald Sie Ihre ID und Ihr Geheimnis haben, fügen Sie den Code wie unten gezeigt ein:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Extrahieren Sie Text aus PDF mithilfe einer REST-API in Node.js

Sie können Text aus PDF Dokumenten extrahieren, indem Sie die folgenden einfachen Schritte ausführen:

Laden Sie das Dokument hoch

Laden Sie zunächst das PDF Dokument mithilfe des unten angegebenen Codebeispiels in die Cloud hoch:

// Konstruieren Sie FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Datei-Upload-Anfrage erstellen
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Datei hochladen
  fileApi.uploadFile(request);
});

Dadurch ist die hochgeladene PDF-Datei im Dateienbereich Ihres Dashboards in der Cloud verfügbar.

Extrahieren Sie Text aus PDF Dokumenten mit Node.js

Sie können den gesamten Text ganz einfach programmgesteuert aus den PDF Dokumenten extrahieren, indem Sie die folgenden Schritte ausführen:

  • Erstellen Sie eine Instanz der ParseApi.
  • Erstellen Sie eine Instanz der FileInfo.
  • Legen Sie dann den Pfad zur PDF-Datei fest.
  • Erstellen Sie eine Instanz der TextOptions.
  • Weisen Sie dann FileInfo den TextOptions zu.
  • Erstellen Sie nun eine Instanz von TextRequest mit TextOptions.
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() mit der TextRequest aufrufen.

Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API in Node.js den gesamten Text aus einem PDF Dokument extrahieren.

// API-Initialisierung
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Eingabedatei
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Definieren Sie Textoptionen
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Textanfrage erstellen
let request = new groupdocs_parser_cloud.TextRequest(options);

// Text extrahieren
let result = await parseApi.text(request);
console.log(result.text);
Extrahieren Sie Text aus PDF mithilfe einer REST-API in Node.js

Extrahieren Sie Text aus PDF mithilfe einer REST-API in Node.js

Erhalten Sie Text nach Seitenzahlen aus PDF Dokumenten mit Node.js

Sie können den Text aus bestimmten Seiten einer PDF-Datei programmgesteuert extrahieren, indem Sie die folgenden Schritte ausführen:

  • Erstellen Sie eine Instanz der ParseApi.
  • Erstellen Sie eine Instanz der FileInfo.
  • Legen Sie dann den Pfad zur PDF-Datei fest.
  • Erstellen Sie eine Instanz der TextOptions.
  • Weisen Sie dann FileInfo den TextOptions zu.
  • Legen Sie die Nummer der Startseite und die Gesamtzahl der zu extrahierenden Seiten fest.
  • Erstellen Sie nun eine Instanz von TextRequest mit TextOptions.
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() mit der TextRequest aufrufen.

Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API den Text nach Seitenzahlen aus einem PDF Dokument extrahieren.

// API-Initialisierung
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Pfad der Eingabedatei
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Definieren Sie Textoptionen
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Textanfrage erstellen
let request = new groupdocs_parser_cloud.TextRequest(options);

// Text extrahieren
let result = await parseApi.text(request);

// Zeige Ergebnisse
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Erhalten Sie Text nach Seitenzahlen aus PDF Dokumenten mit Node.js

Erhalten Sie Text nach Seitenzahlen aus PDF Dokumenten mit Node.js

Extrahieren Sie Text aus mit PDF angehängten Dokumenten mit Node.js

Sie können den Text aus einem Dokument in einem Container extrahieren, der programmgesteuert als Anhang in einer PDF-Datei verfügbar ist, indem Sie die unten aufgeführten Schritte ausführen.

  • Erstellen Sie eine Instanz der ParseApi.
  • Erstellen Sie eine Instanz der FileInfo.
  • Legen Sie dann den Pfad zur PDF-Datei fest.
  • Geben Sie optional das Dateikennwort ein.
  • Erstellen Sie nun eine Instanz von ContainerItemInfo
  • Legen Sie dann den relativen Pfad für die angehängte Datei fest
  • Erstellen Sie eine Instanz der TextOptions.
  • Weisen Sie dann den TextOptions FileInfo und ContainerItemInfo zu.
  • Erstellen Sie nun eine Instanz von TextRequest mit TextOptions
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() mit der TextRequest aufrufen

Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API den Text aus einem Dokument in einem PDF Dokument extrahieren.

// API-Initialisierung
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Eingabedatei
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Eingabecontainerelement
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Definieren Sie Textoptionen
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Textanfrage erstellen
let request = new groupdocs_parser_cloud.TextRequest(options);

// Text extrahieren
let result = await parseApi.text(request);
console.log(result.text);
Extrahieren Sie Text aus mit PDF angehängten Dokumenten mit Node.js

Extrahieren Sie Text aus mit PDF angehängten Dokumenten mit Node.js

Versuchen Sie es online

Bitte probieren Sie das folgende kostenlose Online-PDF-Parsing-Tool aus, das mit der oben genannten API entwickelt wurde. https://products.groupdocs.app/parser/pdf

Abschluss

In diesem Artikel haben Sie erfahren, wie Sie PDF Dokumente in der Cloud analysieren. Darüber hinaus haben Sie gesehen, wie Sie mithilfe einer REST-API in Node.js Text anhand von Seitenzahlen und aus Containerelementen von PDF Dateien extrahieren. In diesem Artikel wurde auch erklärt, wie man eine PDF-Datei programmgesteuert in die Cloud hochlädt. Außerdem können Sie mithilfe der Dokumentation mehr über die GroupDocs.Parser Cloud API erfahren. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Bei Unklarheiten können Sie uns gerne im Forum kontaktieren.

Siehe auch