Analysieren Sie Word Dokumente mithilfe der REST-API in Node.js

Möglicherweise müssen Sie für verschiedene Zwecke Text oder Bilder aus Ihren Word Dokumenten extrahieren. Sie können Word Dokumente problemlos analysieren und den Text programmgesteuert in Ihren Node.js-Anwendungen lesen. Als Node.js-Entwickler können Sie alle Texte und Bilder aus DOCX Dateien programmgesteuert in der Cloud extrahieren. Dieser Artikel konzentriert sich auf das Parsen von Word Dokumenten mithilfe einer REST-API in Node.js.

Die folgenden Themen sollen in diesem Artikel behandelt werden:

Document Parser REST API und Node.js SDK

Zum Parsen der DOCX Dokumente verwende ich das Node.js SDK der GroupDocs.Parser Cloud API. Es ermöglicht Ihnen, Daten aus über 50 Dokumenttypen zu analysieren. Es unterstützt auch das Parsen von Containern wie ZIP-Archiven, OST/PST-Mail-Datendateien, E-Books, Markups und PDF-Portfolios in Ihren Node.js-Anwendungen. Mit dem SDK können Sie Text und Bilder extrahieren und Daten anhand einer Vorlage analysieren. Es stellt außerdem .NET-, Java-, PHP-, Ruby und Python-SDKs als Mitglieder der Dokumentparser-Familie für die Cloud-API bereit.

Sie können GroupDocs.Parser Cloud mit dem folgenden Befehl in der Konsole in Ihrer Node.js-Anwendung installieren:

npm install groupdocs-parser-cloud 

Bitte rufen Sie Ihre Kunden-ID und Ihr Geheimnis vom Dashboard ab, bevor Sie die genannten Schritte ausführen. Sobald Sie Ihre ID und Ihr Geheimnis haben, fügen Sie den Code wie unten gezeigt ein:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Analysieren Sie Word Dokumente und extrahieren Sie Bilder mithilfe der REST-API in Node.js

Sie können Ihre Word Dokumente analysieren und Bilder programmgesteuert extrahieren, indem Sie die unten aufgeführten Schritte ausführen:

Laden Sie das Dokument hoch

Laden Sie zunächst das Word Dokument (DOCX) mithilfe des unten angegebenen Codebeispiels in die Cloud hoch:

// API initialisieren
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// Datei lesen
fs.readFile(resourcesFolder, (err, fileStream) => {
  // Datei-Upload-Anfrage erstellen
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // Datei hochladen
  fileApi.uploadFile(request);
});

Dadurch ist die hochgeladene DOCX-Datei im Dateienbereich Ihres Dashboards in der Cloud verfügbar.

Extrahieren Sie Bilder aus Word Dokumenten mit Node.js

Sie können alle Bilder ganz einfach aus den Word Dokumenten extrahieren, indem Sie die unten aufgeführten Schritte ausführen.

  • Erstellen Sie eine Instanz der ParseApi
  • Erstellen Sie eine Instanz der FileInfo
  • Legen Sie den Pfad zur DOCX-Datei fest
  • Erstellen Sie eine Instanz von ImageOptions
  • Weisen Sie FileInfo den ImageOptions zu
  • Erstellen Sie ImagesRequest
  • Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.images() aufrufen

Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API Bilder aus einer DOCX-Datei extrahieren.

// API-Initialisierung
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Informationen zur Beispieldatei
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// Bildoptionen definieren
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// Bildanfrage erstellen
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// Bilder bekommen
let result = await parseApi.images(request);

// Downloadpfad für Bilder anzeigen
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Extrahieren Sie Bilder aus Word Dokumenten mit Node.js

Extrahieren Sie Bilder aus Word Dokumenten mit Node.js

Laden Sie extrahierte Bilder herunter

Das obige Codebeispiel speichert die extrahierten Bilder in der Cloud. Sie können diese Bilder mithilfe des unten angegebenen Codebeispiels herunterladen:

// API initialisieren
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// Datei-Download-Anfrage erstellen
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// Download-Datei
let response = await fileApi.downloadFile(request);

// Bilddatei im Arbeitsverzeichnis speichern
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Extrahieren Sie Text aus Word Dokumenten mit Node.js

Sie können den gesamten Text ganz einfach aus den Word Dokumenten extrahieren, indem Sie die unten aufgeführten Schritte ausführen.

  • Erstellen Sie eine Instanz der ParseApi
  • Erstellen Sie eine Instanz der FileInfo
  • Legen Sie den Pfad zur DOCX-Datei fest
  • Erstellen Sie eine Instanz der TextOptions
  • Weisen Sie FileInfo den TextOptions zu
  • Legen Sie die Startseitennummer fest
  • Definieren Sie FormattedTextOptions
  • Erstellen Sie TextRequest
  • Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() aufrufen

Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API Text aus einer DOCX-Datei extrahieren.

// API-Initialisierung
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Informationen zur Beispieldatei
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// Definieren Sie Textoptionen
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// Textanfrage erstellen
let request = new groupdocs_parser_cloud.TextRequest(options);

// Text bekommen
let result = await parseApi.text(request);

// Extrahierten Text anzeigen
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Extrahieren Sie Text aus Word Dokumenten mit Node.js

Extrahieren Sie Text aus Word Dokumenten mit Node.js

Versuchen Sie es online

Bitte probieren Sie das folgende kostenlose Online-DOCX-Parsing-Tool aus, das mit der oben genannten API entwickelt wurde. https://products.groupdocs.app/parser/docx

Abschluss

In diesem Artikel haben Sie erfahren, wie Sie Word Dokumente in der Cloud analysieren. Sie haben außerdem gelernt, wie Sie mithilfe einer REST-API in Node.js Bilder und Text aus DOCX Dateien extrahieren. In diesem Artikel wurde auch erläutert, wie Sie programmgesteuert eine DOCX-Datei in die Cloud hochladen und die Bilddateien aus der Cloud herunterladen. Weitere Informationen zur GroupDocs.Parser Cloud API finden Sie in der Dokumentation. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Bei Unklarheiten können Sie uns gerne im Forum kontaktieren.

Siehe auch