Analizza i documenti di Word utilizzando l'API REST in Node.js

Potrebbe essere necessario estrarre testo o immagini dai documenti di Word per vari scopi. Puoi facilmente analizzare i documenti di Word e leggere il testo in modo programmatico nelle tue applicazioni Node.js. In qualità di sviluppatore Node.js, puoi estrarre tutto il testo e le immagini dai file DOCX in modo programmatico sul cloud. Questo articolo si concentrerà su come analizzare i documenti di Word utilizzando un’API REST in Node.js.

In questo articolo saranno trattati i seguenti argomenti:

Document Parser REST API e Node.js SDK

Per analizzare i documenti DOCX, utilizzerò l’API Node.js SDK of GroupDocs.Parser Cloud. Ti consente di analizzare i dati da oltre 50 tipi di documenti. Supporta anche l’analisi di contenitori come archivi ZIP, file di dati di posta OST/PST, eBook, markup e portfolio PDF nelle tue applicazioni Node.js. Puoi estrarre testo, immagini e analizzare i dati da un modello utilizzando l’SDK. Fornisce inoltre SDK .NET, Java, PHP, Ruby e Python come membri della famiglia di analizzatori di documenti per l’API Cloud.

Puoi installare GroupDocs.Parser Cloud nella tua applicazione Node.js utilizzando il seguente comando nella console:

npm install groupdocs-parser-cloud 

Si prega di ottenere l’ID cliente e il segreto dalla dashboard prima di seguire i passaggi menzionati. Una volta che hai il tuo ID e segreto, aggiungi il codice come mostrato di seguito:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Analizza documenti Word ed estrai immagini utilizzando l’API REST in Node.js

Puoi analizzare i tuoi documenti Word ed estrarre le immagini a livello di codice seguendo i passaggi indicati di seguito:

Carica il documento

Innanzitutto, carica il documento Word (DOCX) nel Cloud utilizzando l’esempio di codice riportato di seguito:

// inizializza l'API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// leggi file
fs.readFile(resourcesFolder, (err, fileStream) => {
  // creare richiesta di caricamento file
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // caricare un file
  fileApi.uploadFile(request);
});

Di conseguenza, il file DOCX caricato sarà disponibile nella sezione file della dashboard sul cloud.

Estrai immagini da documenti Word utilizzando Node.js

Puoi estrarre facilmente tutte le immagini dai documenti di Word seguendo i passaggi indicati di seguito.

  • Crea un’istanza di ParseApi
  • Crea un’istanza di FileInfo
  • Imposta il percorso del file DOCX
  • Creare un’istanza di ImageOptions
  • Assegna FileInfo a ImageOptions
  • Crea immaginiRichiesta
  • Ottieni risultati chiamando il metodo ParseApi.images().

L’esempio di codice seguente mostra come estrarre immagini da un file DOCX usando un’API REST.

// inizializzazione dell'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// informazioni sul file di esempio
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// definire le opzioni dell'immagine
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// creare una richiesta di immagine
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// ottenere immagini
let result = await parseApi.images(request);

// mostra il percorso di download delle immagini
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Estrai immagini da documenti Word utilizzando Node.js

Estrai immagini da documenti Word utilizzando Node.js

Scarica le immagini estratte

L’esempio di codice precedente salverà le immagini estratte sul cloud. È possibile scaricare queste immagini utilizzando l’esempio di codice fornito di seguito:

// inizializza l'API
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// creare richiesta di download di file
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// download file
let response = await fileApi.downloadFile(request);

// salvare il file immagine nella directory di lavoro
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Estrai testo da documenti Word utilizzando Node.js

Puoi facilmente estrarre tutto il testo dai documenti di Word seguendo i passaggi indicati di seguito.

  • Crea un’istanza di ParseApi
  • Crea un’istanza di FileInfo
  • Imposta il percorso del file DOCX
  • Crea un’istanza di TextOptions
  • Assegna FileInfo a TextOptions
  • Imposta il numero della pagina iniziale
  • Definire FormattedTextOptions
  • Crea richiesta di testo
  • Ottieni risultati chiamando il metodo ParseApi.text().

L’esempio di codice seguente mostra come estrarre il testo da un file DOCX usando un’API REST.

// inizializzazione dell'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// informazioni sul file di esempio
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// definire le opzioni di testo
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// creare richiesta di testo
let request = new groupdocs_parser_cloud.TextRequest(options);

// ottenere testo
let result = await parseApi.text(request);

// mostra il testo estratto
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Estrai testo da documenti Word utilizzando Node.js

Estrai testo da documenti Word utilizzando Node.js

Prova in linea

Prova il seguente strumento di analisi DOCX online gratuito, sviluppato utilizzando l’API di cui sopra. https://products.groupdocs.app/parser/docx

Conclusione

In questo articolo, hai imparato come analizzare i documenti di Word sul cloud. Hai anche imparato come estrarre immagini e testo dai file DOCX utilizzando un’API REST in Node.js. Questo articolo spiega anche come caricare a livello di codice un file DOCX nel cloud e scaricare i file immagine dal cloud. Puoi saperne di più su GroupDocs.Parser Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser. In caso di ambiguità, non esitate a contattarci sul forum.

Guarda anche