Potrebbe essere necessario estrarre testo o immagini dai documenti di Word per vari scopi. Puoi facilmente analizzare i documenti di Word e leggere il testo in modo programmatico nelle tue applicazioni Node.js. In qualità di sviluppatore Node.js, puoi estrarre tutto il testo e le immagini dai file DOCX in modo programmatico sul cloud. Questo articolo si concentrerà su come analizzare i documenti di Word utilizzando un’API REST in Node.js.
In questo articolo saranno trattati i seguenti argomenti:
- Document Parser REST API e Node.js SDK
- Analizza documenti Word ed estrai immagini utilizzando l’API REST in Node.js
- Estrai testo da documenti Word utilizzando un’API REST
Document Parser REST API e Node.js SDK
Per analizzare i documenti DOCX, utilizzerò l’API Node.js SDK of GroupDocs.Parser Cloud. Ti consente di analizzare i dati da oltre 50 tipi di documenti. Supporta anche l’analisi di contenitori come archivi ZIP, file di dati di posta OST/PST, eBook, markup e portfolio PDF nelle tue applicazioni Node.js. Puoi estrarre testo, immagini e analizzare i dati da un modello utilizzando l’SDK. Fornisce inoltre SDK .NET, Java, PHP, Ruby e Python come membri della famiglia di analizzatori di documenti per l’API Cloud.
Puoi installare GroupDocs.Parser Cloud nella tua applicazione Node.js utilizzando il seguente comando nella console:
npm install groupdocs-parser-cloud
Si prega di ottenere l’ID cliente e il segreto dalla dashboard prima di seguire i passaggi menzionati. Una volta che hai il tuo ID e segreto, aggiungi il codice come mostrato di seguito:
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Analizza documenti Word ed estrai immagini utilizzando l’API REST in Node.js
Puoi analizzare i tuoi documenti Word ed estrarre le immagini a livello di codice seguendo i passaggi indicati di seguito:
- Carica il file Word nel Cloud
- Estrai immagini da documenti Word utilizzando Node.js
- Scarica le immagini estratte
Carica il documento
Innanzitutto, carica il documento Word (DOCX) nel Cloud utilizzando l’esempio di codice riportato di seguito:
// inizializza l'API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';
// leggi file
fs.readFile(resourcesFolder, (err, fileStream) => {
// creare richiesta di caricamento file
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
// caricare un file
fileApi.uploadFile(request);
});
Di conseguenza, il file DOCX caricato sarà disponibile nella sezione file della dashboard sul cloud.
Estrai immagini da documenti Word utilizzando Node.js
Puoi estrarre facilmente tutte le immagini dai documenti di Word seguendo i passaggi indicati di seguito.
- Crea un’istanza di ParseApi
- Crea un’istanza di FileInfo
- Imposta il percorso del file DOCX
- Creare un’istanza di ImageOptions
- Assegna FileInfo a ImageOptions
- Crea immaginiRichiesta
- Ottieni risultati chiamando il metodo ParseApi.images().
L’esempio di codice seguente mostra come estrarre immagini da un file DOCX usando un’API REST.
// inizializzazione dell'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// informazioni sul file di esempio
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";
// definire le opzioni dell'immagine
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;
// creare una richiesta di immagine
let request = new groupdocs_parser_cloud.ImagesRequest(options);
// ottenere immagini
let result = await parseApi.images(request);
// mostra il percorso di download delle immagini
let images = result.images;
images.forEach(image => {
console.log("Image path in storage: " + image.path);
console.log("Download url: " + image.downloadUrl);
console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Scarica le immagini estratte
L’esempio di codice precedente salverà le immagini estratte sul cloud. È possibile scaricare queste immagini utilizzando l’esempio di codice fornito di seguito:
// inizializza l'API
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
// creare richiesta di download di file
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);
// download file
let response = await fileApi.downloadFile(request);
// salvare il file immagine nella directory di lavoro
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);
Estrai testo da documenti Word utilizzando Node.js
Puoi facilmente estrarre tutto il testo dai documenti di Word seguendo i passaggi indicati di seguito.
- Crea un’istanza di ParseApi
- Crea un’istanza di FileInfo
- Imposta il percorso del file DOCX
- Crea un’istanza di TextOptions
- Assegna FileInfo a TextOptions
- Imposta il numero della pagina iniziale
- Definire FormattedTextOptions
- Crea richiesta di testo
- Ottieni risultati chiamando il metodo ParseApi.text().
L’esempio di codice seguente mostra come estrarre il testo da un file DOCX usando un’API REST.
// inizializzazione dell'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// informazioni sul file di esempio
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";
// definire le opzioni di testo
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
mode: "Html" // extract text in HTML
});
// creare richiesta di testo
let request = new groupdocs_parser_cloud.TextRequest(options);
// ottenere testo
let result = await parseApi.text(request);
// mostra il testo estratto
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Prova in linea
Prova il seguente strumento di analisi DOCX online gratuito, sviluppato utilizzando l’API di cui sopra. https://products.groupdocs.app/parser/docx
Conclusione
In questo articolo, hai imparato come analizzare i documenti di Word sul cloud. Hai anche imparato come estrarre immagini e testo dai file DOCX utilizzando un’API REST in Node.js. Questo articolo spiega anche come caricare a livello di codice un file DOCX nel cloud e scaricare i file immagine dal cloud. Puoi saperne di più su GroupDocs.Parser Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser. In caso di ambiguità, non esitate a contattarci sul forum.