Puoi facilmente analizzare i tuoi documenti PDF ed estrarre tutto il testo in modo programmatico sul cloud. In questo articolo imparerai come estrarre il testo dai documenti PDF utilizzando un’API REST in Node.js.
In questo articolo saranno trattati i seguenti argomenti:
- PDF Parser REST API e Node.js SDK per estrarre il testo
- Estrai testo da PDF utilizzando un’API REST in Node.js
- Ottieni testo per numero di pagina da documenti PDF utilizzando Node.js
- Estrai testo da documenti allegati con PDF utilizzando Node.js
PDF Parser REST API e Node.js SDK per estrarre il testo
Per analizzare i documenti PDF, utilizzerò l’API Node.js SDK of GroupDocs.Parser Cloud. Ti consente di analizzare i dati da oltre 50 tipi di formati di documenti supportati. Supporta anche l’analisi di contenitori come archivi ZIP, file di dati di posta OST, e-book, markup e portfolio PDF nelle tue applicazioni Node.js. Puoi estrarre testo, immagini e analizzare i dati da un modello utilizzando l’SDK. Fornisce inoltre SDK .NET, Java, PHP, Ruby e Python come membri della famiglia del parser di documenti per l’API Cloud.
Puoi installare GroupDocs.Parser Cloud nella tua applicazione Node.js utilizzando il seguente comando nella console:
npm install groupdocs-parser-cloud
Si prega di ottenere l’ID cliente e il segreto dalla dashboard prima di seguire i passaggi menzionati. Una volta che hai il tuo ID e segreto, aggiungi il codice come mostrato di seguito:
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Estrai testo da PDF utilizzando un’API REST in Node.js
Puoi estrarre il testo dai documenti PDF seguendo i semplici passaggi indicati di seguito:
- Carica il file PDF nel Cloud
- Estrai testo da documenti PDF utilizzando Node.js
Carica il documento
Innanzitutto, carica il documento PDF sul Cloud utilizzando l’esempio di codice riportato di seguito:
// Costruisci FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';
fs.readFile(filePath, (err, fileStream) => {
// Crea richiesta di caricamento file
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
// Caricare un file
fileApi.uploadFile(request);
});
Di conseguenza, il file PDF caricato sarà disponibile nella sezione file della dashboard sul cloud.
Estrai testo da documenti PDF utilizzando Node.js
È possibile estrarre facilmente tutto il testo dai documenti PDF in modo programmatico seguendo i passaggi indicati di seguito:
- Crea un’istanza di ParseApi.
- Crea un’istanza di FileInfo.
- Quindi, imposta il percorso del file PDF.
- Crea un’istanza di TextOptions.
- Quindi, assegna FileInfo a TextOptions.
- Ora, crea un’istanza di TextRequest con TextOptions.
- Infine, ottieni risultati chiamando il metodo ParseApi.text() con TextRequest.
Il seguente esempio di codice mostra come estrarre tutto il testo da un documento PDF utilizzando un’API REST in Node.js.
// Inizializzazione dell'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// File di input
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Definire le opzioni di testo
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
// Crea richiesta di testo
let request = new groupdocs_parser_cloud.TextRequest(options);
// Estrai testo
let result = await parseApi.text(request);
console.log(result.text);
Ottieni testo per numero di pagina da documenti PDF utilizzando Node.js
È possibile estrarre il testo da pagine specifiche di un file PDF in modo programmatico seguendo i passaggi indicati di seguito:
- Crea un’istanza di ParseApi.
- Crea un’istanza di FileInfo.
- Quindi, imposta il percorso del file PDF.
- Crea un’istanza di TextOptions.
- Quindi, assegna FileInfo a TextOptions.
- Imposta il numero della pagina iniziale e il numero totale di pagine da estrarre.
- Ora, crea un’istanza di TextRequest con TextOptions.
- Infine, ottieni risultati chiamando il metodo ParseApi.text() con TextRequest.
L’esempio di codice seguente mostra come estrarre il testo in base ai numeri di pagina da un documento PDF utilizzando un’API REST.
// Inizializzazione dell'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Percorso del file di input
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Definire le opzioni di testo
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
// Crea richiesta di testo
let request = new groupdocs_parser_cloud.TextRequest(options);
// Estrai testo
let result = await parseApi.text(request);
// Mostra i risultati
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Estrai testo da documenti allegati con PDF utilizzando Node.js
È possibile estrarre il testo da un documento all’interno di un contenitore, disponibile come allegato in un file PDF a livello di codice, seguendo i passaggi indicati di seguito.
- Crea un’istanza di ParseApi.
- Crea un’istanza di FileInfo.
- Quindi, imposta il percorso del file PDF.
- Facoltativamente, fornire la password del file.
- Ora, crea un’istanza di ContainerItemInfo
- Quindi, imposta il percorso relativo per il file allegato
- Crea un’istanza di TextOptions.
- Quindi, assegna FileInfo e ContainerItemInfo a TextOptions.
- Ora crea un’istanza di TextRequest con TextOptions
- Infine, ottieni risultati chiamando il metodo ParseApi.text() con TextRequest
L’esempio di codice seguente mostra come estrarre il testo da un documento all’interno di un documento PDF utilizzando un’API REST.
// Inizializzazione dell'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// File di input
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";
// Elemento contenitore di input
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";
// Definire le opzioni di testo
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;
// Crea richiesta di testo
let request = new groupdocs_parser_cloud.TextRequest(options);
// Estrai testo
let result = await parseApi.text(request);
console.log(result.text);
Prova in linea
Prova il seguente strumento di analisi PDF online gratuito, sviluppato utilizzando l’API di cui sopra. https://products.groupdocs.app/parser/pdf
Conclusione
In questo articolo, hai imparato come analizzare i documenti PDF sul cloud. Inoltre, hai visto come estrarre il testo in base ai numeri di pagina e dagli elementi contenitore dei file PDF utilizzando un’API REST in Node.js. Questo articolo spiega anche come caricare a livello di codice un file PDF nel cloud. Inoltre, puoi saperne di più su GroupDocs.Parser Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser. In caso di ambiguità, non esitate a contattarci sul forum.