Estrai testo da PDF usando Node.js - Estensore di testo

Sbloccare il testo dai PDF è essenziale per l’indicizzazione dei contenuti, l’automazione e l’analisi dei dati. Con il GroupDocs.Parser Cloud SDK per Node.js, puoi estrarre programmaticamente testo semplice o strutturato dai PDF attraverso una semplice API RESTful — senza dover fare affidamento su strumenti pesanti o analisi manuale.

Perché estrarre testo da PDF?

L’estrazione di testo dai PDF è vitale per:

  • Costruire documenti di gestione o pipeline OCR.
  • Automatizzare la raccolta di dati da contratti, fatture e report.
  • Abilitare la ricerca full-text per archivi digitali.
  • Pulizia e strutturazione dei contenuti per modelli di AI/ML.

Copriamo i seguenti argomenti in maggiori dettagli:

Estrazione del testo API REST

Il GroupDocs.Parser Cloud SDK per Node.js è un wrapper leggero e ad alte prestazioni per interagire con l’API REST di GroupDocs.Parser Cloud. Consente agli sviluppatori di estrarre contenuti strutturati o non strutturati, come:

  • Testo (intero documento, pagine specifiche o aree selezionate)
  • Immagini
  • Metadata
  • Campi del documento
  • Dati strutturati provenienti da tabelle o moduli

Supporta numerosi formati — inclusi PDF, Word, Excel, PowerPoint, MSG, ZIP, e altro ancora.

Prerequisites Installa il GroupDocs.Parser Cloud SDK per Node.js:

npm install groupdocs-parser-cloud

Crea un account alla GroupDocs.Cloud Dashboard per ottenere il tuo Client ID e Client Secret per l’autenticazione. Per ulteriori informazioni, visita questo article.

Come estrarre testo da PDF usando Node.js

Segui questi passaggi per estrarre testo da un PDF utilizzando il SDK di Node.js.

Passaggio 1: Configura la configurazione:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Passo 2: Configura File PDF Input: Inizializza un oggetto della classe TextRequest e passa l’istanza della classe TextOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Passo 3: Estrai testo da PDF: Invoca il text metodo, e restituirà il contenuto di testo semplice del tuo PDF.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// Per ulteriori esempi, si prega di visitare https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Puoi vedere l’output del campione di codice sopra nell’immagine qui sotto:

pdf text extractor

Estrai testo da PDF tramite cURL

Se preferisci operazioni da riga di comando o vuoi integrarle in uno script? Puoi estrarre testo usando cURL con il GroupDocs.Parser REST API.

Passaggio 1 – Genera il Token di Accesso:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Step 2 – Estrai immagini tramite REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • Sostituisci con quello che hai generato.

Benefici dell’utilizzo di cURL con l’API GroupDocs.Parser

  • Nessun SDK richiesto: Usa REST direttamente per un’integrazione rapida.
  • Piattaforma Agnostica: Funziona con qualsiasi sistema operativo o linguaggio.
  • Ideale per pipeline CI/CD: automatizzare l’estrazione del testo in ambienti DevOps.
  • Leggero: Nessuna installazione oltre a cURL.

Online Text Extractor

Se stai cercando una soluzione senza codice, usa il nostro Free Online PDF Text Extractor alimentato da GroupDocs.Parser Cloud.

Online Image Extractor

Conclusione

GroupDocs.Parser Cloud SDK per Node.js rende facile estrarre testo da PDF, sia che tu abbia bisogno di un’analisi completa del contenuto, di data mining o di automazione dei documenti. Con supporto per chiamate RESTful e integrazione cURL, questa API è ideale per costruire app moderne e scalabili per la lavorazione dei documenti in Node.js o in altri ambienti.

📚 Risorse aggiuntive

Domande Frequenti – FAQs

How do I extract images from Word?

Puoi utilizzare GroupDocs.Parser Cloud SDKs per estrarre il testo dai file PDF programmaticamente. Si prega di visitare questo link per ulteriori dettagli.

Qual è il modello di prezzo?

Offriamo un modello di prezzo pay as you go. Per ulteriori informazioni, ti preghiamo di visitare pricing guide.

Articoli Raccomandati