Extraire du texte d'un PDF en utilisant Node.js - Extracteur de texte

Débloquer le texte des PDF est essentiel pour l’indexation de contenu, l’automatisation et l’analyse des données. Avec le SDK Cloud GroupDocs.Parser pour Node.js, vous pouvez extraire programmatique­ment du texte brut ou structuré à partir de fichiers PDF via une API RESTful simple — sans dépendre d’outils lourds ou de parsing manuel.

Pourquoi extraire du texte d’un PDF ?

Extraire du texte à partir de fichiers PDF est essentiel pour :

  • Construire des pipelines de gestion de documents ou de reconnaissance optique de caractères.
  • Automatiser la collecte de données à partir de contrats, de factures et de rapports.
  • Activation de la recherche en texte intégral pour les archives numériques.
  • Nettoyage et structuration du contenu pour les modèles d’IA/ML.

Couvrons les sujets suivants plus en détail :

Extraction de texte API REST

Le GroupDocs.Parser Cloud SDK for Node.js est un wrapper léger et performant pour interagir avec l’API REST du GroupDocs.Parser Cloud. Il permet aux développeurs d’extraire du contenu structuré ou non structuré, tel que :

  • Texte (document entier, pages spécifiques ou zones sélectionnées)
  • Images
  • Métadonnées
  • Champs de document
  • Données structurées provenant de tableaux ou de formulaires

Il prend en charge de nombreux formats — y compris PDF, Word, Excel, PowerPoint, MSG, ZIP, et plus encore.

Conditions préalables Installez le SDK GroupDocs.Parser Cloud pour Node.js :

npm install groupdocs-parser-cloud

Créez un compte sur le GroupDocs.Cloud Dashboard pour obtenir votre Client ID et Client Secret pour l’authentification. Pour plus d’informations, veuillez consulter cet article.

Comment extraire du texte d’un PDF en utilisant Node.js

Suivez ces étapes pour extraire du texte d’un PDF en utilisant le SDK Node.js.

Étape 1 : Configurer la configuration :

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Étape 2 : Configurer l’entrée du fichier PDF : Initialiser un objet de la classe TextRequest et passer l’instance de la classe TextOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Étape 3 : Extraire le texte du PDF : Invoke the text méthode, et cela renverra le contenu en texte brut de votre PDF.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// Pour plus d'exemples, veuillez visiter https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Vous pouvez voir la sortie de l’exemple de code ci-dessus dans l’image ci-dessous :

pdf text extractor

Extraire du texte d’un PDF via cURL

Si vous préférez les opérations en ligne de commande ou souhaitez intégrer dans un script ? Vous pouvez extraire du texte en utilisant cURL avec l’API REST de GroupDocs.Parser.

Étape 1 – Générer le jeton d’accès :

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Étape 2 – Extraire des images via l’API REST :

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • Remplacez par celui que vous avez généré.

Avantages de l’utilisation de cURL avec l’API GroupDocs.Parser

  • Pas de SDK requis : Utilisez REST directement pour une intégration rapide.
  • Plateforme indépendante : Fonctionne avec n’importe quel système d’exploitation ou langage.
  • Idéal pour les pipelines CI/CD : Automatisez l’extraction de texte dans les environnements DevOps.
  • Léger : Pas d’installations au-delà de cURL.

Online Text Extractor

Si vous recherchez une solution sans code, utilisez notre PDF Text Extractor en ligne gratuit propulsé par GroupDocs.Parser Cloud.

Extracteur d'images en ligne

Conclusion

GroupDocs.Parser Cloud SDK pour Node.js facilite l’extraction de texte des fichiers PDF, que vous ayez besoin d’une analyse complète du contenu, d’extraction de données ou d’automatisation de documents. Avec le support des appels RESTful et de l’intégration cURL, cette API est idéale pour créer des applications de traitement de documents modernes et évolutives dans Node.js ou d’autres environnements.

📚 Ressources supplémentaires

Questions Fréquemment Posées – FAQs

How do I extract images from Word?

Vous pouvez utiliser GroupDocs.Parser Cloud SDKs pour extraire du texte des fichiers PDF par programme. Veuillez visiter ce link pour plus de détails.

Quel est le modèle de tarification ?

Nous proposons un modèle de tarification au fur et à mesure de l’utilisation. Pour plus d’informations, veuillez visiter pricing guide.

Articles recommandés