Analyser des documents Word à l'aide de l'API REST dans Node.js

Vous devrez peut-être extraire du texte ou des images de vos documents Word à diverses fins. Vous pouvez facilement analyser des documents Word et lire le texte par programmation dans vos applications Node.js. En tant que développeur Node.js, vous pouvez extraire tous les textes et images des fichiers DOCX par programmation sur le cloud. Cet article se concentrera sur la façon d’analyser des documents Word à l’aide d’une API REST dans Node.js.

Les sujets suivants seront traités dans cet article :

API REST de l’analyseur de documents et SDK Node.js

Pour analyser les documents DOCX, j’utiliserai l’API Node.js SDK of GroupDocs.Parser Cloud. Il vous permet d’analyser les données de plus de 50 types de documents. Il prend également en charge l’analyse de conteneurs tels que les archives ZIP, les fichiers de données de messagerie OST/PST, les livres électroniques, les annotations et les portefeuilles PDF dans vos applications Node.js. Vous pouvez extraire du texte, des images et analyser des données à l’aide d’un modèle à l’aide du SDK. Il fournit également des SDK .NET, Java, PHP, Ruby et Python en tant que membres de la famille d’analyseurs de documents pour l’API Cloud.

Vous pouvez installer GroupDocs.Parser Cloud sur votre application Node.js à l’aide de la commande suivante dans la console :

npm install groupdocs-parser-cloud 

Veuillez obtenir votre ID client et votre secret à partir du tableau de bord avant de suivre les étapes mentionnées. Une fois que vous avez votre identifiant et votre secret, ajoutez le code comme indiqué ci-dessous :

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Analyser des documents Word et extraire des images à l’aide de l’API REST dans Node.js

Vous pouvez analyser vos documents Word et extraire des images par programme en suivant les étapes mentionnées ci-dessous :

Télécharger le document

Tout d’abord, téléchargez le document Word (DOCX) dans le Cloud en utilisant l’exemple de code ci-dessous :

// initialiser l'API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// lire le fichier
fs.readFile(resourcesFolder, (err, fileStream) => {
  // créer une demande de téléchargement de fichier
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // téléverser un fichier
  fileApi.uploadFile(request);
});

Par conséquent, le fichier DOCX téléchargé sera disponible dans la section fichiers de votre tableau de bord sur le cloud.

Extraire des images de documents Word à l’aide de Node.js

Vous pouvez facilement extraire toutes les images des documents Word en suivant les étapes mentionnées ci-dessous.

  • Créer une instance de ParseApi
  • Créer une instance de FileInfo
  • Définir le chemin d’accès au fichier DOCX
  • Créer une instance de ImageOptions
  • Attribuez FileInfo aux ImageOptions
  • Créer une demande d’images
  • Obtenez des résultats en appelant la méthode ParseApi.images()

L’exemple de code suivant montre comment extraire des images d’un fichier DOCX à l’aide d’une API REST.

// initialisation de l'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// exemple d'informations sur le fichier
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// définir les options d'image
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// créer une demande d'image
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// obtenir des images
let result = await parseApi.images(request);

// afficher le chemin de téléchargement des images
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Extraire des images de documents Word à l'aide de Node.js

Extraire des images de documents Word à l’aide de Node.js

Télécharger les images extraites

L’exemple de code ci-dessus enregistrera les images extraites sur le cloud. Vous pouvez télécharger ces images en utilisant l’exemple de code ci-dessous :

// initialiser l'API
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// créer une demande de téléchargement de fichier
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// télécharger un fichier
let response = await fileApi.downloadFile(request);

// enregistrer le fichier image dans le répertoire de travail
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Extraire du texte de documents Word à l’aide de Node.js

Vous pouvez facilement extraire tout le texte des documents Word en suivant les étapes mentionnées ci-dessous.

  • Créer une instance de ParseApi
  • Créer une instance de FileInfo
  • Définir le chemin d’accès au fichier DOCX
  • Créer une instance de TextOptions
  • Attribuez FileInfo aux TextOptions
  • Définir le numéro de la page de démarrage
  • Définir les options de texte formaté
  • Créer une requête de texte
  • Obtenez des résultats en appelant la méthode ParseApi.text()

L’exemple de code suivant montre comment extraire du texte d’un fichier DOCX à l’aide d’une API REST.

// initialisation de l'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// exemple d'informations sur le fichier
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// définir les options de texte
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// créer une demande de texte
let request = new groupdocs_parser_cloud.TextRequest(options);

// obtenir du texte
let result = await parseApi.text(request);

// afficher le texte extrait
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Extraire du texte de documents Word à l'aide de Node.js

Extraire du texte de documents Word à l’aide de Node.js

Essayez en ligne

Veuillez essayer l’outil d’analyse DOCX en ligne gratuit suivant, qui est développé à l’aide de l’API ci-dessus. https://products.groupdocs.app/parser/docx

Conclusion

Dans cet article, vous avez appris à analyser des documents Word sur le cloud. Vous avez également appris à extraire des images et du texte de fichiers DOCX à l’aide d’une API REST dans Node.js. Cet article a également expliqué comment télécharger par programmation un fichier DOCX sur le cloud et télécharger les fichiers image à partir du cloud. Vous pouvez en savoir plus sur l’API GroupDocs.Parser Cloud à l’aide de la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. En cas d’ambiguïté, n’hésitez pas à nous contacter sur le forum.

Voir également