Vous pouvez facilement analyser vos documents PDF et extraire tout le texte par programmation sur le cloud. Dans cet article, vous apprendrez à extraire du texte de documents PDF à l’aide d’une API REST dans Node.js.
Les sujets suivants seront traités dans cet article :
- API REST de l’analyseur PDF et SDK Node.js pour extraire le texte
- Extraire le texte d’un PDF à l’aide d’une API REST dans Node.js
- Obtenir du texte par numéros de page à partir de documents PDF à l’aide de Node.js
- Extraire le texte des documents joints avec PDF à l’aide de Node.js
API REST de l’analyseur PDF et SDK Node.js pour extraire le texte
Pour analyser les documents PDF, j’utiliserai l’API Node.js SDK of GroupDocs.Parser Cloud. Il vous permet d’analyser les données de plus de 50 types de formats de documents pris en charge. Il prend également en charge l’analyse de conteneurs tels que les archives ZIP, les fichiers de données de messagerie OST, les e-books, les balisages et les portefeuilles PDF dans vos applications Node.js. Vous pouvez extraire du texte, des images et analyser des données à l’aide d’un modèle à l’aide du SDK. Il fournit également des SDK .NET, Java, PHP, Ruby et Python en tant que membres de la famille d’analyseurs de documents pour l’API Cloud.
Vous pouvez installer GroupDocs.Parser Cloud sur votre application Node.js à l’aide de la commande suivante dans la console :
npm install groupdocs-parser-cloud
Veuillez obtenir votre ID client et votre secret à partir du tableau de bord avant de suivre les étapes mentionnées. Une fois que vous avez votre identifiant et votre secret, ajoutez le code comme indiqué ci-dessous :
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Extraire le texte d’un PDF à l’aide d’une API REST dans Node.js
Vous pouvez extraire du texte de documents PDF en suivant les étapes simples mentionnées ci-dessous :
- Téléchargez le fichier PDF dans le Cloud
- Extraire du texte de documents PDF à l’aide de Node.js
Télécharger le document
Tout d’abord, téléchargez le document PDF sur le Cloud en utilisant l’exemple de code ci-dessous :
// Construire FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';
fs.readFile(filePath, (err, fileStream) => {
// Créer une demande de téléchargement de fichier
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
// Téléverser un fichier
fileApi.uploadFile(request);
});
Par conséquent, le fichier PDF téléchargé sera disponible dans la section fichiers de votre tableau de bord sur le cloud.
Extraire du texte de documents PDF à l’aide de Node.js
Vous pouvez facilement extraire tout le texte des documents PDF par programmation en suivant les étapes ci-dessous :
- Créez une instance de ParseApi.
- Créez une instance de FileInfo.
- Ensuite, définissez le chemin d’accès au fichier PDF.
- Créez une instance de TextOptions.
- Ensuite, affectez FileInfo à TextOptions.
- Maintenant, créez une instance de TextRequest avec TextOptions.
- Enfin, obtenez des résultats en appelant la méthode ParseApi.text() avec TextRequest.
L’exemple de code suivant montre comment extraire tout le texte d’un document PDF à l’aide d’une API REST dans Node.js.
// Initialisation de l'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Fichier d'entrée
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Définir les options de texte
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
// Créer une demande de texte
let request = new groupdocs_parser_cloud.TextRequest(options);
// Extraire du texte
let result = await parseApi.text(request);
console.log(result.text);
Obtenir du texte par numéros de page à partir de documents PDF à l’aide de Node.js
Vous pouvez extraire le texte de pages spécifiques d’un fichier PDF par programmation en suivant les étapes ci-dessous :
- Créez une instance de ParseApi.
- Créez une instance de FileInfo.
- Ensuite, définissez le chemin d’accès au fichier PDF.
- Créez une instance de TextOptions.
- Ensuite, affectez FileInfo à TextOptions.
- Définissez le numéro de la page de démarrage et le nombre total de pages à extraire.
- Maintenant, créez une instance de TextRequest avec TextOptions.
- Enfin, obtenez des résultats en appelant la méthode ParseApi.text() avec TextRequest.
L’exemple de code suivant montre comment extraire le texte par numéros de page d’un document PDF à l’aide d’une API REST.
// Initialisation de l'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Chemin du fichier d'entrée
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Définir les options de texte
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
// Créer une demande de texte
let request = new groupdocs_parser_cloud.TextRequest(options);
// Extraire du texte
let result = await parseApi.text(request);
// Montrer les résultats
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Extraire le texte des documents joints avec PDF à l’aide de Node.js
Vous pouvez extraire le texte d’un document à l’intérieur d’un conteneur, disponible en pièce jointe dans un fichier PDF par programmation, en suivant les étapes mentionnées ci-dessous.
- Créez une instance de ParseApi.
- Créez une instance de FileInfo.
- Ensuite, définissez le chemin d’accès au fichier PDF.
- Facultativement, fournissez le mot de passe du fichier.
- Maintenant, créez une instance de ContainerItemInfo
- Ensuite, définissez le chemin relatif pour le fichier joint
- Créez une instance de TextOptions.
- Ensuite, affectez FileInfo et ContainerItemInfo aux TextOptions.
- Maintenant, créez une instance de TextRequest avec TextOptions
- Enfin, obtenez des résultats en appelant la méthode ParseApi.text() avec TextRequest
L’exemple de code suivant montre comment extraire le texte d’un document à l’intérieur d’un document PDF à l’aide d’une API REST.
// Initialisation de l'API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Fichier d'entrée
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";
// Élément de conteneur d'entrée
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";
// Définir les options de texte
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;
// Créer une demande de texte
let request = new groupdocs_parser_cloud.TextRequest(options);
// Extraire du texte
let result = await parseApi.text(request);
console.log(result.text);
Essayez en ligne
Veuillez essayer l’outil d’analyse PDF en ligne gratuit suivant, qui est développé à l’aide de l’API ci-dessus. https://products.groupdocs.app/parser/pdf
Conclusion
Dans cet article, vous avez appris à analyser des documents PDF sur le cloud. De plus, vous avez vu comment extraire du texte par numéros de page et à partir d’éléments conteneurs de fichiers PDF à l’aide d’une API REST dans Node.js. Cet article a également expliqué comment télécharger par programme un fichier PDF dans le cloud. En outre, vous pouvez en savoir plus sur l’API GroupDocs.Parser Cloud à l’aide de la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. En cas d’ambiguïté, n’hésitez pas à nous contacter sur le forum.