Extraire le texte d'un PDF en utilisant Python

Vous devrez peut-être lire et extraire du texte de documents PDF dans vos applications Python. Ainsi, en tant que développeur Python, vous pouvez facilement extraire tout le texte des documents PDF par programmation sur le cloud. Cet article explique comment extraire du texte de documents PDF à l’aide d’une API REST en Python.

Les sujets suivants seront traités dans cet article :

API REST de l’analyseur de documents et SDK Python

Pour extraire du texte d’un document PDF, j’utiliserai l’API Python SDK of GroupDocs.Parser Cloud. Il permet à python d’obtenir du texte à partir de pdf et d’analyser les données de tous les types de documents courants. Vous pouvez extraire du texte, des images et analyser des données par un modèle à l’aide du SDK. Il fournit également les SDK .NET, Java, PHP, Ruby et Node.js en tant que membres de la famille d’analyseurs de documents pour l’API Cloud.

Vous pouvez installer GroupDocs.Parser Cloud sur votre projet Python avec pip (package installer for python) à l’aide de la commande suivante dans la console :

pip install groupdocs_parser_cloud

Veuillez obtenir votre ID client et votre secret client à partir du tableau de bord avant de commencer à suivre les étapes et les exemples de code disponibles. Une fois que vous avez votre ID client et votre secret, ajoutez le code comme indiqué ci-dessous :

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extraire le texte d’un PDF à l’aide d’une API REST en Python

Vous pouvez extraire du texte de documents PDF en suivant les étapes simples mentionnées ci-dessous :

Télécharger le document

Tout d’abord, téléchargez le document PDF pour obtenir du texte à partir de pdf python en utilisant l’exemple de code ci-dessous :

# initialisation de l'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Par conséquent, le fichier PDF téléchargé (sample.pdf) sera disponible dans la section fichiers de votre tableau de bord sur le cloud. Vous êtes maintenant prêt à extraire le contenu du pdf.

Extraire du texte de documents PDF à l’aide de Python

Vous pouvez facilement extraire du texte de pdf avec python par programmation en suivant les étapes mentionnées ci-dessous.

  • Créer une instance de ParseApi
  • Définir les options de texte
  • Définir le chemin d’accès au fichier PDF
  • Créer une requête de texte
  • Obtenez des résultats en appelant la méthode ParseApi.text()

L’exemple de code suivant montre comment extraire tout le texte d’un document PDF à l’aide d’une API REST.

# initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# définir les options de texte
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Extraire le texte de l'ensemble du document

Extraire le texte de l’ensemble du document

Lire le texte par numéros de page à partir de documents PDF à l’aide de Python

Vous pouvez facilement extraire le texte de pages spécifiques d’un fichier PDF par programme en suivant les étapes mentionnées ci-dessous.

  • Créer une instance de ParseApi
  • Définir les options de texte
  • Indiquez le chemin d’accès au fichier PDF
  • Définir le numéro de la page de démarrage
  • définir le nombre de pages à extraire
  • Créer une requête de texte
  • Obtenez des résultats en appelant la méthode ParseApi.text()

L’exemple de code suivant montre comment extraire des mots d’un pdf en Python par plage de numéros de page à l’aide d’une API REST.

# initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# définir les options de texte
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Extraire le texte d'un fichier pdf par une plage de numéros de page

Extraire le texte par une plage de numéros de page

Obtenir du texte à partir d’un document joint avec un PDF à l’aide de Python

Vous pouvez extraire le texte d’un document à l’intérieur d’un conteneur, disponible en pièce jointe dans un fichier PDF par programmation en suivant les étapes mentionnées ci-dessous.

  • Créer une instance de ParseApi
  • Définir les options de texte
  • Définir le chemin d’accès au fichier PDF
  • Définir ContainerItemInfo
  • Fournir le chemin relatif du document intérieur
  • Définir le numéro de la page de démarrage
  • définir le nombre de pages à extraire
  • Créer une requête de texte
  • Obtenez des résultats en appelant la méthode ParseApi.text()

L’exemple de code suivant montre comment extraire le texte d’un document à l’intérieur d’un document PDF à l’aide d’une API REST.

# initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# définir les options de texte
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Extraire le texte d'un document à l'intérieur d'un conteneur

Extraire le texte d’un document à l’intérieur d’un conteneur

Essayez en ligne

Comment extraire le texte d’un pdf en ligne gratuitement ? Veuillez essayer l’outil d’analyse PDF en ligne gratuit suivant pour extraire gratuitement le texte d’un pdf. Cet extracteur de texte pdf est développé à l’aide de l’API ci-dessus. https://products.groupdocs.app/parser/pdf

Conclusion

Dans cet article, vous avez appris à extraire du texte de documents PDF sur le cloud. Cet article a également expliqué comment télécharger par programme un fichier PDF sur le cloud et un extracteur de texte pdf en ligne. De plus, nous avons également appris à extraire uniquement le texte du pdf par numéro de page et l’extraction de texte python du pdf à partir du document joint.

Vous pouvez en savoir plus sur l’API GroupDocs.Parser Cloud à l’aide de la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. En cas d’ambiguïté sur l’extraction de texte pdf et l’extraction de texte à partir de pdf python, n’hésitez pas à nous contacter sur le forum.

Voir également