Free Online DOCX Parser est conçu pour extraire du texte, des images et des images à partir de DOCX ou DOC.

Analyser des documents Word à l’aide de l’API REST en Python

Dans divers cas, nous pouvons avoir besoin d’analyser des documents Word et d’extraire des images ou du texte. L’extraction d’images et de texte à partir de documents Word peut être utile pour analyser le texte, les réutiliser ou les combiner dans d’autres documents. Nous pouvons facilement analyser les fichiers DOC ou DOCX et extraire toutes les images/textes par programmation sur le cloud. Dans cet article, nous allons apprendre à analyser des documents Word à l’aide d’une API REST en Python.

Les sujets suivants seront traités dans cet article :

API REST de l’analyseur de documents Word et SDK Python

Pour analyser les documents Word, nous utiliserons l’API Python SDK of GroupDocs.Parser Cloud. Veuillez l’installer à l’aide de la commande suivante dans la console pour analyser un document :

pip install groupdocs_parser_cloud

Veuillez obtenir votre ID client et votre secret à partir du tableau de bord avant de suivre les étapes mentionnées. Une fois que vous avez votre identifiant et votre secret, ajoutez le code comme indiqué ci-dessous :

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Analyser des documents Word et extraire des images à l’aide de l’API REST en Python

Nous pouvons analyser des documents Word et extraire des images par programmation en suivant les étapes ci-dessous :

Télécharger le document

Tout d’abord, nous allons télécharger le document Word (DOCX) sur le Cloud en utilisant l’exemple de code ci-dessous :

# Créer une instance de l'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Créer une demande de téléchargement de fichier
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# Téléverser un fichier
response = file_api.upload_file(request)

Par conséquent, le fichier DOCX téléchargé sera disponible dans la section des fichiers du tableau de bord sur le cloud.

Extraire des images de documents Word à l’aide de Python

Nous pouvons facilement extraire toutes les images des documents Word par programme en suivant les étapes ci-dessous.

  • Tout d’abord, créez une instance de ParseApi.
  • Ensuite, créez une instance de FileInfo.
  • Ensuite, définissez le chemin d’accès au fichier DOCX d’entrée.
  • Ensuite, créez une instance de ImageOptions.
  • Ensuite, affectez FileInfo à ImageOptions.
  • Après cela, créez ImagesRequest avec ImageOptions comme argument.
  • Enfin, extrayez les images en appelant la méthode ParseApi.images() avec ImageRequest.

L’exemple de code suivant montre comment extraire des images d’un fichier DOCX à l’aide de l’API REST d’analyse de document dans Python.

# Initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Définir les options d'image
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Créer une demande d'images
request = groupdocs_parser_cloud.ImagesRequest(options)

# Obtenir des images
result = parseApi.images(request)
Analyser Word DOCX et extraire des images à l'aide de python parse word docx

Analysez des documents Word et extrayez des images à l’aide de l’API REST Word Parser Online en Python.

Télécharger les images extraites

L’exemple de code ci-dessus enregistrera les images extraites avec un analyseur de fichiers Word sur le cloud. Nous pouvons télécharger ces images en utilisant l’exemple de code ci-dessous :

# Initialisations d'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# Obtenir la liste des fichiers
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# Télécharger les images une par une
for data in response.value:
    # Créer une demande de fichier de téléchargement
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # Télécharger un fichier
    response = file_api.download_file(request)
    # Déplacez le fichier téléchargé dans votre répertoire de travail
    shutil.move(response, "C:\\Files\\parser\\")

Extraire du texte de documents Word à l’aide de l’API REST en Python

Nous pouvons facilement extraire tout le texte des documents Word par programmation en suivant les étapes ci-dessous.

  • Tout d’abord, créez une instance de ParseApi.
  • Ensuite, créez une instance de FileInfo.
  • Ensuite, définissez le chemin d’accès au fichier DOCX d’entrée.
  • Ensuite, créez une instance de TextOptions.
  • Ensuite, affectez FileInfo à TextOptions.
  • Après cela, créez TextRequest avec TextOptions comme argument.
  • Enfin, obtenez des résultats en appelant la méthode ParseApi.text() avec TextRequest.

L’exemple de code suivant montre comment extraire du texte d’un fichier DOCX à l’aide de l’API REST de l’analyseur docx.

# Initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Définir les options de texte
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Créer une demande de texte
request = groupdocs_parser_cloud.TextRequest(options)

# Obtenir du texte
result = parseApi.text(request)
print("Text: " + result.text)
Extraire du texte de documents Word DOCX à l'aide de l'API REST en Python

Extrayez du texte à partir de documents Word à l’aide de l’API REST en Python.

Essayez en ligne

Comment utiliser un logiciel d’analyse de documents en ligne gratuitement ? Veuillez essayer l’outil d’analyse DOCX en ligne gratuit suivant, qui est développé à l’aide de l’API python d’analyse de document Word ci-dessus. https://products.groupdocs.app/parser/docx

Conclusion

Dans cet article, nous avons appris à analyser des documents Word à l’aide d’un analyseur de mots sur le cloud. Nous avons également vu comment extraire des images et du texte à partir de fichiers DOCX en utilisant parse docx Python. Cet article a également expliqué comment télécharger par programmation un fichier DOCX dans le cloud et télécharger les images extraites du cloud. En outre, vous pouvez en savoir plus sur l’API GroupDocs.Parser Cloud à l’aide de la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. En cas d’ambiguïté sur l’analyse de documents et l’analyse de fichiers, n’hésitez pas à nous contacter sur le forum.

Voir également