En varios casos, es posible que necesitemos analizar documentos de Word y extraer imágenes o texto. La extracción de imágenes y texto de documentos de Word puede ser útil para analizar el texto, reutilizarlos o combinarlos en otros documentos. Podemos analizar fácilmente archivos DOC o DOCX y extraer todas las imágenes/texto mediante programación en la nube. En este artículo, aprenderemos cómo analizar documentos de Word utilizando una API REST en Python.
En este artículo se tratarán los siguientes temas:
- API REST del analizador de documentos de Word y SDK de Python
- Analice documentos de Word y extraiga imágenes utilizando la API REST en Python
- Extraiga texto de documentos de Word usando REST API en Python
API REST del analizador de documentos de Word y SDK de Python
Para analizar documentos de Word, usaremos la Python SDK de GroupDocs.Parser Cloud API. Instálelo usando el siguiente comando en la consola para analizar un documento:
pip install groupdocs_parser_cloud
Por favor, obtenga su ID de cliente y secreto del tablero antes de seguir los pasos mencionados. Una vez que tenga su ID y secreto, agregue el código como se muestra a continuación:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Analice documentos de Word y extraiga imágenes utilizando la API REST en Python
Podemos analizar documentos de Word y extraer imágenes mediante programación siguiendo los pasos que se detallan a continuación:
- Subir el archivo DOCX a la Nube
- Extraer imágenes de documentos de Word usando Python
- Descargar las imágenes extraídas
Sube el documento
En primer lugar, subiremos el documento de Word (DOCX) a la nube usando el ejemplo de código que se muestra a continuación:
# Crear instancia de la API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Crear solicitud de archivo de carga
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# Subir archivo
response = file_api.upload_file(request)
Como resultado, el archivo DOCX cargado estará disponible en la sección de archivos del tablero en la nube.
Extraiga imágenes de documentos de Word usando Python
Podemos extraer fácilmente todas las imágenes de los documentos de Word mediante programación siguiendo los pasos que se indican a continuación.
- En primer lugar, cree una instancia de ParseApi.
- A continuación, cree una instancia de FileInfo.
- Luego, establezca la ruta al archivo DOCX de entrada.
- A continuación, cree una instancia de ImageOptions.
- Luego, asigne FileInfo a ImageOptions.
- Después de eso, crea ImagesRequest con ImageOptions como argumento.
- Finalmente, extraiga imágenes llamando al método ParseApi.images() con ImageRequest.
El siguiente ejemplo de código muestra cómo extraer imágenes de un archivo DOCX usando la API REST de análisis de documentos en Python.
# Inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Definir opciones de imagen
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Solicitud de creación de imágenes
request = groupdocs_parser_cloud.ImagesRequest(options)
# Obtener imágenes
result = parseApi.images(request)
Descargar imágenes extraídas
El ejemplo de código anterior guardará las imágenes extraídas con el analizador de archivos de Word en la nube. Podemos descargar estas imágenes usando el ejemplo de código que se muestra a continuación:
# inicializaciones de API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# Obtener lista de archivos
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# Descargar imágenes una por una
for data in response.value:
# Crear solicitud de archivo de descarga
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# Descargar archivo
response = file_api.download_file(request)
# Mueva el archivo descargado a su directorio de trabajo
shutil.move(response, "C:\\Files\\parser\\")
Extraiga texto de documentos de Word usando REST API en Python
Podemos extraer fácilmente todo el texto de los documentos de Word mediante programación siguiendo los pasos que se detallan a continuación.
- En primer lugar, cree una instancia de ParseApi.
- A continuación, cree una instancia de FileInfo.
- Luego, establezca la ruta al archivo DOCX de entrada.
- A continuación, cree una instancia de TextOptions.
- Luego, asigne FileInfo a TextOptions.
- Después de eso, crea TextRequest con TextOptions como argumento.
- Finalmente, obtenga resultados llamando al método ParseApi.text() con TextRequest.
El siguiente ejemplo de código muestra cómo extraer texto de un archivo DOCX mediante la API REST del analizador docx.
# Inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Definir opciones de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Crear solicitud de texto
request = groupdocs_parser_cloud.TextRequest(options)
# Obtener texto
result = parseApi.text(request)
print("Text: " + result.text)
Prueba en línea
¿Cómo usar el software de análisis de documentos en línea gratis? Pruebe la siguiente herramienta gratuita de análisis de DOCX en línea, que se desarrolla utilizando la API de python del documento de Word de análisis anterior. https://products.groupdocs.app/parser/docx
Conclusión
En este artículo, hemos aprendido cómo analizar documentos de Word utilizando el analizador de palabras en la nube. También hemos visto cómo extraer imágenes y texto de archivos DOCX usando parse docx Python. Este artículo también explicó cómo cargar mediante programación un archivo DOCX a la nube y descargar las imágenes extraídas de la nube. Además, puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad sobre el análisis de documentos y el análisis de archivos, no dude en contactarnos en el foro.