Free Online DOCX Parser está diseñado para extraer texto, imágenes e imágenes de DOCX o DOC.

Analizar documentos de Word usando REST API en Python

En varios casos, es posible que necesitemos analizar documentos de Word y extraer imágenes o texto. La extracción de imágenes y texto de documentos de Word puede ser útil para analizar el texto, reutilizarlos o combinarlos en otros documentos. Podemos analizar fácilmente archivos DOC o DOCX y extraer todas las imágenes/texto mediante programación en la nube. En este artículo, aprenderemos cómo analizar documentos de Word utilizando una API REST en Python.

En este artículo se tratarán los siguientes temas:

API REST del analizador de documentos de Word y SDK de Python

Para analizar documentos de Word, usaremos la Python SDK de GroupDocs.Parser Cloud API. Instálelo usando el siguiente comando en la consola para analizar un documento:

pip install groupdocs_parser_cloud

Por favor, obtenga su ID de cliente y secreto del tablero antes de seguir los pasos mencionados. Una vez que tenga su ID y secreto, agregue el código como se muestra a continuación:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Analice documentos de Word y extraiga imágenes utilizando la API REST en Python

Podemos analizar documentos de Word y extraer imágenes mediante programación siguiendo los pasos que se detallan a continuación:

Sube el documento

En primer lugar, subiremos el documento de Word (DOCX) a la nube usando el ejemplo de código que se muestra a continuación:

# Crear instancia de la API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Crear solicitud de archivo de carga
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# Subir archivo
response = file_api.upload_file(request)

Como resultado, el archivo DOCX cargado estará disponible en la sección de archivos del tablero en la nube.

Extraiga imágenes de documentos de Word usando Python

Podemos extraer fácilmente todas las imágenes de los documentos de Word mediante programación siguiendo los pasos que se indican a continuación.

  • En primer lugar, cree una instancia de ParseApi.
  • A continuación, cree una instancia de FileInfo.
  • Luego, establezca la ruta al archivo DOCX de entrada.
  • A continuación, cree una instancia de ImageOptions.
  • Luego, asigne FileInfo a ImageOptions.
  • Después de eso, crea ImagesRequest con ImageOptions como argumento.
  • Finalmente, extraiga imágenes llamando al método ParseApi.images() con ImageRequest.

El siguiente ejemplo de código muestra cómo extraer imágenes de un archivo DOCX usando la API REST de análisis de documentos en Python.

# Inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Definir opciones de imagen
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Solicitud de creación de imágenes
request = groupdocs_parser_cloud.ImagesRequest(options)

# Obtener imágenes
result = parseApi.images(request)
Analice Word DOCX y extraiga imágenes usando python parse word docx

Analice documentos de Word y extraiga imágenes utilizando la API REST en línea de Word Parser en Python.

Descargar imágenes extraídas

El ejemplo de código anterior guardará las imágenes extraídas con el analizador de archivos de Word en la nube. Podemos descargar estas imágenes usando el ejemplo de código que se muestra a continuación:

# inicializaciones de API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# Obtener lista de archivos
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# Descargar imágenes una por una
for data in response.value:
    # Crear solicitud de archivo de descarga
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # Descargar archivo
    response = file_api.download_file(request)
    # Mueva el archivo descargado a su directorio de trabajo
    shutil.move(response, "C:\\Files\\parser\\")

Extraiga texto de documentos de Word usando REST API en Python

Podemos extraer fácilmente todo el texto de los documentos de Word mediante programación siguiendo los pasos que se detallan a continuación.

  • En primer lugar, cree una instancia de ParseApi.
  • A continuación, cree una instancia de FileInfo.
  • Luego, establezca la ruta al archivo DOCX de entrada.
  • A continuación, cree una instancia de TextOptions.
  • Luego, asigne FileInfo a TextOptions.
  • Después de eso, crea TextRequest con TextOptions como argumento.
  • Finalmente, obtenga resultados llamando al método ParseApi.text() con TextRequest.

El siguiente ejemplo de código muestra cómo extraer texto de un archivo DOCX mediante la API REST del analizador docx.

# Inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Definir opciones de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# Crear solicitud de texto
request = groupdocs_parser_cloud.TextRequest(options)

# Obtener texto
result = parseApi.text(request)
print("Text: " + result.text)
Extraiga texto de documentos de Word DOCX usando REST API en Python

Extraiga texto de documentos de Word utilizando la API REST en Python.

Prueba en línea

¿Cómo usar el software de análisis de documentos en línea gratis? Pruebe la siguiente herramienta gratuita de análisis de DOCX en línea, que se desarrolla utilizando la API de python del documento de Word de análisis anterior. https://products.groupdocs.app/parser/docx

Conclusión

En este artículo, hemos aprendido cómo analizar documentos de Word utilizando el analizador de palabras en la nube. También hemos visto cómo extraer imágenes y texto de archivos DOCX usando parse docx Python. Este artículo también explicó cómo cargar mediante programación un archivo DOCX a la nube y descargar las imágenes extraídas de la nube. Además, puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad sobre el análisis de documentos y el análisis de archivos, no dude en contactarnos en el foro.

Ver también