Si es un desarrollador de Python y desea extraer datos de documentos, este artículo lo guiará para extraer imágenes de varios documentos de procesamiento de texto, hojas de cálculo, presentaciones y documentos PDF utilizando ejemplos simples de Python.
Hoy se tratarán los siguientes temas:
- API REST de extracción de imágenes y SDK de Python
- Extraiga imágenes de un documento PDF usando Python
- Extracción de imágenes de Excel, PPT o Word Docs usando Python
API REST de extracción de imágenes y SDK de Python
Esta vez, usaremos el Python SDK de GroupDocs.Parser Cloud API para la extracción de imágenes de diferentes tipos de documentos. Sin embargo, actualmente, también proporciona SDK de .NET, Java, PHP, Ruby y Node.js como sus miembros de la familia de análisis de documentos para la API de la nube.
La API también admite la extracción de texto y metadatos junto con la extracción de imágenes de varios tipos de documentos, como documentos de procesamiento de texto, hojas de cálculo, presentaciones, correos electrónicos, archivos, marcas y documentos PDF.
Llegando al objetivo, primero, obtenga su CLAVE DE APLICACIÓN y SID DE APLICACIÓN del panel de control antes de comenzar a seguir los pasos y los ejemplos de código disponibles.
Extraer imágenes de PDF usando Python
Como ejemplo, primero extraeré las imágenes de un documento PDF. Con solo seguir unos sencillos pasos, todas las imágenes se pueden extraer fácilmente.
- Sube el documento PDF a la Nube.
- Extraiga las imágenes del documento cargado.
- Descarga las imágenes extraídas.
Sube el documento PDF
En primer lugar, cargue el documento PDF en la nube utilizando cualquiera de los siguientes métodos:
- Usando el panel de control.
- Utilizando Upload File API desde el navegador.
- Programáticamente como se menciona en la documentación.
Como resultado, el archivo PDF se cargará en Cloud Storage
Extraiga imágenes del documento PDF cargado
Ahora ha terminado con la parte difícil de extraer todas las fotos del pdf. Seguir el código de Python le permitirá extraer rápidamente todas las imágenes del documento PDF cargado.
# Cómo extraer imágenes de documentos de Word, hojas de cálculo de Excel, presentaciones o documentos PDF en Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# Obtenga el SID de la aplicación y la clave de la aplicación de https://dashboard.groupdocs.cloud/
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Mostrar propiedades de las imágenes extraídas
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Descargar las imágenes extraídas
Una vez que haya extraído las imágenes, puede descargarlas de la nube, ya sea desde el tablero o mediante programación. Las imágenes que se muestran aquí se extraen del documento PDF que se muestra arriba.
Extracción de imágenes de Excel, PPT o Word Docs usando Python
Del mismo modo, puede extraer todas las imágenes de los documentos de Word, hojas de cálculo, presentaciones con el código python exacto mencionado anteriormente para documentos PDF. Solo tiene que cambiar la ruta del archivo con el nombre correcto del documento con extensión.
# Extraiga imágenes de documentos de Word, hojas de cálculo de Excel, presentaciones en Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Simplemente cambie la ruta del documento según los requisitos (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Extraer imágenes de un documento en línea
¿Cómo extraer imágenes de un archivo o documento en línea gratis? Groupdocs.Parser proporciona una herramienta en línea gratuita para extraer imágenes de Word en línea, extraer todas las imágenes de PDF, guardar todas las imágenes en un PowerPoint o extraer imágenes de xlsx python. Simplemente seleccione el documento del que desea extraer imágenes jpg, png, jpeg o gif.
Las herramientas Extraer imágenes de pdf en línea gratis, Extraer imágenes de Excel en línea, Extraer imágenes de Word en línea y Extraer imágenes de pptx en línea se han desarrollado utilizando la API de Groupdocs.Parser Python.
Conclusión
En este artículo, hemos aprendido cómo extraer imágenes mediante programación de Word, Excel, PowerPoint, PDF y otros documentos usando Python. No hay diferencia en el código, solo tenemos que cambiar la ruta y el tipo del documento fuente.
Para obtener más funciones y obtener más información sobre la API de análisis de documentos, visite la documentación para ver artículos que también contienen ejemplos. La mejor manera de probar las características destacadas es experimentar los ejemplos en ejecución de código abierto de GitHub. En caso de confusión, el Equipo de soporte de GroupDocs se complace en facilitarle la tarea. Gracias
Hacer una pregunta
Si tiene alguna consulta sobre cómo extraer imágenes de PDF, XLSX, PPTX o Word DOCX usando Python, no dude en consultarnos en Foro de soporte gratuito
Ver también
- Extraiga todas las imágenes de PDF y extraiga imágenes de PDF en línea usando Node.js
- Extracción automática de datos de PDF y extracción de datos de PDF python en línea
- Extraiga imágenes de PDF python y extraiga imágenes de PDF acrobat usando Python
- Cómo extraer datos específicos de un documento de Word usando REST API en Node.js
- Extraiga datos de PDF javascript y el mejor lenguaje de programación para extraer datos de PDF
- Extraiga tablas del documento de Word python usando la API REST en Python