Extraiga texto de documentos PDF utilizando una API REST en Python

Es posible que necesite leer y extraer texto de documentos PDF en sus aplicaciones de Python. Entonces, como desarrollador de Python, puede extraer fácilmente todo el texto de los documentos PDF mediante programación en la nube. Este artículo explicará cómo extraer texto de documentos PDF utilizando una API REST en Python.

En este artículo se tratarán los siguientes temas:

API REST del analizador de documentos y SDK de Python
Extraiga texto de PDF utilizando una API REST

API REST del analizador de documentos y SDK de Python

Para extraer texto de un documento PDF, usaré la API Python SDK de GroupDocs.Parser Cloud. Permite que Python obtenga texto de pdf y analice datos de todos los tipos de documentos populares. Puede extraer texto, imágenes y analizar datos mediante una plantilla utilizando el SDK. También proporciona SDK de .NET, Java, PHP, Ruby y Node.js como sus miembros de la familia de analizadores de documentos para la API de Cloud.

Puede instalar GroupDocs.Parser Cloud en su proyecto de Python con pip (instalador de paquetes para python) usando el siguiente comando en la consola:

pip install groupdocs_parser_cloud

Obtenga su ID de cliente y Secreto de cliente del panel de control antes de comenzar a seguir los pasos y los ejemplos de código disponibles. Una vez que tenga su ID de cliente y secreto, agregue el código como se muestra a continuación:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extraiga texto de PDF usando una API REST en Python

Puede extraer texto de documentos PDF siguiendo los sencillos pasos que se mencionan a continuación:

Subir el archivo PDF a la Nube
Extraer texto de documentos PDF usando Python
Leer texto por números de página de documentos PDF usando Python
Obtener texto del documento adjunto con PDF usando Python

Sube el documento

En primer lugar, cargue el documento PDF para obtener texto de pdf python usando el ejemplo de código que se muestra a continuación:

# inicialización de la API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Como resultado, el archivo PDF cargado (sample.pdf) estará disponible en la sección de archivos de su tablero en la nube. Ahora está listo para extraer contenido de pdf.

Extraiga texto de documentos PDF usando Python

Puede extraer fácilmente texto de pdf con python mediante programación siguiendo los pasos que se mencionan a continuación.

Crear una instancia de ParseApi
Definir opciones de texto
Establecer ruta al archivo PDF
Crear solicitud de texto
Obtenga resultados llamando al método ParseApi.text()

El siguiente ejemplo de código muestra cómo extraer todo el texto de un documento PDF mediante una API REST.

# inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opciones de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)

Leer texto por números de página de documentos PDF usando Python

Puede extraer fácilmente el texto de páginas específicas de un archivo PDF mediante programación siguiendo los pasos que se mencionan a continuación.

Crear una instancia de ParseApi
Definir opciones de texto
Proporcione la ruta al archivo PDF
Establecer el número de la página de inicio
establecer el recuento de páginas para extraer
Crear solicitud de texto
Obtenga resultados llamando al método ParseApi.text()

El siguiente ejemplo de código muestra cómo extraer palabras de un pdf en Python por rango de números de página usando una API REST.

# inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opciones de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)

Extraiga texto del archivo pdf por un rango de números de página — *Extraer texto por un rango de números de página*

Obtenga texto del documento adjunto con PDF usando Python

Puede extraer el texto de un documento dentro de un contenedor, disponible como archivo adjunto en un archivo PDF mediante programación, siguiendo los pasos que se mencionan a continuación.

Crear una instancia de ParseApi
Definir opciones de texto
Establecer ruta al archivo PDF
Definir ContainerItemInfo
Proporcione la ruta relativa del documento interno
Establecer el número de la página de inicio
establecer el recuento de páginas para extraer
Crear solicitud de texto
Obtenga resultados llamando al método ParseApi.text()

El siguiente ejemplo de código muestra cómo extraer el texto de un documento dentro de un documento PDF mediante una API REST.

# inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opciones de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)

*Extraer texto de un documento dentro de un contenedor*

Prueba en línea

¿Cómo extraer texto de pdf en línea gratis? Pruebe la siguiente herramienta gratuita de análisis de PDF en línea para extraer texto de pdf gratis. Este extractor de texto pdf se desarrolla utilizando la API anterior. https://products.groupdocs.app/parser/pdf

Conclusión

En este artículo, ha aprendido a extraer texto de documentos PDF en la nube. Este artículo también explicó cómo cargar mediante programación un archivo PDF en la nube y un extractor de texto PDF en línea. Además, también aprendimos extraer solo texto de pdf por número de página y extracción de texto de python de pdf del documento adjunto.

Puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad sobre la extracción de texto pdf y la extracción de texto de pdf python, no dude en contactarnos en el foro.

Ver también

Una solución REST API para analizar documentos y extraer datos

API REST del analizador de documentos y SDK de Python#

Extraiga texto de PDF usando una API REST en Python#

Sube el documento#

Extraiga texto de documentos PDF usando Python#

Leer texto por números de página de documentos PDF usando Python#

Obtenga texto del documento adjunto con PDF usando Python#

Prueba en línea#

Conclusión#

Ver también#