Extraer texto de PDF usando Python

Es posible que necesite leer y extraer texto de documentos PDF en sus aplicaciones de Python. Entonces, como desarrollador de Python, puede extraer fácilmente todo el texto de los documentos PDF mediante programación en la nube. Este artículo explicará cómo extraer texto de documentos PDF utilizando una API REST en Python.

En este artículo se tratarán los siguientes temas:

API REST del analizador de documentos y SDK de Python

Para extraer texto de un documento PDF, usaré la API Python SDK de GroupDocs.Parser Cloud. Permite que Python obtenga texto de pdf y analice datos de todos los tipos de documentos populares. Puede extraer texto, imágenes y analizar datos mediante una plantilla utilizando el SDK. También proporciona SDK de .NET, Java, PHP, Ruby y Node.js como sus miembros de la familia de analizadores de documentos para la API de Cloud.

Puede instalar GroupDocs.Parser Cloud en su proyecto de Python con pip (instalador de paquetes para python) usando el siguiente comando en la consola:

pip install groupdocs_parser_cloud

Obtenga su ID de cliente y Secreto de cliente del panel de control antes de comenzar a seguir los pasos y los ejemplos de código disponibles. Una vez que tenga su ID de cliente y secreto, agregue el código como se muestra a continuación:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extraiga texto de PDF usando una API REST en Python

Puede extraer texto de documentos PDF siguiendo los sencillos pasos que se mencionan a continuación:

Sube el documento

En primer lugar, cargue el documento PDF para obtener texto de pdf python usando el ejemplo de código que se muestra a continuación:

# inicialización de la API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Como resultado, el archivo PDF cargado (sample.pdf) estará disponible en la sección de archivos de su tablero en la nube. Ahora está listo para extraer contenido de pdf.

Extraiga texto de documentos PDF usando Python

Puede extraer fácilmente texto de pdf con python mediante programación siguiendo los pasos que se mencionan a continuación.

  • Crear una instancia de ParseApi
  • Definir opciones de texto
  • Establecer ruta al archivo PDF
  • Crear solicitud de texto
  • Obtenga resultados llamando al método ParseApi.text()

El siguiente ejemplo de código muestra cómo extraer todo el texto de un documento PDF mediante una API REST.

# inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opciones de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Extraer texto de todo el documento

Extraer texto de todo el documento

Leer texto por números de página de documentos PDF usando Python

Puede extraer fácilmente el texto de páginas específicas de un archivo PDF mediante programación siguiendo los pasos que se mencionan a continuación.

  • Crear una instancia de ParseApi
  • Definir opciones de texto
  • Proporcione la ruta al archivo PDF
  • Establecer el número de la página de inicio
  • establecer el recuento de páginas para extraer
  • Crear solicitud de texto
  • Obtenga resultados llamando al método ParseApi.text()

El siguiente ejemplo de código muestra cómo extraer palabras de un pdf en Python por rango de números de página usando una API REST.

# inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opciones de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Extraiga texto del archivo pdf por un rango de números de página

Extraer texto por un rango de números de página

Obtenga texto del documento adjunto con PDF usando Python

Puede extraer el texto de un documento dentro de un contenedor, disponible como archivo adjunto en un archivo PDF mediante programación, siguiendo los pasos que se mencionan a continuación.

  • Crear una instancia de ParseApi
  • Definir opciones de texto
  • Establecer ruta al archivo PDF
  • Definir ContainerItemInfo
  • Proporcione la ruta relativa del documento interno
  • Establecer el número de la página de inicio
  • establecer el recuento de páginas para extraer
  • Crear solicitud de texto
  • Obtenga resultados llamando al método ParseApi.text()

El siguiente ejemplo de código muestra cómo extraer el texto de un documento dentro de un documento PDF mediante una API REST.

# inicialización de la API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opciones de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Extraer texto de un documento dentro de un contenedor

Extraer texto de un documento dentro de un contenedor

Prueba en línea

¿Cómo extraer texto de pdf en línea gratis? Pruebe la siguiente herramienta gratuita de análisis de PDF en línea para extraer texto de pdf gratis. Este extractor de texto pdf se desarrolla utilizando la API anterior. https://products.groupdocs.app/parser/pdf

Conclusión

En este artículo, ha aprendido a extraer texto de documentos PDF en la nube. Este artículo también explicó cómo cargar mediante programación un archivo PDF en la nube y un extractor de texto PDF en línea. Además, también aprendimos extraer solo texto de pdf por número de página y extracción de texto de python de pdf del documento adjunto.

Puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad sobre la extracción de texto pdf y la extracción de texto de pdf python, no dude en contactarnos en el foro.

Ver también