Python Извлечение текста из PDF-документа

PDF (Portable Document Format) — один из наиболее важных и широко используемых форматов файлов, используемых для представления и обмена документами. Как разработчик Python, существует множество сценариев, в которых вы захотите извлечь текст из документа PDF и экспортировать его в другой формат, используя Python для анализа текста. В этом посте мы покажем вам, как точно извлечь текст из PDF-документа с помощью GroupDocs.Conversion Cloud SDK для Python.

GroupDocs.Conversion Cloud — это независимое от платформы решение REST API для преобразования документов и изображений без использования каких-либо сторонних приложений. Он конвертирует более 50 типов документов из одного формата в другой. Он предлагает SDK для всех популярных языков программирования, включая Python, поэтому разработчики могут использовать API непосредственно в своих приложениях, не беспокоясь о базовых вызовах REST API.

Запустим код:

Установите пакет GroupDocs.Conversion Cloud

Прежде всего, установите пакет groupdocs-conversion-cloud из pypi с помощью следующей команды.

> pip install groupdocs-conversion-cloud

Пример извлечения текста PDF из Python

Мы выполним следующие шаги, чтобы извлечь текст из PDF-документа:

Бесплатная регистрация в groupdocs.cloud to get your AppSID and AppKey
Создайте модуль Python и скопируйте в него следующий код. Мы использовали параметры по умолчанию для извлечения текста PDF-документа. Вы также можете извлечь текст определенных страниц, используя Параметры преобразования текстового формата.

# Модуль импорта
import groupdocs_conversion_cloud

# Получите свой app_sid и app_key на https://dashboard.groupdocs.cloud (требуется бесплатная регистрация).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Создать экземпляр API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))

Запустите код в вашей любимой среде IDE, вы получите следующий вывод, и все. Задача выполнена!

Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

Не стесняйтесь оставлять нам комментарии на форуме поддержки, делясь своими мыслями о GroupDocs.Conversion Cloud API. Или дайте нам знать, если у вас есть какие-либо предложения или вам нужны какие-либо конкретные функции, которые вы ожидаете от нашего REST API.

Установите пакет GroupDocs.Conversion Cloud#

Пример извлечения текста PDF из Python#

Установите пакет GroupDocs.Conversion Cloud

Пример извлечения текста PDF из Python