
PDF (Portable Document Format) — один из наиболее важных и широко используемых форматов файлов, используемых для представления и обмена документами. Как разработчик Python, существует множество сценариев, в которых вы захотите извлечь текст из документа PDF и экспортировать его в другой формат, используя Python для анализа текста. В этом посте мы покажем вам, как точно извлечь текст из PDF-документа с помощью GroupDocs.Conversion Cloud SDK для Python.
GroupDocs.Conversion Cloud — это независимое от платформы решение REST API для преобразования документов и изображений без использования каких-либо сторонних приложений. Он конвертирует более 50 типов документов из одного формата в другой. Он предлагает SDK для всех популярных языков программирования, включая Python, поэтому разработчики могут использовать API непосредственно в своих приложениях, не беспокоясь о базовых вызовах REST API.
Запустим код:
Установите пакет GroupDocs.Conversion Cloud
Прежде всего, установите пакет groupdocs-conversion-cloud из pypi с помощью следующей команды.
> pip install groupdocs-conversion-cloud
Пример извлечения текста PDF из Python
Мы выполним следующие шаги, чтобы извлечь текст из PDF-документа:
- Бесплатная регистрация в groupdocs.cloud to get your AppSID and AppKey
- Создайте модуль Python и скопируйте в него следующий код. Мы использовали параметры по умолчанию для извлечения текста PDF-документа. Вы также можете извлечь текст определенных страниц, используя Параметры преобразования текстового формата.
# Модуль импорта
import groupdocs_conversion_cloud
# Получите свой app_sid и app_key на https://dashboard.groupdocs.cloud (требуется бесплатная регистрация).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Создать экземпляр API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)
try:
#upload soruce file to storage
filename = '02_pages.pdf'
remote_name = '02_pages.pdf'
output_name= 'sample.txt'
strformat='txt'
request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
response_upload = file_api.upload_file(request_upload)
#Extract Text from PDF document
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.file_path =remote_name
settings.format = strformat
settings.output_path = output_name
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
response = convert_api.convert_document(request)
print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
- Запустите код в вашей любимой среде IDE, вы получите следующий вывод, и все. Задача выполнена!
Document converted successfully: [{'name': 'sample.txt',
'path': 'sample.txt',
'size': 791,
'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]
Не стесняйтесь оставлять нам комментарии на форуме поддержки, делясь своими мыслями о GroupDocs.Conversion Cloud API. Или дайте нам знать, если у вас есть какие-либо предложения или вам нужны какие-либо конкретные функции, которые вы ожидаете от нашего REST API.