PDF (Portable Document Format) є одним із найважливіших і широко використовуваних форматів файлів, які використовуються для представлення та обміну документами. Як розробник Python, існує багато сценаріїв, коли ви захочете витягти текст із PDF-документа та експортувати його в інший формат за допомогою Python для текстової аналітики. У цій публікації ми покажемо вам, як точно витягнути текст із PDF-документа за допомогою GroupDocs.Conversion Cloud SDK for Python.
GroupDocs.Conversion Cloud — це незалежне від платформи рішення REST API для перетворення документів і зображень без використання сторонніх програм. Він перетворює понад 50 типів документів з одного формату в інший. Він пропонує SDK для всіх популярних мов програмування, включаючи Python, тому розробники можуть використовувати API безпосередньо у своїх програмах, не турбуючись про базові виклики REST API.
Почнемо код:
Встановіть пакет GroupDocs.Conversion Cloud
Спочатку встановіть пакет groupdocs-conversion-cloud із pypi за допомогою такої команди.
>pip встановити groupdocs-conversion-cloud
Приклад вилучення тексту PDF Python
Щоб отримати текст із PDF-документа, виконайте наведені нижче дії.
- Безкоштовна реєстрація на groupdocs.cloud to get your AppSID and AppKey
- Створіть модуль Python і скопіюйте в нього наступний код. Ми використали параметри за замовчуванням для вилучення тексту PDF-документа. Ви також можете витягти текст певних сторінок за допомогою Параметри перетворення текстового формату.
# Модуль імпорту
import groupdocs_conversion_cloud
# Отримайте app_sid і app_key на https://dashboard.groupdocs.cloud (потрібна безкоштовна реєстрація).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Створіть екземпляр API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)
try:
#upload soruce file to storage
filename = '02_pages.pdf'
remote_name = '02_pages.pdf'
output_name= 'sample.txt'
strformat='txt'
request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
response_upload = file_api.upload_file(request_upload)
#Extract Text from PDF document
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.file_path =remote_name
settings.format = strformat
settings.output_path = output_name
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
response = convert_api.convert_document(request)
print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
- Запустіть код у вашій улюбленій IDE, ви отримаєте наступний вихід, і все. Завдання виконано!
Document converted successfully: [{'name': 'sample.txt',
'path': 'sample.txt',
'size': 791,
'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]
Не соромтеся залишити нам коментар на форумі підтримки, щоб поділитися своїми думками щодо GroupDocs.Conversion Cloud API. Або дайте нам знати, якщо у вас є якісь пропозиції або якщо вам потрібні якісь особливі функції, які, на вашу думку, буде мати наш REST API.