Витягніть текст із PDF за допомогою Python

Можливо, вам знадобиться прочитати та витягти текст із PDF-документів у ваших програмах Python. Отже, як розробник Python, ви можете легко витягнути весь текст із PDF-документів програмним шляхом у хмарі. У цій статті пояснюється, як отримати текст із документів PDF за допомогою REST API у Python.

У цій статті будуть розглянуті такі теми:

API REST аналізатора документів і SDK для Python

Для отримання тексту з документа PDF я буду використовувати API Python SDK GroupDocs.Parser Cloud. Це дозволяє Python отримувати текст із pdf та аналізувати дані з усіх популярних типів документів. Ви можете видобувати текст, зображення та аналізувати дані за шаблоном за допомогою SDK. Він також надає пакети SDK .NET, Java, PHP, Ruby та Node.js як члени сімейства парсерів документів для Cloud API.

Ви можете встановити GroupDocs.Parser Cloud у свій проект Python за допомогою pip (інсталятор пакета для python), використовуючи таку команду в консолі:

pip install groupdocs_parser_cloud

Будь ласка, отримайте свій ідентифікатор клієнта та секретний ключ клієнта з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду. Отримавши ідентифікатор клієнта та секрет, додайте код, як показано нижче:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Витягніть текст із PDF за допомогою REST API у Python

Ви можете отримати текст із PDF-документів, виконавши прості кроки, згадані нижче:

Завантажте документ

Перш за все, завантажте PDF-документ, щоб отримати текст із pdf-файлу python, використовуючи наведений нижче приклад коду:

# ініціалізація API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

У результаті завантажений PDF-файл (sample.pdf) буде доступний у розділі файлів вашої інформаційної панелі в хмарі. Тепер ви готові видобувати вміст із pdf.

Витягніть текст із PDF-документів за допомогою Python

Ви можете легко витягнути текст із PDF-файлу за допомогою програми python, дотримуючись наведених нижче кроків.

  • Створіть екземпляр ParseApi
  • Визначте TextOptions
  • Встановіть шлях до файлу PDF
  • Створити TextRequest
  • Отримайте результати, викликавши метод ParseApi.text().

У наведеному нижче прикладі коду показано, як витягти весь текст із документа PDF за допомогою REST API.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# визначити параметри тексту
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Вилучення тексту з усього документа

Вилучення тексту з усього документа

Читайте текст за номерами сторінок із PDF-документів за допомогою Python

Ви можете легко витягнути текст із певних сторінок PDF-файлу програмним шляхом, виконавши наведені нижче дії.

  • Створіть екземпляр ParseApi
  • Визначте TextOptions
  • Вкажіть шлях до файлу PDF
  • Встановіть номер початкової сторінки
  • встановити кількість сторінок для вилучення
  • Створити TextRequest
  • Отримайте результати, викликавши метод ParseApi.text().

У наведеному нижче прикладі коду показано, як видобувати слова з pdf-файлу в Python за діапазоном номерів сторінок за допомогою REST API.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# визначити параметри тексту
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Витягніть текст із pdf-файлу за діапазоном номерів сторінок

Вилучення тексту за діапазоном номерів сторінок

Отримайте текст із документа, вкладеного в PDF, за допомогою Python

Ви можете витягти текст із документа всередині контейнера, доступного як вкладення у PDF-файл програмним шляхом, виконавши наведені нижче дії.

  • Створіть екземпляр ParseApi
  • Визначте TextOptions
  • Встановіть шлях до файлу PDF
  • Визначте ContainerItemInfo
  • Укажіть відносний шлях внутрішнього документа
  • Встановіть номер початкової сторінки
  • встановити кількість сторінок для вилучення
  • Створити TextRequest
  • Отримайте результати, викликавши метод ParseApi.text().

У наведеному нижче прикладі коду показано, як витягти текст із документа в PDF-документі за допомогою REST API.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# визначити параметри тексту
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Вилучення тексту з документа всередині контейнера

Вилучення тексту з документа всередині контейнера

Спробуйте онлайн

Як витягти текст з pdf онлайн безкоштовно? Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент аналізу PDF, щоб безкоштовно отримати текст із PDF-файлу. Цей екстрактор тексту PDF розроблено з використанням вищезазначеного API. https://products.groupdocs.app/parser/pdf

Висновок

У цій статті ви дізналися, як видобувати текст із документів PDF у хмарі. У цій статті також пояснюється, як програмно завантажити PDF-файл у хмару та PDF-екстрактор тексту в Інтернеті. Крім того, ми також навчилися витягувати лише текст із pdf за номером сторінки та видобувати текст Python із pdf із вкладеного документа.

Ви можете дізнатися більше про GroupDocs.Parser Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей щодо вилучення тексту pdf та вилучення тексту з pdf python, будь ласка, зв’яжіться з нами на форумі.

Дивись також