Витягніть текст із PDF-документів за допомогою REST API у Python

Витягніть текст із PDF за допомогою Python

Можливо, вам знадобиться прочитати та витягти текст із PDF-документів у ваших програмах Python. Отже, як розробник Python, ви можете легко витягнути весь текст із PDF-документів програмним шляхом у хмарі. У цій статті пояснюється, як отримати текст із документів PDF за допомогою REST API у Python.

У цій статті будуть розглянуті такі теми:

API REST аналізатора документів і SDK для Python
Витягніть текст із PDF за допомогою REST API

API REST аналізатора документів і SDK для Python

Для отримання тексту з документа PDF я буду використовувати API Python SDK GroupDocs.Parser Cloud. Це дозволяє Python отримувати текст із pdf та аналізувати дані з усіх популярних типів документів. Ви можете видобувати текст, зображення та аналізувати дані за шаблоном за допомогою SDK. Він також надає пакети SDK .NET, Java, PHP, Ruby та Node.js як члени сімейства парсерів документів для Cloud API.

Ви можете встановити GroupDocs.Parser Cloud у свій проект Python за допомогою pip (інсталятор пакета для python), використовуючи таку команду в консолі:

pip install groupdocs_parser_cloud

Будь ласка, отримайте свій ідентифікатор клієнта та секретний ключ клієнта з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду. Отримавши ідентифікатор клієнта та секрет, додайте код, як показано нижче:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Витягніть текст із PDF за допомогою REST API у Python

Ви можете отримати текст із PDF-документів, виконавши прості кроки, згадані нижче:

Завантажте PDF-файл у хмару
Вилучення тексту з PDF-документів за допомогою Python
Читання тексту за номерами сторінок із документів PDF за допомогою Python
Отримати текст із документа, вкладеного в PDF, за допомогою Python

Завантажте документ

Перш за все, завантажте PDF-документ, щоб отримати текст із pdf-файлу python, використовуючи наведений нижче приклад коду:

# ініціалізація API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

У результаті завантажений PDF-файл (sample.pdf) буде доступний у розділі файлів вашої інформаційної панелі в хмарі. Тепер ви готові видобувати вміст із pdf.

Витягніть текст із PDF-документів за допомогою Python

Ви можете легко витягнути текст із PDF-файлу за допомогою програми python, дотримуючись наведених нижче кроків.

Створіть екземпляр ParseApi
Визначте TextOptions
Встановіть шлях до файлу PDF
Створити TextRequest
Отримайте результати, викликавши метод ParseApi.text().

У наведеному нижче прикладі коду показано, як витягти весь текст із документа PDF за допомогою REST API.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# визначити параметри тексту
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)

Читайте текст за номерами сторінок із PDF-документів за допомогою Python

Ви можете легко витягнути текст із певних сторінок PDF-файлу програмним шляхом, виконавши наведені нижче дії.

Створіть екземпляр ParseApi
Визначте TextOptions
Вкажіть шлях до файлу PDF
Встановіть номер початкової сторінки
встановити кількість сторінок для вилучення
Створити TextRequest
Отримайте результати, викликавши метод ParseApi.text().

У наведеному нижче прикладі коду показано, як видобувати слова з pdf-файлу в Python за діапазоном номерів сторінок за допомогою REST API.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# визначити параметри тексту
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)

Витягніть текст із pdf-файлу за діапазоном номерів сторінок — *Вилучення тексту за діапазоном номерів сторінок*

Отримайте текст із документа, вкладеного в PDF, за допомогою Python

Ви можете витягти текст із документа всередині контейнера, доступного як вкладення у PDF-файл програмним шляхом, виконавши наведені нижче дії.

Створіть екземпляр ParseApi
Визначте TextOptions
Встановіть шлях до файлу PDF
Визначте ContainerItemInfo
Укажіть відносний шлях внутрішнього документа
Встановіть номер початкової сторінки
встановити кількість сторінок для вилучення
Створити TextRequest
Отримайте результати, викликавши метод ParseApi.text().

У наведеному нижче прикладі коду показано, як витягти текст із документа в PDF-документі за допомогою REST API.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# визначити параметри тексту
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)

*Вилучення тексту з документа всередині контейнера*

Спробуйте онлайн

Як витягти текст з pdf онлайн безкоштовно? Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент аналізу PDF, щоб безкоштовно отримати текст із PDF-файлу. Цей екстрактор тексту PDF розроблено з використанням вищезазначеного API. https://products.groupdocs.app/parser/pdf

Висновок

У цій статті ви дізналися, як видобувати текст із документів PDF у хмарі. У цій статті також пояснюється, як програмно завантажити PDF-файл у хмару та PDF-екстрактор тексту в Інтернеті. Крім того, ми також навчилися витягувати лише текст із pdf за номером сторінки та видобувати текст Python із pdf із вкладеного документа.

Ви можете дізнатися більше про GroupDocs.Parser Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей щодо вилучення тексту pdf та вилучення тексту з pdf python, будь ласка, зв’яжіться з нами на форумі.

Дивись також

Рішення REST API для аналізу документів і вилучення даних

API REST аналізатора документів і SDK для Python#

Витягніть текст із PDF за допомогою REST API у Python#

Завантажте документ#

Витягніть текст із PDF-документів за допомогою Python#

Читайте текст за номерами сторінок із PDF-документів за допомогою Python#

Отримайте текст із документа, вкладеного в PDF, за допомогою Python#

Спробуйте онлайн#

Висновок#

Дивись також#