Извлечь текст из PDF с помощью Python

Вам может понадобиться читать и извлекать текст из документов PDF в ваших приложениях Python. Итак, как разработчик Python, вы можете легко программно извлечь весь текст из документов PDF в облаке. В этой статье объясняется, как извлечь текст из PDF-документов с помощью REST API в Python.

В этой статье должны быть раскрыты следующие темы:

Анализатор документов REST API и Python SDK

Для извлечения текста из документа PDF я буду использовать API Python SDK of GroupDocs.Parser Cloud. Это позволяет python получать текст из pdf и анализировать данные из всех популярных типов документов. Вы можете извлекать текст, изображения и анализировать данные по шаблону с помощью SDK. Он также предоставляет SDK для .NET, Java, PHP, Ruby и Node.js в качестве членов семейства парсеров документов для Cloud API.

Вы можете установить GroupDocs.Parser Cloud в свой проект Python с помощью pip (установщик пакета для python), используя следующую команду в консоли:

pip install groupdocs_parser_cloud

Прежде чем приступить к выполнению шагов и доступных примеров кода, получите свой идентификатор клиента и секрет клиента на панели инструментов. Получив идентификатор клиента и секрет, добавьте код, как показано ниже:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Извлечение текста из PDF с помощью REST API в Python

Вы можете извлечь текст из документов PDF, выполнив простые шаги, указанные ниже:

Загрузить документ

Прежде всего, загрузите документ PDF, чтобы получить текст из pdf python, используя приведенный ниже пример кода:

# инициализация API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

В результате загруженный PDF-файл (sample.pdf) будет доступен в разделе файлов вашей панели инструментов в облаке. Теперь вы готовы извлечь содержимое из pdf.

Извлечение текста из PDF-документов с помощью Python

Вы можете легко извлечь текст из pdf с помощью python программно, выполнив шаги, указанные ниже.

  • Создайте экземпляр ParseApi
  • Определить TextOptions
  • Установить путь к файлу PDF
  • Создать текстовый запрос
  • Получите результаты, вызвав метод ParseApi.text().

В следующем примере кода показано, как извлечь весь текст из документа PDF с помощью REST API.

# инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# определить параметры текста
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Извлечь текст из всего документа

Извлечь текст из всего документа

Чтение текста по номерам страниц из PDF-документов с использованием Python

Вы можете легко извлечь текст из определенных страниц PDF-файла программно, выполнив шаги, указанные ниже.

  • Создайте экземпляр ParseApi
  • Определить TextOptions
  • Укажите путь к файлу PDF
  • Установить номер начальной страницы
  • установить количество страниц для извлечения
  • Создать текстовый запрос
  • Получите результаты, вызвав метод ParseApi.text().

В следующем примере кода показано, как извлечь слова из PDF-файла в Python по диапазону номеров страниц с помощью REST API.

# инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# определить параметры текста
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Извлечь текст из файла PDF по диапазону номеров страниц

Извлечь текст по диапазону номеров страниц

Получить текст из документа, прикрепленного к PDF, с помощью Python

Вы можете программно извлечь текст из документа внутри контейнера, доступного в виде вложения в файле PDF, выполнив шаги, указанные ниже.

  • Создайте экземпляр ParseApi
  • Определить TextOptions
  • Установить путь к файлу PDF
  • Определить ContainerItemInfo
  • Укажите относительный путь к внутреннему документу
  • Установить номер начальной страницы
  • установить количество страниц для извлечения
  • Создать текстовый запрос
  • Получите результаты, вызвав метод ParseApi.text().

В следующем примере кода показано, как извлечь текст из документа внутри документа PDF с помощью REST API.

# инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# определить параметры текста
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Извлечение текста из документа внутри контейнера

Извлечение текста из документа внутри контейнера

Попробуйте онлайн

Как извлечь текст из pdf онлайн бесплатно? Пожалуйста, попробуйте следующий бесплатный онлайн-инструмент для анализа PDF, чтобы бесплатно извлечь текст из PDF. Этот экстрактор текста в формате PDF разработан с использованием вышеуказанного API. https://products.groupdocs.app/parser/pdf

Заключение

В этой статье вы узнали, как извлекать текст из PDF-документов в облаке. В этой статье также объясняется, как программно загрузить файл PDF в облако и извлечь текст из PDF в Интернете. Кроме того, мы также научились извлекать только текст из pdf по номеру страницы и извлекать текст python из pdf из прикрепленного документа.

Вы можете узнать больше о GroupDocs.Parser Cloud API, используя документацию. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. В случае каких-либо неясностей по поводу извлечения текста из pdf и извлечения текста из pdf python, пожалуйста, не стесняйтесь обращаться к нам на форуме.

Смотрите также