Вам может понадобиться читать и извлекать текст из документов PDF в ваших приложениях Python. Итак, как разработчик Python, вы можете легко программно извлечь весь текст из документов PDF в облаке. В этой статье объясняется, как извлечь текст из PDF-документов с помощью REST API в Python.
В этой статье должны быть раскрыты следующие темы:
Анализатор документов REST API и Python SDK
Для извлечения текста из документа PDF я буду использовать API Python SDK of GroupDocs.Parser Cloud. Это позволяет python получать текст из pdf и анализировать данные из всех популярных типов документов. Вы можете извлекать текст, изображения и анализировать данные по шаблону с помощью SDK. Он также предоставляет SDK для .NET, Java, PHP, Ruby и Node.js в качестве членов семейства парсеров документов для Cloud API.
Вы можете установить GroupDocs.Parser Cloud в свой проект Python с помощью pip (установщик пакета для python), используя следующую команду в консоли:
pip install groupdocs_parser_cloud
Прежде чем приступить к выполнению шагов и доступных примеров кода, получите свой идентификатор клиента и секрет клиента на панели инструментов. Получив идентификатор клиента и секрет, добавьте код, как показано ниже:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Извлечение текста из PDF с помощью REST API в Python
Вы можете извлечь текст из документов PDF, выполнив простые шаги, указанные ниже:
- Загрузить PDF-файл в облако
- Извлечение текста из PDF-документов с помощью Python
- Чтение текста по номерам страниц из PDF-документов с использованием Python
- Получить текст из документа, вложенного в PDF, с помощью Python
Загрузить документ
Прежде всего, загрузите документ PDF, чтобы получить текст из pdf python, используя приведенный ниже пример кода:
# инициализация API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
В результате загруженный PDF-файл (sample.pdf) будет доступен в разделе файлов вашей панели инструментов в облаке. Теперь вы готовы извлечь содержимое из pdf.
Извлечение текста из PDF-документов с помощью Python
Вы можете легко извлечь текст из pdf с помощью python программно, выполнив шаги, указанные ниже.
- Создайте экземпляр ParseApi
- Определить TextOptions
- Установить путь к файлу PDF
- Создать текстовый запрос
- Получите результаты, вызвав метод ParseApi.text().
В следующем примере кода показано, как извлечь весь текст из документа PDF с помощью REST API.
# инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# определить параметры текста
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.text)
Чтение текста по номерам страниц из PDF-документов с использованием Python
Вы можете легко извлечь текст из определенных страниц PDF-файла программно, выполнив шаги, указанные ниже.
- Создайте экземпляр ParseApi
- Определить TextOptions
- Укажите путь к файлу PDF
- Установить номер начальной страницы
- установить количество страниц для извлечения
- Создать текстовый запрос
- Получите результаты, вызвав метод ParseApi.text().
В следующем примере кода показано, как извлечь слова из PDF-файла в Python по диапазону номеров страниц с помощью REST API.
# инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# определить параметры текста
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
for page in result.pages:
print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Получить текст из документа, прикрепленного к PDF, с помощью Python
Вы можете программно извлечь текст из документа внутри контейнера, доступного в виде вложения в файле PDF, выполнив шаги, указанные ниже.
- Создайте экземпляр ParseApi
- Определить TextOptions
- Установить путь к файлу PDF
- Определить ContainerItemInfo
- Укажите относительный путь к внутреннему документу
- Установить номер начальной страницы
- установить количество страниц для извлечения
- Создать текстовый запрос
- Получите результаты, вызвав метод ParseApi.text().
В следующем примере кода показано, как извлечь текст из документа внутри документа PDF с помощью REST API.
# инициализация API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# определить параметры текста
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.pages[0].text)
Попробуйте онлайн
Как извлечь текст из pdf онлайн бесплатно? Пожалуйста, попробуйте следующий бесплатный онлайн-инструмент для анализа PDF, чтобы бесплатно извлечь текст из PDF. Этот экстрактор текста в формате PDF разработан с использованием вышеуказанного API. https://products.groupdocs.app/parser/pdf
Заключение
В этой статье вы узнали, как извлекать текст из PDF-документов в облаке. В этой статье также объясняется, как программно загрузить файл PDF в облако и извлечь текст из PDF в Интернете. Кроме того, мы также научились извлекать только текст из pdf по номеру страницы и извлекать текст python из pdf из прикрепленного документа.
Вы можете узнать больше о GroupDocs.Parser Cloud API, используя документацию. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. В случае каких-либо неясностей по поводу извлечения текста из pdf и извлечения текста из pdf python, пожалуйста, не стесняйтесь обращаться к нам на форуме.