Как извлечь страницы из документов Word в Python

Как извлечь страницы из документов Word в Python

Возможно, вам придется программно разделить документ Word на несколько документов по страницам. Разделяя документы Word, вы можете легко извлечь страницу из документа Word и поделиться определенной информацией или данными с заинтересованными сторонами. Как разработчик Python, вы можете разделить текстовый документ на отдельные файлы онлайн в облаке. В этой статье вы узнаете, как извлекать страницы из текстовых документов в Python.

В этой статье о разделителе страниц Word должны быть освещены следующие темы:

Разделитель документов Word REST API — Python SDK

Чтобы разделить текстовый файл на несколько файлов, я буду использовать Python SDK GroupDocs.Merger Cloud API. Он позволяет поворачивать, разделять, объединять, удалять и переставлять одну страницу или набор страниц из поддерживаемых форматов документов из Word, Excel, рисунков Visio, PDF и HTML. Python репозиторий исходного кода находится в свободном доступе на GitHub.

Доступен бесплатный разделитель файлов Word. Вы можете установить разделитель документов Word в свое приложение Python с помощью PIP из PyPI, используя следующую команду в терминале:

pip install groupdocs-merger-cloud

Пожалуйста, получите свой идентификатор клиента и секрет на панели инструментов, прежде чем выполнять указанные ниже шаги. Получив свой идентификатор и секрет, добавьте приведенный ниже код в свое приложение, чтобы разделить текстовый документ на отдельные файлы, как показано ниже:

# Импорт пакета SDK для слияния групповых документов
import groupdocs_merger_cloud

# Получите app_sid и app_key с https://dashboard.groupdocs.cloud после бесплатной регистрации.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Получить конфигурации файлового API 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Как разделить документ Word на один документ в Python

Вы можете программно разделить docx в облаке, выполнив шаги, указанные ниже.

Загрузить документ Word

Во-первых, мы загрузим файлы слов в облако, чтобы извлечь страницы из слова онлайн, используя пример кода, приведенный ниже:

# Загрузить файл Word в облачное хранилище
# Создайте экземпляр файлового API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Вызов запроса на загрузку файла
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\word-file.docx", "H:\\groupdocs-cloud-data\\word-file.docx", storage_name)

# Загрузить файл word в облако
response = file_api.upload_file(request)
print(response.uploaded)

В результате загруженные файлы будут доступны в разделе файлов вашей панели управления в облаке.

Разделить страницы документа Word в Python

Вы можете программно разделить страницы Word на отдельные файлы, выполнив следующие действия:

  • Во-первых, создайте экземпляр DocumentApi.
  • Затем создайте экземпляр SplitOptions
  • Теперь создайте экземпляр FileInfo
  • Передать путь к входному файлу в качестве аргумента FileInfo
  • Затем укажите путь к выходному файлу
  • Задайте конкретные номера страниц в массиве, разделенном запятыми
  • Теперь установите режим разделения docx на Страницы. Это позволяет разделить номера страниц в массиве, разделенном запятыми.
  • Создайте SplitRequest с помощью SplitOptions
  • Наконец, вызовите метод DocumentAPI.split() с аргументом SplitRequest и получите результаты.

В следующем фрагменте кода показано, как разделить текстовый файл на отдельные страницы с помощью REST API в Python:

# Как разделить документ Word на один документ в Python
try:
    # Создайте экземпляр API документа
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.pages = [1, 3]
    options.mode = "Pages"

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split word docx to single page document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))
Как разделить файл Word на отдельные страницы в Python

Как разделить файл Word на отдельные страницы в Python

Скачать один файл

Наконец, приведенный выше пример кода сохранит разделенный файл в облаке с помощью python. Его можно загрузить с помощью следующего примера кода:

# Инициализация API для загрузки отдельного файла
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Создать запрос на скачивание файла
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\word-file.docx", storage_name)

# Скачать отдельный файл
response = file_api.download_file(request)

# Переместите загруженный файл в свой каталог
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Разделить документ Word на отдельные по диапазону страниц в Python

Вы можете разделить документ Word на несколько документов по страницам в Интернете, выполнив следующие действия:

  • Создайте экземпляр DocumentApi
  • Затем создайте экземпляр SplitOptions
  • Теперь создайте экземпляр FileInfo
  • Передать путь к входному файлу в качестве аргумента FileInfo
  • Затем укажите путь к выходному файлу as “python-testing”
  • Установите значения start\page\number и end\page\number
  • Установите режим разделения docx на Страницы, чтобы разделить слово
  • Создайте SplitRequest с помощью SplitOptions
  • Наконец, вызовите метод DocumentAPI.split() с SplitRequest в качестве аргумента.

В следующем фрагменте кода показано, как извлечь страницы из документа Word в Python с помощью REST API:

# Как разделить документ Word на отдельные по диапазону страниц в Python
try:
    # Создайте экземпляр API документа
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.start_page_number = 3
    options.end_page_number = 7
    options.mode = "Pages"

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split Word to single files by page range: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Разделить документы Word на отдельные файлы, применив фильтр

Вы можете разделить текстовый документ на несколько документов по страницам онлайн, используя режим диапазона и фильтровать программно, как показано ниже:

  • Создайте экземпляр DocumentApi
  • Затем создайте экземпляр SplitOptions
  • Теперь создайте экземпляр FileInfo
  • Передать путь к входному файлу в качестве аргумента FileInfo
  • Затем укажите путь к выходному файлу as “python-testing”
  • Установите значения start\page\number и end\page\number
  • Затем установите диапазон \ режим на «OddPages».
  • Установите режим разделения docx на Страницы, чтобы разделить слово
  • Создайте SplitRequest с помощью SplitOptions
  • Наконец, вызовите метод DocumentAPI.split() с SplitRequest в качестве аргумента.

В следующем фрагменте кода показано, как извлечь страницы документа Word, применив фильтр с помощью REST API в Python:

# Как разделить документы Word на отдельные файлы с помощью фильтра
try:
    # Создайте экземпляр API документа
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.start_page_number = 3
    options.end_page_number = 7
    options.range_mode = "OddPages"
    options.mode = "Pages" # mode Intervals

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split Word by range of pages and using filter: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Как разделить документ Word на несколько файлов с помощью Python

Вы можете программно разделить файл Word на несколько документов, выполнив следующие действия:

  • Создайте экземпляр DocumentApi
  • Затем создайте экземпляр SplitOptions
  • Теперь создайте экземпляр FileInfo
  • Передать путь к входному файлу в качестве аргумента FileInfo
  • Затем укажите путь к выходному файлу as “python-testing”
  • Затем установите коллекцию страниц в формате массива
  • Установите режим разделения docx на интервалы, чтобы разделить слово
  • Создайте SplitRequest с помощью SplitOptions
  • Наконец, вызовите метод DocumentAPI.split() с SplitRequest в качестве аргумента.

В следующем фрагменте кода показано, как разбить docx на несколько файлов с помощью REST API в Python:

# Как разделить файлы Docx на несколько файлов с помощью Python
try:
    # Создайте экземпляр API документа
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.pages = [3, 6, 8]
    options.mode = "Intervals"

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split Word file to multiple files: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Разделенный онлайн-файл Word

Как разбить документ Word на несколько файлов онлайн бесплатно? Вы можете попробовать наш разделитель документов Word онлайн, чтобы разбить документ Word на несколько файлов онлайн бесплатно на фиксированное количество страниц или в различных диапазонах страниц. Многостраничные документы Word делятся на несколько файлов Word, сохраняя формат исходного документа.

Заключение

В этом уроке мы узнали:

  • как разделить текстовый файл на два в Python в облаке;
  • как разделить файл docx на отдельные файлы в Python;
  • Программно, как разделить текстовый документ по страницам в Python;
  • программно, как разделить документ Word на несколько документов онлайн в Python;
  • как разбить файл Word онлайн бесплатно с помощью онлайн-разделителя страниц Word;

Кроме того, вы можете узнать больше о GroupDocs.Merger Cloud API, используя документацию. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать и взаимодействовать с нашими API напрямую через браузер. Кроме того, см. SDK GroupDocs.Merger Cloud для Python Примеры здесь.

Задайте вопрос

Если у вас есть какие-либо вопросы о том, как извлечь страницы из документа Word онлайн, задайте их нам на Форуме

Часто задаваемые вопросы

Как извлечь страницы из документа Word онлайн с помощью API-интерфейса docx splitter?

Установите бесплатный разделитель документов библиотека Python для извлечения страниц слов онлайн. Вы можете посетить документацию для получения полной информации об API.

Каков самый быстрый способ разделить документ Word бесплатно онлайн?

Извлечение страниц Word онлайн работает очень быстро, и вы можете разделить docx онлайн за несколько секунд.

Как вырезать страницу из word онлайн бесплатно?

  • Откройте онлайн-экстрактор страниц Word.
  • Щелкните внутри области перетаскивания файла, чтобы загрузить файл word docx, или перетащите файл word.
  • Нажмите на кнопку Конвертировать. Ваш документ будет загружен и преобразован в формат DOC.
  • Ссылка для скачивания выходных файлов будет доступна сразу после разделения.

Безопасно ли использовать бесплатный онлайн-разделитель документов?

Да, слово для разделения документов безопасно, и никто не имеет доступа к вашим загруженным файлам. Мы удаляем загруженные файлы через 24 часа.

Смотрите также