Extrahujte text z PDF pomocí Pythonu

Možná budete muset číst a extrahovat text z dokumentů PDF ve svých aplikacích Python. Takže jako vývojář Pythonu můžete snadno extrahovat veškerý text z dokumentů PDF programově v cloudu. Tento článek vysvětlí, jak extrahovat text z dokumentů PDF pomocí REST API v Pythonu.

Tento článek bude obsahovat následující témata:

REST API pro analyzátor dokumentů a Python SDK

Pro extrahování textu z dokumentu PDF budu používat Python SDK of GroupDocs.Parser Cloud API. Umožňuje pythonu získat text z pdf a analyzovat data ze všech oblíbených typů dokumentů. Pomocí sady SDK můžete extrahovat text, obrázky a analyzovat data podle šablony. Poskytuje také sady .NET, Java, PHP, Ruby a Node.js SDK jako členové rodiny analyzátorů dokumentů pro Cloud API.

GroupDocs.Parser Cloud můžete nainstalovat do svého projektu Python pomocí pip (instalátor balíčku pro python) pomocí následujícího příkazu v konzole:

pip install groupdocs_parser_cloud

Než začnete postupovat podle kroků a dostupných příkladů kódu, získejte své ID klienta a tajný klíč klienta z dashboard. Jakmile budete mít své ID klienta a tajný klíč, přidejte kód, jak je uvedeno níže:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extrahujte text z PDF pomocí REST API v Pythonu

Text z dokumentů PDF můžete extrahovat pomocí následujících jednoduchých kroků:

Nahrajte dokument

Nejprve nahrajte dokument PDF, abyste získali text z pdf pythonu pomocí příkladu kódu uvedeného níže:

# inicializace api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

V důsledku toho bude nahraný soubor PDF (sample.pdf) dostupný v sekci souborů vašeho řídicího panelu v cloudu. Nyní jste připraveni extrahovat obsah z pdf.

Extrahujte text z dokumentů PDF pomocí Pythonu

Můžete snadno extrahovat text z pdf pomocí pythonu programově podle níže uvedených kroků.

  • Vytvořte instanci ParseApi
  • Definujte TextOptions
  • Nastavte cestu k souboru PDF
  • Vytvořte TextRequest
  • Získejte výsledky voláním metody ParseApi.text()

Následující ukázka kódu ukazuje, jak extrahovat veškerý text z dokumentu PDF pomocí REST API.

# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definovat možnosti textu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Výpis textu z celého dokumentu

Výpis textu z celého dokumentu

Čtení textu po číslech stránek z dokumentů PDF pomocí Pythonu

Text z konkrétních stránek souboru PDF můžete snadno programově extrahovat podle níže uvedených kroků.

  • Vytvořte instanci ParseApi
  • Definujte TextOptions
  • Zadejte cestu k souboru PDF
  • Nastavte číslo úvodní stránky
  • nastavit počet stránek k extrahování
  • Vytvořte TextRequest
  • Získejte výsledky voláním metody ParseApi.text()

Následující ukázka kódu ukazuje, jak extrahovat slova z pdf v Pythonu podle rozsahu čísel stránek pomocí REST API.

# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definovat možnosti textu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Extrahujte text ze souboru PDF podle rozsahu čísel stránek

Extrahujte text podle rozsahu čísel stránek

Získejte text z dokumentu připojeného k PDF pomocí Pythonu

Text můžete extrahovat z dokumentu uvnitř kontejneru, který je k dispozici jako příloha v souboru PDF, programově podle kroků uvedených níže.

  • Vytvořte instanci ParseApi
  • Definujte TextOptions
  • Nastavte cestu k souboru PDF
  • Definujte ContainerItemInfo
  • Zadejte relativní cestu vnitřního dokumentu
  • Nastavte číslo úvodní stránky
  • nastavit počet stránek k extrahování
  • Vytvořte TextRequest
  • Získejte výsledky voláním metody ParseApi.text()

Následující ukázka kódu ukazuje, jak extrahovat text z dokumentu uvnitř dokumentu PDF pomocí REST API.

# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definovat možnosti textu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Extrahujte text z dokumentu uvnitř kontejneru

Extrahujte text z dokumentu uvnitř kontejneru

Vyzkoušejte online

Jak extrahovat text z pdf online zdarma? Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu PDF a extrahujte text z PDF zdarma. Tento pdf textový extraktor je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/parser/pdf

Závěr

V tomto článku jste se naučili, jak extrahovat text z dokumentů PDF v cloudu. Tento článek také vysvětluje, jak programově nahrát soubor PDF do cloudu a online extraktor textu PDF. Navíc jsme se také naučili extrahovat pouze text z pdf podle čísla stránky a extrahovat text python z pdf z přiloženého dokumentu.

Více o GroupDocs.Parser Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat naše API a pracovat s nimi přímo prostřednictvím prohlížeče. V případě jakýchkoli nejasností ohledně extrakce pdf textu a extrahování textu z pdf pythonu nás prosím neváhejte kontaktovat na fóru.

Viz také