Možná budete muset číst a extrahovat text z dokumentů PDF ve svých aplikacích Python. Takže jako vývojář Pythonu můžete snadno extrahovat veškerý text z dokumentů PDF programově v cloudu. Tento článek vysvětlí, jak extrahovat text z dokumentů PDF pomocí REST API v Pythonu.
Tento článek bude obsahovat následující témata:
REST API pro analyzátor dokumentů a Python SDK
Pro extrahování textu z dokumentu PDF budu používat Python SDK of GroupDocs.Parser Cloud API. Umožňuje pythonu získat text z pdf a analyzovat data ze všech oblíbených typů dokumentů. Pomocí sady SDK můžete extrahovat text, obrázky a analyzovat data podle šablony. Poskytuje také sady .NET, Java, PHP, Ruby a Node.js SDK jako členové rodiny analyzátorů dokumentů pro Cloud API.
GroupDocs.Parser Cloud můžete nainstalovat do svého projektu Python pomocí pip (instalátor balíčku pro python) pomocí následujícího příkazu v konzole:
pip install groupdocs_parser_cloud
Než začnete postupovat podle kroků a dostupných příkladů kódu, získejte své ID klienta a tajný klíč klienta z dashboard. Jakmile budete mít své ID klienta a tajný klíč, přidejte kód, jak je uvedeno níže:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Extrahujte text z PDF pomocí REST API v Pythonu
Text z dokumentů PDF můžete extrahovat pomocí následujících jednoduchých kroků:
- Nahrajte soubor PDF do cloudu
- Extrahovat text z dokumentů PDF pomocí Pythonu
- Čtení textu podle čísel stránek z dokumentů PDF pomocí Pythonu
- Získat text z dokumentu připojeného k PDF pomocí Pythonu
Nahrajte dokument
Nejprve nahrajte dokument PDF, abyste získali text z pdf pythonu pomocí příkladu kódu uvedeného níže:
# inicializace api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
V důsledku toho bude nahraný soubor PDF (sample.pdf) dostupný v sekci souborů vašeho řídicího panelu v cloudu. Nyní jste připraveni extrahovat obsah z pdf.
Extrahujte text z dokumentů PDF pomocí Pythonu
Můžete snadno extrahovat text z pdf pomocí pythonu programově podle níže uvedených kroků.
- Vytvořte instanci ParseApi
- Definujte TextOptions
- Nastavte cestu k souboru PDF
- Vytvořte TextRequest
- Získejte výsledky voláním metody ParseApi.text()
Následující ukázka kódu ukazuje, jak extrahovat veškerý text z dokumentu PDF pomocí REST API.
# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definovat možnosti textu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.text)
Čtení textu po číslech stránek z dokumentů PDF pomocí Pythonu
Text z konkrétních stránek souboru PDF můžete snadno programově extrahovat podle níže uvedených kroků.
- Vytvořte instanci ParseApi
- Definujte TextOptions
- Zadejte cestu k souboru PDF
- Nastavte číslo úvodní stránky
- nastavit počet stránek k extrahování
- Vytvořte TextRequest
- Získejte výsledky voláním metody ParseApi.text()
Následující ukázka kódu ukazuje, jak extrahovat slova z pdf v Pythonu podle rozsahu čísel stránek pomocí REST API.
# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definovat možnosti textu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
for page in result.pages:
print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Získejte text z dokumentu připojeného k PDF pomocí Pythonu
Text můžete extrahovat z dokumentu uvnitř kontejneru, který je k dispozici jako příloha v souboru PDF, programově podle kroků uvedených níže.
- Vytvořte instanci ParseApi
- Definujte TextOptions
- Nastavte cestu k souboru PDF
- Definujte ContainerItemInfo
- Zadejte relativní cestu vnitřního dokumentu
- Nastavte číslo úvodní stránky
- nastavit počet stránek k extrahování
- Vytvořte TextRequest
- Získejte výsledky voláním metody ParseApi.text()
Následující ukázka kódu ukazuje, jak extrahovat text z dokumentu uvnitř dokumentu PDF pomocí REST API.
# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definovat možnosti textu
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.pages[0].text)
Vyzkoušejte online
Jak extrahovat text z pdf online zdarma? Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu PDF a extrahujte text z PDF zdarma. Tento pdf textový extraktor je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/parser/pdf
Závěr
V tomto článku jste se naučili, jak extrahovat text z dokumentů PDF v cloudu. Tento článek také vysvětluje, jak programově nahrát soubor PDF do cloudu a online extraktor textu PDF. Navíc jsme se také naučili extrahovat pouze text z pdf podle čísla stránky a extrahovat text python z pdf z přiloženého dokumentu.
Více o GroupDocs.Parser Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat naše API a pracovat s nimi přímo prostřednictvím prohlížeče. V případě jakýchkoli nejasností ohledně extrakce pdf textu a extrahování textu z pdf pythonu nás prosím neváhejte kontaktovat na fóru.