Python Extrahujte text z dokumentu PDF

PDF (Portable Document Format) je jedním z nejdůležitějších a nejpoužívanějších formátů souborů používaných k prezentaci a výměně dokumentů. Jako vývojář pythonu existuje mnoho scénářů, kdy budete chtít extrahovat text z dokumentu PDF a exportovat jej v jiném formátu pomocí Pythonu pro analýzu textu. V tomto příspěvku vám ukážeme, jak přesně extrahovat text z dokumentu PDF pomocí GroupDocs.Conversion Cloud SDK pro Python.

GroupDocs.Conversion Cloud je platformově nezávislé řešení REST API pro převod dokumentů a obrázků bez závislosti na jakékoli aplikaci třetí strany. Převádí více než 50 typů dokumentů z jednoho formátu do druhého. Nabízí SDK pro všechny oblíbené programovací jazyky včetně Pythonu, takže vývojáři mohou používat API přímo ve svých aplikacích, aniž by se museli starat o základní volání REST API.

Začněme kód:

Nainstalujte cloudový balíček GroupDocs.Conversion

Nejprve nainstalujte balíček groupdocs-conversion-cloud z pypi pomocí následujícího příkazu.

>pip install groupdocs-conversion-cloud

Příklad extrakce textu Python PDF

Při extrahování textu z dokumentu PDF budeme postupovat takto:

  • Bezplatná registrace s groupdocs.cloud to get your AppSID and AppKey
  • Vytvořte modul python a zkopírujte do něj následující kód. K extrahování textu dokumentu PDF jsme použili výchozí možnosti. Můžete také extrahovat text konkrétních stránek pomocí Možnosti převodu v textovém formátu.
# Modul importu
import groupdocs_conversion_cloud

# Získejte své app_sid a app_key na https://dashboard.groupdocs.cloud (je nutná bezplatná registrace).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Vytvořte instanci rozhraní API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Spusťte kód ve svém oblíbeném IDE, dostanete následující výstup a je to. Úkol splněn!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

Neváhejte a napište nám komentář na fórum podpory a podělte se o své názory na GroupDocs.Conversion Cloud API. Nebo nám dejte vědět, pokud máte nějaké návrhy nebo potřebujete nějaké konkrétní funkce, které očekáváte od našeho REST API.