Python Wyodrębnij tekst z dokumentu PDF

PDF (Portable Document Format) to jeden z najważniejszych i najczęściej używanych formatów plików służących do prezentacji i wymiany dokumentów. Jako programista Python istnieje wiele scenariuszy, w których będziesz chciał wyodrębnić tekst z dokumentu PDF i wyeksportować go w innym formacie przy użyciu Python do analizy tekstu. W tym poście pokażemy, jak dokładnie wyodrębnić tekst z dokumentu PDF za pomocą GroupDocs.Conversion Cloud SDK for Python.

GroupDocs.Conversion Cloud to niezależne od platformy rozwiązanie REST API do konwersji dokumentów i obrazów bez zależności od aplikacji innych firm. Konwertuje ponad 50 typów dokumentów z jednego formatu na inny. Oferuje SDK dla wszystkich popularnych języków programowania, w tym Python, więc programiści mogą używać API bezpośrednio w swoich aplikacjach, nie martwiąc się o bazowe wywołania API REST.

Zacznijmy od kodu:

Zainstaluj pakiet Cloud GroupDocs.Conversion

Najpierw zainstaluj pakiet groupdocs-conversion-cloud z pypi za pomocą następującego polecenia.

>pip install groupdocs-conversion-cloud

Przykład wyodrębniania tekstu w formacie PDF w języku Python

Wykonamy następujące kroki, aby wyodrębnić tekst z dokumentu PDF:

  • Bezpłatna rejestracja w groupdocs.cloud to get your AppSID and AppKey
  • Utwórz moduł Python i skopiuj w nim następujący kod. Użyliśmy domyślnych opcji do wyodrębnienia tekstu z dokumentu PDF. Możesz również wyodrębnić tekst z określonych stron, używając Opcje konwersji formatu tekstowego.
# Moduł importu
import groupdocs_conversion_cloud

# Pobierz app_sid i app_key na https://dashboard.groupdocs.cloud (wymagana jest bezpłatna rejestracja).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Utwórz instancję interfejsu API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Uruchom kod w swoim ulubionym IDE, otrzymasz następujące dane wyjściowe i to wszystko. Zadanie wykonane!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

Zachęcamy do pozostawienia nam komentarza na forum pomocy technicznej, dzieląc się swoimi przemyśleniami na temat GroupDocs.Conversion Cloud API. Lub daj nam znać, jeśli masz jakieś sugestie lub potrzebujesz konkretnych funkcji, których oczekujesz od naszego REST API.