Wyodrębnij tekst z pliku PDF za pomocą Python

Może być konieczne odczytanie i wyodrębnienie tekstu z dokumentów PDF w aplikacjach Python. Tak więc, jako programista Python, możesz łatwo programowo wyodrębnić cały tekst z dokumentów PDF w chmurze. W tym artykule wyjaśniono, jak wyodrębnić tekst z dokumentów PDF za pomocą interfejsu API REST w języku Python.

W tym artykule zostaną omówione następujące tematy:

Interfejs API REST parsera dokumentów i zestaw SDK języka Python

Aby wyodrębnić tekst z dokumentu PDF, użyję Python SDK of GroupDocs.Parser Cloud API. Pozwala pythonowi pobierać tekst z pdf i analizować dane ze wszystkich popularnych typów dokumentów. Możesz wyodrębniać tekst, obrazy i analizować dane według szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Node.js jako członkowie rodziny parserów dokumentów dla Cloud API.

Możesz zainstalować GroupDocs.Parser Cloud w swoim projekcie Python za pomocą pip (package installer for python), używając następującego polecenia w konsoli:

pip install groupdocs_parser_cloud

Uzyskaj swój identyfikator klienta i klucz tajny klienta z panelu nawigacyjnego, zanim zaczniesz postępować zgodnie z instrukcjami i dostępnymi przykładami kodu. Po uzyskaniu identyfikatora klienta i klucza tajnego dodaj kod, jak pokazano poniżej:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w języku Python

Możesz wyodrębnić tekst z dokumentów PDF, wykonując proste czynności wymienione poniżej:

Prześlij dokument

Przede wszystkim prześlij dokument PDF, aby uzyskać tekst z pdf python, korzystając z przykładowego kodu podanego poniżej:

# inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

W rezultacie przesłany plik PDF (sample.pdf) będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze. Teraz możesz wyodrębnić zawartość z pliku PDF.

Wyodrębnij tekst z dokumentów PDF za pomocą Python

Możesz łatwo programowo wyodrębnić tekst z pliku PDF za pomocą Python, wykonując czynności wymienione poniżej.

  • Utwórz instancję ParseApi
  • Zdefiniuj opcje tekstu
  • Ustaw ścieżkę do pliku PDF
  • Utwórz TextRequest
  • Uzyskaj wyniki, wywołując metodę ParseApi.text().

Poniższy przykładowy kod pokazuje, jak wyodrębnić cały tekst z dokumentu PDF przy użyciu interfejsu API REST.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# zdefiniuj opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Wyodrębnij tekst z całego dokumentu

Wyodrębnij tekst z całego dokumentu

Czytaj tekst według numerów stron z dokumentów PDF za pomocą Python

Możesz łatwo programowo wyodrębnić tekst z określonych stron pliku PDF, wykonując czynności wymienione poniżej.

  • Utwórz instancję ParseApi
  • Zdefiniuj opcje tekstu
  • Podaj ścieżkę do pliku PDF
  • Ustaw numer strony początkowej
  • ustaw liczbę stron do wyodrębnienia
  • Utwórz TextRequest
  • Uzyskaj wyniki, wywołując metodę ParseApi.text().

Poniższy przykładowy kod pokazuje, jak wyodrębnić słowa z pliku PDF w języku Python według zakresu numerów stron przy użyciu interfejsu API REST.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# zdefiniuj opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Wyodrębnij tekst z pliku pdf według zakresu numerów stron

Wyodrębnij tekst według zakresu numerów stron

Uzyskaj tekst z dokumentu załączonego w formacie PDF za pomocą Python

Możesz programowo wyodrębnić tekst z dokumentu znajdującego się w kontenerze, który jest dostępny jako załącznik w pliku PDF, wykonując czynności wymienione poniżej.

  • Utwórz instancję ParseApi
  • Zdefiniuj opcje tekstu
  • Ustaw ścieżkę do pliku PDF
  • Zdefiniuj ContainerItemInfo
  • Podaj ścieżkę względną dokumentu wewnętrznego
  • Ustaw numer strony początkowej
  • ustaw liczbę stron do wyodrębnienia
  • Utwórz TextRequest
  • Uzyskaj wyniki, wywołując metodę ParseApi.text().

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentu w dokumencie PDF przy użyciu interfejsu API REST.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# zdefiniuj opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Wyodrębnij tekst z dokumentu wewnątrz kontenera

Wyodrębnij tekst z dokumentu wewnątrz kontenera

Wypróbuj online

Jak bezpłatnie wyodrębnić tekst z pliku pdf online? Wypróbuj następujące bezpłatne narzędzie online do analizowania plików PDF, aby bezpłatnie wyodrębnić tekst z pliku PDF. Ten ekstraktor tekstu PDF został opracowany przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/pdf

Wniosek

W tym artykule nauczyłeś się, jak wyodrębniać tekst z dokumentów PDF w chmurze. W tym artykule wyjaśniono również, jak programowo przesłać plik PDF do chmury i ekstraktora tekstu pdf online. Ponadto nauczyliśmy się również wyodrębniać tylko tekst z pliku PDF według numeru strony i wyodrębniać tekst Python z pliku PDF z załączonego dokumentu.

Możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności dotyczących ekstrakcji tekstu pdf i wyodrębniania tekstu z pythona pdf, prosimy o kontakt na forum.

Zobacz też